KR20060090687A - 시청각 콘텐츠 합성을 위한 시스템 및 방법 - Google Patents

시청각 콘텐츠 합성을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20060090687A
KR20060090687A KR1020067006256A KR20067006256A KR20060090687A KR 20060090687 A KR20060090687 A KR 20060090687A KR 1020067006256 A KR1020067006256 A KR 1020067006256A KR 20067006256 A KR20067006256 A KR 20067006256A KR 20060090687 A KR20060090687 A KR 20060090687A
Authority
KR
South Korea
Prior art keywords
speaker
audiovisual
face
audio
voice
Prior art date
Application number
KR1020067006256A
Other languages
English (en)
Inventor
네벤카 디미트로바
앤드류 밀러
동제 리
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20060090687A publication Critical patent/KR20060090687A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4314Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for fitting data in a restricted space on the screen, e.g. EPG data in a rectangular grid
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4751End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user accounts, e.g. accounts for children
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 비디오 이미지 프로세서에서 시청각 콘텐츠를 합성하는 시스템 및 방법을 제공한다. 콘텐츠 합성 애플리케이션 프로세서는 말하는 화자를 표현하는 시청각 입력 신호들로부터 오디오 피쳐들 및 비디오 피쳐들을 추출한다. 상기 프로세서는 상기 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전을 생성하도록 상기 추출된 시각적 피쳐들을 사용한다. 상기 프로세서는 화자의 음성을 표현하는 음소들과 같은 복수의 오디오 논리 유닛들과 상기 화자의 얼굴의 애니메이팅된 버전의 얼굴 움직임들을 동기화한다. 이러한 방식으로 상기 프로세서는 상기 화자의 음성과 적절하게 동기화되는 화자의 얼굴의 움직임의 시청각 표현을 합성한다.
콘텐츠 합성 애플리케이션 프로세서, 히든 마르코프 모델, 시간 지연 신경 회로망, 비셈, 오디오 논리 유닛

Description

시청각 콘텐츠 합성을 위한 시스템 및 방법{System and method for audio-visual content synthesis}
본 발명은 일반적으로 시청각 시스템들(audio-visual systems), 특히 비디오 이미지 프로세서에서 시청각 콘텐츠(audio-visual content)를 합성하는 시스템 및 방법에 관한 것이다.
컴퓨터 과학의 진보들은 컴퓨터들의 속도 및 계산 성능을 계속해서 증가시켜 왔다. 컴퓨터들이 사람인 컴퓨터 사용자들과 통신할 때, 통신의 대부분은 사람인 컴퓨터 사용자들이 컴퓨터 스크린으로부터 판독하는 그래픽 디스플레이들 내 텍스트 메세지들의 형태로 나타난다. 몇 가지 컴퓨터 애플리케이션들, 특히 컴퓨터 게임 그래픽들을 디스플레이하도록 개발된 것들은 말하는 사람의 컴퓨터 생성된 시각적 이미지(computer generated visual image) 형태로 컴퓨터 사용자에게 컴퓨터 출력을 표현할 수 있다. 구체적으로 말하면, 컴퓨터는 말하는 화자를 표현하도록 사람 얼굴의 애니메이팅된 버전(animated version)을 생성하는 동시에 그 화자의 음성을 출력한다.
말하는 사람들의 시각적 이미지들이 생성되는 실제적인 컴퓨터는 컴퓨터 시스템에서 생성하기에 매우 어렵다. 이것은 사람 얼굴이 말하는 과정 동안 얼굴 표 정들의 넓은 범위를 나타낼 수 있기 때문이다. 사람 얼굴은 감정을 표현하고 말해지는 단어들에 추가적인 의미를 부여하는 많은 미세한 피쳐들을 보여줄 수 있다. 각각의 사람은 태어난 이후로 얼굴 표정들을 인식하여 해석해 왔다. 그러므로, 사람인 컴퓨터 사용자는 불량한 품질의 컴퓨터 생성된 애니메이팅된 사람 얼굴들을 빠르게 검출할 수 있다. 불량한 품질의 애니메이팅된 사람 얼굴은 때때로 사람인 컴퓨터 사용자를 혼란하게 할 수 있다. 최악으로, 불량한 품질의 애니메이팅된 사람 얼굴은 그 애니메이팅된 사람 얼굴이 말하는 메세지의 이해를 심지어 방해할 수도 있다.
그러므로, 본 기술 분야에서 말하는 화자의 실제적인 시청각 표현을 생성할 수 있는 시스템 및 방법에 대한 필요성이 존재한다. 또한, 본 기술 분야에서 컴퓨터 생성된 애니메이팅된 사람 얼굴에 대해 실제적인 얼굴 표정들이 생성될 수 있는 시스템 및 방법에 대한 기술의 필요성이 존재한다.
상기된 종래 기술의 결함들을 처리하기 위해서, 본 발명의 시스템 및 방법은 말하는 화자의 실제적인 시청각 표현을 제공할 수 있다. 본 발명의 시스템 및 방법은 또한 컴퓨터 생성된 애니메이팅된 사람 얼굴에 대해 실제적인 얼굴 표정들을 생성할 수 있다.
본 발명의 시스템 및 방법은 비디오 이미지 프로세서의 컴퓨터 시스템 내에 위치되는 콘텐츠 합성 애플리케이션 프로세서(content synthesis application processor)를 포함한다. 상기 콘텐츠 합성 애플리케이션 프로세서는 말하는 화자를 표현하는 시청각 입력 신호들로부터 오디오 피쳐들 및 비디오 피쳐들을 추출한 다. 상기 프로세서는 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전을 생성하도록 상기 추출된 시각적 피쳐들을 사용한다. 상기 프로세서는 말하는 얼굴 움직임 구성요소를 표현하도록 히든 마르코프 모델(Hidden Markov Model) 또는 시간 지연 신경망(Time Delayed Neural Network)을 사용함으로써 화자의 얼굴 표정들의 시각적 얼굴 움직임 구성요소들을 분류한다.
상기 콘텐츠 합성 애플리케이션 프로세서는 화자의 음성의 오디오 피쳐들 및 비디오 피쳐들 모두를 추출하여 분류하는 학습 모듈(learning module)을 포함한다. 상기 프로세서는 음소들(phonemes)과 같은 오디오 논리 유닛들을 표현하도록 히든 마르코프 모델 또는 시간 지연 신경망을 사용함으로써 화자의 음성의 추출된 오디오 피쳐들을 분류한다. 그 후에, 상기 프로세서는 화자의 얼굴의 애니메이팅된 버전의 얼굴 움직임들과 화자의 음성을 표현하는 복수의 오디오 논리 유닛들을 동기화한다. 이러한 방식으로, 상기 프로세서는 화자의 음성과 적절히 동기화되는 화자의 얼굴의 실제적인 시청각 표현을 합성한다.
본 발명의 유리한 일 실시예에 있어서, 트레이닝 단계에서 상기 프로세서는 화자의 얼굴의 오디오 피쳐들 및 비디오 피쳐들로부터 시청각 입력 벡터들을 생성한다. 그 후에, 상기 프로세서는 히든 마르코프 모델 또는 시간 지연 신경망을 사용함으로써 시청각 입력 벡터들로부터 시청각 말하는 얼굴 움직임 구성요소들을 생성한다. 그 후에, 상기 프로세서는 화자의 얼굴을 표현하는 음소들과 화자의 얼굴을 표현하는 비셈들(visemes) 사이의 연관성을 얻도록 시청각 입력 벡터들 상에 의미 연관 절차(semantic association procedure)를 수행한다.
인식 단계에서, 상기 프로세서는 새로운 입력 비디오를 분석한다. 상기 프로세서는 화자의 음성의 오디오 피쳐들을 추출하고, 의미 연관 절차를 사용하여 그 오디오 피쳐들에 대한 대응하는 비디오 표현들을 찾아낸다. 그 후에, 상기 프로세서는 히든 마르코프 모델 또는 시간 지연 신경망을 사용함으로써 시청각 말하는 얼굴 움직임 구성요소들과 대응하는 비디오 표현들을 매칭한다. 그 후에, 상기 프로세서는 각각의 선택된 시청각 말하는 얼굴 움직임 구성요소에 대한 컴퓨터 생성된 애니메이팅된 얼굴을 생성하고, 화자의 음성과 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화한다. 최종적인 결과는 화자의 음성과 동기화되는 화자의 얼굴의 시청각 표현을 제공하는 출력이다.
본 발명의 목적은 사람 얼굴에 관련된 멀티미디어 정보를 생성하고 디스플레이하는 시스템 및 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 말하는 화자의 실제적인 시청각 표현을 생성하고 디스플레이하는 시스템 및 방법을 제공하는 것이다.
또한, 본 발명의 목적은 컴퓨터 생성된 애니메이팅된 사람 얼굴에 대한 실제적인 얼굴 표정들을 생성하고 디스플레이하는 시스템 및 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 화자의 얼굴의 애니메이팅된 버전의 얼굴 움직임들과 상기 화자의 음성을 표현하는 복수의 오디오 논리 유닛들을 동기화하는 시스템 및 방법을 제공하는 것이다.
또한, 본 발명의 목적은 비디오 이미지 프로세서에서 시청각 콘텐츠를 합성하는 시스템 및 방법을 제공하는 것이다.
상술한 것은 당업자들이 다음에 따르는 본 발명의 상세한 기술을 보다 잘 이해하도록 본 발명의 특징들 및 기술상의 장점들을 폭넓게 요약하고 있다. 본 발명의 특허청구범위의 주제를 형성하는 본 발명의 추가적인 특징들 및 장점들이 이하 기술될 것이다. 당업자들은 본 발명의 동일한 목적들을 수행하기 위해 다른 구조들을 수정 또는 설계하는데 기초로 하여 개시되는 개념 및 특정 실시예를 쉽게 사용할 수 있다는 것을 이해할 것이다. 당업자들은 또한 그러한 동일한 구조들이 그것의 가장 포괄적인 형태로 본 발명의 취지 및 범위로부터 벗어나지 않는다는 것을 인식해야 한다.
본 발명을 상세히 기술하기 이전에, 본 명세서를 통해 사용되는 어떠한 용어들 및 구절들의 정의들을 설명하는 것이 유리할 것이다. 용어들 "포함하다" 및 그의 파생어는 제한 없는 포함을 의미하고, 용어 "또는"은 및/또는 을 의미하는 포괄적인 것이고, 구절들 "-와 연관된" 및 "그와 연관된" 뿐만 아니라 그의 파생어들은 포함하기 위한 것, -내에 포함되기 위한 것, -와 상호접속하기 위한 것, 내포하기 위한 것, -내에 내포되기 위한 것, -와 또는 -에 접속하기 위한 것, -와 또는 -에 연결하기 위한 것, -와 통신가능한 것, -와 협력하는 것, 인터리빙하기 위한 것, 병렬하는 것, -에 근접하는 것, -와 또는 -에 경계로 하는 것, 갖는 것, -의 속성을 갖는 것 등등을 의미할 수 있으며, 용어 "제어기", "프로세서", 또는 "장치"는 적어도 하나의 동작을 제어하는 어떠한 디바이스, 시스템, 또는 그의 일부를 의미하고, 그러한 디바이스는 하드웨어, 펌웨어나 소프트웨어, 또는 적어도 그와 같은 2개의 몇 가지 조합으로 구현될 수 있다. 어떠한 특정한 제어기와 연관된 기능이 국부적으로든지 또는 원격적으로든지 집중되거나 분포될 수 있다는 것에 주의해야 한다. 특히, 제어기는 하나 이상의 애플리케이션 프로그램들 및/또는 운영 시스템 프로그램을 실행하는 하나 이상의 데이터 프로세서들 및 연관된 입력/출력 디바이스들 및 메모리를 포함할 수 있다. 어떠한 단어들 및 구절들에 대한 정의들은 본 특허 문서 전반에 걸쳐 제공된다. 당업자들은 대부분의 예들에 대해서는 아닐지라도 많은 예들에서 그러한 정의들은 이전의 사용들에 적용할 뿐만 아니라 그러한 정의된 단어들 및 구절들의 장래의 사용들에도 적용한다는 것을 이해해야 한다.
본 발명의 보다 완벽한 이해와 그의 장점들에 대해, 참조 부호는 첨부된 도면과 관련하여 동일 요소들에는 동일 부호로 병기될 것이다.
도 1은 본 발명의 원리들에 따라 콘텐츠 합성 애플리케이션 프로세서를 포함하는 디스플레이 유닛 및 예시적인 컴퓨터를 도시하는 블록도.
도 2는 보다 자세히 본 발명의 콘텐츠 합성 애플리케이션 프로세서를 도시하는 블록도.
도 3은 본 발명의 몇 가지 소프트웨어 모듈들을 도시하는 블록도.
도 4는 본 발명의 콘텐츠 합성 애플리케이션 프로세서가 말하는 얼굴 움직임 구성요소들(SFMC: speaking face movement components)을 획득하는 방법을 도시하는 블록도.
도 5는 본 발명의 콘텐츠 합성 애플리케이션 프로세서가 말하는 얼굴 움직임 구성요소들(SFMC)과, 화자의 음성과 말하는 얼굴 애니메이션을 합성 및 동기화하기 위한 다른 파라미터들을 사용하는 방법을 도시하는 블록도.
도 6은 본 발명의 방법의 유리한 실시예의 제 1 부분의 단계들을 도시하는 흐름도.
도 7은 본 발명의 방법의 유리한 실시예의 제 2 부분의 단계들을 도시하는 흐름도.
도 8은 본 발명의 방법의 유리한 실시예의 제 3 부분의 단계들을 도시하는 흐름도.
이하 논의되는 도 1 내지 도 8과, 본 특허 문서 내 본 발명의 원리들을 기술하기 위해 사용되는 다양한 실시예들은 단지 예시적인 것일 뿐이며 본 발명의 범위를 제한하도록 해석되지 않아야 한다. 본 발명은 어떠한 적절한 시청각 시스템에서 사용될 수 있다.
도 1은 (디스플레이 스크린(114)을 갖는) 디스플레이 유닛(110)과 본 발명의 원리들에 따라 콘텐츠 합성 애플리케이션 프로세서(190)를 포함하는 예시적인 컴퓨터(120)를 도시하는 블록도이다. 컴퓨터(120)는 시청각 신호들의 소스(130)로부터 시청각 신호들을 수신한다. 소스(130)는 컴퓨터(120)에 이전에 기록된 시청각 신호들을 제공할 수 있다. 소스(130)는 또한 컴퓨터(120)에 라이브 또는 "스트리밍" 시청각 신호들을 제공할 수 있다. 컴퓨터(120)는 또한 사용자 입력 유닛(140)으로부터 사용자 입력 신호들을 수신한다. 사용자 입력 유닛(140)은 사용자 입력 신호 들의 어떠한 종래의 소스(예로써, 키보드, 마우스, 컴퓨터 디스크 파일들)를 포함할 수 있다.
컴퓨터(120)는 중앙 처리 유닛(CPU)(150) 및 메모리(160)를 포함한다. 메모리(160)는 운영 시스템 소프트웨어(170) 및 애플리케이션 프로그램들(180)을 포함한다. 컴퓨터(120)는 또한 본 발명의 콘텐츠 합성 애플리케이션 프로세서(190)를 포함한다. 기술상 편의를 위해, 콘텐츠 합성 애플리케이션 프로세서(190)의 구조 및 동작은 CPU(150) 및 메모리(160)와 별개인 유닛으로 기술될 것이다. 그러나, 콘텐츠 합성 애플리케이션 프로세서(19)가 본 발명의 방법을 수행하기 위해 컴퓨터(120) 내 CPU(150) 및 메모리(160)의 설비를 액세스하고 사용할 수 있다는 것이 이해될 것이다.
보다 자세히 기술되는 바와 같이, 콘텐츠 합성 애플리케이션 프로세서(190)는 말하는 화자를 표현하는 소스(130)로부터 시청각 입력 신호들을 분석한다. 콘텐츠 합성 애플리케이션 프로세서(190)는 소스(130)로부터의 시청각 입력 신호들로부터 오디오 피쳐들 및 시각적 피쳐들을 추출하고, 상기 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전을 생성하도록 상기 오디오 피쳐들 및 시각적 피쳐들을 사용하며, 그 화자의 음성과 화자의 얼굴의 애니메이팅된 버전을 동기화한다. (음성과 동기화되는) 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전은 디스플레이 유닛(110)의 디스플레이 스크린(115) 상에 디스플레이될 수 있다. 디스플레이 유닛(110)은 디스플레이 유닛의 어떠한 종래의 형태(예로써, 텔레비전, 컴퓨터 모니터, 평면 디스플레이 스크린)을 포함할 수 있다.
도 2는 보다 자세히 본 발명의 콘텐츠 합성 애플리케이션 프로세서(190)를 도시하는 블록도이다. 콘텐츠 합성 애플리케이션 프로세서(190)는 메모리 유닛(220)에 시청각 신호들(및 다양한 그의 구성요소들)을 저장할 수 있다. 메모리 유닛(220)은 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 메모리 유닛(220)은 플래시 메모리와 같은 비휘발성 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 메모리 유닛(220)은 하드 디스크 드라이브(도시되지 않음)와 같은 대량의 저장 데이터 디바이스를 포함할 수 있다. 메모리 유닛(220)은 또한 읽기/쓰기 DVD들 또는 다시 쓰기 가능한 CD-ROM들을 판독하는 장착형 병렬 드라이브 또는 이동식 디스크 드라이브(매립형 또는 장착형)를 포함할 수 있다. 도 2에 도시된 바와 같이, 이러한 형태의 이동식 디스크 드라이브들은 다시 쓰기 가능한 CD_ROM 디스크(225)를 수신하고 판독할 수 있다.
콘텐츠 합성 애플리케이션 프로세서(190)는 제어기(230)에 시청각 신호들을 제공한다. 제어기(230)는 또한 콘텐츠 합성 애플리케이션 프로세서(190)로부터 제어 신호들을 수신하고, 콘텐츠 합성 애플리케이션 프로세서(190)에 제어 신호들을 전송할 수 있다. 제어기(230)는 또한 메모리 유닛(220)을 통해 콘텐츠 합성 애플리케이션 프로세서(190)에 연결된다.
도 2에 도시되는 바와 같이, 제어기(230)는 콘텐츠 합성 애플리케이션 소프트웨어(235)를 포함한다. 콘텐츠 합성 애플리케이션 소프트웨어(235)는 본 발명의 방법을 수행할 수 있는 컴퓨터 소프트웨어를 포함한다. 본 발명의 소프트웨어 모듈들의 몇 가지가 도 3에 도시되어 있다.
콘텐츠 합성 애플리케이션 소프트웨어(235)는 (1) 얼굴의 시각적 디스플레이를 획득하기 위한 모듈(310), (2) 얼굴 피쳐들을 트래킹하기 위한 모듈(320), (3) 학습 모듈(330), (4) 오디오의 음성 부분을 획득하기 위한 모듈(340), (5) 음성의 오디오 피쳐들을 추출하기 위한 모듈(350), (6) 얼굴 오디오 시각적 피쳐 매칭 및 분류 모듈(360), (7) 선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370), 및 (8) 말하는 얼굴 애니메이션 및 동기화 모듈(380)을 포함한다. 상기 소프트웨어 모듈들의 기능들은 이하 보다 자세히 기술될 것이다.
콘텐츠 합성 애플리케이션 프로세서(190)는 제어기(230) 및 콘텐츠 합성 애플리케이션 소프트웨어(235)를 포함한다. 제어기(230) 및 콘텐츠 합성 애플리케이션 소프트웨어(235)는 본 발명을 수행할 수 있는 콘텐츠 합성 애플리케이션 프로세서를 함께 포함한다.
이전에 언급된 바와 같이, 콘텐츠 합성 애플리케이션 프로세서(190)는 시청각 입력 신호들로부터 오디오 피쳐들 및 시각적 피쳐들을 추출하고, 화자에 대한 컴퓨터 생성된 애니메이팅된 얼굴을 생성하도록 그 오디오 피쳐들 및 시각적 피쳐들을 사용한다. 콘텐츠 합성 애플리케이션 프로세서(190)는 또한 화자의 음성과 컴퓨터 생성된 애니메이팅된 얼굴을 동기화한다. 이러한 결과를 달성하기 위해, 콘텐츠 합성 애플리케이션 프로세서(190)는 우선적으로 시청각 신호들로부터 오디오 피쳐들 및 시각적 피쳐들을 획득한다.
도 4는 콘텐츠 합성 애플리케이션 프로세서(190)가 시청각 신호들로부터 말하는 얼굴 움직임 구성요소들(SFMC)을 획득하는 방법을 예시하고 있다. 도 4에 도 시된 요소들은 참조 번호(400)로 집합적으로 언급된다. 도 4에서 입력 시청각 신호들은 소스(410)에 의해 표현된다. 소스(410)는 모듈(310)에 시청각 신호들을 제공한다. 모듈(310)은 시청각 신호들로부터 화자의 얼굴의 시각적 디스플레이를 획득한다. 모듈(310)은 Proceedings of Globecom'96, pp.877-881(1996년 11월), 볼륨 2, W.R.Rabiner 및 A.Jacquin에 의한 논문의 명칭이 "장면 콘텐츠의 모션 적응 모델링을 사용하는 오브젝트 트래킹(Object Tracking Using Motion-Adaptive Modeling of Scene Content)"에 기술된 형태의 시스템을 포함할 수 있다. 모듈(310)은 그 후에 모듈(320)에 화자의 얼굴의 시각적 디스플레이를 제공한다.
모듈(320)은 화자의 얼굴의 얼굴 피쳐들을 트래킹한다. 모듈(320)은 Computer Vision and Understanding, pp.23-37(1997), 볼륨 69(1), G.Hager 및 K.Toyama에 의한 논문의 명칭이 "The XVision System:휴대용 실시간 비전 애플리케이션들에 대한 일반적 목적의 기판(A General Purpose Substrate for Portable Real-Time Vision Applications)"에 기술된 형태의 XVision 소프트웨어 시스템을 포함할 수 있다. XVision 시스템은 비디오 스트림 내 에지들, 코너들, 또는 영역들에 따를 수 있는 다수의 서로 다른 피쳐 기반 및 상관 관계 기반 트래커들을 제공한다. 모듈(320)은 학습 모듈(330)에 화자의 얼굴 피쳐들에 대한 트래킹 정보를 제공한다.
시청각 신호들의 소스(410)는 또한 모듈(340)에 시청각 신호들을 제공한다. 모듈(340)은 안면이 모듈(310)에 의해 식별되는 화자에 대한 오디오 신호의 음성 부분을 획득한다. 모듈(340)은 Pattern Recognition Letters, pp.533-544(2001), 볼륨 22(5), Dongge Li, Ishwar K.Seti, Nevenka Dimitrova 및 Thomas McGee에 의한 논문의 명칭이 "콘텐츠 기반 검색에 대한 일반적 오디오 데이터의 분류(Classification of General Audio Data for Content-Based Retrieval)"에 기술된 형태의 시스템을 포함할 수 있다. 모듈(340)은 그 후에 모듈(350)에 화자의 음성을 제공한다. 모듈(350)은 화자의 음성의 오디오 피쳐들을 추출한다. 모듈(350)은 또한 상기 참조된 논문 "콘텐츠 기반 검색에 대한 일반적 오디오 데이터의 분류"에 기술된 형태의 시스템을 포함할 수 있다. 그 후에, 모듈(350)은 학습 모듈(330)에 화자의 음성의 추출된 오디오 피쳐들을 제공한다. 보다 자세히 기술되는 바와 같이, 학습 모듈(330)은 말하는 얼굴 움직임 구성요소들(SFMC)(420)을 획득하기 위해 모듈(320)로부터의 입력과 모듈(350)로부터의 입력을 분류한다. 말하는 얼굴 움직임 구성요소들(SFMC)(420)은 (도 5에 도시되는) 데이터베이스(505)에 저장된다.
학습 모듈(330)은 프로세스들의 몇 가지 서로 다른 형태들을 수행할 수 있는 소프트웨어 모듈을 포함한다. 학습 모듈(330)에 의해 수행되는 프로세스의 일 형태는 바움-웰치 알고리즘(Baum-Welch algorithm)을 사용하여 트레이닝하기 위한 히든 마르코브 모델들을 사용하는 것이다. 학습 모듈(330)에 의해 수행되는 프로세스의 또 다른 형태는 비터비 알고리즘(Viterbi algorithm)을 사용하여 인식을 위해 히든 마르코프 모델들을 사용하는 것이다. 학습 모듈(330)은 또한 히든 마르코프 모델들에 대안적으로 시간 지연 신경망들(Time Delay Neural Networks; TDNN)을 사용한다. 학습 모듈(330)은 또한 의미 연관 계산들을 실행하는 프로세스를 수행할 수 있다.
본 발명의 유리한 일 실시예에 있어서, 학습 모듈(330)은 (모듈(320)로부터 입력된) 화자의 얼굴의 얼굴 피쳐들과 (모듈(350)로부터 입력된) 화자의 음성의 추출된 오디오 피쳐들을 히든 마르코프 모델(HMM)들을 사용하여 분류한다. 모듈(320) 및 모듈(350)로부터의 데이터의 값들은 n 차원 피쳐 벡터 f = f(f1, f2, f3, ... , fn)의 구성요소들로 사용된다. 상기 피쳐 벡터는 시간 세그먼트에 대해 기록된다. 그에 따라, 관찰 심볼들(observation symbols)이 히든 마르코프 모델(Hidden Markov Model; HMM)에 공급된다.
히든 마르코프 모델(HMM)은 관찰들(심볼들)의 발생을 설명하는 모델을 구성하고, 다른 관찰 시퀀스들을 식별하기 위한 모델을 사용한다. 히든 마르코프 모델(HMM) 및 그것의 애플리케이션들에 관한 백그라운드 정보에 대해서는 Proceedings of the IEEE, 페이지 257 내지 285(1989), 볼륨 77, L.R.Rabiner에 의한 논문 명칭이 "히든 마르코프 모델들 및 음성 인식에서 선택된 애플리케이션들에 대한 지침(A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition)"을 참조한다.
HMM에는 한정된 수의 사용가능한 상태들이 존재하고, HMM은 항상 그러한 상태들 중 하나에 속해 있다. 각각의 클럭 시간에서, HMM은 이전 상태에 의존하는 전이 확률 분포에 기초하여 새로운 상태에 진입한다. 전이가 이루어진 후에, HMM은 최신 상태에 의존하는 확률 분포에 기초하여 출력 심볼을 생성한다. HMM의 형 식적인 정의로 상태들은 Q = {q1, q2, q3, ... , qN}으로 정의되며, N은 상태들의 수이다. 관찰 심볼들은 V = {v1, v2, v3, ..., vM}으로 정의되며, M은 심볼들의 수이다. 상태들 사이의 전이 확률 분포는 행렬 A = {aij}에 의해 표현되고, aij = Pr{qj at t+1 | qi at t}이며, 관찰 심볼 확률 분포는 행렬 B = {bj(k)}에 의해 표현되고, bj(k)는 최신 상태가 qj일 때 vk를 생성시킬 확률이다.
학습 모듈(330)에서 HMM의 동작은 2개의 단계들로 진행한다. 제 1 단계는 트레이닝 단계이고, 제 2 단계는 분류 단계이다. 트레이닝 단계가 우선적으로 기술될 것이다. 학습 모듈(330)은 각각의 HMM이 서로 다른 논리 유닛에 대응하는 복수의 서로 다른 HMM들을 구성한다. 논리 유닛은 단어, 음소, 또는 비셈일 수 있다. 본 발명의 유리한 일 실시예에 있어서, 논리 유닛은 음소이다. 음소는 발음들이 표현되는 음성 언어에서 사운드의 유닛이다. 각각의 음성 언어는 서로 다른 음소들의 세트를 갖는다. 미국 영어의 Longman 사전에 따르면, 미국 영어에는 46개 음소들이 존재한다. 미국 영어에서 음소들의 수는 일부 논쟁의 주제이다. 일부는 40, 43, 48, 또는 50개의 그러한 음소들이 존재하는 것으로 믿고 있다.
본 발명의 또 다른 유리한 실시예에 있어서, 논리 유닛은 비셈이다. 비셈은 특별한 사운드를 기술하기 위해 사용될 수 있는 일반적 얼굴 이미지이다. 사람이 각각의 개별적인 독특한 사운드를 발음할 때, 그 입은 독특한 방식으로 화자의 입술을 형성한다. 그 사운드에 대응하는 얼굴 이미지가 비셈이라 불리워진다. 비셈 은 음소의 시각적 등가물이다. 청각 장애인들은 비셈들을 검사함으로써 시각적으로 사운드들을 볼 수 있다. 이것은 청각 장애인들이 무엇이 말해지는지를 결정하기 위해 화자의 얼굴에서 "입술을 읽는(lip-read)" 방법이다.
학습 모듈(330)은 피쳐 벡터 값들의 집합을 갖는 트레이닝을 통해 복수의 서로 다른 HMM들을 구성한다. HMM 트레이닝은 근본적으로 관찰 시퀀스들의 확률 Pr(O|λ)을 최소화하기 위해 λ = (A, B, π)인 람다(λ)의 조정 파라미터들을 포함한다. 심볼(π)은 초기 상태 분포를 표현하고 π = {πi}로 정의되며, 여기서 πi는 HMM의 초기 상태인 상태 qi의 확률이다. 문자(O)는 관찰 시퀀스(observation sequence)를 표현한다.
학습 모듈(330)은 대화하는 사람의 정면도를 기록함으로써 획득된 데이터의 세트를 수집한다. 미리 정의된 문장들의 수(예로써, 2백 개 문장들)는 음성 데이터베이스의 텍스트 전체로부터 선택된다. 오디오 신호들 및 비디오 신호들 모두는 초당 30프레임들(30 fps)로 디지털화되어 분석된다. 이것은 시청각 트레이닝 데이터 샘플들을 생성한다. 그 데이터 샘플들의 1/2는 트레이닝을 위해 사용된다. 상기 데이터 샘플들의 1/2는 분류(즉, 테스팅)를 위해 사용된다.
우선적으로, 상기 오디오 데이터 샘플들을 고려해 본다. 각각의 음성 세그먼트에 대해, 서로 다른 오디오 계수들의 선택은 오디오 피쳐들로 계산된다. 분류를 위해 사용될 수 있는 다수의 음향상의 피쳐들이 존재한다. 그것들은 MFCC(Mel Cepstral Frequency Coefficients), LPC(Linear Predictive Coding Coefficients), Delta MFCC, Delta LPC, Autocorrelation MFCC, 몇 가지 시간적 피쳐들, 및 몇 가지 스펙트럼 피쳐들을 포함한다. MFCC 피쳐들은 필터 뱅크드(filter-banked) 고속 푸리에 변환(FFT) 스펙트럼들의 이산 코사인 변환(Discrete Cosine Transform; DCT)을 사용하여 추출될 수 있다. 예를 들어, The Journal of the Acoustical Society of America, pp. 293 내지 309(1967), No. 2, 볼륨 41, A.M.Noll에 의한 논문의 명칭이 "셉트럼 피치 결정(Cepstrum Pitch Determination)"을 참조한다. MFCC에 대한 계산들은 시간 축을 따라 윈도우화된 입력 데이터에 대해 프레임 단위로 수행된다. 사용될 수 있는 윈도우들의 형태들은 스퀘어 윈도우(Square window) 및 해밍 윈도우(Hamming window)를 포함한다.
LPC 피쳐들은 자체상관 방법을 사용하여 추출될 수 있다. 예를 들어, IEEE Transactions on Speech and Audio Processing, pp. 117 내지 125(1995년 5월), No. 2, 볼륨 3, R.P.Ramachandrian 등에 의한 논문의 명칭이 "화자 식별에 대해 애플리케이션들을 통한 로버스트 선형 예측 분석 방법들의 비교학(A Comparative Study of Robust Linear Predictive Analysis Methods with Applications to Speaker Identification)"을 참조한다.
델타 MFCC 피쳐들은 다음의 관계를 사용하는 MFCC 피쳐들을 사용하여 추출될 수 있다.
Figure 112006022492706-PCT00001
(1)
델타 MFCC의 값은 MFCC의 인접한 값들 사이의 차이이다.
델타 LPC 피쳐들은 다음의 관계를 사용하는 LPC 피쳐들을 사용하여 추출될 수 있다.
Figure 112006022492706-PCT00002
(2)
델타 LPC의 값은 LPC의 인접한 값들 사이의 차이이다.
자체상관 MFCC 피쳐들은 다음의 관계를 사용하는 MFCC 피쳐들을 사용하여 추출될 수 있다.
Figure 112006022492706-PCT00003
(3)
여기서, 값(L)은 윈도우의 길이를 표현하고 인덱스(i)는 시간 인스턴스(time instance)를 표현하며 인덱스(j)는 또 다른 시간 인스턴스를 표현한다.
이제 시각적 데이터 샘플들을 고려해 본다. 콘텐츠 합성 애플리케이션 프로세서(190)는 시각적 얼굴 움직임 구성요소들을 분석하기 위해 얼굴 모션 트래킹 알고리즘을 사용한다. 시각적 얼굴 움직임 구성요소들은 세분성(granularity)(예로써, 단어, 사운드)의 어떠한 레벨에서 얼굴 왜곡들(즉, 정적 모델로부터의 변형들)에 대응한다. 출력들은 특정한 말하는 얼굴 움직임 구성요소(SFMC) 파라미터들에 대응하는 트레이닝된 HMM들이다. 이러한 데이터 세트는 오디오 대 시각적 맵핑에 대한 트레이닝을 위해 사용된다. 트레이닝 절차의 목표는 모든 HMM들에 대해 모델들(λ)을 찾는 것이다. 본 발명의 그래픽 조작된 얼굴 애니메이션 시스템 및 방법은 사람 얼굴에 관련되는 멀티미디어 정보를 전달 및 디스플레이하는 문제에 대해 효과적인 해결책을 제공한다.
본 발명의 또 다른 유리한 실시예에 있어서, 논리 유닛은 시청각 입력 벡터 이다. 트레이닝 프로세스 동안, 학습 모듈(330)은 시청각 입력 벡터를 생성하도록 오디오 피쳐들 및 비디오 피쳐들을 연관시킨다. 시청각 입력 벡터는 말해지는 음소를 표현하는 특별한 시청각 말하는 얼굴 움직임 구성요소에 대응하는 음소들 및 비셈들 모두에 대한 속성들을 나타내는 논리 유닛이 시청각 입력 벡터인 하이브리드 논리 유닛(hybrid logical unit)이다. 출력들은 특정 말하는 얼굴 움직임 구성요소(SFMC) 파라미터들에 대응하는 트레이닝된 HMM들이다.
Computer Graphics Proceedings, pp. 21 내지 28(1999년 8월), ACM SIGGRAPH, Matthew Brand에 의한 논문 명칭이 "음성 퍼피트리(Voice Puppetry)"에 기술된 것과 같은 종래 시스템을 고려한다. 음성 퍼피트리 시스템(Voice Puppetry system)에 있어서, 관련된 말하기 얼굴 움직임 구성요소들은 오직 시각적 스페이스에서만 존재한다. 반대로, 본 발명에서 관련된 말하는 얼굴 움직임 구성요소들은 시청각 스페이스 내에 있다. 시청각 스페이스 내 말하는 얼굴 움직임 구성요소들을 사용하는 장점은 그것이 보다 포괄적이며 정확한 분석을 제공한다는 것이다. 예를 들어, 시각적 스페이스에서 음절 "pa" 및 음절 "ba"는 동일하게 보인다. 그러나, 그 음절들의 발음은 서로 다르다. 본 발명의 시청각 스페이스에 있어서, "pa" 음절의 시청각 입력 벡터와 "ba" 음절의 시청각 입력 벡터는 명확히 구별된다.
학습 모듈(330)은 또한 각각의 시청각 입력 벡터에 대해 음소 및 비셈 사이의 맵핑을 식별하도록 의미 연관(또한 크로스 모달 연관(cross modal association)으로 언급됨)을 제공한다. 크로스 모달 연관에 있어서, 서로 다른 미디어 소스들( 예로써, 오디오 및 이미지들)로부터 추출된 저 레벨 피쳐들은 동기화된 상관관계 패턴들에 기초하여 서로에 대해 매칭될 수 있다. 추가로, 크로스 모달 연관은 미디어 소스의 서로 다른 형태(예로써, 이미지 시퀀스들) 상의 콘텐츠에 대해 탐색하기 위해 미디어 소스의 제 1 형태(예로써, 오디오)로부터 쿼리(query)를 사용하는데 활용될 수 있다. 예를 들어, 2002년 11월 15일 출원된 미국 특허 출원서 일련 번호[사건 번호 703002], D.Li 및 N.Dimitrova에 의한 명칭이 "의미 연관에 기초한 콘텐츠 검색(Content Retrieval Based on Semantic Association)"을 참조한다. 명칭이 "의미 연관에 기초한 콘텐츠 검색"인 상기 특허 출원서는 본 발명의 양수인에 의해 소유되고, 모든 목적들에 대한 참조로 본 명세서에 통합된다.
학습 모듈(330)에 의해 활용되는 크로스 모달 테크닉은 이전에 언급된 음성 퍼피트리 시스템에서 사용되는 것과 같은 종래 기술 테크닉들보다 훨씬 더 효율적이다. 음성 퍼피트리 시스템은 오디오 및 시각적 패턴들을 연관시키기 위해 매우 복잡하고 고가의 방법을 필요로 한다. 학습 모듈(330)에 의해 활용되는 크로스 모달 탐색은 전통적인 콘텐츠 기반 멀티미디어 검색 시스템들과 유사한 방식으로 저 레벨 피쳐들에 대해 직접적으로 기초한다. 학습 모듈(330)에 의해 활용되는 크로스 모달 탐색은 (1) 잠재적 의미 인덱싱, (2) 표준 상관, 또는 (3) 크로스 모달 팩터 분석 중 어느 것을 사용할 수 있다.
잠재적 의미 인덱싱(LSI)은 서로 다른 텍스추얼 유닛들(예로써, 키보드들 및 패러그래프들) 사이의 기초가 되는 의미 관계를 발견하기 위해 사용되는 텍스트 정보 검색에서 강력한 툴이다. 시각적 얼굴들 및 연관된 음성 사이의 의미 상관관계 를 검출하기 위한 방법은 LSI에 기초할 수 있다. 이러한 방법은 조인트 멀티모달 피쳐 스페이스(joint multimodal feature space)의 구성, 정규화, 단일 값 분해(SVD: singular value decomposition), 및 의미 연관 측정의 4 단계로 구성된다.
각각의 t 비디오 프레임들에서 n이 시각적 피쳐들로 제시되고 m이 오디오 피쳐들로 제시되면, 조인트 피쳐 스페이스는,
Figure 112006022492706-PCT00004
(1)
로 표현될 수 있고, 여기서,
Figure 112006022492706-PCT00005
(2)
Figure 112006022492706-PCT00006
(3)
이다.
다양한 시각적 및 오디오 피쳐들은 상당히 서로 다른 편차들을 가질 수 있다. 따라서, 그것의 최대 요소들(또는 어떤 다른 통계적 측정들)에 따른 조인트 스페이스(joint space)에서 각각의 피쳐의 정규화가 필요하고,
Figure 112006022492706-PCT00007
(4)
로 표현될 수 있다.
정규화 후에 정규화된 행렬
Figure 112006022492706-PCT00008
에서 모든 요소들은 -1 및 1 사이의 값들을 가진다. SVD는 그 후에 다음에 따라 수행될 수 있다.
Figure 112006022492706-PCT00009
(5)
여기서, S 및 D는 왼쪽 및 오른쪽 단일 벡터들을 구성하는 행렬들이며 V는 내림차순에 따른 단일 값들의 직교 행렬이다.
S 및 D에서 우선적으로 가장 중요한 k 단일 벡터들만을 유지하면, 감소된 피쳐 차원들을 통해
Figure 112006022492706-PCT00010
의 최적 근사치를 유도할 수 있고, 여기서 시각적 및 오디오 피쳐들 사이의 의미 (상관관계) 정보는 대부분 보존되며 관련없는 노이즈가 상당히 감소된다. 전통적인 사람 상관관계 또는 상호 정보 계산은 그에 따라 서로 다른 모달리티들(modalities) 사이의 의미 연관들을 효과적으로 식별 및 측정하도록 사용될 수 있다. 실험들은 전통적인 상관관계 계산의 직접적인 사용을 통해 LSI의 유효성 및 그것의 장점들을 보여주고 있다.
최소 제곱 센스에 따라
Figure 112006022492706-PCT00011
의 상기 최적화는,
Figure 112006022492706-PCT00012
(6)
으로 표현될 수 있고, 여기서
Figure 112006022492706-PCT00013
,
Figure 112006022492706-PCT00014
, 및
Figure 112006022492706-PCT00015
은 S, V, 및 D에서 각각 제 1 k 벡터들로 구성된다. k에 대한 적절한 값의 선택은 여전히 본 분야에서 개방된 문제로 남아 있다. 일반적으로, k는 의미 구조들의 대부분을 유지하기 위해 충분히 커야 하고 일부 관련없는 노이즈를 제거하기 위해 충분히 작아야 한다. 방정식(6)은 분해가 플라이(fly)에 대해 수행되어야 하기 때문에 글로벌 또는 오프-라인 트레이닝을 사용하는 애플리케이션들에 대해 적용가능하지 않다. 그러나, 단일 벡터들의 직교 속성으로 인해 다음과 같은 새로운 식으로 다시 쓸 수 있다.
Figure 112006022492706-PCT00016
(7)
유도된 이러한 새로운 식(7)은 글로벌 또는 오프라인 트레이닝된 SVD 결과들을 필요로 하는 그러한 애플리케이션들에 대해 중요하다.
새로운 들어오는 오디오의 분석은 매칭하는 비디오 및 가장 가능성 높은 움직임들을 찾기 위한 의미 연관 방법에 의해 수행될 수 있다. 의미 연관의 모든 3개 방법들에서, 변환 행렬들은 저 레벨 피쳐들을 감소된 피쳐 스페이스로 변환하도록 사용되고, 여기서 미디어 소스들의 서로 다른 형태들의 탐색 후보들 및 쿼리 사이의 매칭이 평가될 수 있다. 예를 들어, 잠재적인 의미 인덱싱에 대해 상기 방정식(7)으로부터 유도된 변환 행렬들을 사용할 것이다. 그에 따라, 매칭의 평가는 가장 높은 상관관계(즉, 최상의 매치)를 찾기 위해 변환된 스페이스에서 사람 상관관계 또는 상호 정보에 기초하여 수행될 수 있다.
본 발명의 또 다른 유리한 실시예에 있어서, 학습 모듈(330)은 시간 지연 신경망(TDNN)을 사용하여 (모듈(320)로부터 입력된) 화자의 얼굴의 얼굴 피쳐들과 (모듈(350)로부터 입력된) 화자의 음성의 추출된 오디오 피쳐들을 분류한다. 시간 지연 신경망들(TDNN들)의 일반적 구조를 고려하는 백그라운드 정보에 대해, Proceedings of the European Signal Processing Conference, 1996년, S.Curinga 등에 의한 논문의 명칭이 "시간 지연을 사용하는 입술 움직임들 합성(Lip Movements Synthesis Using Time-Delay)"을 참조한다.
TDNN들은 음소 인식 없이 조음 파라미터들(articulatory parameters)의 추정을 제공하고 공통 조음 효과들(co-articulatory effects)을 적절히 모델링 할 수 있다. TDNN에서 뉴런들의 활성화들은 윈도우의 각각의 포지션에 대해 입력 윈도우의 가중된 합의 계산에 의해, 그리고 그 합에 시그모이드 활성화 함수(sigmoid activation function)를 적용함으로써 각각의 뉴런(neuron)에 대해 계산된다. (분배된 가중치들을 갖는 수용 필드들(receptive fields)이라 불리는) 입력 노드들의 각각의 그룹은 각각의 시간 단계에서 한 단계 더 윈도우들을 통해 진전하는 입력 심볼 스트림(input symbol stream)의 작은 윈도우만을 취한다. 숨겨진 층의 출력은 또한 분배된 가중치들을 사용하여 수용 윈도우들(receptive windows)을 통해 커버된다. 네트워크 출력은 출력 뉴런들의 서로 다른 시간 단계들의 제곱들의 합으로 구성된다.
트레이닝 프로세스에 대한 TDNN으로의 입력은 HMM의 경우에서와 같이 일련의 입력 심볼들로 구성된다. TDNN에 의해 실행되는 분류 프로세스는 HMM에 의해 수행되는 것과 유사하다. 학습 모듈(330)은 또한 이전에 기술된 형태의 시청각 입력 벡터들을 생성하기 위해 (모듈(320)로부터 입력된) 화자의 얼굴의 얼굴 피쳐들과 (모듈(350)로부터 입력된) 화자의 음성의 추출된 오디오 피쳐들을 분류하도록 TDNN을 사용할 수 있다.
도 5는 콘텐츠 합성 애플리케이션 프로세서(190)가 화자의 음성과 말하는 얼굴 애니메이션을 합성 및 동기화하기 위해 말하는 얼굴 움직임 구성요소들(SFMC) 및 다른 파라미터들을 사용하는 방법을 도시한다. 도 5에 도시된 요소들은 얼굴 애니메이션 유닛(500)으로 집합적으로 언급된다. 원거리 위치에서 통신 채널을 통해 신호들의 송신을 포함하는 어떠한 애플리케이션에 있어서, 얼굴 애니메이션 유 닛(500)은 그 통신 채널의 수신기 엔드(receiver end)에 위치될 수 있다. 분류 프로세스는 통신 채널의 전송자 엔드(sender end)에서 수행된다. 얼굴 애니메이션 및 동기화 프로세스는 통신 채널의 수신기 엔드에서 수행된다.
얼굴 애니메이션 유닛(500)의 얼굴 시청각 피쳐 매칭 및 분류 모듈(360)은 데이터베이스(505)에 연결되어 그 데이터베이스(505)로부터 입력을 수신한다. 데이터베이스(505)는 말하는 얼굴 움직임 구성요소들(SFMC)을 포함한다. 얼굴 시청각 피쳐 매칭 및 분류 모듈(360)은 또한 말하는 얼굴 시각적 파리미터들 모듈(510)로부터 말하는 얼굴 시각적 파라미터들을 수신한다. 음성 모듈(520)은 화자의 말해진 단어들에 대한 오디오를 오디오 피쳐 추출 모듈(530)에 제공한다. 오디오 피쳐 추출 모듈(530)은 음성으로부터 오디오 피쳐들을 추출하여 그것들을 얼굴 시청각 매칭 및 분류 모듈(360)에 제공한다.
상기 분류 프로세스 동안, 동일한 시청각 심볼들이 트레이닝 프로세스에 대해 이전에 기술된 것과 같은 동일한 방식으로 시청각 신호들로부터 추출된다. 얼굴 시청각 피쳐 매칭 및 분류 모듈(360)은 시청각 피쳐들을 트레이닝 프로세스에 대해 이전에 기술된 미리 정의된 클래스들 중 하나로 분류하기 위해 분류 프로세스를 수행한다. 분류 프로세스에 대한 세분성(예로써, 단어들, 음소들)는 트레이닝 프로세스와 같이 동일한 레벨의 세분성이다.
얼굴 시청각 피쳐 매칭 및 분류 모듈(360)은 그 후에 선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370)로 분류 정보를 전송한다. 선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370)은 3차원(3D) 얼굴 모델 모듈(540) 및 텍스추얼 맵 들 모듈(550)로부터 추가적인 입력을 수신한다. 선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370)은 적절한 분류에 대응하는 얼굴 애니메이션 파라미터들을 사용하여 화자의 얼굴을 합성한다(즉, 화자의 얼굴의 컴퓨터 생성된 애니메이팅된 버전을 생성한다).
대부분의 종래의 시스템들은 음소 기반 또는 비셈 기반 입술 동기식 시스템들이다. 그러한 시스템들은 포즈들 사이의 보간(interpolating) 또는 스플라이닝(splining)에 의해 화자의 얼굴을 합성하는 문제점을 제기하고 있다. 반대로, 본 발명은 개별적 비셈 시퀀스들(viseme sequences) 뿐만 아니라 개별적 비셈 시퀀스들의 시퀀스들을 찾기 위해 의미 (크로스 모달) 연관을 사용한다.
선택된 파라미터들에 대한 얼굴 애니메이션 모듈(370)의 출력은 그 후에 말하는 얼굴 애니메이션 및 동기화 모듈(380)에 전송된다. 말하는 얼굴 애니메이션 및 동기화 모듈(380)은 또한 음성 모듈(520)로부터 입력을 수신한다. 말하는 얼굴 애니메이션 및 동기화 모듈(380)은 화자의 음성과 동기화되는 화자의 얼굴의 애니메이팅된 이미지를 생성 및 출력하기 위해 음성 모듈(520)로부터의 음성 입력과 얼굴 애니메이션 정보를 동기화한다.
선택적인 오디오 표현 분류 모듈(560)은 오디오 피쳐 추출 모듈(530)과 말하는 얼굴 애니메이션 및 동기화 모듈(380) 사이에 연결될 수 있다. 오디오 표현 분류 모듈(560)은 오디오 표현의 레벨(예로써, 큰 음성, 흥분된 음성, 일반적인 음성, 부드러운 음성)을 결정하고, 그 결정에 따라 오디오를 분류할 수 있다. 오디오 표현 분류에 기초하여, 말하는 얼굴 애니메이션 및 동기화 모듈(380)은 화자의 얼굴의 얼굴 애니메이션을 보다 정확히 표현하기 위해 어떠한 피쳐들을 강조하도록 애니메이팅된 얼굴 파라미터들을 수정할 수 있다.
도 6은 본 발명의 방법의 유리한 실시예의 제 1 부분의 단계들을 도시하는 흐름도이다. 도 6에 도시된 방법의 단계들은 참조 번호(600)으로 집합적으로 언급된다. 제 1 단계에서, 콘텐츠 합성 애플리케이션 프로세서(190)는 말하는 화자의 시청각 신호들을 수신한다(단계 610). 콘텐츠 합성 애플리케이션 프로세서(190)는 화자의 얼굴의 시각적 디스플레이를 획득하기 위해 시청각 신호들을 분석한다(단계 620). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 화자의 공간 피쳐들에 대한 트래킹 정보를 획득한다(단계 630). 학습 모듈(330)은 그 후에 각각의 말하는 얼굴 움직임 구성요소(SFMC)를 표현하기 위해 히든 마르코프 모델을 사용하여 시각적 얼굴 움직임 구성요소들을 분류한다(단계 640). 본 발명의 방법은 그 후에 도 7에 도시된 단계(710)로 진행한다(단계 650).
단계(620)에서 기술된 동작과 동시에, 콘텐츠 합성 애플리케이션 프로세서(190)는 화자의 음성을 포함하는 오디오의 부분을 획득한다(단계 660). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 화자의 음성의 오디오 피쳐들을 추출한다(단계 670). 학습 모듈(330)은 그 후에 각각의 오디오 논리 유닛(예로써, 음소)을 표현하기 위해 히든 마르코프 모델을 사용하여 오디오 피쳐들을 분류한다(단계 680). 본 발명의 방법은 그 후에 도 7에 도시된 단계(710)로 진행한다(단계 650).
도 7은 본 발명의 방법의 유리한 실시예의 제 2 부분의 단계들을 도시하는 흐름도이다. 도 7에 도시된 방법의 단계들은 참조 번호(700)로 집합적으로 언급된 다. 도 7에 도시된 제 1 단계에 있어서, 콘텐츠 합성 애플리케이션 프로세서(190)는 입력으로 (1) 분석될 새로운 오디오 신호, (2) 단계(640)로부터의 말하는 얼굴 움직임 구성요소들(SFMC), (3) 단계(680)로부터의 분류된 오디오 피쳐들을 수신한다(단계 710). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 각각의 대응하는 분류된 오디오 피쳐와 각각의 말하는 얼굴 구성요소(SFMC)를 매칭시킨다(단계 720). 그 후에, 콘텐츠 합성 애플리케이션 프로세서(190)는 각각의 선택된 시청각 파라미터에 대해 화자를 표현하는 컴퓨터 생성된 애니메이팅된 얼굴을 생성한다(단계 730).
콘텐츠 합성 애플리케이션 프로세서(190)는 화자의 음성과 화자의 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화한다(단계 740). 이것은 화자의 음성과 동기화되는 화자의 얼굴의 시청각 표현을 생성한다. 화자의 얼굴의 시청각 표현이 그 후에 디스플레이 유닛(110)에 출력된다(단계 750).
도 8은 본 발명의 방법의 유리한 실시예의 제 3 부분의 단계들을 도시하는 흐름도이다. 도 8에 도시된 방법의 단계들은 참조 번호(800)으로 집합적으로 언급된다. 학습 모듈(330)은 시청각 입력 벡터들을 수신하고 히든 마르코프 모델들을 사용하여 시청각 말하는 얼굴 움직임 구성요소들(SFMC들)을 생성한다(단계 810). 학습 모듈(330)은 시청각 입력 벡터들을 수신하고, 시청각 말하는 얼굴 움직임 구성요소들(SFMC들)을 생성하고, 음소들 및 비셈들 사이의 연관(즉, 맵핑(mapping))을 획득하기 위해 의미 연관을 사용한다(단계 820).
콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 분석될 새로운 오디오 신호를 수신하고 모듈(350)을 사용하여 화자의 음성의 오디오 피쳐들을 추출한다(단계 830). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 추출된 오디오 피쳐들에 대응하는 비디오 표현들을 찾기 위해 의미 연관을 사용한다(단계 840). 콘텐츠 합성 애플리케이션 프로세서(190)는 그 후에 히든 마르코프 모델들을 사용하여 오디오 표현들과 시청각 말하는 얼굴 움직임 구성요소들(SFMC들)을 매칭시킨다(단계 850).
그 후에, 콘텐츠 합성 애플리케이션 프로세서(190)는 각각의 선택된 시청각 말하는 얼굴 움직임 구성요소들(SFMC)에 대해 화자를 표현하는 컴퓨터 생성된 애니메이팅된 얼굴을 생성한다(단계 860). 콘텐츠 합성 애플리케이션 프로세서(190)는 화자의 각각의 컴퓨터 생성된 애니메이팅된 얼굴과 화자의 음성을 동기화한다(단계 870). 이것은 화자의 음성과 동기화되는 화자의 얼굴의 시청각 표현을 생성한다. 화자의 얼굴의 시청각 표현은 그 후에 디스플레이 유닛(110)에 출력된다(단계 880).
이전에 기술된 단계들(730, 740, 750)과 이전에 기술된 단계들(860, 870, 880)에 있어서, 컴퓨터 그래픽들 접근 방식이 얼굴들을 애니메이트하기 위해 사용되었다. 그러나, 대안적인 방법이 사용될 수 있다. 대안적인 방법에 있어서, 화자의 저장된 비디오 세그먼트들은 말해진 구절 또는 문장에 대응하는 시각적 출력을 발생시키기 위해 사용된다. 의미 연관을 사용하여 시청각 세그먼트들을 획득한 후에, 비디오 세그먼트들의 시퀀스가 획득될 것이다. 각각의 이러한 세그먼트들은 개별적 음소에 대응한다. 그러나, "스티칭(stitching)" 시간 포인트들의 프로세스 에서 결과적인 비디오는 경련성 패턴(jerky pattern)을 나타낼 수 있다. 이러한 세그먼트들은 전체 문장 또는 구절에 대응하는 단독의 비디오로 함께 에디팅될 수 있다. 비디오 모핑(video morphing) 및 에디팅(editing)은 개별적 비디오 세그먼트들 사이의 경련성을 감소시키기 위해 사용될 수 있다. 이러한 접근 방식에 대한 장점은 컴퓨터 그래픽들 접근 방식에 기초하는 텍스쳐 맵핑과 3D 모델들을 사용할 필요가 없다는 것이다.
본 발명의 시스템 및 방법은 예를 들어 비디오 회의, 인터랙티브 비디오 애플리케이션들, 및 오브젝트 레벨 비디오 에디팅에서 사용될 수 있다. 말해진 음성에 대응하는 얼굴 모션들을 정확하게 표현하는 애니메이팅된 얼굴을 나타내기 위해, 사용자는 단지 텍스트 또는 음성만을 송신하면 된다. 본 발명은 송신의 수신 엔드에서 시각적 음성 요소들을 합성함으로써 텍스트의 말해진 버전을 나타내도록 애니메이팅된 대화하는 얼굴을 생성할 것이다. 본 발명의 시스템 및 방법은 송신 채널에 걸쳐 오디오 신호를 송신한다. 본 발명의 방법은 또한 말해지는 단어들에 대해 정확한 시각적 피쳐들을 나타내도록 하기 위해 애니메이팅된 얼굴을 구현하는 방법을 송신의 수신 엔드에 전하는 몇 가지 파라미터들을 송신한다. 그 파라미터들은 전송자 엔드에서 수행되는 시청각 분류와 관련이 있다.
본 명세서 전반에 걸쳐서, 본 발명은 말하는 얼굴 움직임 구성요소들(SFMC)을 생성하고 사용할 수 있는 것으로 기술되어 있다. 본 발명이 말하는 얼굴 움직임 구성요소들(SFMC)을 생성하고 사용하는데 제한되지 않는다는 것을 이해할 것이다. 본 발명은 또한 시청각 구성들의 다른 형태들을 생성 및 사용할 수 있다. 말 하는 얼굴 움직임 구성요소는 본 발명이 생성 및 사용할 수 있는 시청각 구성의 단지 특정한 일 실시예이다.
본 발명이 그의 어떠한 실시예들과 관련하여 상세히 기술되는 동안, 당업자들은 본 발명의 가장 포괄적인 형태로 그의 개념 및 범위로부터 벗어나지 않으며 본 발명에서 다양한 변화들, 대체들, 수정들, 개조들, 및 적응들이 이루어질 수 있다는 것을 이해해야 한다.

Claims (33)

  1. 말하는 화자를 표현하는 시청각 입력 신호들을 수신할 수 있고, 상기 화자의 음성을 표현하는 복수의 오디오 논리 유닛들을 사용하여 상기 화자의 얼굴의 애니메이팅된 버전(animated version)을 생성할 수 있는 디지털 통신 시스템 내 장치에 있어서,
    상기 시청각 입력 신호들로부터 상기 화자의 음성의 오디오 피쳐들 및 상기 화자의 얼굴의 시각적 피쳐들을 추출하고,
    상기 오디오 피쳐들 및 상기 시각적 피쳐들로부터 시청각 입력 벡터들을 생성하고,
    상기 시청각 입력 벡터들로부터 시청각 구성들을 생성하고,
    상기 화자의 음성을 표현하는 음소들(phonemes)과 상기 화자의 얼굴을 표현하는 비셈들(visemes) 사이의 연관을 획득하기 위해 상기 시청각 입력 벡터들에 의미 연관 절차(semantic association procedure)를 수행하는, 콘텐츠 합성 애플리케이션 프로세서를 포함하는, 디지털 통신 시스템 내 장치.
  2. 제 1 항에 있어서,
    상기 콘텐츠 합성 애플리케이션 프로세서는:
    화자의 음성의 오디오 피쳐들을 추출하는 단계;
    의미 연관 절차를 사용하여 상기 오디오 피쳐들에 대한 대응하는 비디오 표 현들을 찾는 단계; 및
    상기 시청각 구성들과 상기 대응하는 비디오 표현들을 매칭시키는 단계에 의해, 입력 오디오 신호를 분석할 수 있는, 디지털 통신 시스템 내 장치.
  3. 제 2 항에 있어서,
    상기 콘텐츠 합성 애플리케이션 프로세서는, 또한:
    각각의 선택된 시청각 구성에 대해 컴퓨터 생성된 애니메이팅된 얼굴을 생성하고,
    상기 화자의 음성과 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화하고,
    상기 화자의 음성과 동기화된 상기 화자의 얼굴의 시청각 표현을 출력할 수 있는, 디지털 통신 시스템 내 장치.
  4. 제 1 항에 있어서,
    상기 콘텐츠 합성 애플리케이션 프로세서가 상기 시청각 입력 신호들로부터 추출하는 상기 오디오 피쳐들은:
    멜 셉트럴 주파수 계수들(Mel Cepstral Frequency Coefficients), 선형 예측 코딩 계수들(Linear Predictive Coding Coefficients), 델타 멜 셉트럴 주파수 계수들(Delta Mel Cepstral Frequency Coefficients), 델타 선형 예측 코딩 계수들(Delta Linear Predictive Coding Coefficients), 및 자체상관 멜 셉트럴 주파수 계수들(Autocorrelation Mel Cepstral Frequency Coefficients) 중 하나를 포함하 는, 디지털 통신 시스템 내 장치.
  5. 제 1 항에 있어서,
    상기 콘텐츠 합성 애플리케이션 프로세서는 히든 마르코프 모델(Hidden Markov Model) 및 시간 지연 신경 회로망(Time Delayed Neural Network) 중 하나를 사용하여 상기 시청각 입력 벡터들로부터 시청각 구성들을 생성하는, 디지털 통신 시스템 내 장치.
  6. 제 2 항에 있어서,
    상기 콘텐츠 합성 애플리케이션 프로세서는 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 구성들과 상기 대응하는 비디오 표현들을 매칭시키는, 디지털 통신 시스템 내 장치.
  7. 제 3 항에 있어서,
    상기 콘텐츠 합성 애플리케이션 프로세서는:
    얼굴 애니메이션 파라미터를 생성하도록 대응하는 분류된 오디오 피쳐와 복수의 시청각 구성들 각각을 매칭시키는 얼굴 시청각 피쳐 매칭과 분류 모듈; 및
    선택된 얼굴 애니메이션 파라미터에 대해 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 선택된 파라미터들에 대한 얼굴 애니메이션 모듈을 더 포함하는, 디지털 통신 시스템 내 장치.
  8. 제 7 항에 있어서,
    상기 선택된 파라미터들에 대한 얼굴 애니메이션 모듈은 (1) 텍스쳐 맵핑(texture mapping)을 통한 3D 모델들 및 (2) 비디오 에디팅 중 하나를 사용하여 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는, 디지털 통신 시스템 내 장치.
  9. 제 2 항에 있어서,
    상기 의미 연관 절차는 잠재적 의미 인덱싱(latent semantic indexing), 표준 상관(canonical correlation), 및 크로스 모달 팩터 분석(cross modal factor analysis) 중 하나를 포함하는, 디지털 통신 시스템 내 장치.
  10. 제 1 항에 있어서,
    상기 시청각 구성들은 시청각의 말하는 얼굴 움직임 구성요소들을 포함하는, 디지털 통신 시스템 내 장치.
  11. 제 8 항에 있어서,
    상기 콘텐츠 합성 애플리케이션 프로세서는:
    상기 화자의 음성과 동기화되는 상기 화자의 얼굴의 시청각 표현을 생성하도록 상기 화자의 음성의 상기 오디오 피쳐들과 상기 화자의 얼굴의 각각의 애니메이팅된 버전을 동기화하는 말하는 얼굴 애니메이션 및 동기화 모듈; 및
    상기 화자의 음성의 오디오 표현의 레벨을 결정하고, 상기 화자의 애니메이팅된 얼굴 파라미터들을 수정하도록 사용하기 위한 상기 말하는 얼굴 애니메이션 및 동기화 모듈에 상기 화자의 음성의 오디오 표현의 상기 레벨을 제공하는 오디오 표현 분류 모듈을 더 포함하는, 디지털 통신 시스템 내 장치.
  12. 비디오 이미지 프로세서에서 시청각 콘텐츠를 합성하는데 사용하는 방법에 있어서:
    말하는 화자를 나타내는 시청각 입력 신호들을 수신하는 단계;
    상기 음성-입력 신호들로부터 상기 화자의 음성의 오디오 피쳐들 및 상기 화자의 얼굴의 시각적 피쳐들을 추출하는 단계;
    상기 오디오 피쳐들 및 상기 시각적 피쳐들로부터 시청각 입력 벡터들을 생성하는 단계;
    상기 시청각 입력 벡터들로부터 시청각 구성들을 생성하는 단계; 및
    상기 화자의 음성을 나타내는 음소들과 상기 화자의 얼굴을 나타내는 비셈들 사이의 연관을 획득하기 위해 상기 시청각 입력 벡터들에 의미 연관 절차를 수행하는 단계를 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  13. 제 12 항에 있어서,
    화자의 음성의 입력 오디오 신호를 분석하는 단계;
    상기 화자의 음성의 오디오 피쳐들을 추출하는 단계;
    의미 연관 절차를 사용하여 상기 오디오 피쳐들에 대한 대응하는 비디오 표현들을 찾는 단계; 및
    상기 시청각 구성들과 상기 대응하는 비디오 표현들을 매칭시키는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  14. 제 13 항에 있어서,
    각각의 선택된 시청각 구성에 대해 컴퓨터 생성된 애니메이팅된 얼굴을 생성하는 단계;
    상기 화자의 음성과 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화하는 단계; 및
    상기 화자의 음성과 동기화된 상기 화자의 얼굴의 시청각 표현을 출력하는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  15. 제 12 항에 있어서,
    상기 시청각 입력 신호들로부터 추출되는 상기 오디오 피쳐들은: 멜 셉트럴 주파수 계수들, 선형 예측 코딩 계수들, 델타 멜 셉트럴 주파수 계수들, 델타 선형 예측 코딩 계수들, 및 자체상관 멜 셉트럴 주파수 계수들 중 하나를 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  16. 제 12 항에 있어서,
    상기 시청각 구성들은 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 입력 벡터들로부터 생성되는, 시청각 콘텐츠 합성에 사용하는 방법.
  17. 제 13 항에 있어서,
    상기 대응하는 비디오 표현들은 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 구성들과 매칭되는, 시청각 콘텐츠 합성에 사용하는 방법.
  18. 제 12 항에 있어서,
    얼굴 애니메이션 파라미터를 생성하도록 대응하는 분류된 오디오 피쳐와 복수의 시청각 구성들 각각을 매칭시키는 단계; 및
    선택된 얼굴 애니메이션 파라미터에 대해 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  19. 제 18 항에 있어서,
    (1) 텍스쳐 맵핑을 통한 3D 모델들 및 (2) 비디오 에디팅 중 하나를 사용하여 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  20. 제 13 항에 있어서,
    상기 의미 연관 절차는 잠재적 의미 인덱싱, 표준 상관, 및 크로스 모달 팩터 분석 중 하나를 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  21. 제 12 항에 있어서,
    상기 시청각 구성들은 시청각 말하는 얼굴 움직임 구성요소들을 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  22. 제 20 항에 있어서,
    상기 화자의 음성의 상기 오디오 피쳐들과 상기 화자의 얼굴의 각각의 애니메이팅된 버전을 동기화하는 단계;
    상기 화자의 음성과 동기화되는 상기 화자의 얼굴의 시청각 표현을 생성하는 단계;
    상기 화자의 음성의 오디오 표현의 레벨을 결정하는 단계; 및
    상기 화자의 음성의 오디오 표현의 상기 레벨의 결정에 응답하여 상기 화자의 애니메이팅된 얼굴 파라미터들을 수정하는 단계를 더 포함하는, 시청각 콘텐츠 합성에 사용하는 방법.
  23. 비디오 이미지 프로세서에서 시청각 콘텐츠를 합성하는 방법에 의해 생성되는 합성된 시청각 신호에 있어서,
    상기 시청각 콘텐츠 합성 방법은:
    말하는 화자를 표현하는 시청각 입력 신호들을 수신하는 단계;
    상기 시청각 입력 신호들로부터 상기 화자의 음성의 오디오 피쳐들 및 상기 화자의 얼굴의 시각적 피쳐들을 추출하는 단계;
    상기 오디오 피쳐들 및 상기 시각적 피쳐들로부터 시청각 입력 벡터들을 생성하는 단계;
    상기 시청각 입력 벡터들로부터 시청각 구성들을 생성하는 단계; 및
    상기 화자의 음성을 표현하는 음소들과 상기 화자의 얼굴을 표현하는 비셈들 사이의 연관을 획득하기 위해 상기 시청각 입력 벡터들에 대해 의미 연관 절차를 수행하는 단계를 포함하는, 합성된 시청각 신호.
  24. 제 23 항에 있어서,
    상기 시청각 콘텐츠 합성 방법은:
    화자의 음성의 입력 오디오 신호를 분석하는 단계;
    상기 화자의 음성의 오디오 피쳐들을 추출하는 단계;
    의미 연관 절차를 사용하여 상기 오디오 피쳐들에 대한 대응하는 비디오 표현들을 찾는 단계; 및
    상기 시청각 구성들과 상기 대응하는 비디오 표현들을 매칭시키는 단계를 더 포함하는, 합성된 시청각 신호.
  25. 제 24 항에 있어서,
    상기 시청각 콘텐츠 합성 방법은,
    각각의 선택된 시청각 구성에 대해 컴퓨터 생성된 애니메이팅된 얼굴을 생성하는 단계;
    상기 화자의 음성과 각각의 컴퓨터 생성된 애니메이팅된 얼굴을 동기화하는 단계; 및
    상기 화자의 음성과 동기화된 상기 화자의 얼굴의 시청각 표현을 출력하는 단계를 더 포함하는, 합성된 시청각 신호.
  26. 제 23 항에 있어서,
    상기 시청각 입력 신호들로부터 추출되는 상기 오디오 피쳐들은 멜 셉트럴 주파수 계수들, 선형 예측 코딩 계수들, 델타 멜 셉트럴 주파수 계수들, 델타 선형 예측 코딩 계수들, 및 자체상관 멜 셉트럴 주파수 계수들 중 하나를 포함하는, 합성된 시청각 신호.
  27. 제 23 항에 있어서,
    상기 시청각 구성들은 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 입력 벡터들로부터 생성되는, 합성된 시청각 신호.
  28. 제 24 항에 있어서,
    상기 대응하는 비디오 표현들은 히든 마르코프 모델 및 시간 지연 신경 회로망 중 하나를 사용하여 상기 시청각 구성들과 매칭되는, 합성된 시청각 신호.
  29. 제 25 항에 있어서,
    얼굴 애니메이션 파라미터를 생성하도록 대응하는 분류된 오디오 피쳐와 각각의 복수의 시청각 구성들을 매칭시키는 단계; 및
    선택된 얼굴 애니메이션 파라미터에 대해 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 단계를 더 포함하는, 합성된 시청각 신호.
  30. 제 29 항에 있어서,
    (1) 텍스쳐 맵핑을 통한 3D 모델들 및 (2) 비디오 에디팅 중 하나를 사용하여 상기 화자의 얼굴의 애니메이팅된 버전을 생성하는 단계를 더 포함하는, 합성된 시청각 신호.
  31. 제 24 항에 있어서,
    상기 의미 절차는 잠재적 의미 인덱싱, 표준 상관, 및 크로스 모달 팩터 분석 중 하나를 포함하는, 합성된 시청각 신호.
  32. 제 23 항에 있어서,
    상기 시청각 구성들은 시청각 말하는 얼굴 움직임 구성요소들을 포함하는, 합성된 시청각 신호.
  33. 제 31 항에 있어서,
    상기 시청각 콘텐츠 합성 방법은:
    상기 화자의 음성의 상기 오디오 피쳐들과 상기 화자의 얼굴의 각각의 애니메이팅된 버전을 동기화하는 단계;
    상기 화자의 음성과 동기화되는 상기 화자의 얼굴의 시청각 표현을 생성하는 단계;
    상기 화자의 음성의 오디오 표현의 레벨을 결정하는 단계; 및
    상기 화자의 음성의 오디오 표현의 상기 레벨의 결정에 응답하여 상기 화자의 애니메이팅된 얼굴 파라미터들을 수정하는 단계를 더 포함하는, 합성된 시청각 신호.
KR1020067006256A 2003-09-30 2004-09-28 시청각 콘텐츠 합성을 위한 시스템 및 방법 KR20060090687A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US50709803P 2003-09-30 2003-09-30
US60/507,098 2003-09-30

Publications (1)

Publication Number Publication Date
KR20060090687A true KR20060090687A (ko) 2006-08-14

Family

ID=34393213

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067006256A KR20060090687A (ko) 2003-09-30 2004-09-28 시청각 콘텐츠 합성을 위한 시스템 및 방법

Country Status (6)

Country Link
US (1) US7636662B2 (ko)
EP (1) EP1671277A1 (ko)
JP (1) JP2007507784A (ko)
KR (1) KR20060090687A (ko)
CN (1) CN1860504A (ko)
WO (1) WO2005031654A1 (ko)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101328466B1 (ko) * 2011-10-18 2013-11-13 한국과학기술원 객체 움직임 예측을 위한 컴퓨터로 구현된 계층적 시간적 메모리 네트워크에서의 마르코프 모델의 입력 제공방법 및 이를 이용한 움직임 예측 방법
US8948891B2 (en) 2009-08-12 2015-02-03 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding multi-channel audio signal by using semantic information
WO2015088213A1 (ko) * 2013-12-12 2015-06-18 삼성전자 주식회사 이미지 정보 표시 방법 및 장치
KR20200013907A (ko) * 2018-07-31 2020-02-10 전자부품연구원 비디오 특성에 부합하는 오디오 합성 방법
WO2020152657A1 (en) * 2019-01-25 2020-07-30 Soul Machines Limited Real-time generation of speech animation
WO2020256475A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 텍스트를 이용한 발화 동영상 생성 방법 및 장치
WO2020256471A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
WO2020256472A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
KR20200145719A (ko) * 2019-06-21 2020-12-30 주식회사 머니브레인 텍스트를 이용한 발화 동영상 생성 방법 및 장치
KR20200145700A (ko) * 2019-06-21 2020-12-30 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
KR20200145701A (ko) * 2019-06-21 2020-12-30 주식회사 머니브레인 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
WO2021112365A1 (ko) * 2019-12-02 2021-06-10 삼성전자 주식회사 음성 신호에서 헤드 모델 애니메이션을 생성하는 방법 및 이를 구현하는 전자 장치
KR102331517B1 (ko) * 2020-07-13 2021-12-01 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
WO2022025359A1 (ko) * 2020-07-27 2022-02-03 주식회사 딥브레인에이아이 발화 영상 생성 방법 및 장치
WO2022045486A1 (ko) * 2020-08-25 2022-03-03 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
WO2022045485A1 (ko) * 2020-08-28 2022-03-03 주식회사 딥브레인에이아이 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
GB2609286A (en) * 2021-05-20 2023-02-01 Nvidia Corp Synthesizing video from audio using one or more neural networks

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) * 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
WO2003051031A2 (en) 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
GB2430073A (en) * 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
US8024189B2 (en) * 2006-06-22 2011-09-20 Microsoft Corporation Identification of people using multiple types of input
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US8212924B2 (en) * 2009-05-12 2012-07-03 Himax Technologies Limited System and method for processing multimedia data using an audio-video link
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
US8419534B2 (en) * 2009-09-30 2013-04-16 Disney Enterprises, Inc. Systems and methods for using images to generate gameplay content
US8135221B2 (en) * 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
CN102455847A (zh) * 2010-10-15 2012-05-16 宏碁股份有限公司 基于语义的视觉效果产生***
CN102547298B (zh) * 2010-12-17 2014-09-10 ***通信集团公司 图像信息输出方法、装置及终端
US10375534B2 (en) 2010-12-22 2019-08-06 Seyyer, Inc. Video transmission and sharing over ultra-low bitrate wireless communication channel
US9082400B2 (en) * 2011-05-06 2015-07-14 Seyyer, Inc. Video generation based on text
CN102820030B (zh) * 2012-07-27 2014-03-26 中国科学院自动化研究所 发音器官可视语音合成***
US9104467B2 (en) * 2012-10-14 2015-08-11 Ari M Frank Utilizing eye tracking to reduce power consumption involved in measuring affective response
CN104756502A (zh) * 2012-12-10 2015-07-01 英特尔公司 通信设备之间的视频和音频共享的方法、设备和***
GB2510201B (en) * 2013-01-29 2017-05-03 Toshiba Res Europe Ltd A computer generated head
GB2510200B (en) * 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
WO2014146258A1 (en) * 2013-03-20 2014-09-25 Intel Corporation Avatar-based transfer protocols, icon generation and doll animation
CN103279970B (zh) * 2013-05-10 2016-12-28 中国科学技术大学 一种实时的语音驱动人脸动画的方法
US9576587B2 (en) * 2013-06-12 2017-02-21 Technion Research & Development Foundation Ltd. Example-based cross-modal denoising
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
CN104092654B (zh) * 2014-01-22 2016-03-02 腾讯科技(深圳)有限公司 媒体播放方法、客户端及***
CN105898667A (zh) 2014-12-22 2016-08-24 杜比实验室特许公司 从音频内容基于投影提取音频对象
EP3054451A1 (en) * 2015-02-03 2016-08-10 Thomson Licensing Method, apparatus and system for synchronizing audiovisual content with inertial measurements
CN104732593B (zh) * 2015-03-27 2018-04-27 厦门幻世网络科技有限公司 一种基于移动终端的3d动画编辑方法
US9659570B2 (en) 2015-10-08 2017-05-23 International Business Machines Corporation Audiovisual information processing in videoconferencing
US10534955B2 (en) * 2016-01-22 2020-01-14 Dreamworks Animation L.L.C. Facial capture analysis and training system
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
US10460732B2 (en) * 2016-03-31 2019-10-29 Tata Consultancy Services Limited System and method to insert visual subtitles in videos
CN106101858A (zh) * 2016-06-27 2016-11-09 乐视控股(北京)有限公司 一种视频生成方法及装置
US10139780B2 (en) * 2016-10-11 2018-11-27 Charles Rinker Motion communication system and method
US10595039B2 (en) 2017-03-31 2020-03-17 Nvidia Corporation System and method for content and motion controlled action video generation
US10225516B2 (en) 2017-06-23 2019-03-05 Cisco Technology, Inc. Latency mitigation through intelligent extrapolation in multimedia systems
US10636193B1 (en) * 2017-06-29 2020-04-28 Facebook Technologies, Llc Generating graphical representation of a user's face and body using a monitoring system included on a head mounted display
US10636192B1 (en) 2017-06-30 2020-04-28 Facebook Technologies, Llc Generating a graphical representation of a face of a user wearing a head mounted display
US10586368B2 (en) * 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
WO2019121864A1 (en) 2017-12-19 2019-06-27 Koninklijke Kpn N.V. Enhanced audiovisual multiuser communication
WO2019161207A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
WO2019161229A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for reconstructing unoccupied 3d space
EP3752957A4 (en) * 2018-02-15 2021-11-17 DMAI, Inc. SYSTEM AND PROCEDURE FOR SPEECH UNDERSTANDING VIA INTEGRATED AUDIO AND VIDEO-BASED VOICE RECOGNITION
US11538455B2 (en) * 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
CN109558853B (zh) * 2018-12-05 2021-05-25 维沃移动通信有限公司 一种音频合成方法及终端设备
WO2020129959A1 (ja) * 2018-12-18 2020-06-25 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び表示方法
US11544886B2 (en) * 2019-12-17 2023-01-03 Samsung Electronics Co., Ltd. Generating digital avatar
WO2021128173A1 (zh) * 2019-12-26 2021-07-01 浙江大学 一种语音信号驱动的脸部动画生成方法
US11417041B2 (en) * 2020-02-12 2022-08-16 Adobe Inc. Style-aware audio-driven talking head animation from a single image
US11610356B2 (en) 2020-07-28 2023-03-21 Samsung Electronics Co., Ltd. Method and electronic device for providing sign language
JP7083380B2 (ja) * 2020-09-28 2022-06-10 グリー株式会社 コンピュータプログラム、方法及びサーバ装置
CN113435357B (zh) * 2021-06-30 2022-09-02 平安科技(深圳)有限公司 语音播报方法、装置、设备及存储介质
CN115272537A (zh) * 2021-08-06 2022-11-01 宿迁硅基智能科技有限公司 基于因果卷积的音频驱动表情方法及装置
CN114255737B (zh) * 2022-02-28 2022-05-17 北京世纪好未来教育科技有限公司 语音生成方法、装置、电子设备
CN117635784B (zh) * 2023-12-19 2024-04-19 世优(北京)科技有限公司 三维数字人脸部动画自动生成***
CN117689783B (zh) * 2024-02-02 2024-04-30 湖南马栏山视频先进技术研究院有限公司 一种基于超参数神经辐射场的人脸语音驱动方法及装置
CN117932161B (zh) * 2024-03-22 2024-05-28 成都数据集团股份有限公司 一种多源多模态数据的可视化搜索方法及***

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839672B1 (en) * 1998-01-30 2005-01-04 At&T Corp. Integration of talking heads and text-to-speech synthesizers for visual TTS
US6052132A (en) * 1998-02-06 2000-04-18 Digital Equipment Corporation Technique for providing a computer generated face having coordinated eye and head movement
US6449595B1 (en) * 1998-03-11 2002-09-10 Microsoft Corporation Face synthesis system and methodology
US6735566B1 (en) * 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
US6593936B1 (en) * 1999-02-01 2003-07-15 At&T Corp. Synthetic audiovisual description scheme, method and system for MPEG-7
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
IT1320002B1 (it) * 2000-03-31 2003-11-12 Cselt Centro Studi Lab Telecom Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio.
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
US7149686B1 (en) * 2000-06-23 2006-12-12 International Business Machines Corporation System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
CA2409085A1 (en) 2000-07-11 2002-01-17 Abraham Glezerman Agent for guiding children in a virtual learning environment
US20020008716A1 (en) 2000-07-21 2002-01-24 Colburn Robert A. System and method for controlling expression characteristics of a virtual agent
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
US7630932B2 (en) * 2002-01-31 2009-12-08 Transunion Interactive, Inc. Loan rate and lending information analysis system
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US7168953B1 (en) * 2003-01-27 2007-01-30 Massachusetts Institute Of Technology Trainable videorealistic speech animation
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8948891B2 (en) 2009-08-12 2015-02-03 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding multi-channel audio signal by using semantic information
KR101328466B1 (ko) * 2011-10-18 2013-11-13 한국과학기술원 객체 움직임 예측을 위한 컴퓨터로 구현된 계층적 시간적 메모리 네트워크에서의 마르코프 모델의 입력 제공방법 및 이를 이용한 움직임 예측 방법
WO2015088213A1 (ko) * 2013-12-12 2015-06-18 삼성전자 주식회사 이미지 정보 표시 방법 및 장치
KR20200013907A (ko) * 2018-07-31 2020-02-10 전자부품연구원 비디오 특성에 부합하는 오디오 합성 방법
US10923106B2 (en) 2018-07-31 2021-02-16 Korea Electronics Technology Institute Method for audio synthesis adapted to video characteristics
WO2020152657A1 (en) * 2019-01-25 2020-07-30 Soul Machines Limited Real-time generation of speech animation
KR20200145701A (ko) * 2019-06-21 2020-12-30 주식회사 머니브레인 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
US11972516B2 (en) 2019-06-21 2024-04-30 Deepbrain Ai Inc. Method and device for generating speech video by using text
KR20200145719A (ko) * 2019-06-21 2020-12-30 주식회사 머니브레인 텍스트를 이용한 발화 동영상 생성 방법 및 장치
KR20200145700A (ko) * 2019-06-21 2020-12-30 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
WO2020256471A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
WO2020256475A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 텍스트를 이용한 발화 동영상 생성 방법 및 장치
WO2020256472A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
WO2021112365A1 (ko) * 2019-12-02 2021-06-10 삼성전자 주식회사 음성 신호에서 헤드 모델 애니메이션을 생성하는 방법 및 이를 구현하는 전자 장치
KR102331517B1 (ko) * 2020-07-13 2021-12-01 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
WO2022014800A1 (ko) * 2020-07-13 2022-01-20 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
KR102346756B1 (ko) * 2020-07-13 2022-01-03 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
WO2022025359A1 (ko) * 2020-07-27 2022-02-03 주식회사 딥브레인에이아이 발화 영상 생성 방법 및 장치
WO2022045486A1 (ko) * 2020-08-25 2022-03-03 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
WO2022045485A1 (ko) * 2020-08-28 2022-03-03 주식회사 딥브레인에이아이 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
GB2609286A (en) * 2021-05-20 2023-02-01 Nvidia Corp Synthesizing video from audio using one or more neural networks

Also Published As

Publication number Publication date
WO2005031654A1 (en) 2005-04-07
US20060290699A1 (en) 2006-12-28
US7636662B2 (en) 2009-12-22
EP1671277A1 (en) 2006-06-21
JP2007507784A (ja) 2007-03-29
CN1860504A (zh) 2006-11-08

Similar Documents

Publication Publication Date Title
US7636662B2 (en) System and method for audio-visual content synthesis
US6735566B1 (en) Generating realistic facial animation from speech
Cao et al. Expressive speech-driven facial animation
US7133535B2 (en) System and method for real time lip synchronization
Xie et al. A coupled HMM approach to video-realistic speech animation
US20210390945A1 (en) Text-driven video synthesis with phonetic dictionary
JPH10312467A (ja) 像合成のための自動スピーチ整列方法
Zhang et al. Text2video: Text-driven talking-head video synthesis with personalized phoneme-pose dictionary
Bozkurt et al. Comparison of phoneme and viseme based acoustic units for speech driven realistic lip animation
CN113744755A (zh) 一种从音频信号生成语音动画的装置及方法
Karpov An automatic multimodal speech recognition system with audio and video information
Potamianos et al. Joint audio-visual speech processing for recognition and enhancement
Ben-Youssef et al. Speech driven talking head from estimated articulatory features
Asadiabadi et al. Multimodal speech driven facial shape animation using deep neural networks
Hussen Abdelaziz et al. Speaker-independent speech-driven visual speech synthesis using domain-adapted acoustic models
Zoric et al. A real-time lip sync system using a genetic algorithm for automatic neural network configuration
Zorić et al. Real-time language independent lip synchronization method using a genetic algorithm
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.
Shih et al. Speech-driven talking face using embedded confusable system for real time mobile multimedia
Mahavidyalaya Phoneme and viseme based approach for lip synchronization
Sadiq et al. Emotion dependent domain adaptation for speech driven affective facial feature synthesis
Zoric et al. Automated gesturing for virtual characters: Speech-driven and text-driven approaches
Lehn-Schiøler et al. Mapping from speech to images using continuous state space models
Edge et al. Model-based synthesis of visual speech movements from 3D video
Jadczyk et al. Audio-visual speech processing system for Polish with dynamic Bayesian Network Models

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application