BRPI0904540A2 - método de sìntese de movimento labial para animação de cabeças virtuais através do processamento de voz em dispositivos portáteis - Google Patents

método de sìntese de movimento labial para animação de cabeças virtuais através do processamento de voz em dispositivos portáteis Download PDF

Info

Publication number
BRPI0904540A2
BRPI0904540A2 BRPI0904540-6A BRPI0904540A BRPI0904540A2 BR PI0904540 A2 BRPI0904540 A2 BR PI0904540A2 BR PI0904540 A BRPI0904540 A BR PI0904540A BR PI0904540 A2 BRPI0904540 A2 BR PI0904540A2
Authority
BR
Brazil
Prior art keywords
animation
virtual
lip movement
synthesis
animation according
Prior art date
Application number
BRPI0904540-6A
Other languages
English (en)
Inventor
Paulo Cesar Cortez
Souza Costa Rodrigo Carvalho
Silva Siqueira Robson Da
Leite Neto Cincinato Furtado
Ribeiro Fabio Cisne
Francisco Jose Marques Anselmo
Santos Carvalho Raphael Torres
Silva Barros Antonio Carlos Da
Mattos Cesar Lincoln Cavalcante
Soares Jose Marquez
Original Assignee
Samsung Eletronica Da Amazonia Ltda
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Eletronica Da Amazonia Ltda filed Critical Samsung Eletronica Da Amazonia Ltda
Priority to BRPI0904540-6A priority Critical patent/BRPI0904540B1/pt
Priority to US12/819,164 priority patent/US8725507B2/en
Publication of BRPI0904540A2 publication Critical patent/BRPI0904540A2/pt
Publication of BRPI0904540B1 publication Critical patent/BRPI0904540B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0356Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Processing Or Creating Images (AREA)

Abstract

MéTODO DE SìNTESE DE MOVIMENTO LABIAL PARA ANIMAçãO DE CABEçAS VIRTUAIS ATRAVéS DO PROCESSAMENTO DE VOZ EM DISPOSITIVOS PORTáTEIS. Aspectos da presente invenção especificam um método de comunicação utilizando um humanóide virtual animado durante chamadas convencionais. De acordo com a presente invenção, a animação é feita utilizando um sistema de reconhecimento das vogais faladas para animação dos lábios, associado ao reconhecimento de tons DTMF para animação dos movimentos da cabeça e feições faciais. Esse sistema se diferencia dos sistemas conhecidos por usar técnicas computacionalmente eficientes. Isto implica em um trabalho de otimização e ajuste de técnicas de processamento digital de sinais para viabilizar sua implementação em dispositivos portáteis. O método aqui descrito pode ser implementado de forma genérica em dispositivos portáteis como PDAs, celulares e Smart Phones que possuam acesso ao serviço de telefonia móvel.

Description

Relatório Descritivo da Patente de Invenção para: "MÉTODODE SÍNTESE DE MOVIMENTO LABIAL PARA ANIMAÇÃO DE CABEÇASVIRTUAIS ATRAVÉS DO PROCESSAMENTO DE VOZ EM DISPOSITIVOSPORTÁTEIS".
Campo da Invenção
A presente invenção refere-se a um método decomunicação áudio-visual que utiliza dispositivosportáteis. A comunicação é feita através de um humanóidevirtual 3D animado a partir de técnicas de reconhecimentode padrões de voz aplicadas a um canal de áudio.
Antecedentes da Invenção
Atualmente, muitos sistemas interativos utilizam facesfalantes para se comunicar com o usuário final. Porexemplo, aplicações como secretárias eletrônicas,contadores de histórias e realidade virtual têm ganhadomais atenção através da reprodução da voz sincronizada comum movimento facial realista.
Personagens animados por computador podem serrepresentados em duas ou três dimensões. Conhecidos comohumanóides virtuais ou avatares, os quais podem sercontrolados por diferentes técnicas. Por exemplo, épossível animar um avatar através de comandos presentes eminterfaces gráficas, nas quais o usuário deve escolher oscomandos dentre um conjunto finito de botões ou através deum mouse ou teclado.
A codificação MPEG4 fornece meios para implementar umhumanóide virtual. Nesta codificação, existem parâmetrosespecializados que possibilitam a geração e transmissão dovideo de uma "cabeça falante" sintética para fins decomunicação multimídia.
A codificação MPEG4 inclui um conjunto de Parâmetrosde Animação Facial (FAP - Facial Animation Parameters).
Estes parâmetros foram concebidos a partir do estudo depequenas ações faciais, sendo relacionados ao movimentorealizado pelos músculos da face. Esta codificação é capazde reproduzir expressões faciais e movimentos da cabeçarealizados por uma pessoa.
As referidas expressões podem ser agrupadas em duasclasses: simples e complexas. Exemplos das primeirasexpressões são: piscar os olhos, abrir e fechar a boca,levantar as sobrancelhas. Expressões complexas representamemoções como, por exemplo, feliz, triste, assustado.
A representação visual de um fonema constitui umvisema. Os visemas são utilizados para a animação facialsincronizada com a fala, ou seja, o formato do lábio,enquanto um fonema é pronunciado.Vários métodos de visão artificial utilizam ascaracterísticas de pigmentação dos lábios para realizar asua detecção e a partir da segmentação, avaliar a forma dolábio para reconhecer o visema.
Entretanto, o contraste existente entre as cores doslábios (não adornados) e da região facial é muito pequeno.Isto dificulta a etapa de segmentação dos lábios e torna ocontorno do mesmo muito impreciso e conseqüentementeextrair as características dos lábios não se mostraeficiente. Por este motivo, o reconhecimento da forma daboca através de técnicas de visão computacional é umatarefa complexa. Além disso, com os lábios adornados (istoé, com o uso de batom, por exemplo) se torna ainda maiscomplexo devido a uma grande variedade de cores existentes, dificultando, ainda mais, a concepção de um sistemaautomático para identificação de visemas.
Existem ainda outras dificuldades adicionais, queestão relacionadas à qualidade da imagem adquirida pelacâmera digital. No caso particular das câmeras integradas a dispositivos portáteis, como é o caso dos telefonescelulares, Smart Phones e PDAs, o tempo de exposição doselementos sensores deixa a imagem obtida "borrada" devidoao movimento. Por esse motivo, para se conseguir uma boadefinição dos movimentos da boca, faz-se necessário que aboca ocupe uma grande porção na imagem para possibilitaruma estimação eficiente da forma dos lábios. Ao fazer issoa câmera acaba não visualizando outras partes importantesda face que são muito importantes para a comunicação.
Por isso, um sistema automático para reconhecimento deformato labial exige um custo computacional elevado pararealizar as etapas de detecção e identificação das formas.Em qualquer dispositivo eletrônico, um alto custocomputacional causa um aumento de consumo de energia e umamaior produção de calor.
Em dispositivos portáteis, um alto consumo de energiafaz com que a bateria se descarregue mais rápido e seu usoprolongado causa uma diminuição na vida útil da bateria,visto que qualquer bateria tem o número finito de recargas.Por exemplo, uma bateria de um dispositivo portátil podedurar cerca de 300 horas em standby (apenas o aparelholigado) e 7 horas em conversação.
Como o custo computacional para processar o video ébem maior do que o necessário para fazer uma chamadaconvencional, espera-se que a duração da mesma seja beminferior, podendo chegar a no máximo 2 horas de utilização.
Por causa dos problemas supracitados, os métodosbaseados em visão artificial se concentram em apenasdetectar a boca, por exemplo, aberta ou fechada. Uma vezque a percepção da fala não depende apenas da informaçãoacústica, o formato da boca auxilia na inteligibilidade dafala. Por exemplo, em ambientes ruidosos, o formato da bocapode compensar alguma perda de uma sílaba no canal deáudio.
Desta forma, uma maneira de tornar mais realista acomunicação através de um humanóide virtual é utilizar avoz para animar o movimento da boca, deixando os outrosgestos faciais (piscar os olhos, modificação do olhar e da sobrancelha) a cargo do reconhecimento de tons DTMF.
Uma animação visual eficiente do movimento feito pelaboca é útil para muitas aplicações, como, por exemplo, otreinamento da fala de pessoas com dificuldades de audição,produção de jogos e filmes, formas de interação através deagentes virtuais e comércio eletrônico.
Os métodos para o desenvolvimento deste tipo deanimação são baseados em parâmetros matemáticos, nascaracterísticas físicas da face, em visão artificial e noprocessamento de áudio.
Um exemplo de metodologia para rastreamento domovimento labial através de visão computacional foiproposto por A. W. Sênior no trabalho intitulado "Face andFeature Finding for a Face Recognition System" publicadonos anais do "International Conference on Audio and Video-based Biometric Person Authent ication" ρ. 154 - 159 emmarço de 1999. Nesse trabalho, é feita uma busca da regiãoda face utilizando um conjunto de janelas modelos decandidatos de face e de características faciais. Através deuma análise piramidal (multi-resolução), obtida através daescala das janelas modelos, é localizada a face e emseguida o processo é repetido para encontrar os elementosfaciais (olhos, boca, nariz e orelhas). Uma informaçãoextraída através deste método é um conjunto dos quatropontos de canto da boca. Através destes, são identificadasa largura e a altura da boca que podem ser utilizadas comoparâmetros para definir a sua forma, podendo ser usadospara animar um humanóide virtual. No entanto, esta técnicanão é vantajosa devido à quantidade de combinações dejanelas realizadas para encontrar a face e os elementosfaciais, tornando estes métodos complexoscomputacionalmente, o que dificulta a implementação emdispositivos portáteis devido ao seu limitado poder deprocessamento.
0 documento de patente brasileiro PI 9909611-0,titular: Eyematic Interfaces, Inc, publicado em 21 deoutubro de 1999 descreve um método de reconhecimento defeições para animação de um avatar baseado em Wavelets.
Este documento utiliza uma série de Wavelets para detectarpontos extremos da boca e, a partir destes, realiza-se orastreamento do movimento labial. Cada ponto extremo daboca é encontrado a partir da aplicação de uma TransformadaWavelet com característica específica. Como de conhecimento ordinário para uma pessoa versada na técnica, para aplicaruma Wavelet, é necessário fazer várias convoluções durantea etapa de identificação de pontos importantes da face.Para calcular a convolução, em cada ponto da imagem, umagrande quantidade de multiplicações e somas se faz necessária. Isto torna o método muito complexo para serutilizado em dispositivos portáteis, devido a sua limitaçãode memória e poder de processamento.
O artigo proposto por M-T Yang et. al. intitulado yyLipContour Extraetion for Language Learning in VEC3D"publicado no Journal of Machine Vision and Applications emabril de 2008 utiliza a segmentação dos lábios através decontornos ativos. No entanto, esse método é bastanterobusto, e a procura inicial do contorno ativo e asinterações subsequentes podem levar muito tempo. Em aplicações como as de vídeo-chamada, nas quais o movimentodo avatar deve ser sincronizado com o som, esta abordagemnão deve ser utilizada devido à longa duração dosprocedimentos de procura e interações subsequentes.Devido ao fato do formato labial ser o principalresponsável pela formação das vogais e estas serem osprincipais componentes da sílaba, o reconhecimento dasvogais através do processamento de voz é capaz deidentificar eficientemente o formato labial e porconseqüência animar o humanóide virtual.
Um trabalho de reconhecimento de voz que estárelacionado ao movimento facial foi proposto por D. V.McAlister et. al intitulado "Lip Synchronization forAnimation", publicado nos anais do SIGGRAPH em janeiro de1997. Este método aplica a Transformada rápida de Fourier(FFT) para extrair as características da voz e, a partirdestas, realiza a animação do movimento labial. Dependendodo tempo de aquisição e da taxa de amostragem do sinal,este método pode se tornar custoso computacionalmente, epor isso, não é vantajoso para aplicação em dispositivosportáteis com baixo poder computacional, como osdispositivos em utilização preferencial na presenteinvenção.
Um método similar foi proposto por G. Zoric e I. S.Pandzic no trabalho intitulado "Real-time LanguageIndependent Lip Synchronization Method Using a GeneticAlgorithm" publicado no Journal of Signal Processing, p.3644 a 3656 em dezembro 2006. Nesse trabalho, o resultadoda Transformada rápida de Fourier (FFT) é convertido em umanova escala. No sinal convertido, é aplicada a Transformadadiscreta do cosseno (DCT) e, após todas estas etapas, sãoextraídos os coeficientes que representam o movimento labial. Para aplicações com processadores dedicados ou emambiente PC, o método é capaz de operar em tempo real.Contudo, a quantidade de operações necessárias pararealizar este procedimento é muito maior do que o métodoproposto por McAlister, tornando-se inviável para aplicações em dispositivos portáteis devido ao custocomputacional de todas estas operações.
Na patente US 6,735,566, concedida em 11 de maio de2004, é proposto um método que utiliza o reconhecimento devoz para'uma animação facial realista. Este método utilizaum treinamento associando o vídeo da boca à voz paramodelar o movimento labial. Este método utiliza um ModeloEscondido de Markov (Hidden Markov Model) para a extraçãodas características labiais de cada som falado. Este tipode abordagem possui altas taxas de acerto e uma grande confiabilidade, no entanto, é um método de reconhecimentode padrões muito complexo computacionalmente, o que o tornaimpraticável devido ao custo computacional elevado.
Outro exemplo de animação facial a partir da voz foidescrito na patente US 6,665,643, concedida em 16 dedezembro de 2003, titular: Telecom Italia Lab S.P.A. Deacordo com os ensinamentos da presente invenção, oreconhecimento de fonemas (vogais e consoantes) falados érealizado para animar um modelo virtual. Na referidapatente, cada palavra falada é transformada em um texto e apartir do texto, são identificados os fonemas. A referidasolução se mostra bastante eficiente, contudo requer oreconhecimento de muitos fonemas. O melhor desempenho éobtido identificando o conteúdo de toda a mensagem falada,sendo indicado para comunicação off-Iine.
O artigo proposto por S. Kshiragas e N. Magnenat-Thalmann intitulado "Lip Synchronization Using LinearPredictive Analysis" publicado no IEEE em julho de 2000realiza o reconhecimento de vogais utilizando a codificaçãopor predição linear (LPC - Linear Predictive Coding' ) paraa extração de características e estas são processadas poruma rede neural.
Um método similar foi proposto por O. Farooq e S.Datta em seu trabalho intitulado "Phoneme Recognition usingWavelet Based Features" publicado no Journal of InformationSciences vol. 150, p. 5-15 em março de 2003. Este utilizaa Transformada rápida Wavelet para extrair ascaracterísticas do sinal de áudio e também utiliza uma redeneural para reconhecer fonemas na língua inglesa.A extração de características por predição linear ouWavelet seguida de sua aplicação em uma rede neural possuibaixa complexidade computacional. Em ambos os métodos, oreconhecimento das vogais é feito para falantes da línguainglesa. Contudo, é importante ressaltar que a pronuncia emoutras línguas, como, por exemplo, a língua portuguesa,possui uma variedade de fonemas muito maior. Isso se deveao fato de que uma mesma vogai pode ter algumas variaçõestônicas e nasais graças aos diferentes sotaques dasdiversas regiões brasileiras. Consequentemente, os métodosbaseados em predição linear ou Wavelet possuem oinconveniente de gerar falsos reconhecimentos devido a estavariedade.
0 documento de patente US 20090158184, titular: AOLLLC, publicado em 18 de junho de 2009 reivindica um sistemae um método para animar um avatar com base na animaçãopercebida em um segundo avatar, o método compreendendo asetapas de representar graficamente um primeiro usuário comum primeiro avatar capaz de ser animado; representargraficamente um segundo usuário com um segundo avatar capazde ser animado, em que mensagens de comunicação sãoenviadas entre o primeiro e o segundo usuário; receber umaindicação de uma animação de um primeiro avatar; acessarinformação associando animações com o avatar; identificar,com base na informação acessada, uma animação para osegundo avatar que é responsiva à animação indicada doprimeiro avatar e em resposta à indicação recebida, animaro segundo avatar com base na animação responsivaidentificada. De acordo com os ensinamentos do referidodocumento de patente, o avatar é animado através de umaaplicação tipo mensagens on-line (como, por exemplo, MSN ouSkype). 0 avatar se mexe em função das palavras escritas nosistema. Assim, não há qualquer tipo de reconhecimento de sons.
A patente US 7,176,956, concedida em 13 de fevereirode 2007, titular: MOTOROLA INC, trata da animação deavatares em uma comunicação entre dispositivos portáteis(video chamada). Os avatares se mexem através das mudanças de parâmetros obtidos através de técnicas de reconhecimentode imagens providas pela câmera do celular.
A patente US 7,231,205, concedida em 12 de junho de2007, titular: Telefonaktiebolaget LM Ericsson trata daanimação de avatares em uma comunicação entre dispositivos portáteis. 0 sistema é conectado a um servidor que promoveo enlace entre os dispositivos e é ele que provê o serviçode avatares. 0 estado dos avatares pode ser modificadoatravés do teclado do celular, mas não prevê oreconhecimento de sons.A patente US 6,665,640, concedida em 16 de dezembro de2003, titular: Phoenix Solutions, Inc apresenta um avataranimado utilizando a voz. 0 avatar usa FAPs como parâmetrosde movimentação. Os FAPs são obtidos diretamente de umstream MPEG4. Este sistema não faz a simplificação dosvisemas, nem é otimizado para dispositivos com pouco poderde processamento, como os telefones móveis atuais.
A patente US 7123262, concedida em 17 de outubro de2006, titular: Telecom Italia Lab S.p.A usa visemas e gera FAPs sobre um rosto previamente parametrizado com ActiveShape Model. De acordo com o referido documento, a voz e aimagem são unidas para fazer a movimentação do modelo derosto, o que não constitui um avatar, mas sim uma técnicade animação de um rosto modelado. Estas técnicas são, emgeral, pesadas e complexas, o que inviabiliza a aplicaçãodas mesmas em dispositivos portáteis.
0 documento WO 2008031955, publicado em 20 de março de2008, descreve um método e sistema para a animação de umavatar em um aparelho móvel com base no sinal de som correspondendo à voz de um interlocutor em uma conversaçãotelefônica. 0 referido método propõe a aparência emovimentação dos avatares em tempo real ou quase real,sendo o avatar escolhido e/ ou configurado através de umserviço online na rede. 0 sistema do documento WO2008031955 compreende um aparelho de comunicação móvel,servidor de recepção de sinal, bem como meios de cálculo eanálise do sinal de som para movimentar o avatar e simularconversação em tempo real.
Aspectos da presente invenção especificam um método decomunicação utilizando um humanóide virtual animado durantechamadas convencionais. De acordo com a presente invenção,a animação é feita utilizando um sistema de reconhecimentodas vogais faladas para animação dos lábios, associado aoreconhecimento de tons DTMF para animação dos movimentos dacabeça e feições faciais. Esse sistema se diferencia dossistemas conhecidos por usar técnicas computacionalmenteeficientes. Isto implica em um trabalho de otimização eajuste de técnicas de processamento digital de sinais paraviabilizar sua implementação em dispositivos portáteis.
O método aqui descrito pode ser implementado de formagenérica em dispositivos portáteis como PDAs, celulares eSmart Phones que possuam acesso ao serviço de telefoniamóvel.
A presente invenção se diferencia das soluçõesconhecidas por propiciar as seguintes vantagens diante doestado da técnica:
Baixo custo computacional: os processamentosrealizados possuem um baixo esforço computacional e podemser utilizados para comunicação em tempo real, portanto, emdispositivos portáteis.
- Independência à intensidade da fala: a animação daabertura da boca é feita a partir da avaliação da energiados últimos segundos da comunicação. Independentemente daintensidade (alta ou baixa) do sinal de áudio, o avatarmove os lábios naturalmente.
- Reconhecimento de vogais preferencialmente adaptadopara o reconhecimento do idioma português: o método proposto foi adaptado para reconhecer as vogais sobcondições diferentes de sotaques regionais, como ocorre,por exemplo na língua portuguesa.
- Gerador sintético de expressões faciais: o métodoproposto possui a capacidade de gerar expressões faciais sintéticas de forma próxima às expressões faciais reais.
- Movimentação do humanóide virtual através de tonsDTMF: o sistema proposto possibilita a reprodução demovimentos da cabeça e expressões faciais utilizando ocanal de voz, não requisitando o envio de informação noscanais de dados durante a comunicação.
- Novas formas de vídeo-chamada: o método propostopela presente invenção pode ser utilizado em diferentesaplicações a fim de agregar valor ao serviço de chamadasconvencionais das operadoras de telefonia móvel através desua utilização ao receber uma chamada originada de umtelefone fixo ou móvel.
Recurso Stand Alone: apenas um dos terminaisenvolvidos na conversação precisa ter um dispositivo para exibição do avatar. O segundo terminal pode interagir com oprimeiro que contém os meios de exibição pressionando umadas teclas de um telefone convencional, por exemplo.
- Diminuição no tráfego da rede: a transmissão pelocanal de voz utiliza bem menos tráfego que uma comunicação utilizando video-chamadas e deixa-o disponível para outrasaplicações como, por exemplo, o vídeo streaming.
- Utilização de dispositivos portáteis de baixo custo:a presente invenção pode ser utilizada em celulares debaixo custo que não possuem componentes adicionais, como por exemplo, câmera, touch-scren, acesso à rede 3G.Sumário da Invenção
0 método proposto pela presente invenção realiza areprodução do movimento labial do humanóide virtual atravésdo reconhecimento das vogais faladas. A utilização de vogais é vantajosa, pois estas são produzidas a partir daacústica da cavidade oral, influenciando o formato dolábio.
Além disto, o sistema proposto propiciará a animaçãodos movimentos da cabeça e expressões faciais através daassociação desses gestos com os tons de duas freqüênciasutilizados na discagem dos telefones (Dual-Tone Multi-Frequential - DTMF). Por exemplo, ao receber o tom DTMF datecla 2, o humanóide pisca o olho esquerdo. Os tons DTMFsão formados a partir da combinação de dois impulsoselétricos de freqüências especificadas. A probabilidade dea voz humana gerar a combinação de duas freqüênciasutilizadas neste padrão é baixíssima, por isto, elas sãosimples de serem detectadas e filtradas.
Com base no princípio acima exemplificado, o sistemada presente invenção tornará mais agradável a comunicaçãoem chamadas de áudio, visto que o sistema é capaz de passara sensação, para o usuário, de uma conversa utilizandovídeo-chamada. A partir da utilização deste sistema, não seria necessário adquirir o vídeo, comprimi-lo e enviar osdados pela rede.
Além disto, o humanóide possibilitará às pessoasidosas e pessoas com dificuldade de audição compreendermelhor a conversa, pois a percepção da fala não depende apenas da informação acústica. As informações visuais como,por exemplo, os movimentos labiais e expressões faciaisinfluenciam na percepção da informação falada.
Um grande diferencial da invenção é que estapossibilita uma inserção de novas funcionalidades adispositivos portáteis e móveis, sem a necessidade demodificação no seu desenho, seja na sua placa de montagemou pela adição de teclas extras no seu layout. Tudo issosem a inclusão de um servidor intermediário para tratamentode dados, o que possibilita a utilização da presenteinvenção em dispositivos atualmente disponíveis no mercadoa partir de uma simples atualização de software.
A presente invenção fornece uma nova funcionalidadeaos dispositivos portáteis existentes no mercado através dasua utilização ao acessar caixa-postal, atendentes virtuaisou receber chamadas. Por exemplo, uma atendente virtualpoderia interagir com o usuário dependendo dos comandosenviados pelo usuário. Neste caso, ao apertar uma tecla quenão está nas opções disponíveis no serviço, o avatar começaa balançar a cabeça indicando ao usuário que ele fez algoerrado ou fica com as feições tristes.
Para diminuir o esforço computacional e tornar viávela aplicação em um dispositivo portátil, na presenteinvenção, as vogais são utilizadas para animar o humanóidevirtual. A vogai constitui a base da sílaba e sua emissão éfeita basicamente pelo movimento labial. Por exemplo, aofazer os lábios ficarem com a forma utilizada parapronunciar a vogai "o", não é possível pronunciar a nenhumadas outras vogais.Além disso, a presente invenção é especialmenteadaptada a um método de extração de característicasotimizado para idiomas com maior número de variaçõesfonológicas, como, por exemplo, o português do Brasil, realizando adaptações para tornar robusto o método quanto aestas variações de entonações.Breve Descrição das Figuras
Os objetivos e as vantagens da presente invençãotornar-se-ão mais evidentes a partir da descrição detalhada a seguir de um exemplo de concretização da invenção edesenhos anexos fornecidos a título de exemplo não-limitativo, em que:
A figura 1 apresenta um diagrama esquemático dofuncionamento do sistema proposto.
A figura 2 apresenta um modelo genérico de dispositivoportátil, no qual a presente invenção pode serimplementada.
A figura 3 apresenta um diagrama de blocos do métodopara animação do humanóide virtual.
A figura 4 apresenta uma visão geral dofuncionamento do método proposto pela presente invenção.
A figura 5 apresenta um diagrama detalhado daetapa de reconhecimento do formato labial e amplitude deabertura da boca, de acordo com a modalidade preferida dapresente invenção.
A figura 6 apresenta um diagrama detalhado daetapa de reconhecimento do formato labial utilizandoWavelets e Rede Neural, de acordo com a modalidadepreferida da presente invenção.
A figura 7 apresenta uma vista frontal do humanóidevirtual e principais pontos característicos utilizadosnesta proposta de patente de invenção para animação facial.
Descrição das Concretizações Preferidas da Invenção
Na figura 1, é ilustrado o funcionamento do sistema dapresente invenção. Um usuário 100 realiza uma conversaçãoatravés de chamada convencional utilizando um dispositivoportátil 101. Esta chamada pode ser efetuada entre odispositivo portátil e um usuário 110 utilizando umtelefone fixo 111 ou um telefone celular 112. Além disto, ousuário 100 pode utilizar o sistema proposto para acessarserviços da operadora de telefonia móvel 120, como, porexemplo, a caixa postal 121, o serviço de auto-atendimento122 ou reproduzir mensagens de voz 123.
Durante a chamada, o usuário 100 tem a liberdade deiniciar o sistema proposto e passar a visualizar ohumanóide virtual. A cada sílaba reconhecida, a vogai e aboca do humanóide é animada na tela 131 do dispositivoportátil 101. Eventualmente, ao receber um tom DTMF, odispositivo portátil 101 realiza a modificação da feição dohumanóide 132 ou ativa um gesto especifico 133. Caso osdois dispositivos utilizados na comunicação possuam o sistema proposto, ambos poderão ter a sensação de umavideo-chamada, em que cada cliente pode controlar asfeições do humanóide virtual e tem a boca animada pelosistema proposto. Isto tornará mais interessante edivertida a chamada tradicional, pois emoções e sentimentospoderão ser mais perceptíveis através da utilização dohumanóide virtual, bem como auxiliará na inteligibilidadeda comunicação para pessoas que possuem alguma dificuldadede audição causada pelo ruído do ambiente.
De acordo com a modalidade preferida da invenção, o dispositivo computacional deve ser composto por unidade deprocessamento central ou outro elemento de processamentopara executar instruções computacionais com memória paraarmazenamento de informações e instruções, display ou outrodispositivo que exiba ou forneça saída visual de informações, teclado ou outro dispositivo de entrada parainserção de informações, componentes de entrada e saída deáudio tais como microfone e alto falante; e componentes queforneçam o acesso a rede de telefonia móvel, conformemostrado na figura 2.O método aqui proposto permite a animação dosmovimentos da cabeça, a seleção de feições e oreconhecimento do movimento labial.
0 método da presente invenção utiliza os parâmetros FAP para animar o humanóide virtual. Esses parâmetros FAPsão compostos por um conjunto de 68 parâmetros que definema modificação da forma ou movimentos faciais. 0 método dereconhecimento de voz da presente invenção combina umasérie de algoritmos com o objetivo de aperfeiçoar seuesforço computacional e robustez, visando viabilizar a suautilização em dispositivos com restrições de capacidadecomputacional, mais notadamente, os dispositivos portáteis.Este método está dividido conforme apresentado naA figura 3 e é composto das seguintes etapas:
1. Configuração da comunicação: nesta etapa sãoavaliadas as opções pessoais do usuário. Este tem aliberdade de associar um avatar dentre um conjunto dehumanóides virtuais disponíveis no dispositivo portátil quemais se assemelhe a um contato de sua agenda telefônica. Desta forma, ao receber uma chamada ou uma mensagem dacaixa postal deste usuário, é perguntado ao usuário se estedeseja ativar a animação do humanóide virtual. Caso ousuário deseje este tipo de comunicação, o avatar associadoé utilizado para a comunicação. Além disto, dentre oshumanóides virtuais disponíveis, existem aqueles exclusivospara as operadoras de telefonia móvel, no qual cadaoperadora possui um humanóide específico e ao utilizar osistema proposto para acessar algum serviço de auto-atendimento acessado pelo usuário de telefonia móvel.
2. Aquisição do áudio: nesta etapa, é realizada aaquisição do áudio recebido (MMS ou chamada convencional)em formato padronizado para ser utilizado pelas outrasetapas de reconhecimento.
3. Análise de Energia do Áudio: o método propostoanalisa a relação da energia do sinal em uma quantidadefixa de amostras do sinal de áudio. Esta quantidade forma oque chamamos de quadro de áudio. É calculada uma relaçãoentre a energia do quadro atual e de seus anteriores,dentro de uma janela de tempo para dimensionar o quanto aboca está aberta.
4. Reconhecimento das vogais faladas: nesta etapasão analisados os quadros de áudio para reconhecer asvogais faladas. Esta etapa realiza a extração decaracterísticas do sinal de áudio e as aplica em uma redeneural progressiva (feed foward propagation) com pesosfixos, gerados a partir de um treinamento feito fora dodispositivo portátil utilizando um conjunto de amostras deáudio. Este tipo de solução foi escolhido devido seu baixocusto computacional. Um diferencial da presente invençãoquanto aos métodos conhecidos é a otimização do método deextração de características para o reconhecimentó dasvogais faladas em diferentes entonações e sotaques doidioma português brasileiro.
5. Sintetizador de expressões faciais: nesta etapa,são gerados artificialmente alguns gestos específicos dorosto que simulam movimentos naturais feitos por umapessoa. Por exemplo, como piscamos inúmeras vezes ao longodo dia, este movimento pode ser simulado através de umprocesso aleatório e usado para animar os olhos e olhar dohumanóide virtual.
6. Animação da cabeça e gestos faciais: nesta etapasão reconhecidos os tons DTMF recebidos no canal de áudio.Após o reconhecimento do tom recebido, é configurada afeição ou movimentos faciais pré-definidos.
7. Fusão das Informações: nesta etapa, asinformações reconhecidas e geradas artificialmente sãoorganizadas para formar uma única informação que seráutilizada durante a animação do humanóide virtual. Estaetapa realiza uma análise de prioridades entre cadainformação recebida. Nas informações, a vogai reconhecidatem prioridade maior do que as feições faciais reconhecidaspelos tons DTMF. Enquanto o usuário está falando, o formatolabial é controlado pelo reconhecimento de vogais e, casocontrário, o formato é controlado a partir da feiçãoescolhida através do tom DTMF.
8. Geração dos Parâmetros de Animação Facial: nestaetapa do processamento, as instruções são convertidas emparâmetros FAP, utilizando as informações definidas naetapa anterior. Por exemplo, a forma dos lábios édependente de quatro pontos característicos da boca. Aoreceber a instrução de boca vogai "A", um pacote FAP égerado, no qual os quatros pontos que definem a boca sãoidentificados e estes são enviados para a animação dohumanóide.
9. Animação do humanóide virtual: nesta etapa, érealizada a modificação das feições do humanóide atravésdos FAP recebidos.
0 método proposto pela presente invenção é apresentadona figura 4. 0 sistema no qual o referido método pode serimplementado é composto por um dispositivo portátil,representado pela referência 400, integrado a um método deprocessamento de áudio e de geração da animação dohumanóide virtual.
A primeira etapa do método, representada por E410,realiza o controle da aplicação de reconhecimento de voz epose da cabeça. Dependendo da personalização do usuário,um avatar especifico é utilizado para a comunicação dentrode um conjunto de avatares 411 a 413. Por exemplo, aorealizar uma chamada para o serviço de auto-atendimento,para pessoa do sexo feminino e para uma pessoa do sexomasculino, são usados os avatares 411, 412, 413,respectivamente.
Após isto, são realizadas as etapas de reconhecimentodas vogais faladas E420, sintetização de movimento facialP430 e reconhecimento de tons DTMF E440. Por exemplo,quando o usuário remoto está falando, a etapa E420 realizao reconhecimento das vogais faladas e, na etapa E430, osmovimentos do olhar são animados durante toda a chamada. Aoreceber um tom DTMF, na etapa E440, é realizada amodificação do tipo de feição, entre um conjunto de, porexemplo, doze feições padronizadas.
A etapa E420 é dividida em várias etapas conformeilustrado detalhadamente na Figura 5. A primeira etapadeste processamento consiste na geração do quadro de áudio,representada por E500. Esta pode ser feita através daamostragem da voz recebida pela linha telefônica 501 ou doarquivo disponível em uma mensagem MMS 502. Em todos oscasos, um quadro de áudio com duração de 32 ms é adquiridoe para esta duração são processadas 512 amostras, queformam o quadro de áudio 503. Por exemplo,independentemente da origem, o sinal de áudio é convertidopara o formato PCM com 512 amostras para cada 32 ms,representado esquematicamente através de 503. Estaconversão é feita através do código implementado no DSP dodispositivo portátil.
Reconhecimento da Abertura da Boca
Após esta etapa de condicionamento de dados, érealizado o cálculo da energia do sinal de voz em cadaquadro adquirido em E510. Cada valor é colocado em umbuffer e é calculada a energia máxima nos últimos N msrepresentada por EMax, conforme ilustrado em 511, em queN varia entre 0,5 e 1,5 segundos, sendo preferencialmenteutilizado o valor de 1 segundo.
Normalmente, a energia da boca varia ao pronunciarvários fonemas. Por exemplo, ao sustentar um fonema, aenergia é máxima e durante as pausas entre palavras aenergia é praticamente nula. Por causa disto, é calculado omínimo de energia para a detecção de voz EMjn como umafração de EMax. Esta razão pode variar de entre 1 % a 50%, sendo preferencialmente utilizado o valor de 10%. Quandoa energia é menor que este mínimo, indica que o usuário nãoestá falando, mantendo o avatar com a boca fechada.Caso a animação fosse feita só em função do valor RMSda energia, seria necessário definir um valor mínimo emáximo. Desta forma, uma pessoa falando baixo, faria ummovimento pequeno nos lábios do avatar.
Esta razão entre EMjn e o Eiviax possibilita umreconhecimento de abertura da boca independente daintensidade da voz. 0 formato da boca, independentemente dousuário falar baixo ou alto, se adapta à animação facial emfunção da razão Emn / EMax.
Quando a energia é maior do que um limiteespecificado, o método da presente invenção realiza oprocessamento do quadro de áudio para identificar aamplitude da abertura da boca na etapa E520 e a vogaifalada na etapa E530. Desta forma, a razão entre a energiamáxima e a energia do quadro atual é utilizada paracontrolar a dimensão de abertura da boca. Por exemplo,quando a energia é igual a EMax, atribui-se o máximo deabertura, conforme mostrado na etapa 521. Quando a energiaé menor que EMin, atribui-se a boca fechada. No momento emque a energia é maior do que EMjn e menor do que EMgx aboca é desenhada em função da razão mencionadaanteriormente.Reconhecimento das vogais faladas
Após este cálculo, na etapa E520, o formato e adimensão de abertura da boca são determinados. 0 mesmoquadro de áudio é processado a fim de extraircaracterísticas capazes de identificar o tipo de vogaifalada e tem seu funcionamento detalhado na figura 6.
Como um sinal de voz pode ser considerado estacionáriodentro de uma janela de tempo em torno de IOms. Na etapaE600, o quadro E601 é divido em quadro sub-quadros,conforme mostrado etapa E602. Em cada um destes, sãoextraídas as características da voz através dos blocos E610e E620.
A etapa E620 realiza a extração de características,utilizando, preferencialmente, uma abordagem multi-escalaWavelet não-padrão. De acordo com a concretização preferidada invenção, a análise de um sinal através de TransformadaWavelet é feita através da múltipla convolução de duasfunções (escalamento e Wavelet), conforme a abordagem daTransformada Wavelet Rápida (FWT - Fast Wavelet Transform).
É importante mencionar que a aplicação seguida destasfunções é complexa computacionalmente em uma imagem. Istoocorre devido à grande quantidade de pixels da imagem. Já osinal de áudio processado possui apenas 64 amostras. Mesmoaplicando convoluções sucessivas (para o cálculo de váriosníveis) o custo computacional é baixo.
A Transformada Wavelet Rápida realiza a decomposiçãode um sinal através da convolução do sinal seguido de umasub-amostragem. Na etapa E610, é realizado o cálculo doscoeficientes em vários níveis de escalamento, conformemostrado na etapa 611.
A energia Ej de um nível j para todos os níveis daTransformada Wavelet pode ser calculada a partir da somados quadrados dos coeficientes de detalhes.
De acordo com a concretização da presente invenção, naetapa E620, além da energia E1, são calculadas a energiatotal Etoi e a entropia residual Wavelet H1,respectivamente descritas por
<formula>formula see original document page 31</formula>
Para diminuir o esforço computacional no cálculo deextração de características e melhorar o esforçocomputacional, de acordo com a presente invenção, a energiaé calculada para níveis específicos da decomposição. Ascaracterísticas podem ser calculada em qualquer combinaçãoentre os níveis da transformada, de 1 a Jmax,preferencialmente são utilizados os níveis 1, 3, 4 e 5 paracalcular os coeficientes, sendo a escolha de não utilizarum nível específico feita através de testes experimentaiscom várias combinações de características para verificar acombinação que apresenta melhor desempenho.
Após este cálculo, na etapa E630, as característicassão aplicadas em uma rede neural progressiva, treinada como algoritmo de backpropagation. Esta rede neural possui,preferencialmente, N neurônios na camada de entrada (N =número de características usadas), oito na camada escondidae seis na camada de saída, em que as cinco primeiras saídasindicam cada tipo de vogai e a sexta saída indica aausência de vogai. Na etapa de reconhecimento, o valor dasaída que possui maior intensidade é considerada como vogaifalada.
Sintetizador de expressões faciais
A seguir é descrito o método de geração artificial dosmovimentos dos olhos e do olhar, representado por E430.
Para piscar os olhos, o perfil de olho fechado é aplicadona etapa E430, espera-se 100 milissegundos e aplica-se operfil de olho aberto novamente simulando o piscar dosolhos. Em seguida, seleciona-se um valor inteiro aleatórioentre 3000 e 4500 e o usa-se como tempo, em milissegundos,entre a piscada atual e a próxima, sendo o procedimentorepetido.
Para controlar os movimentos do globo ocular é feitoum processamento semelhante. Neste caso, o controle é feitoatravés da aplicação de pequenos ângulos de rotação para aslaterais. Esses ângulos são valores aleatórios entre -5 e 5graus que são aplicados simultaneamente aos dois olhos emum intervalo de tempo aleatório entre 100 e 1000milissegundos.
Reconhecimento de Tons DTMF para animação de movimentosfaciais
A seguir é descrita a etapa de reconhecimento de tonsDTMF para animações das feições faciais do humanóidevirtual, representada por E440. O reconhecimento de tonsDTMF é de conhecimento ordinário para uma pessoa versada natécnica, podendo ser implementado utilizando um filtrodigital passa-faixa individual para cada freqüência. Quandoum par de tons é reconhecido, o valor do número digitado éidentificado, determinando qual gesto é desejado.
Para isto, são definidos alguns perfis de expressõesque serão aplicados sempre que um comando correspondentefor disparado. O perfil de animação pode ser relacionado aemoções, como por exemplo, felicidade, tristeza, raiva,tédio, susto, confusão, sarcasmo, e pode também serrelacionado a movimentos da cabeça, por exemplo, sim e não,ou movimentos isolados do rosto, como mostrar a língua,levantar a sobrancelha, dentre outras. Assim, ao receber otom DTMF referente a um número, o comando "fique feliz" éenviado para a etapa de fusão de informações, representadopor E450.
Fusão de Informações
Nesta etapa, são avaliadas as prioridades entre osdiferentes tipos de reconhecimento. Por exemplo, em relaçãoaos movimentos labiais, o reconhecimento da vogai faladaE420 tem prioridade na geração do gesto facial, isto é, aoreceber um comando de mostrar a língua, o humanóide sómostrará a língua enquanto o usuário não falar. No momentoque ele começar a falar, a movimentação da boca é feitaapenas através das vogais.
Além disto, alguns dos perfis são temporários e outrossão permanentes. Por exemplo, movimentos como sim e não sãotemporários, enquanto emoções como tristeza, alegria ounormal são permanentes. Os movimentos temporários possuemduração finita, ou seja, o avatar balança a cabeçaindicando sim durante 5 segundos, voltando ao estadoanterior. Desta forma, E450 realiza o controle de qualfeição é realizada para que, em seguida, sejam gerados osparâmetros FAP na etapa E4 60, que em seguida será animadana etapa E470.
Criação dos FAP
A etapa de formação dos parâmetros FAP E4 60 é descritaa seguir. A animação é baseada em um conjunto de pontoscaracterísticos da face ou Feature Points (FP). Acodificação MPEG4 utiliza no total 84 FP, os quais, deacordo com a modalidade preferida da invenção, são usadosum subconjunto de trinta e três pontos. Por exemplo, acodificação propõe dezoito FP para os lábios. Contudo,apenas oito pontos característicos podem animareficientemente os lábios.
De acordo com a modalidade preferida da invenção, sãoutilizados apenas três FP para movimentação da cabeça, seispara a boca, quatro para cada olho, três para cadasobrancelha, cinco para o nariz, um para o queixo e doispara cada bochecha. Os principais FP são mostrados nafigura 7.
Na figura 7, alguns FP são desenhados com uma bolinhacheia (701 - 726) e outros com uma bolinha vazia. Osprimeiros são usados diretamente na animação, ou seja, sãomovimentados pelos FP em determinadas direções. Os segundosnão são afetados pelos FP e permanecem imóveis durante todoo processo de animação. A função dos pontos estáticos é deservir como limite para a deformação do rosto do humanóidequando um FP não estático é movimentado.
Por exemplo, ao receber o visema da vogai "0", a etapaE470 especifica os seis pontos extremos da boca parasimular um circulo. Os FAP utilizam como base odeslocamento dos FP para modificação no formato geométricodo modelo facial.
A face neutra é definida a partir de um sistema decoordenas da mão direita (eixo X positivo para a direita, Ypositivo para cima e Z positivo saindo do papel). Quando aface "olha" para a direção Z positiva, todos os músculos daface estão relaxados, pálpebras tangenciando a íris,pupilas medindo um terço de tamanho da pupila do modelo,lábios fechados formando uma linha horizontal de um cantoao outro da boca.
Diferentemente das soluções conhecidas, na presenteinvenção, os deslocamentos são sempre relativos aos FP naface neutra, e não em relação à posição anterior. Istoevita que a perda de um quadro de animação comprometa osquadros subseqüentes.
Cada perfil de animação facial é composto pelosíndices do FP e dos deslocamentos de cada índice em relaçãoà face neutra, um para cada eixo, dx, dy e dz. Por exemplo,para fazer o avatar fechar os olhos, são utilizados quatroFPs e doze deslocamentos.
Além disto, em relação à boca, são utilizados apenascinco possíveis configurações, uma para cada vogai e operfil neutro (posição inicial). A partir dos perfis, orespectivo FAP é gerado e este é passado para a etapa deanimação E470.
Animação Facial em Dispositivos Portáteis
Para a animação, a modificação de cada um dos FP fazcom que outros pontos em torno do mesmo sejam afetados.Isso forma uma região de influência para cada um dos FP. Ospontos influenciados são calculados através de um métodoconhecido, em que o deslocamento de cada um pontos serádado por uma média ponderada dos deslocamentos dos seus FPinfluenciadores. Desta forma, a partir de todos os pontosmencionados, verifica-se o deslocamento de cada um destesem relação ao ponto atual. Quando a diferença é maior doque um limite de tolerância, os pontos do modelo sãomodificados, sendo possível animar as feições desejadas.
A presente invenção tendo sido descrita vai serevidente para uma pessoa versada na técnica que muitasalterações e mudanças podem ser feitas na mesma, sem que seafaste do espírito ou do escopo da referida invenção, comodefinido nas reivindicações anexas.

Claims (18)

1.) Método de síntese de movimento labial paraanimação de cabeças virtuais através do processamento devoz em dispositivos portáteis caracterizado por compreenderas seguintes etapas:- Configuração da comunicação para avaliação (E410) dasopções pessoais do usuário e associação de um avatar entreum conjunto de humanóides virtuais disponíveis nodispositivo portátil;- Aquisição de áudio recebido em formato padronizado;- Análise de Energia do Áudio (E510) em uma quantidadefixa de amostras que formam um quadro de áudio, sendo arelação entre a energia do quadro atual e de seusanteriores calculada, dentro de uma janela de tempo paradimensionar o quanto a boca do avatar está aberta;- Reconhecimento das vogais faladas (E420) por meio daanálise dos quadros de áudio para reconhecer as vogaisfaladas, a partir da extração de características do sinalde áudio e a aplicação em uma rede neural progressiva compesos fixos, gerados a partir de um treinamento feito forado dispositivo portátil, utilizando um conjunto de amostrasde áudio;- Sintetizador de expressões faciais (E430) que geraartificialmente alguns gestos específicos do rosto quesimulam movimentos naturais feitos por uma pessoa.- Reconhecimento dos tons DTMF recebidos no canal deáudio (E440) para a animação da cabeça e gestos faciais;Fusão das informações reconhecidas e geradasartificialmente (E450) para formar uma única informação queserá utilizada durante a animação do humanóide virtual,realizando uma análise de prioridades entre cada informaçãorecebida, sendo que a vogai reconhecida tem prioridademaior do que as feições faciais reconhecidas pelos tonsDTMF;- Geração dos Parâmetros de Animação Facial através daconversão de instruções em parâmetros FAP (E460),utilizando as informações definidas na etapa anterior;- Animação do humanóide virtual (E470) por meio damodificação das feições do humanóide através dos FAPrecebidos.
2.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que a referida etapa dereconhecimento das vogais faladas (E420) compreende ageração do quadro de áudio (E500) que pode ser feitaatravés da amostragem da voz recebida pela linha telefônica(501) ou do arquivo disponível em uma mensagem MMS (502).
3.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-2, caracterizado pelo fato de que um quadro de áudio comduração de 32 ms é adquirido e para esta duração sãoprocessadas 512 amostras, que formam o quadro de áudio(503), sendo a conversão feita através do códigoimplementado no DSP do dispositivo portátil.
4.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que após a referida etapa decálculo da energia do sinal de voz em cada quadro adquirido(E510), cada valor é colocado em um buffer e é calculada aenergia máxima nos últimos N ms {EMax ) onde N varia entre-0,5 e 1,5 segundos, sendo preferencialmente utilizado ovalor de 1 segundo.
5.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-4, caracterizado pelo fato de que o mínimo de energia paraa detecção de voz EMjn é calculado como uma fração de EMax,a referida razão variando entre 1 % a 50 %, sendopreferencialmente utilizado o valor de 10%.
6.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-4, caracterizado pelo fato de que a razão entre a energiamáxima e a energia do quadro atual é utilizada paracontrolar a dimensão de abertura da boca.
7.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que, além da energia Ej , sãocalculadas a energia total Etot e a entropia residualWavelet Hj , respectivamente descritas por:<formula>formula see original document page 41</formula>onde a energia é calculada para níveis específicos dadecomposição e as características podem ser calculada emqualquer combinação entre os níveis da transformada de 1 aJmax , preferencialmente são utilizados os níveis 1, 3, 4 e-5 para calcular os coeficientes, sendo a escolha de nãoutilizar um nível específico feita através de testesexperimentais com várias combinações de característicaspara verificar a combinação que apresenta melhordesempenho.
8.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-7, caracterizado pelo fato de que, após o cálculo de Etot eH1, na etapa E630, as características são aplicadas em umarede neural progressiva, que possui, preferencialmente, Nneurônios na camada de entrada (N = número decaracterísticas usadas), oito na camada escondida e seis nacamada de saída, em que as cinco primeiras saídas indicamcada tipo de vogai e a sexta saída indica a ausência devogal.
9.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que o controle dos movimentosdo globo ocular é feito através da aplicação de pequenosângulos de rotação para as laterais, tendo os referidosângulos valores aleatórios entre -5 e 5 graus que sãoaplicados simultaneamente aos dois olhos em um intervalo detempo aleatório entre 100 e 1000 milissegundos.
10.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que na referida etapa defusão de informação alguns dos perfis são temporários eoutros são permanentes.
11.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que a referida etapa deformação dos parâmetros FAP (E460) é baseada em um conjuntode pontos característicos da face ou Feature Points (FP) .
12.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-11, caracterizado pelo fato de que alguns dos referidospontos característicos da face são usados diretamente naanimação em determinadas direções.
13.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que os deslocamentos sãosempre relativos aos FP na face neutra e não em relação àposição anterior, evitando que a perda de um quadro deanimação comprometa os quadros subseqüentes.
14.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que cada perfil de animaçãofacial é composto pelos índices do FP e dos deslocamentosde cada índice em relação· à face neutra, um para cada eixo,dx, dy e dz.
15.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que, em relação à boca, sãoutilizados apenas cinco possíveis configurações, uma paracada vogai e o perfil neutro (posição inicial), sendo que apartir dos perfis, o respectivo FAP é gerado e este épassado para a etapa de animação E470.
16.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que, para a animação, amodificação de cada um dos FP faz com que outros pontos emtorno do mesmo sejam afetados, formando uma região deinfluência para cada um dos FP, em que os pontosinfluenciados são calculados através do deslocamento decada um pontos será dado por uma média ponderada dosdeslocamentos dos seus FP influenciadores, sendo averificação do deslocamento de cada um destes em relação aoponto atual feita a partir de todos os pontos mencionados.
17.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que permite a animação dosmovimentos da cabeça, a seleção de feições e oreconhecimento do movimento labial.
18.) Método de síntese de movimento labial paraanimação de cabeças virtuais, de acordo com a reivindicação-1, caracterizado pelo fato de que é adaptado para aextração de características para o reconhecimento dasvogais faladas em diferentes entonações e sotaques,particularmente do português.
BRPI0904540-6A 2009-11-27 2009-11-27 método para animar rostos/cabeças/personagens virtuais via processamento de voz BRPI0904540B1 (pt)

Priority Applications (2)

Application Number Priority Date Filing Date Title
BRPI0904540-6A BRPI0904540B1 (pt) 2009-11-27 2009-11-27 método para animar rostos/cabeças/personagens virtuais via processamento de voz
US12/819,164 US8725507B2 (en) 2009-11-27 2010-06-18 Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BRPI0904540-6A BRPI0904540B1 (pt) 2009-11-27 2009-11-27 método para animar rostos/cabeças/personagens virtuais via processamento de voz

Publications (2)

Publication Number Publication Date
BRPI0904540A2 true BRPI0904540A2 (pt) 2011-07-12
BRPI0904540B1 BRPI0904540B1 (pt) 2021-01-26

Family

ID=44069522

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0904540-6A BRPI0904540B1 (pt) 2009-11-27 2009-11-27 método para animar rostos/cabeças/personagens virtuais via processamento de voz

Country Status (2)

Country Link
US (1) US8725507B2 (pt)
BR (1) BRPI0904540B1 (pt)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691833A (zh) * 2020-05-18 2021-11-23 北京搜狗科技发展有限公司 虚拟主播换脸方法、装置、电子设备及存储介质
CN113808281A (zh) * 2021-08-23 2021-12-17 桂林未来鹏创软件有限公司 一种汽车虚拟精灵形象生成方法、***、装置和存储介质

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008141125A1 (en) * 2007-05-10 2008-11-20 The Trustees Of Columbia University In The City Of New York Methods and systems for creating speech-enabled avatars
JP2011203992A (ja) * 2010-03-25 2011-10-13 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8878773B1 (en) 2010-05-24 2014-11-04 Amazon Technologies, Inc. Determining relative motion as input
KR20120024247A (ko) * 2010-09-06 2012-03-14 삼성전자주식회사 사용자의 제스처를 인식하여 이동 장치를 동작하는 방법 및 그 이동 장치
US8805000B2 (en) * 2011-08-23 2014-08-12 Honeywell International Inc. Mobile energy audit system and method
US11169655B2 (en) * 2012-10-19 2021-11-09 Gree, Inc. Image distribution method, image distribution server device and chat system
US8970656B2 (en) * 2012-12-20 2015-03-03 Verizon Patent And Licensing Inc. Static and dynamic video calling avatars
US10708545B2 (en) * 2018-01-17 2020-07-07 Duelight Llc System, method, and computer program for transmitting face models based on face data points
US9094576B1 (en) * 2013-03-12 2015-07-28 Amazon Technologies, Inc. Rendered audiovisual communication
EP2976749A4 (en) * 2013-03-20 2016-10-26 Intel Corp AVATAR-BASED TRANSMISSION PROTOCOLS, SYMBOL GENERATION AND PUPPET ANIMATION
US9460541B2 (en) * 2013-03-29 2016-10-04 Intel Corporation Avatar animation, social networking and touch screen applications
KR20150068609A (ko) * 2013-12-12 2015-06-22 삼성전자주식회사 이미지 정보 표시 방법 및 장치
GB2523345B (en) * 2014-02-20 2018-01-17 Samsung Electronics Co Ltd Detecting user viewing difficulty from facial parameters
US9383989B1 (en) 2014-06-16 2016-07-05 Symantec Corporation Systems and methods for updating applications
US10402720B2 (en) 2014-07-16 2019-09-03 Qualcomm Incorporated Decomposing convolution operation in neural networks
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
US10672417B2 (en) * 2015-10-29 2020-06-02 True Image Interactive, Inc. Systems and methods for machine-generated avatars
US10217261B2 (en) * 2016-02-18 2019-02-26 Pinscreen, Inc. Deep learning-based facial animation for head-mounted display
CN107180446B (zh) * 2016-03-10 2020-06-16 腾讯科技(深圳)有限公司 人物面部模型的表情动画生成方法及装置
CN106653052B (zh) * 2016-12-29 2020-10-16 Tcl科技集团股份有限公司 虚拟人脸动画的生成方法及装置
JP6794921B2 (ja) * 2017-05-01 2020-12-02 トヨタ自動車株式会社 興味判定装置、興味判定方法、及びプログラム
JP6768597B2 (ja) * 2017-06-08 2020-10-14 株式会社日立製作所 対話システム、対話システムの制御方法、及び装置
US10770092B1 (en) * 2017-09-22 2020-09-08 Amazon Technologies, Inc. Viseme data generation
JP2019072787A (ja) * 2017-10-13 2019-05-16 シャープ株式会社 制御装置、ロボット、制御方法、および制御プログラム
US20190172240A1 (en) * 2017-12-06 2019-06-06 Sony Interactive Entertainment Inc. Facial animation for social virtual reality (vr)
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法
TWI687917B (zh) * 2018-03-07 2020-03-11 宏碁股份有限公司 語音系統及聲音偵測方法
US11386900B2 (en) * 2018-05-18 2022-07-12 Deepmind Technologies Limited Visual speech recognition by phoneme prediction
JP7500582B2 (ja) * 2019-01-25 2024-06-17 ソウル マシーンズ リミティド 発話アニメーションのリアルタイム生成
CN111953922B (zh) * 2019-05-16 2022-05-27 南宁富联富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN110531860B (zh) 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN112533030B (zh) * 2019-09-19 2022-05-17 聚好看科技股份有限公司 一种演唱界面的显示方法、显示设备及服务器
US11593984B2 (en) * 2020-02-07 2023-02-28 Apple Inc. Using text for avatar animation
CN113934289A (zh) * 2020-06-29 2022-01-14 北京字节跳动网络技术有限公司 数据处理方法、装置、可读介质及电子设备
US11361491B2 (en) * 2020-07-03 2022-06-14 Wipro Limited System and method of generating facial expression of a user for virtual environment
US11756251B2 (en) * 2020-09-03 2023-09-12 Sony Interactive Entertainment Inc. Facial animation control by automatic generation of facial action units using text and speech
US11438551B2 (en) * 2020-09-15 2022-09-06 At&T Intellectual Property I, L.P. Virtual audience using low bitrate avatars and laughter detection
US11908233B2 (en) 2020-11-02 2024-02-20 Pinscreen, Inc. Normalization of facial images using deep neural networks
CN113160839B (zh) * 2021-04-16 2022-10-14 电子科技大学 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法
CN115695943A (zh) * 2022-10-31 2023-02-03 北京百度网讯科技有限公司 数字人视频生成方法、装置、设备及存储介质
CN116528019B (zh) * 2023-06-19 2024-01-26 北京中科闻歌科技股份有限公司 基于语音驱动和人脸自驱动的虚拟人视频合成方法
CN116564338B (zh) * 2023-07-12 2023-09-08 腾讯科技(深圳)有限公司 语音动画生成方法、装置、电子设备和介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3171990D1 (en) * 1981-04-30 1985-10-03 Ibm Speech coding methods and apparatus for carrying out the method
US4642710A (en) * 1985-03-15 1987-02-10 Milton Bradley International, Inc. Animated display controlled by an audio device
JPS6350896A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
US4900289A (en) * 1988-01-29 1990-02-13 Cal R&D, Inc. Mechanism for animating a doll's facial features
US6181351B1 (en) * 1998-04-13 2001-01-30 Microsoft Corporation Synchronizing the moveable mouths of animated characters with recorded speech
IT1314671B1 (it) * 1998-10-07 2002-12-31 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio.
GB2349259B (en) * 1999-04-23 2003-11-12 Canon Kk Speech processing apparatus and method
US7149686B1 (en) * 2000-06-23 2006-12-12 International Business Machines Corporation System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
DE60224776T2 (de) * 2001-12-20 2009-01-22 Matsushita Electric Industrial Co., Ltd., Kadoma-shi Virtuelles Bildtelefon
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
CN1991982A (zh) * 2005-12-29 2007-07-04 摩托罗拉公司 一种使用语音数据激励图像的方法
EP1984898A4 (en) * 2006-02-09 2010-05-05 Nms Comm Corp PROGRESSIVE MORPHING BETWEEN AVATARS OF VIDEO CALL
KR101541907B1 (ko) * 2008-10-14 2015-08-03 삼성전자 주식회사 음성 기반 얼굴 캐릭터 형성 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691833A (zh) * 2020-05-18 2021-11-23 北京搜狗科技发展有限公司 虚拟主播换脸方法、装置、电子设备及存储介质
CN113691833B (zh) * 2020-05-18 2023-02-03 北京搜狗科技发展有限公司 虚拟主播换脸方法、装置、电子设备及存储介质
CN113808281A (zh) * 2021-08-23 2021-12-17 桂林未来鹏创软件有限公司 一种汽车虚拟精灵形象生成方法、***、装置和存储介质
CN113808281B (zh) * 2021-08-23 2024-02-27 桂林未来鹏创软件有限公司 一种汽车虚拟精灵形象生成方法、***、装置和存储介质

Also Published As

Publication number Publication date
US8725507B2 (en) 2014-05-13
US20110131041A1 (en) 2011-06-02
BRPI0904540B1 (pt) 2021-01-26

Similar Documents

Publication Publication Date Title
BRPI0904540A2 (pt) método de sìntese de movimento labial para animação de cabeças virtuais através do processamento de voz em dispositivos portáteis
CN110688911B (zh) 视频处理方法、装置、***、终端设备及存储介质
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
US9361722B2 (en) Synthetic audiovisual storyteller
US8200493B1 (en) System and method of providing conversational visual prosody for talking heads
CN113454708A (zh) 语言学风格匹配代理
US7136818B1 (en) System and method of providing conversational visual prosody for talking heads
CN110266973A (zh) 视频处理方法、装置、计算机可读存储介质和计算机设备
CN116250036A (zh) 用于合成语音的照片级真实感视频的***和方法
US20120130717A1 (en) Real-time Animation for an Expressive Avatar
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
CN113077537B (zh) 一种视频生成方法、存储介质及设备
CN110162598B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
WO2023284435A1 (zh) 生成动画的方法及装置
WO2023246163A9 (zh) 一种虚拟数字人驱动方法、装置、设备和介质
CN117523051B (zh) 基于音频生成动态图像的方法、装置、设备及存储介质
CN116912375A (zh) 面部动画生成方法、装置、电子设备及存储介质
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
Ding et al. Interactive multimedia mirror system design
Verma et al. Animating expressive faces across languages
CN110166844B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
CN113362432A (zh) 一种面部动画生成方法及装置
Xie et al. Visual Speech Animation

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B25C Requirement related to requested transfer of rights

Owner name: SAMSUNG ELETRONICA DA AMAZONIA LTDA (BR/AM)

Free format text: A FIM DE ATENDER A TRANSFERENCIA, REQUERIDA ATRAVES DA PETICAO NO 860150023101 DE 12/02/2015, E NECESSARIO APRESENTAR DOCUMENTO QUE COMPROVE QUE OS REPRESENTANTES DA EMPRESA CEDENTE TEM PODERES PARA REALIZAR TAL ATO.

B25G Requested change of headquarter approved

Owner name: SAMSUNG ELETRONICA DA AMAZONIA LTDA (BR/AM)

B25A Requested transfer of rights approved

Owner name: SAMSUNG ELETRONICA DA AMAZONIA LTDA. (BR/SP)

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 26/01/2021, OBSERVADAS AS CONDICOES LEGAIS.

B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 13A ANUIDADE.

B24J Lapse because of non-payment of annual fees (definitively: art 78 iv lpi, resolution 113/2013 art. 12)

Free format text: EM VIRTUDE DA EXTINCAO PUBLICADA NA RPI 2698 DE 20-09-2022 E CONSIDERANDO AUSENCIA DE MANIFESTACAO DENTRO DOS PRAZOS LEGAIS, INFORMO QUE CABE SER MANTIDA A EXTINCAO DA PATENTE E SEUS CERTIFICADOS, CONFORME O DISPOSTO NO ARTIGO 12, DA RESOLUCAO 113/2013.