BRPI0816618B1 - método e aparelho para gerar sinal de áudio binaural - Google Patents

método e aparelho para gerar sinal de áudio binaural Download PDF

Info

Publication number
BRPI0816618B1
BRPI0816618B1 BRPI0816618-8A BRPI0816618A BRPI0816618B1 BR PI0816618 B1 BRPI0816618 B1 BR PI0816618B1 BR PI0816618 A BRPI0816618 A BR PI0816618A BR PI0816618 B1 BRPI0816618 B1 BR PI0816618B1
Authority
BR
Brazil
Prior art keywords
binaural
audio signal
signal
stereo
parameters
Prior art date
Application number
BRPI0816618-8A
Other languages
English (en)
Inventor
Villemoes Lars Falck
Breebaart Dirk Jeroen
Original Assignee
Koninklijke Philips Electronics N.V.
Dolby International Ab.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics N.V., Dolby International Ab. filed Critical Koninklijke Philips Electronics N.V.
Publication of BRPI0816618A2 publication Critical patent/BRPI0816618A2/pt
Publication of BRPI0816618B1 publication Critical patent/BRPI0816618B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

MÉTODO E APARELHO PARA GERAR SINAL DE BINAURAL. Aparelho para geração de um sinal de áudio binaural compreende um desmultiplexador (402) e decodificador (403) que recebe dados de áudio compreendendo um sinal de áudio do canal M de áudio que é um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M no sinal de áudio do canal N. Um processador de conversão (411) converte parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural. Um processador de matriz (409) converte o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais. Um filtro estéreo (415, 417) gera o sinal de áudio binaural pela filtragem do primeiro sinal estéreo. Os coeficientes de filtro para o filtro estéreo são determinados em resposta a pelo menos uma função de transferência perceptual binaural por um processador de coeficiente (419) . A combinação de conversão/processamento de parâmetro e filtragem permite que um sinal binaural de alta qualidade seja gerado com baixa complexidade.

Description

CAMPO DA INVENÇÃO
A invenção se refere a um método e aparelho para 5 gerar um sinal de áudio binaural e, especificamente, mas não exclusivamente, para geração de um sinal de áudio binaural de um sinal de downmix mono.
HISTÓRICO DA INVENÇÃO
Na última década houve uma tendência para y 10 multicanais de áudio e, especificamente, na direção da extensão de áudio espacial além de sinais estéreo convencionais. Por exemplo, gravações estéreas tradicionais apenas compreendem dois canais enquanto sistemas de áudio modernos, tipicamente, usam cinco ou seis canais, como nos sistemas de som "surround" 5.1 populares. 15 Isto provê uma experiência de audição mais envolvente onde o usuário pode ser envolvido pelas fontes de som.
Várias técnicas e padrões foram desenvolvidos para comunicação destes sinais de multicanais. Por exemplo, seis canais discretos representando um sistema surround 5.1 podem ser 20 transmitidos de acordo com padrões tais como padrões de
Codificação de Áudio Avançada (AAC) ou Dolby Digital.
Entretanto, de modo a prover compatibilidade retroativa, é conhecido como fazer o downmix do número mais elevado de canais para um número menor, e especificamente, ele é 25 frequentemente usado para fazer o downmix de um sinal de som surround 5.1 para um sinal estéreo que permita a um sinal estéreo ser reproduzido por decodificadores "legacy" (estéreo) e um sinal 5.1 por decodificadores de som surround. 4'
Um exemplo é o método de codificação compatível retroativamente MPEG2. É feito o downmix de um sinal de multicanais para um sinal estéreo. Sinais adicionais são codificados na porção de dados auxiliares permitindo que um 5 decodificador de multicanais MPEG2 gere uma representação do sinal de multicanais. Um decodificador MPEG1 irá desconsiderar os dados auxiliares e, dessa maneira, decodificar apenas o downmix estéreo.
Existem vários parâmetros que podem ser usados para descrever as propriedades espaciais de sinais de áudio. Um 10 destes parâmetros é a correlação cruzada entre canais, tal como a correlação cruzada entre o canal esquerdo e o canal direito para sinais estéreos. Um outro parâmetro é a proporção de energia dos canais. Nos codificadores de áudio espacial assim denominados (paramétricos) , estes e outros parâmetros são extraídos do sinal 15 de áudio original de modo a produzir um sinal de áudio tendo um número reduzido de canais, por exemplo, apenas um canal único, mais um conjunto de parâmetros descrevendo as propriedades espaciais do sinal de áudio original. Nos decodificadores de áudio espaciais (paramétricos), as propriedades espaciais conforme 20 descrito pelos parâmetros espaciais transmitidos são reintegradas.
Posicionamento de fonte de som 3D está atualmente em evidência, especialmente no dominio móvel. Efeitos de som e reprodução de música em jogos móveis podem adicionar valor significativo à experiência do consumidor quando posicionado em 25 3D, efetivamente criando um efeito 3D "externo à cabeça".
Especificamente, é sabido como gravar e reproduzir sinais de áudio binaurais que contêm informação direcional especifica â qual o ouvido humano é sensível. Gravações binaurais são tipicamente ❖ feitas usando dois microfones montados em uma cabeça humana de um manequim, de modo que o som gravado corresponda ao som capturado pelo ouvido humano e inclua quaisquer influências devido ao formato da cabeça e dos ouvidos. Gravações binaurais diferem de 5 gravações estéreas (isto é, estereofônicas) pelo fato da reprodução de uma gravação binaural ser geralmente destinada para um conjunto de fones de ouvido, enquanto uma gravação estérea é geralmente feita para reprodução por alto-falantes. Embora uma gravação binaural permita a reprodução de uma informação espacial 10 usando apenas dois canais, uma gravação estérea não proveria a mesma percepção espacial.
Gravações de canal duplo regular (estereofônico) ou canais múltiplos (por exemplo, 5.1) podem ser transformadas em gravações binaurais pela convolução de cada sinal regular com um 15 conjunto de funções de transferência perceptual. Estas funções de transferência perceptual modelam a influência da cabeça humana, e possivelmente outros objetos no sinal. Um tipo bem conhecido de função de transferência perceptual espacial é a Função de Transferência Relacionada à Cabeça (HRTF). Um tipo alternativo de 20 função de transferência perceptual espacial, que também considera reflexões causadas pelas paredes, teto e piso de uma sala, é a Resposta de Impulso de Sala Binaural (BRIR).
Tipicamente, algoritmos de posicionamento 3D empregam HRTFs (ou BRIRs) , que descrevem a transferência de certa 25 posição da fonte de som para os timpanos por meio de uma resposta de impulso. Posicionamento de fonte de som 3D pode ser aplicado a sinais de multicanais por meio de HRTFs, portanto permitindo que um sinal binaural proveja informação de som espacial para um ♦ usuário, por exemplo, usando um par de fones de ouvido.
Um algoritmo de sintese binaural convencional é descrito na Figura 1. Um conjunto de canais de entrada é filtrado por um conjunto de HRTFs. Cada sinal de entrada é dividido em dois 5 sinais (um componente esquerdo "L", e um direito "R"); cada um destes sinais é subsequentemente filtrado por uma HRTF correspondendo à posição de fonte de som desejada. Todos os sinais do ouvido esquerdo são subsequentemente somados para gerar o sinal de saida binaural esquerdo, e os sinais do ouvido direito são 10 somados para gerar o sinal de saida binaural direito.
Sistemas de decodificador são conhecidos por poderem receber um sinal codificado de som surround e gerar uma experiência de som surround de um sinal binaural. Por exemplo, sistemas de fones de ouvido são conhecidos por permitirem que um 15 sinal de som surround seja convertido em um sinal binaural de som surround para prover uma experiência de som surround ao usuário dos fones de ouvido.
A Figura 2 ilustra um sistema onde um decodificador surround MPEG recebe um sinal estéreo com dados 20 paramétricos espaciais. A corrente de bits de entrada é desmultiplexada por um desmultiplexador (201) resultando em parâmetros espaciais e uma corrente de bits de downmix. A última corrente de bits é decodificada usando um decodificador mono ou estéreo convencional (203) . O downmix decodificado é decodificado 25 por um decodificador especial (205), que gera uma saida de multicanal baseada nos parâmetros espaciais transmitidos. Finalmente, a saida de multicanais é, então, processada por um estágio de sintese binaural (207) (similar àquela da Figura 1) 4 % resultando em um sinal de saida binaural provendo uma experiência de som surround ao usuário.
Entretanto, esta abordagem é complexa e requer recursos computacionais substanciais e pode reduzir ainda mais a 5 qualidade de áudio e introduzir artefatos audiveis.
De modo a superar algumas destas desvantagens foi proposto que um decodificador de áudio de multicanais paramétricos pode ser combinado com um algoritmo de sintese binaural, de modo que um sinal de multicanais pode ser transmitido em fones de 10 ouvido sem requerer que o sinal de multicanais seja primeiramente gerado do sinal de downmix transmitido seguido por um downmix do sinal de multicanais usando filtros HRTF.
Nestes decodificadores, os parâmetros espaciais de upmix para recriar o sinal de multicanais são combinados com os 15 filtros HRTF de modo a gerar parâmetros combinados que podem, diretamente, serem aplicados ao sinal de downmix para gerar o sinal binaural. De modo a fazer isto, os filtros HRTF são parametrizados.
Um exemplo deste decodificador é ilustrado na 20 Figura 3 e ainda descrito por Breebaart, J. "Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround", Proc. ICME, Beijing, China (2007) e Breebaart, J., Faller, C. "Spatial audio processing: MPEG Surround and other applications", Wiley & Sons, Nova York (2007) . 25 Uma corrente de bits de entrada contendo parâmetros espaciais e um sinal de downmix são recebidos por um desmultiplexador 301. 0 sinal de downmix é decodificado por um decodificador convencional 303 resultando em um downmix mono ou estéreo.
Além disso, dados HRTF são convertidos no dominio de parâmetro por meio de uma unidade de extração de parâmetro HRTF 305. Os parâmetros HRTF resultantes são combinados em uma unidade 5 de conversão 307 para gerar parâmetros combinados referidos como parâmetros binaurais. Estes parâmetros descrevem o efeito combinado dos parâmetros espaciais e do processamento HRTF.
O decodificador espacial sintetiza o sinal de saida binaural pela modificação do sinal de downmix decodificado 10 dependente dos parâmetros binaurais. Especificamente, o sinal de downmix é transferido para um dominio de transformada ou banco de filtro por uma unidade de transformada 309 (ou o decodificador convencional 303 pode prover diretamente o sinal de downmix decodificado como um sinal de transformada) . A unidade de 15 transformada 309 pode especificamente compreender um banco de filtro QMF para gerar sub-bandas QMF. O sinal de downmix de sub- banda é alimentado a uma unidade de matriz 311 que executa uma operação de matriz 2x2 em cada sub-banda.
Se o downmix transmitido é um sinal estéreo, os 20 dois sinais de entrada para a unidade de matriz 311 são os dois sinais estéreos. Se o downmix transmitido é um sinal mono, um dos sinais de entrada para a unidade de matriz 311 é o sinal mono e o outro sinal é um sinal descorrelacionado (similar ao upmix convencional de um sinal mono para um sinal estéreo). 25 Para ambos os downmixes, mono e estéreo, a unidade de matriz 311 executa a operação:
Figure img0001
onde k é o número de indice da sub banda, n é o número de índice de fenda (intervalo de transformada), hj são os elementos de matriz para a sub-banda k, ,y^ t os dois sinais de entrada para a sub-banda k, e ynL’^,yn^ a.s amostras de sinal de saída 5 binaural.
A unidade de matriz 311 alimenta as amostras de sinal de saída binaural para uma unidade de transformada inversa 313 que transforma o sinal de volta para o domínio de tempo. 0 sinal binaural de domínio de tempo resultante pode ser, então, 10 alimentado para os fones de ouvido para prover uma experiência de som surround.
A abordagem descrita tem uma série de vantagens:
O processamento HRTF pode ser executado no domínio de transformada, o que, em muitos casos, pode reduzir o 15 número de transformadas que é requerido visto que o mesmo domínio de transformada pode ser usado para decodif icação do sinal de downmix.
A complexidade do processamento é muito baixa (ela usa apenas multiplicação por matrizes 2x2) e é virtualmente 20 independente do número de canais de áudio simultâneos. Isto pode ser aplicado a ambos os downmixes, mono e estéreo; HRTFs são representadas de uma maneira bastante compacta e, assim, podem ser transmitidas e armazenadas muito eficientemente. 25 Entretanto, a abordagem também tem algumas desvantagens. Especificamente, a abordagem é apenas adequada para HRTFs tendo respostas de impulso relativamente muito curtas (geralmente menos que o intervalo de transformada) visto que respostas de impulso mais longas não podem ser representadas pelos valores HRTF de sub-banda parametrizadas. Dessa maneira, a abordagem não é utilizável para ambientes de áudio tendo ecos ou reverberações longos. Especificamente, a abordagem tipicamente não funciona com HRTFs ou Respostas de Impulso de Sala Binaural (BRIRs) ecóicas que podem ser longas e, dessa maneira, muito dificeis de modelar corretamente com a abordagem paramétrica.
Dessa maneira, um sistema melhorado para gerar sinal de áudio binaural seria vantajoso e, especificamente, um sistema que permita flexibilidade aumentada, desempenho melhorado, implementação facilitada, uso reduzido de recursos e/ou aplicabilidade melhorada a diferentes ambientes de áudio seria vantaj oso.
SUMÁRIO DA INVENÇÃO
Consequentemente, a invenção busca preferivelmente mitigar, aliviar ou eliminar uma . ou mais das desvantagens mencionadas acima sozinhas ou em qualquer combinação.
De acordo com um primeiro aspecto da invenção é provido um aparelho para gerar um sinal de áudio binaural, o aparelho compreendendo: meios para receber dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M para o sinal de áudio do canal N; meios de dados de parâmetro para converter parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; meios de conversão para converter o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais; um filtro estéreo para gerar o sinal de áudio binaural pela filtragem do primeiro sinal estéreo; e meios de coeficiente para determinar coeficientes de filtros 5 para o filtro estéreo em resposta à função de transferência perceptual binaural.
A invenção pode permitir que um sinal de áudio binaural melhorado seja gerado. Em especial, configurações da invenção podem usar uma combinação de processamento de frequência 10 e tempo para gerar sinais binaurais refletindo ambientes de áudio ecóicos e/ou HRTF ou BRIRs com respostas de impulso longo. Uma implementação de baixa complexidade pode ser atingida. O processamento pode ser implementado com baixa demanda de recursos computacionais e/ou de memória. 15 O sinal de downmix de áudio do canal M pode, especificamente, ser um sinal mono ou estéreo compreendendo um downmix de um número maior de canais espaciais, tal como um downmix de um sinal surround 5.1 ou 7.1. Os dados de parâmetros espaciais podem especificamente compreender diferenças entre 20 canais e/ou diferenças de correlação cruzada para o sinal de áudio do canal N. A(s) função(ões) de transferência perceptual binaural pode(m) ser função(ões) de transferência HRTF ou BRIR.
Consequentemente a uma característica opcional da invenção, o aparelho compreende ainda meios de transformada para 25 transformar o sinal de áudio do canal M de um dominio de tempo para um dominio de sub-banda e onde os meios de conversão e o filtro estéreo são arranjados para processar individualmente cada sub-banda do dominio de sub-banda.
A característica pode prover implementação facilitada, demandas de recurso reduzidas e/ou compatibilidade com muitas aplicações de processamento de áudio, tais como algoritmos de decodificaçâo convencional. 5 De acordo com uma característica opcional da invenção, uma duração de uma resposta de impulso da função de transferência perceptual binaural excede um intervalo de atualização de transformada.
A invenção pode permitir um binaural melhorado 10 para o sinal a ser gerado e/ou pode reduzir a complexidade. Em especial, a invenção pode gerar sinais binaurais correspondendo a ambientes de áudio com características de eco ou reverberação longas.
De acordo com uma característica opcional da 15 invenção, os meios de conversão são arranjados para gerar, para cada sub-banda, amostras de saída estérea substancialmente como:
Figure img0002
ende pelo menos um dentre Lx e Rj é uma amostra de um canal de áudio do sinal de áudio do canal M na sub-banda e os 20 meios de conversão são arranjados para determinar coeficientes de matriz hxy em resposta a ambos, os dados de parâmetros espaciais e a pelo menos uma função de transferência perceptual binaural.
A característica pode permitir um binaural melhorado ao sinal a ser gerado e/ou pode reduzir a complexidade. 25 De acordo com uma característica opcional da invenção, os meios de coeficiente compreendem: meios para prover uma representação de sub-banda de respostas de impulso de uma pluralidade de funções de transferência perceptual binaural correspondendo a diferentes fontes de som no sinal do canal N; meios para determinar os coeficientes de filtro por uma combinação pesada de coeficientes correspondentes das representações de sub- 5 banda; e meios para determinar pesos para as representações de sub-banda para a combinação pesada em resposta aos dados de parâmetro espaciais.
A invenção pode permitir um sinal binaural melhorado a ser gerado e/ou pode reduzir a complexidade. Em 10 especial, coeficientes de filtro de baixa complexidade, mas com alta qualidade podem ser determinados.
De acordo com uma característica opcional da invenção, os primeiros parâmetros binaurais compreendem parâmetros de coerência indicativos de uma correlação entre canais do sinal 15 de áudio binaural.
A característica pode permitir um sinal binaural melhorado a ser gerado e/ou pode reduzir complexidade. Em especial, a correlação desejada pode ser eficientemente provida por uma operação de baixa complexidade antes da filtragem. 20 Especificamente, uma multiplicação de matriz de sub-banda de baixa complexidade pode ser executada para introduzir a correlação desejada ou propriedades de coerência ao sinal binaural. Estas propriedades podem ser introduzidas antes da filtragem e sem requerer que os filtros sejam modificados. Assim, a característica 25 pode permitir características de correlação ou de coerência sejam controladas eficientemente e com baixa complexidade.
De acordo com uma característica opcional da invenção, os primeiros parâmetros binaurais não compreendem pelo menos um dos parâmetros de localização indicativos de uma localização de qualquer fonte de som do sinal de áudio binaural e parâmetros de reverberação indicativos de uma reverberação de qualquer componente de som do sinal de áudio binaural. 5 A característica pode permitir um binaural melhorado para o sinal a ser gerado e/ou pode reduzir a complexidade. Em especial, a característica pode permitir que a informação de localização e/ou parâmetros de reverberação sejam controlados exclusivamente pelos filtros, portanto facilitando a 10 operação e/ou provendo qualidade melhorada. A coerência ou correlação dos canais estéreos binaurais pode ser controlada pelos meios de conversão, portanto permitindo que a correlação/coerência e localização e/ou reverberação sejam controladas independentemente e onde for mais prático ou eficiente. 15 De acordo com uma característica opcional da invenção, os meios de coeficiente são arranjados para determinar os coeficientes de filtro para refletir pelo menos um dos sinais de som de localização e sinais de som de reverberação para o sinal de áudio binaural. 20 A característica pode permitir que um sinal binaural melhorado seja gerado e/ou pode reduzir a complexidade. Em especial, a localização desejada ou propriedades de reverberação podem ser eficientemente providas por filtragem de sub-banda, portanto provendo qualidade melhorada e, em especial, 25 permitindo, por exemplo, que ambientes de áudio ecóicos sejam eficientemente simulados.
De acordo com uma característica opcional da invenção, o sinal de áudio do canal M e um sinal de áudio mono e
os meios de conversão são arranjados para gerar um sinal descorrelacionado do sinal de áudio mono e para gerar o primeiro sinal estéreo por uma multiplicação de matriz aplicada a amostras de um sinal estéreo compreendendo o sinal descorrelacionado e o 5 sinal de áudio mono.
A caracteristica pode permitir um binaural melhorado ao sinal a ser gerado de um sinal mono e/ou pode reduzir a complexidade. Em especial, a invenção pode permitir que todos os parâmetros requeridos para gerar um sinal de áudio binaural de 10 alta qualidade sejam gerados de parâmetros espaciais tipicamente disponíveis.
De acordo com um outro aspecto da invenção, é compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M para o sinal de áudio do canal N; meios de dados de parâmetro para converter parâmetros espaciais 5 dos dados de parâmetros espaciais em primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; meios de conversão para converter o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais; um filtro estéreo para geral o 10 sinal de áudio binaural pela filtragem do primeiro sinal estéreo; meios de coeficiente para determinar coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural; e meios para transmitir o sinal de áudio binaural.
De acordo com um outro aspecto da invenção, é 15 provido um sistema de transmissão para transmitir um sinal de áudio, o sistema de transmissão incluindo um transmissor compreendendo: meios para receber dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de 20 áudio do canal M para o sinal de áudio do canal N, meios de dados de parâmetros para converter parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural, meios de conversão para converter o sinal de áudio do 25 canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais, um filtro estéreo para gerar o sinal de áudio binaural pela filtragem do primeiro sinal estéreo, meios de coeficiente para determinar coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural, e meios para transmitir o sinal de áudio binaural; e um receptor para receber o sinal de áudio binaural.
De acordo com um outro aspecto da invenção, é 5 provido um dispositivo de gravação para gravar um sinal de áudio binaural, o dispositivo de gravação de áudio compreendendo meios para recepção de dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M 10 para o sinal de áudio do canal N; meios de dados de parâmetro para converter parâmetros espaciais dos dados de parâmetro espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; meios de conversão para converter o sinal de áudio do canal M em um primeiro sinal 15 estéreo em resposta aos primeiros parâmetros binaurais; um filtro estéreo para gerar o sinal de áudio binaural pela filtragem do primeiro sinal estéreo; meios de coeficiente (419) para determinar coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural; e meios para gravação do 20 sinal de áudio binaural.
De acordo com um outro aspecto da invenção, é provido um método de transmissão de um sinal de áudio binaural, o método compreendendo: recepção dos dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do 25 canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M para o sinal de áudio do canal N; conversão dos parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; convertendo o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais; geração do sinal de áudio binaural pela filtragem do primeiro sinal estéreo em um filtro estéreo; 5 determinação dos coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural; e transmissão do sinal de áudio binaural.
De acordo com um outro aspecto da invenção, é provido um método para transmitir e receber um sinal de áudio 10 binaural, o método compreendendo: um transmissor executando as etapas de: recepção de dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M no sinal de áudio do canal N, convertendo parâmetros 15 espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural, convertendo o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais, gerando o sinal de áudio binaural pela 20 filtragem do primeiro sinal estéreo em um filtro estéreo, determinando os coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural, e transmitindo o sinal de áudio binaural; e um receptor executando a etapa de recepção do sinal de áudio binaural. 25 De acordo com um outro aspecto da invenção, é provido um produto de programa de computador para executar o método de qualquer um dos métodos descritos acima.
Estes e outros aspectos, características e vantagens da invenção ficarão aparentes e elucidadas com referência às configurações descritas abaixo.
BREVE DESCRIÇÃO DOS DESENHOS
Configurações da invenção serão descritas, apenas 5 como exemplo, com referência aos desenhos, nos quais: A Figura 1 é uma ilustração de uma abordagem para geração de um sinal binaural de acordo com o estado da técnica; A Figura 2 é uma ilustração de uma abordagem para geração de um sinal binaural de acordo com o estado da técnica; 10 A Figura 3 é uma ilustração de uma abordagem para geração de um sinal binaural de acordo com o estado da técnica; A Figura 4 ilustra um dispositivo para gerar um sinal de áudio binaural de acordo com algumas configurações da invenção; 15 A Figura 5 ilustra um fluxograma de um exemplo de um método para gerar um sinal de áudio binaural de acordo com algumas configurações da invenção; e A Figura 6 ilustra um exemplo de um sistema de transmissão para comunicação de um sinal de áudio de acordo com 20 algumas configurações da invenção.
DESCRIÇÃO DETALHADA DAS CONFIGURAÇÕES
A descrição a seguir está focada nas configurações da invenção aplicáveis à sintese de um sinal estéreo binaural de um downmix mono de uma pluralidade de canais 25 espaciais. Em especial, a descrição será apropriada para geração de um sinal binaural para reprodução de fone de ouvido de uma corrente de bits de som surround MPEG codificada usando uma configuração denominada "5151" que tem 5 canais como entrada (indicada pelo primeiro '5'), um downmix mono (o primeiro 'um'), uma reconstrução de 5 canais (o segundo '5' ) e parametrização espacial de acordo com a estrutura de árvore '1' . Informações detalhadas sobre diferentes estruturas de árvore podem ser 5 encontradam em Herre, J. , Kjõrling, K., Breebaart, J. , Faller, C., Disch, S., Purnhagen, H., Koppens, J. , Hilpert, J., Rõdén, J. , Oomen, W., Linzmeier, K., Chong, K. S. "MPEG Surround - The ISO/MPEG Standard for efficient and compatible multi-channel audio coding", convenção Proc. 122 AES, Viena, Áustria (2007) e 10 Breebaart, J., Hotho, G., Koppens, J., Schuijers, E., Oomen, W., van de Par, S. "Background, concept, and architecture of the recent MPEG Surround standard on multi-channel audio compression" J. Audio Engineering Society, 55, pág. 331-351 (2007). Entretanto, será observado que a invenção não está limitada a esta aplicação, 15 mas pode, por exemplo, ser aplicada a muitos outros sinais de áudio incluindo, por exemplo, sinais de som surround nos quais foi feito downmix para um sinal estéreo.
Nos dispositivos do estado da técnica como aqueles da Figura 3, HRTFs ou BRIRs longas não podem ser 20 eficientemente representadas pelos dados parametrizados e operação de matriz executada pela unidade de matriz 311. Na verdade, as multiplicações de matriz de sub-banda são limitadas para representar respostas de impulso de dominio de tempo tendo uma duração que corresponde ao intervalo de tempo de transformada 25 usado para a transformação no dominio de tempo de sub-banda. Por exemplo, se a transformada é uma Transformada de Fourier Rápida (FFT) , cada intervalo FFT de N amostras é transferido em N amostras de sub-bandas que são alimentadas à unidade de matriz.
Entretanto, respostas de impulso mais longas que N amostras não serão adequadamente representadas.
Uma solução para este problema é usar uma abordagem de filtragem de dominio de sub-banda onde a operação de 5 matriz é substituída por uma abordagem de filtragem de matriz onde as sub-bandas individuais são filtradas. Dessa maneira configurações, o processamento de sub-bandas pode, ao invés multiplicação de matriz simples
Figure img0003
onde Nq é o número de torneiras usado para o filtro para representar a(s) função(ões) HRTF/BRIR.
Esta abordagem efetivamente corresponde à aplicação de quatro filtros para cada sub-banda (um para cada permuta de canal de entrada e canal de saida da unidade de matriz 15 311) .
Embora esta abordagem possa ser vantajosa em algumas configurações, ela possui também algumas desvantagens associadas. Por exemplo, o sistema requer quatro filtros para cada sub-banda, o que significativamente aumenta a complexidade e os 20 requisitos de recursos para o processamento. Além do mais, em muitos casos pode ser complicado, dificil ou mesmo impossível gerar os parâmetros que correspondem precisamente com as respostas de impulso HRTF/BRIR desejadas.
Especificamente, para a multiplicação de matriz 25 simples da Figura 3, a coerência do sinal binaural pode ser estimada com a ajuda de parâmetros HRTF e parâmetros espaciais transmitidos devido a ambos os tipos de parâmetro existirem no mesmo dominio (parâmetro). A coerência do sinal binaural depende da coerência entre sinais de fonte de som individuais (conforme descrito pelos parâmetros espaciais), e o caminho acústico das posições individuais para os timpanos (descrito pelas HRTFs). Se 5 os niveis de sinal relativos, valores de coerência aos pares, e funções de transferência HRTF são todos descritos de uma maneira estatística (paramétrica), a coerência liquida resultante do efeito combinado de transmissão espacial e processamento HRTF pode ser estimada diretamente no dominio de parâmetro. Este processo é 10 descrito por Breebaart, J. "Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround", Proc. ICME, Beijing, China (2007) e Breebaart, J., Faller, C. "Spatial audio processing: MPEG Surround and other applications", Wiley & Sons, Nova York (2007). Se a coerência desejada é 15 conhecida, um sinal de saida com uma coerência de acordo com o valor especificado pode ser obtido por uma combinação de um sinal de descorrelacionador e o sinal mono por meio de uma operação de matriz. Este processo é descrito por Breebaart, J. , van de Par, S., Kohlrausch, A., Schuijers, E. "Parametric coding of stereo 20 audio", EURASIP J. Applied Signal Proc. 9, pág. 1305-1322 (2005) e
Engdegârd, J., Purnhagen, H., Rõdén, J., Liljeryd, L. "Synthetic ambience in parametric stereo coding", Proc. da 116a AES convenção, Berlin, Alemanha (2004).
Como um resultado, as entradas de matriz do sinal 25 do descorrelacionador (h12 e h22) seguem de relações relativamente simples entre parâmetros HRTF e espaciais. Entretanto, para respostas de filtro tais como aquelas descritas acima, é significativamente mais dificil calcular a coerência liquida resultante da decodificaçâo espacial e sintese binaural devido ao valor da coerência desejado ser diferente para a primeira parte (o som direto) da BRIR em relação à parte remanescente (a última reverberação). 5 Especificamente, para BRIRs, as propriedades requeridas podem mudar consideravelmente com o tempo. Por exemplo, a primeira parte de uma BRIR pode descrever o som direto (sem efeitos da sala). Esta parte é, portanto, altamente direcional (com propriedades de localização distintas refletidas, por 10 exemplo, pelas diferenças de nivel e diferenças de tempo de chegada, e uma coerência elevada). As reflexões iniciais e a última reverberação, por outro lado, são freqüente e relativamente menos direcionais. Dessa maneira, as diferenças de nivel entre os ouvidos são menos pronunciadas, as diferenças de tempo de chegada 15 são dificeis de determinar precisamente devido à natureza estocástica destes, e a coerência é, em muitos casos, muito baixa. Esta mudança de propriedades de localização é bastante importante para capturar precisamente, mas isto pode ser dificil porque isto iria requerer que a coerência das respostas de filtro fosse 20 alterada dependendo da posição dentro da resposta de filtro real, enquanto, simultaneamente, a resposta de filtro completa deve depender dos parâmetros espaciais e dos coeficientes HRTF. Esta combinação de requisitos é muito dificil de preencher com um número limitado de etapas de processamento. 25 Em resumo, determinar a coerência correta entre os sinais de saida binaurais e garantir seu comportamento temporal correto é muito dificil para um downmix mono e é tipicamente impossivel usando as abordagens conhecidas para a abordagem de multiplicação de matriz do estado da técnica.
A Figura 4 ilustra um dispositivo para gerar um sinal de áudio binaural de acordo com algumas configurações da invenção. Na abordagem descrita, multiplicação de matriz 5 paramétrica é combinada com filtragem de baixa complexidade para permitir ambientes de áudio com eco ou reverberação longo a ser emulado. Em especial, o sistema permite que HRTFs/BRIRs longas sejam usadas enquanto uma baixa complexidade e uma implementação prática são mantidas. 10 O dispositivo compreende um desmultiplexador 401 que recebe uma corrente de dados de áudio que compreende um sinal de áudio do canal M de áudio que é um downmix de um sinal de áudio do canal N. Além disso, os dados compreendem dados de parâmetros espaciais para upmix do sinal de áudio do canal M no sinal de 15 áudio do canal N. No exemplo especifico, o sinal de downmix é um sinal mono, isto é, M=1 e o sinal de áudio do canal N é um sinal surround 5.1, isto é, N=6. Os dados de áudio são especificamente uma codificação MPEG Surround de um sinal surround e os dados espaciais compreendem parâmetros de Diferenças entre Niveis (ILDS) 20 e Correlação Cruzada Entre Canais (ICC). Os dados de áudio do sinal mono são alimentados a um decodificador 403 acoplado ao desmultiplexador 401. O decodificador 403 decodifica o sinal mono usando um algoritmo de decodificação convencional adequado como é bem conhecido por uma 25 pessoa especializada na técnica. Dessa maneira, no exemplo, a saida do decodificador 403 é um sinal de áudio mono decodificado. O decodificador 403 é acoplado a um processador de transformada 4 05 que é operável para converter o sinal mono decodificado do dominio de tempo a um dominio de sub-banda de freqüência. Em algumas configurações, o processador de transformada 405 pode ser arranjado para dividir o sinal em intervalos de transformada (correspondendo a blocos de amostra 5 compreendendo um número adequado de amostras) e executar uma
Transformada de Fourier Rápida (FFTO) em cada intervalo de tempo de transformada. Por exemplo, a FFT pode ser uma FFT de 64 pontos com as amostras de áudio mono sendo divididas em 64 blocos de amostra aos quais a FFT é aplicada para gerar 64 amostras de sub- 10 banda complexas. No exemplo específico, o processador de transformada 405 compreende um banco de filtro QMF operando com um intervalo de transformada de 64 amostras. Dessa maneira, para cada bloco de 64 amostras de domínio de tempo, 64 amostras de sub-banda 15 são geradas no domínio de freqüência. No exemplo, o sinal recebido é um sinal mono que deve passar por upmix para um sinal estéreo binaural. Consequentemente, o sinal mono de sub-banda de freqüência é alimentado a um descorrelacionador 407 que gera uma versão 20 descorrelacionada do sinal mono. Será observado que qualquer método adequado de gerar um sinal descorrelacionado pode ser usado sem sair da invenção. O processador de transformada 405 e descorrelacionador 407 são alimentados a um processador de matriz 25 409. Dessa maneira, o processador de matriz 409 é alimentado à representação de sub-banda do sinal mono, assim como a representação de sub-banda do sinal descorrelacionado gerado. O processador de matriz 409 prossegue para converter o sinal mono em um primeiro sinal estéreo. Especificamente, o processador de matriz 409 executa uma multiplicação de matriz em cada sub-banda provida por:
Figure img0004
RT são a amostra dos sinais de entrada no processador de matriz 409, isto é, no exemplo especifico Lj e Rj são as amostras de sub-banda do sinal mono e do sinal descorrelacionado. A conversão executada pelo processador de matriz 10 409 depende dos parâmetros binaurais gerados em resposta às HRTFs/BRIRs. No exemplo, a conversão também depende dos parâmetros espaciais que se relacionarem com o sinal mono recebido e os canais espaciais (adicionais). Especificamente, o processador de matriz 409 é 15 acoplado a um processador de conversão 411 que é ainda acoplado ao desmultiplexador 401 e uma armazenagem HRTF 413 compreendendo os dados representando a HRTF(s) desejada(s) (ou equivalentemente a BRIR(s) desejada(s). A seguir, apenas por uma questão de brevidade, será feita referência apenas a HRTF(s), mas será 20 observado que BRIR(s) podem ser usadas ao invés (ou também como) HRTFs). O processador de conversão 411 recebe os dados espaciais do desmultiplexador e os dados representando a HRTF da armazenagem HRTF 413. O processador de conversão 411, então, prossegue para gerar os parâmetros binaurais usados pelo processador de matriz 25 409 pela conversão dos parâmetros espaciais nos primeiros parâmetros binaurais em resposta aos dados HRTF. Entretanto, no exemplo, a parametrização completa da HRTF e parâmetros espaciais necessários para gerar um sinal binaural de saida não são calculados. Ao invés disso, os parâmetros binaurais usados na multiplicação de matriz apenas refletem parte da resposta HRTF desejada. Em especial, os 5 parâmetros binaurais são estimados para a parte direta (excluindo reflexões iniciais e última reverberação) da HRTF/BRIR apenas. Isto é atingido usando o processo de estimativa de parâmetro convencional, usando o primeiro pico da resposta de impulso de tempo-dominio HRTF apenas durante o processo de parametrização 10 HRTF. Apenas a coerência resultante para a parte direta (excluindo sinais de som de localização tais como diferenças de nivel e/ou tempo) é subsequentemente usada na matriz 2x2. Na verdade, no exemplo especifico, os coeficientes de matriz são gerados apenas para refletir a coerência ou correlação desejada do sinal binaural 15 e não incluir consideração das características de localização ou reverberação.
Dessa maneira, a multiplicação de matriz apenas executa parte do processamento desejado e a saida do processador de matriz 409 não é o sinal binaural final, mas é, ao invés disso, 20 um sinal intermediário (binaural) que reflete a coerência desejada do som direto entre os canais.
Os parâmetros binaurais na forma dos coeficientes de matriz hxy estão no exemplo gerado pelo primeiro cálculo das energias de sinal relativas nos diferentes canais de áudio do 25 sinal do canal N baseado nos dados espaciais e especificamente baseado nos parâmetros de diferença de nivel contidos no mesmo. As energias relativas em cada um dos canais binaurais são então calculadas com base nestes valores e nas HRTFs associadas com cada um dos canais N. Também, um valor esperado para a correlação cruzada entre os sinais binaurais é calculado com base nas energias de sinal em cada um dos canais N e nas HRTFs. Com base na correlação cruzada e na energia combinada do sinal binaural, uma medição de coerência para o canal é subsequentemente calculada e os parâmetros de matriz são determinados para prover esta correlação. Detalhes específicos de como os parâmetros binaurais podem ser gerados serão descritos posteriormente.
O processador de matriz 409 é acoplado a dois filtros 415, 417 que são operáveis para gerar o sinal de áudio binaural de saida pela filtragem do sinal estéreo gerado pelo processador de matriz 409. Especificamente, cada um dos dois sinais é filtrado individualmente como um sinal mono e nenhum acoplamento cruzado de qualquer sinal de um canal para o outro é introduzido. Consequentemente, apenas dois filtros monos são empregados, portanto reduzindo a complexidade se comparado, por exemplo, com abordagens requerendo quatro filtros. Os filtros 415, 417 são filtros de sub-bandas onde cada sub-banda é individualmente filtrada. Especificamente, cada um dos filtros podem ser filtros de Resposta de Impulso Finito (FIR), em cada sub-banda executando uma filtragem provida substancialmente por:
Figure img0005
onde y representa as amostras de sub-banda recebidas do processador de matriz 409, c são os coeficientes de filtro, n é o número de amostra (correspondendo ao número de intervalo de transformada) , k é a sub-banda e N é o comprimento da resposta de impulso do filtro. Dessa maneira, em cada sub-banda individual, uma filtragem de "dominio de tempo" é executada, portanto, estendendo o processamento de um intervalo de transformada único para considerar as amostras de sub-banda de uma 5 pluralidade de intervalos de transformada.
As modificações de sinal de surround MPEG são executadas no dominio de um banco de filtro modulado complexo, o QMF, que não é amostrado criticamente. Seu projeto especifico permite que um filtro de dominio de tempo provido seja 10 implementado com alta precisão pela filtragem de cada sinal de sub-banda na direção de tempo com um filtro separado. A SNR geral resultante para implementação de filtro está na faixa de 50 dB com a parte de introdução de erro significativamente menor. Além do mais, estes filtros de dominio de sub-banda podem ser derivados 15 diretamente do filtro de dominio de tempo provido. Um método especificamente atraente para computar o filtro de dominio de sub- banda correspondendo a um filtro de dominio 7z(v) é usar um segundo banco de filtro de análise modulado complexo com um filtro protótipo FIR ç(v) derivado do filtro protótipo do banco de filtro 20 QMF. Especificamente,
Figure img0006
onde Z = 64. Para o banco MPEG Surround QMF, o filtro protótipo do conversor de filtro q(y} tem 192 torneiras. Como um exemplo, o filtro do dominio de tempo com 1024 torneiras 25 será convertido em um conjunto de 64 filtros de sub-bandas todos tendo 18 torneiras na direção de tempo.
As características do filtro estão no exemplo gerado para refletir ambos os aspectos dos parâmetros espaciais, assim como aspectos das HRTFs desejadas. Especificamente, os coeficientes de filtro são determinados em resposta às respostas de impulso HRTF e aos sinais de som de local espacial, de modo que 5 a reverberação e características de localização do sinal binaural desejada sejam introduzidas e controladas pelos filtros. A correlação ou coerência da parte direta dos sinais binaurais não são afetadas pela filtragem, assumindo que a parte direta dos filtros é (quase) coerente e, dessa maneira, a coerência do som 10 direto da saida binaural é totalmente definida pela operação de matriz precedente. A parte da última-reverberação dos filtros, por outro lado, é pressuposta estar não correlacionada entre os filtros do ouvido esquerdo e direito e, dessa maneira, a saida da parte especifica estará sempre não correlacionada, independente da 15 coerência do sinal alimentado nestes filtros. Assim, nenhuma modificação é requerida para os filtros em resposta à coerência desejada. Dessa maneira, a operação de matriz processando os filtros determina a coerência desejada da parte direta, enquanto a parte de reverberação remanescente irá, automaticamente, ter a 20 correlação (baixa) correta, independente dos valores de matriz reais. Dessa maneira, a filtragem mantém a coerência desejada introduzida pelo processador de matriz 409.
Dessa maneira, no dispositivo da Figura 4, os parâmetros binaurais (na forma dos coeficientes de matriz) usados 25 pelo processador de matriz 409 são parâmetros de coerência indicativos de uma correlação entre canais do sinal de áudio binaural. Entretanto, estes parâmetros não compreendem parâmetros de localização indicativos de um local de qualquer fonte de som do sinal de áudio binaural ou parâmetros de reverberação indicativos de uma reverberação de qualquer componente de som do sinal de áudio binaural. Ao invés disto, estes parâmetros/caracteristicas são introduzidos pela filtragem de sub-banda subsequente pela 5 determinação dos coeficientes de filtro, de modo que eles refletem os sinais de som de localização e sinais de som de reverberação para sinal de áudio binaural.
Especificamente, os filtros são acoplados a um processador de coeficiente 419 que é ainda acoplado ao 10 desmultiplexador 401 e à armazenagem HRTF 413. O processador de coeficiente 419 determina os coeficientes de filtro para o filtro estéreo 415, 417 em resposta à(s) função(ões) de transferência perceptual binaural. Além disso, o processador do coeficiente 419 recebe os dados espaciais do desmultiplexador 401 e usa isto para 15 determinar os coeficientes de filtro.
Especificamente, as respostas de impulso HRTF são convertidas no dominio de sub-banda e como a resposta de impulso excede um intervalo de transformada único, isto resulta em uma resposta de impulso para cada canal em cada sub-banda ao invés de \ 20 em um coeficiente de sub-banda único. As respostas de impulso para cada filtro HRTF correspondendo a cada um dos canais N são então somadas em uma soma pesada. Os pesos que são aplicados a cada uma das respostas de impulso de filtro HRTF N são determinados em resposta aos dados espaciais e são especificamente determinados 25 para resultar na distribuição de energia apropriada entre os diferentes canais. Detalhes específicos de como os coeficientes de filtro podem ser gerados serão descritos posteriormente. A saida dos filtros 415, 417 é, dessa maneira
uma representação de sub-banda estéreo de um sinal de áudio binaural que efetivamente emula um sinal surround completo quando apresentado em fones de ouvido. Os filtros 415, 417 são acoplados a um processador de transformada inverso 421 que executa uma 5 transformada inversa para converter o sinal de sub-banda no dominio de tempo. Especificamente, o processador de transformada inversa 421 pode executar uma transformada QMF inversa.
Dessa maneira, a saida do processador de transformada inversa 421 é um sinal binaural que pode prover uma 10 experiência de som surround de um conjunto de fones de ouvido. O sinal pode, por exemplo, ser codificado usando um codificador estéreo convencional e/ou pode ser convertido ao dominio analógico em um conversor analógico para digital para prover um sinal que pode ser alimentado diretamente a fones de ouvido. 15 Dessa maneira, o dispositivo da Figura 4 combina processamento de matriz HRTF paramétrico e filtragem de sub-banda para prover um sinal binaural. A separação de uma multiplicação de matriz de correlação/coerência e uma localização baseada em filtro e filtragem de reverberação provê um sistema onde os parâmetros 20 requeridos podem ser prontamente computados, por exemplo, para um sinal mono. Especificamente, em contraste a uma abordagem de filtragem pura onde o parâmetro de coerência é dificil ou impossível determinar e implementar, a combinação de diferentes tipos de processamento permite que a coerência seja eficientemente 25 controlada, mesmo para aplicações baseadas em um sinal de downmix mono. Dessa maneira, a abordagem descrita tem a vantagem de que a sintese da coerência correta (por meio da multiplicação de matriz) e a geração de sinais de som de localização e reverberação (por meio dos filtros) são completamente separadas e controladas independentemente. Além do mais, o número de filtros é limitado a dois visto que nenhuma 5 filtragem de canal é requerida. Como os filtros são tipicamente mais complexos que a multiplicação de matriz simples, a complexidade é reduzida. A seguir, um exemplo especifico de como os parâmetros binaurais de matriz requeridos e coeficientes de filtro 10 podem ser calculados, será descrito. No exemplo, o sinal recebido é uma corrente de bits surround MPEG codificada usando uma estrutura de árvore '5151'. Na descrição, os acrônimos a seguir serão usados: 1 ou L: Canal esquerdo 15 r ou R: Canal direito f: canal (is) frontal (is) s: Canal(is) surround c: Canal central Is: Surround esquerdo 20 rs: Surround direito If: Frontal esquerdo lr: Direito esquerdo Os dados espaciais compreendidos na corrente de dados MPEG incluem os parâmetros a seguir: Parâmetro Descrição CLDfs Diferença de nivel frontal vs surround CLDfc Diferença de nivel frontal vs central CLDf Diferença de nivel frontal direito frontal esquerdo vs CLDS Diferença de nivel surround esquerdo vs surround direito iccfs Correlação frontal vs surround ICCfc Correlação frontal vs central ICCf Correlação frontal esquerda vs frontal direita ICCS Correlação surround 1 esquerda vs surround direita CLDlfe Diferença de nivel central vs LFE Primeiramente, a geração dos parâmetros binaurais usados para a multiplicação de matriz pelo processador de matriz 409 será descrita.
O processador de conversão 411 primeiro calcula 5 uma estimativa da coerência binaural que é um parâmetro refletindo a coerência desejada entre os canais dos sinais de saida binaural. A estimativa usa os parâmetros espaciais assim como parâmetros HRTF determinados para as funções HRTF.
Especificamente, aos parâmetros HRTF a seguir são 10 usados: Pi que é a energia rms dentro de certa banda de freqüência da HRTF correspondendo ao ouvido esquerdo; Pr que é a energia rms dentro de certa banda de freqüência de uma HRTF correspondendo ao ouvido direito; 15 p que é a coerência dentro de certa banda de freqüência entre a HRTP do ouvido esquerdo e direito para certa posição de fonte de som virtual. cp que é a diferença de fase média dentro de certa banda de frequência entre HRTF do ouvido esquerdo e direito para certa posição de fonte de som virtual
Pressupondo representação HRTF de dominio de 5 frequência Hi(f), Hr(f), para os ouvidos esquerdo e direito, respectivamente, e f o indice de frequência, estes parâmetros podem ser calculados de acordo com:
Figure img0007
Onde soma através de f é executada para cada banda de parâmetro para resultar em um conjunto de parâmetros para cada banda de parâmetro b. Mais informação sobre este processo de 15 parametrização HRTF pode ser obtida de Breebaart, J. "Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround", Proc. ICME, Beijing, China (2007) e Breebaart, J., Faller, C. "Spatial audio processing: MPEG Surround and other applications", Wiley & Sons, Nova York (2007). 20 O processo de parametrização acima é executado independentemente para cada banda de parâmetro e cada posição de alto-falante virtual. A seguir, a posição do alto-falante é denotada por Px (X) , com X o identificador do alto-falante (lf, rf, c, ls ou ls) .
Como uma primeira etapa, as energias relativas (com relação à energia do sinal de entrada mono) do sinal de canal 5.1 são computadas usando os parâmetros CLD transmitidos. A energia relativa do canal esquerdo-frontal é provida por:
Figure img0008
10 Similarmente, as energias relativas dos outros canais são providas por:
Figure img0009
Providas as energias □ de cada falante virtual, os parâmetros ICC que representam valores de coerência entre certos pares de falantes, e os parâmetros HRTF Plf Pr, □, e <p para cada alto-falante virtual, os atributos estatísticos do sinal 20 binaural resultante podem ser estimados. Isto é atingido pela adição da contribuição em termos de energia □ para cada alto- falante virtual, multiplicado pela energia da HRTF Plz Pr para cada ouvido individualmente para refletir a alteração na energia introduzida pelo HRTF. Termos adicionais são requeridos para 25 incorporar o efeito de correlações mútuas entre sinais de alto- falante virtual (ICC) e as diferenças de comprimento de caminho da HRTF (representadas pelo parâmetro cp) (vide, por exemplo, Breebaart, J., Faller, C. "Spatial audio processing: MPEG Surround and other applications", Wiley & Sons, Nova York (2007)) . 5 O valor esperado da energia relativa do canal de saida binaural esquerdo σL2 (com relação ao canal de entrada mono) é provido por:
Figure img0010
Similarmente, a energia (relativa) para o canal 10 direito é provida por:
Figure img0011
Baseado em pressupostos similares e usando técnicas similares, o valor esperado para o produto cruzado LBRB* do par de sinal binaural pode ser calculado de
Figure img0012
A coerência da saida binaural (ICCB) é, então, provida por:
Figure img0013
Baseado na coerência determinada do sinal de saida binaural ICCB (e ignorando os sinais de som de localização e características de reverberação) os coeficientes de matriz 5 requeridos para reintegrar os parâmetros ICCB podem, então, serem calculados usando métodos convencionais conforme especificado em Breebaart, J., van de Par, S., Kohlrausch, A., Schuijers, E. "Parametric coding of stereo audio", EURASIP J. Applied Signal I Proc. 9, pág. 1305-1322 (2005):
Figure img0014
A seguir a geração dos coeficientes de filtro pelo processador de coeficiente 419 será descrita. Primeiramente, representações de sub-banda de respostas de impulso da função de transferência perceptual binaural correspondendo a fontes de som diferentes no sinal de áudio binaural são geradas.
Especificamente, as HRTFs (ou BRIRs) são convertidas no dominio QMF resultando em representações de dominio QMF H L\X ■> Hn^x para as respostas de impulso do ouvido esquerdo e ouvido direito, respectivamente, usando o método do conversor de filtro descrito acima na descrição da Figura 4. Na representação, X denota o canal fonte (X=Lf, Rf, c, Ls, Rs), R e L denotam o canal binaural esquerdo e direito, respectivamente, n é o número 5 do bloco de transformada e k denota a sub-banda.
O processador do coeficiente 419, então, prossegue para determinar os coeficientes de filtro como uma combmaçao pesada de coeficientes correspondentes das representações de sub-banda H^,HnR-kx . Especificamente, os
Figure img0015
O processador do coeficiente 419 calcula os pesos 15 tk e sk conforme descrito a seguir.
Primeiramente, o módulo' dos pesos de combinação linear é escolhido de modo que:
Figure img0016
Dessa maneira, o peso para uma HRTF provida 20 correspondendo a um canal espacial dado é selecionado para corresponder ao nivel de energia daquele canal.
Em segundo lugar, os ganhos de escalonamento gk são computados como segue. Deixe a energia de saida binaural qe aivo 25 normalizado para a banda hibrida k ser denotada por (σ*)2 para o canal de saida Y = L,R, e deixar o ganho de enerσia Hnk denotado por (crrAÍ) , então os ganhos de escalonamento gk são ajustados de modo a atingir
Figure img0017
Observe aqui que se isto pode ser atingido aproximadamente com ganhos de escalonamento que são constantes em cada banda de parâmetro, então o escalonamento pode ser omitido a partir da mudança do filtro e executado pela modificação dos elementos de matriz da seção anterior a
Figure img0018
Para isto ser verdadeiro, é um requisito que a combinação pesada não escalonada
Figure img0019
tenha ganhos de energia que não variem muito dentro das bandas de parâmetro. Tipicamente, uma contribuição principal para estas variações surge de diferenças de atraso importantes entre as respostas HRTF. Em algumas configurações da presente invenção, um pré-alinhamento no dominio de tempo é executado para os filtros HRTF de dominio e os pesos de combinação de valor real simples podem ser aplicados:
Figure img0020
Em outras configurações da presente invenção, aquelas diferenças de atraso são contra atacadas adaptativamente nos pares HRTF dominantes valor complexos. No caso uso dos pesos a seguia
Figure img0021
xf.xs e o ângulo de fase não envolvida da correlação cruzada complexa ATH-VΩ p entre os filtros de sub-banda HnxkXf e H"’kXs . Esta correlação cruzada é definida por
Figure img0022
onde a estrela denota conjugação complexa. 0 objetivo do não envolvimento de fase é usar a liberdade de escolha de um ângulo de fase até múltiplos de de modo a obter uma curva de fase que está variando tão lentamente quanto possivel como uma função do indice de sub-banda k . ° papel dos parâmetros de ângulo de fase nas 20 fórmulas de combinação acima é duplo. Primeiramente, ele realiza uma compensação de atraso dos filtros frontal/posterior antes da sobreposição que conduz a uma resposta combinada que modela um tempo de atraso principal correspondendo a uma posição de fonte entre os falantes frontais e traseiros. Em segundo lugar, ele reduz a variabilidade dos ganhos de energia dos filtros não escalonados. Se o ICCM de coerência dos filtros combinados H uma banda de parâmetro ou uma banda hibrida é menor que um, a saida binaural pode se tornar menos coerente do que o pretendido, como ocorre da relação
Figure img0023
à solução para este problema de acordo com algumas configurações da presente invenção é usar um valor ICCB modificado para a definição do elemento de matriz, definido por
Figure img0024
A Figura 5 ilustra um fluxograma de um exemplo de um método para gerar um sinal de áudio binaural de acordo com algumas configurações da invenção. O método inicia na etapa 501 onde os dados de áudio são recebidos compreendendo um sinal de áudio do canal M de áudio sendo um downmix de um sinal de áudio do canal N e dados de parâmetro espaciais para upmix do sinal de áudio do canal M para o sinal de áudio do canal N. A etapa 501 é seguida pela etapa 503, onde os parâmetros espaciais dos dados de parâmetro espaciais são convertidos nos primeiros parâmetros binaurais em resposta a uma *> função de transferência perceptual binaural. A etapa 503 é seguida pela etapa 505, onde o sinal de áudio do canal M é convertido em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais. 5 A etapa 505 é seguida pela etapa 507, onde os coeficientes de filtro são determinados para um filtro estéreo em resposta à função de transferência perceptual binaural.
A etapa 507 é seguida pela etapa 509, onde o sinal de áudio binaural é gerado por filtragem do primeiro sinal 10 estéreo no filtro estéreo. O aparelho da Figura 4 pode, por exemplo, ser usado em um sistema de transmis.s-âo-—A—Fiqura—6 bTustra um exemplo de um sistema de transmissão para comunicação de um sinal de áudio de acordo com algumas configurações da invenção. O sistema de 15 transmissão compreende um transmissor 601 que é acoplado a um receptor 603 através de uma rede 605 que especificamente pode ser a Internet.
No exemplo especifico, o transmissor 601 é um dispositivo de gravação de sinal e o receptor 603 é um dispositivo 20 de reprodutor de sinal, mas será observado que em outras configurações, um transmissor e receptor pode ser usado em outras aplicações e para outros objetivos. Por exemplo, o transmissor 601 e/ou o receptor 603 pode ser parte de uma funcionalidade de transcodificação e pode, por exemplo, prover interface para outras 25 fontes ou destinos de sinal. Especificamente, o receptor 603 pode receber um sinal de som surround codificado e gerar um sinal binaural codificado emulando o sinal de som surround. O sinal fontes.
No exemplo específico onde uma função de gravação de sinal é suportada, o transmissor 601 compreende um digitalizador 607 que recebe um sinal de multicanal analógico 5 (surround) que é convertido para um sinal PCM digital (Código de Pulso Modulado) por amostragem e conversão de analógico-para- digital.
O digitalizador 607 é acoplado ao codificador 609 da Figura 1, que codifica o sinal de multicanal PCM de acordo com 10 um algoritmo de codificação. No exemplo específico, o codificador 609 codifica o sinal como um sinal de som surround codificado MPEG. O codificador 609 é acoplado a—um—t-r-arrrsirrrs^õr de rede 611 que recebe o sinal codificado e faz a interface com a Internet 605. O transmissor de rede pode transmitir o sinal codificado para 15 o receptor 603 através da Internet 605. O receptor 603 compreende um receptor de rede 613 que faz a interface com a Internet 605 e que é arranjado para receber o sinal do transmissor 601. O receptor de rede 613 é acoplado a um 20 decodif icador binaural 615 que, no exemplo, é o dispositivo da Figura 4.
No exemplo específico onde uma função de reprodução de sinal é suportada, o receptor 603 compreende ainda um reprodutor de sinal 1617 que recebe o sinal de áudio binaural 25 do decodificador binaural 615 e apresenta este para o usuário.
Especificamente, o reprodutor de sinal 117 pode compreender um conversor de digital-para-analógico, amplificadores e falantes conforme requerido para envio do sinal de áudio binaural para um conjunto de fones de ouvido.
Será apreciado que a descrição acima para clareza descreveu configurações da invenção com referência a unidades funcionais e processadores diferentes. Entretanto, ficará aparente 5 que qualquer distribuição adequada de funcionalidade entre unidades funcionais ou processadores diferentes pode ser usada sem sair da invenção. Por exemplo, a funcionalidade ilustrada a ser executada por processadores' ou controladores separados pode ser executada pelos mesmos processadores ou controladores. Dessa 10 maneira, referências a unidades funcionais especificas são apenas para serem vistas como referências a meios adequados para prover a funcionalidade descrita ao invés de—i-nd-ie-a-t-ivas dé uma lógica estrita ou estrutura fisica ou organização.
A invenção pode ser implementada em qualquer 15 forma adequada incluindo hardware, software, firmware ou qualquer combinação destes. A invenção pode opcionalmente ser implementada pelo menos parcialmente como software de computador operando em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma configuração da 20 invenção podem ser fisicamente, funcionalmente e logicamente implementados de qualquer maneira adequada. Na verdade, a funcionalidade pode ser implementada em uma unidade única, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Como tal, a invenção pode ser implementada em uma 25 unidade única ou pode ser fisicamente e funcionalmente distribuída entre unidades e processadores diferentes.
Embora a presente invenção tenha sido descrita em conexão com algumas configurações, não é objetivo estar limitado à forma especifica definida aqui. Ao invés disso, o escopo da presente invenção está limitado apenas pelas reivindicações em anexo. Além disso, embora uma característica possa parecer estar descrita em conexão com configurações especificas, alguém com 5 especialização na técnica reconheceria que várias características das configurações descritas podem ser combinadas de acordo com a invenção. Nas reivindicações, o termo "compreendendo" não exclui a presença de outros elementos ou etapas.
Além disso, embora listados individualmente, uma 10 pluralidade de meios, elementos ou etapas de métodos pode ser implementada, por exemplo, por uma unidade ou processador único. Além disso, embora características individuais possam estar incluidas em reivindicações diferentes, estas podem ser possivelmente vantajosamente combinadas, e a inclusão em 15 diferentes reivindicações não implica que uma combinação de características não seja possível e/ou vantajosa. Também, a inclusão de uma característica em uma categoria de reivindicações não implica em uma limitação a esta categoria, mas ao invés disso, indica que a característica é igualmente aplicável a outras 20 categorias de reivindicação, conforme apropriado. Além disso, a ordem de características nas reivindicações não implica em qualquer ordem especifica na qual as características devem ser operadas e, em especial, a ordem de etapas individuais em uma reivindicação de método não implica que as etapas devem ser 25 executadas nesta ordem. Ao invés disso, as etapas podem ser executadas em qualquer ordem adequada. Além disso, referências únicas não excluem uma pluralidade. Dessa maneira, referências a "um", "uma", "primeira", "segunda" etc. não impossibilita uma pluralidade. Sinais de referência nas reivindicações são providos meramente como um exemplo explicativo e não devem ser considerados como limitativos do escopo das reivindicações de qualquer maneira.

Claims (15)

1. Aparelho para gerar um sinal de áudio binaural, o aparelho compreendendo: meios (401, 403) para receber dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M para o sinal de áudio do canal N; meios de dados de parâmetro (411) para converter parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; - meios de conversão (409) para converter o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais; Caracterizado por um filtro estéreo (415, 417) para gerar o sinal de áudio binaural pela filtragem do primeiro sinal estéreo; e - meios de coeficiente (419) para determinar coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural.
2. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda: meios de transformada (405) para transformar o sinal de áudio do canal M de um dominio de tempo para um dominio de sub-banda e onde os meios de conversão e o filtro estéreo são arranjados para processar individualmente cada sub-banda do dominio de sub-banda.
3. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que uma duração de uma resposta de impulso da função de transferência perceptual binaural excede um intervalo de atualização de transformada.
4. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que os meios de conversão (409) são arranjados para gerar, para cada sub-banda, amostras de saida estéreo substancialmente como:
Figure img0025
onde pelo menos um dentre Lz e Rz é amostra de um canal de áudio do sinal de áudio do canal M na sub-banda e os meios de conversão são arranjados para determinar coeficientes de matriz hxy em resposta a ambos os dados de parâmetro espacial e a pelo menos uma função de transferência perceptual binaural.
5. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que os meios de coeficiente (419) compreendem: meios para prover representações de sub- banda de respostas de impulso de uma pluralidade de funções de transferência perceptual binaural correspondendo a diferentes fontes de som no sinal do canal N; meios para determinar os coeficientes de filtro por uma combinação pesada de coeficientes correspondentes das representações de sub-banda; e meios para determinar pesos para as representações de sub-banda para as combinações pesadas em resposta aos dados de parâmetros espaciais.
6. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que os primeiros parâmetros binaurais compreendem parâmetros de coerência indicativos de uma correlação entre canais do sinal de áudio binaural.
7. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que os primeiros parâmetros binaurais não compreendem pelo menos um dos parâmetros de localização indicativos de um local de qualquer fonte de som do sinal do canal N e parâmetros de reverberação indicativos de uma reverberação de qualquer componente de som do sinal de áudio binaural.
8. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que os meios de coeficiente (419) são arranjados para determinar os coeficientes de filtro para refletir pelo menos um dos sinais de som de localização e sinais de som de reverberação para o sinal de áudio binaural.
9. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal de áudio do canal M de áudio é um sinal de áudio mono e os meios de conversão (407, 409) são arranjados para gerar um sinal descorrelacionado do sinal de áudio mono e para gerar o primeiro sinal estéreo por uma multiplicação de matriz aplicada a amostras de um sinal estéreo compreendendo o sinal descorrelacionado e o sinal de áudio mono.
10. Método de geração de um sinal de áudio binaural, o método compreendendo: recepção (501) de dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M para o sinal de áudio do canal N; - conversão (503) de parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; - conversão (505) do sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais; caracterizado por compreender ainda a geração (509) do sinal de áudio binaural pela filtragem do primeiro sinal estéreo; e determinação (507) dos coeficientes de filtro para o filtro estéreo em resposta a pelo menos uma função de transferência perceptual binaural.
11. Transmissor para transmitir um sinal de áudio binaural, o transmissor compreendendo: meios (401, 403) para receber dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M no sinal de áudio do canal to rneios de dados de parâmetro (411) para converter parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; - meios de conversão (409) para converter o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais; caracterizado por compreender ainda um filtro estéreo (415, 417) para gerar o sinal de áudio binaural pela filtragem do primeiro sinal estéreo; - meios de coeficiente (419) para determinar coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural; e meios para transmitir o sinal de áudio binaural.
12. Sistema de transmissão para transmitir um sinal de áudio, o sistema de transmissão que inclui um transmissor compreendendo: meios (401, 403) para receber dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M no sinal de áudio do canal N, meios de dados de parâmetro (411) para converter parâmetros espaciais dos dados de parâmetro espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural, meios de conversão (409) para converter o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais, caracterizado por compreender ainda um filtro estéreo (415, 417) para gerar o sinal de áudio binaural pela filtragem do primeiro sinal estéreo, meios de coeficientes (419) para determinar coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural, e meios para transmitir o sinal de áudio binaural; e um receptor para receber o sinal de áudio binaural.
13. Dispositivo de gravação de áudio para gravar um sinal de áudio binaural, o dispositivo de gravação de áudio que compreende: meios (401, 403) para receber dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M no sinal de áudio do canal N; - meios de dados de parâmetro (411) para converter parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; - meios de conversão (409) para converter o sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais; caracterizado por compreender um filtro estéreo (415, 417) para gerar o sinal de áudio binaural pela filtragem do primeiro sinal estéreo; - meios de coeficiente (419) para determinar coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural; e meios para gravação do sinal de áudio binaural.
14. Método de transmissão de um sinal de áudio binaural, o método que compreende: - a recepção dos dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M no sinal de áudio do canal N; conversão dos parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural; - conversão do sinal de áudio do canal M no primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais; geração do sinal de áudio binaural pela filtragem do primeiro sinal estéreo em um filtro estéreo; caracterizado pela determinação dos coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural; e - transmissão do sinal de áudio binaural.
15. Método de transmissão e recepção de um sinal de áudio binaural, o método que compreende: um transmissor executando as etapas de: um recepção de dados de áudio compreendendo um sinal de áudio do canal M sendo um downmix de um sinal de áudio do canal N e dados de parâmetros espaciais para upmix do sinal de áudio do canal M no sinal de áudio do canal N, 17. conversão de parâmetros espaciais dos dados de parâmetros espaciais nos primeiros parâmetros binaurais em resposta a pelo menos uma função de transferência perceptual binaural, 18. conversão do sinal de áudio do canal M em um primeiro sinal estéreo em resposta aos primeiros parâmetros binaurais, caracterizado pela geração do sinal de áudio binaural pela filtragem do primeiro sinal estéreo em um filtro estéreo, determinação dos coeficientes de filtro para o filtro estéreo em resposta à função de transferência perceptual binaural, e transmissão do sinal de áudio binaural; e um receptor executando a etapa de recepção do sinal de áudio binaural.
BRPI0816618-8A 2007-10-09 2008-09-30 método e aparelho para gerar sinal de áudio binaural BRPI0816618B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP07118107 2007-10-09
EP07118107.7 2007-10-09
PCT/EP2008/008300 WO2009046909A1 (en) 2007-10-09 2008-09-30 Method and apparatus for generating a binaural audio signal

Publications (2)

Publication Number Publication Date
BRPI0816618A2 BRPI0816618A2 (pt) 2015-03-10
BRPI0816618B1 true BRPI0816618B1 (pt) 2020-11-10

Family

ID=40114385

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0816618-8A BRPI0816618B1 (pt) 2007-10-09 2008-09-30 método e aparelho para gerar sinal de áudio binaural

Country Status (15)

Country Link
US (1) US8265284B2 (pt)
EP (1) EP2198632B1 (pt)
JP (1) JP5391203B2 (pt)
KR (1) KR101146841B1 (pt)
CN (1) CN101933344B (pt)
AU (1) AU2008309951B8 (pt)
BR (1) BRPI0816618B1 (pt)
CA (1) CA2701360C (pt)
ES (1) ES2461601T3 (pt)
MX (1) MX2010003807A (pt)
MY (1) MY150381A (pt)
PL (1) PL2198632T3 (pt)
RU (1) RU2443075C2 (pt)
TW (1) TWI374675B (pt)
WO (1) WO2009046909A1 (pt)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US11202161B2 (en) 2006-02-07 2021-12-14 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
TWI463485B (zh) * 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2661912B1 (en) * 2011-01-05 2018-08-22 Koninklijke Philips N.V. An audio system and method of operation therefor
CN102802112B (zh) * 2011-05-24 2014-08-13 鸿富锦精密工业(深圳)有限公司 具有音频文件格式转换功能的电子装置
US9622006B2 (en) 2012-03-23 2017-04-11 Dolby Laboratories Licensing Corporation Method and system for head-related transfer function generation by linear mixing of head-related transfer functions
MY181365A (en) 2012-09-12 2020-12-21 Fraunhofer Ges Forschung Apparatus and method for providing enhanced guided downmix capabilities for 3d audio
US9491299B2 (en) 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
US9860663B2 (en) * 2013-01-15 2018-01-02 Koninklijke Philips N.V. Binaural audio processing
EP2946572B1 (en) * 2013-01-17 2018-09-05 Koninklijke Philips N.V. Binaural audio processing
US9344826B2 (en) * 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
US10506067B2 (en) 2013-03-15 2019-12-10 Sonitum Inc. Dynamic personalization of a communication session in heterogeneous environments
US9933990B1 (en) 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
AU2014241011B2 (en) 2013-03-28 2016-01-28 Dolby International Ab Rendering of audio objects with apparent size to arbitrary loudspeaker layouts
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
MX361115B (es) * 2013-07-22 2018-11-28 Fraunhofer Ges Forschung Descodificador de audio multicanal, codificador de audio multicanal, métodos, programa de computadora y representación de audio codificada usando una decorrelación de señales de audio renderizadas.
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US10170125B2 (en) 2013-09-12 2019-01-01 Dolby International Ab Audio decoding system and audio encoding system
KR102314510B1 (ko) * 2013-09-17 2021-10-20 주식회사 윌러스표준기술연구소 멀티미디어 신호 처리 방법 및 장치
CN105706468B (zh) 2013-09-17 2017-08-11 韦勒斯标准与技术协会公司 用于音频信号处理的方法和设备
WO2015048551A2 (en) * 2013-09-27 2015-04-02 Sony Computer Entertainment Inc. Method of improving externalization of virtual surround sound
KR101805327B1 (ko) * 2013-10-21 2017-12-05 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US10580417B2 (en) 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
EP4246513A3 (en) 2013-12-23 2023-12-13 Wilus Institute of Standards and Technology Inc. Audio signal processing method and parameterization device for same
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
ES2709248T3 (es) * 2014-01-03 2019-04-15 Dolby Laboratories Licensing Corp Generación de audio binaural en respuesta a un audio multicanal que usa al menos una red de retardo de retroalimentación
EP3090576B1 (en) 2014-01-03 2017-10-18 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
EP3092819A1 (en) 2014-01-10 2016-11-16 Dolby Laboratories Licensing Corporation Reflected sound rendering using downward firing drivers
KR102272099B1 (ko) * 2014-03-19 2021-07-20 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
WO2015142073A1 (ko) 2014-03-19 2015-09-24 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US9860668B2 (en) * 2014-04-02 2018-01-02 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
US9462406B2 (en) 2014-07-17 2016-10-04 Nokia Technologies Oy Method and apparatus for facilitating spatial audio capture with multiple devices
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US10181328B2 (en) 2014-10-21 2019-01-15 Oticon A/S Hearing system
CN106537942A (zh) * 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频***和方法
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
CN110809227B (zh) 2015-02-12 2021-04-27 杜比实验室特许公司 用于耳机虚拟化的混响生成
JP6539742B2 (ja) * 2015-02-18 2019-07-03 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ信号をフィルタリングするためのオーディオ信号処理装置および方法
KR20230105002A (ko) * 2015-08-25 2023-07-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩및 디코딩
KR20230048461A (ko) 2015-08-25 2023-04-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 디코더 및 디코딩 방법
ES2818562T3 (es) * 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corp Descodificador de audio y procedimiento de descodificación
GB2544458B (en) 2015-10-08 2019-10-02 Facebook Inc Binaural synthesis
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
WO2017132396A1 (en) 2016-01-29 2017-08-03 Dolby Laboratories Licensing Corporation Binaural dialogue enhancement
US20180032212A1 (en) 2016-08-01 2018-02-01 Facebook, Inc. Systems and methods to manage media content items
CN106331977B (zh) * 2016-08-22 2018-06-12 北京时代拓灵科技有限公司 一种网络k歌的虚拟现实全景声处理方法
KR102291811B1 (ko) 2016-11-08 2021-08-23 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 사이드 이득 및 잔여 이득을 사용하여 멀티채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
DE102017106022A1 (de) * 2017-03-21 2018-09-27 Ask Industries Gmbh Verfahren zur Ausgabe eines Audiosignals in einen Innenraum über eine einen linken und einen rechten Ausgabekanal umfassende Ausgabeeinrichtung
US11211043B2 (en) 2018-04-11 2021-12-28 Bongiovi Acoustics Llc Audio enhanced hearing protection system
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing
CN116193325A (zh) 2018-07-23 2023-05-30 杜比实验室特许公司 通过多个近场换能器渲染双耳音频
US10959035B2 (en) 2018-08-02 2021-03-23 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
CN109327766B (zh) * 2018-09-25 2021-04-30 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
JP7092050B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000308199A (ja) 1999-04-16 2000-11-02 Matsushita Electric Ind Co Ltd 信号処理装置および信号処理装置の製造方法
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
AU2003281128A1 (en) 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
JP5587551B2 (ja) * 2005-09-13 2014-09-10 コーニンクレッカ フィリップス エヌ ヴェ オーディオ符号化
CA2621175C (en) * 2005-09-13 2015-12-22 Srs Labs, Inc. Systems and methods for audio processing
CN1937854A (zh) * 2005-09-22 2007-03-28 三星电子株式会社 用于再现双声道虚拟声音的装置和方法
JP2007187749A (ja) 2006-01-11 2007-07-26 Matsushita Electric Ind Co Ltd マルチチャンネル符号化における頭部伝達関数をサポートするための新装置
DE602007004451D1 (de) 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치

Also Published As

Publication number Publication date
JP5391203B2 (ja) 2014-01-15
EP2198632A1 (en) 2010-06-23
PL2198632T3 (pl) 2014-08-29
MY150381A (en) 2013-12-31
BRPI0816618A2 (pt) 2015-03-10
AU2008309951B8 (en) 2011-12-22
MX2010003807A (es) 2010-07-28
CA2701360C (en) 2014-04-22
AU2008309951B2 (en) 2011-09-08
EP2198632B1 (en) 2014-03-19
CN101933344B (zh) 2013-01-02
TWI374675B (en) 2012-10-11
ES2461601T3 (es) 2014-05-20
CN101933344A (zh) 2010-12-29
US8265284B2 (en) 2012-09-11
RU2010112887A (ru) 2011-11-20
CA2701360A1 (en) 2009-04-16
JP2010541510A (ja) 2010-12-24
WO2009046909A1 (en) 2009-04-16
TW200926876A (en) 2009-06-16
US20100246832A1 (en) 2010-09-30
AU2008309951A1 (en) 2009-04-16
KR101146841B1 (ko) 2012-05-17
RU2443075C2 (ru) 2012-02-20
KR20100063113A (ko) 2010-06-10

Similar Documents

Publication Publication Date Title
BRPI0816618B1 (pt) método e aparelho para gerar sinal de áudio binaural
US20200335115A1 (en) Audio encoding and decoding
KR102149216B1 (ko) 오디오 신호 처리 방법 및 장치
JP5698189B2 (ja) オーディオ符号化
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
CN110326310B (zh) 串扰消除的动态均衡
BRPI0913460B1 (pt) Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais
KR20180042397A (ko) 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩
RU2427978C2 (ru) Кодирование и декодирование аудио
KR102195976B1 (ko) 오디오 신호 처리 방법 및 장치
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial

Legal Events

Date Code Title Description
B25G Requested change of headquarter approved

Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V. (NL) , DOLBY

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: H04S 3/02 , G10L 19/00

Ipc: G10L 19/008 (2013.01), H04S 3/02 (1980.01)

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 10/11/2020, OBSERVADAS AS CONDICOES LEGAIS.