BR112012017551B1 - Aparelho e método para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais - Google Patents

Aparelho e método para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais Download PDF

Info

Publication number
BR112012017551B1
BR112012017551B1 BR112012017551-3A BR112012017551A BR112012017551B1 BR 112012017551 B1 BR112012017551 B1 BR 112012017551B1 BR 112012017551 A BR112012017551 A BR 112012017551A BR 112012017551 B1 BR112012017551 B1 BR 112012017551B1
Authority
BR
Brazil
Prior art keywords
direct
ambient
signal
channel
downmix
Prior art date
Application number
BR112012017551-3A
Other languages
English (en)
Other versions
BR112012017551A2 (pt
Inventor
Juha Vilkamo
Jan PLOGSTIES
Bernhard NEUGEBAUER
Jürgen Herre
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Publication of BR112012017551A2 publication Critical patent/BR112012017551A2/pt
Publication of BR112012017551B1 publication Critical patent/BR112012017551B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

aparelho e método para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais é descrito um aparelho para extrair um sinal direto e/ou ambiente de um sinal downmix e informações paramétricas espaciais, o sinal downmix e as informações paramétricas espaciais representando um sinal de áudio de múltiplos canais tendo mais canais que o sinal downmix, em que as informações paramétricas espaciais compreendem relações intercanais do sinal de áudio de múltiplos canais. o aparelho compreende um estimador direto/ambiente e um extrator direto/ambiente. o estimador direto/ambiente é configurado para estimar uma informação de nível de uma parte direta e/ou uma parte ambiente do sinal de áudio de múltiplos canais com base nas informações paramétricas espaciais. o extrator direto/ambiente é configurado para extrair uma parte de sinal direto e/ou uma parte de sinal ambiente do sinal downmix com base nas informação de nível estimada da parte direta ou da parte ambiente.

Description

DESCRIÇÃO
A presente invenção se refere a processamento de sinal de áudio e, em particular, a um aparelho e um método para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais. As realizações adicionais da presente invenção se referem a uma utilização de separação direta/ambiente para realçar a reprodução biauricular de sinais de áudio. Ainda, as realizações adicionais se referem à reprodução biauricular de som de múltiplos canais, onde áudio de múltiplos canais significa áudio tendo dois ou mais canais. O conteúdo de áudio tipico tendo som de múltiplos canais são trilhas sonoras de filmes e gravações musicais de múltiplos canais.
O sistema de audição especial humano tende a processar o som grosseiramente em duas partes. Há, por um lado, uma parte localizável ou direta e, por outro lado, uma não localizável ou ambiente. Há muitas aplicações de processamento de áudio, como reprodução sonora biauricular e upmixagem de múltiplos canais, onde é desejável ter acesso a esses dois componentes de áudio.
Na técnica, métodos de separação direta/ambiente, conforme descritos em "Primary-ambience signal decomposition e vector-based localization for spatial audio coding e enhancement", Goodwin, Jot, IEEE Inti.Conf. On Acoustics, Speech e Signal proc, April 2007; "Correlation-based ambience extraction from stereo recordings", Merimaa, Goodwin, Jot, AES 123rd Convention, New York, 2007; "Multiple-loudspeaker playback of stereo signals", C. Faller, Journal of the AES, Oct. 2007; "Primary-ambient decomposition of stereo audio signals using a complex similarity index"; Goodwin et al., Pub. No: US2009/0198356 Al, Aug 2009; "Patent application title: Method to Generate Multi-Channel Audio Signal from Stereo Signals", Inventors: Christof Faller, Agents: FISH & RICHARDSON P.C., Assignees: LG ELECTRONICS, INC., Origin: MINNEAPOLIS, MN US, IPC8 Class: AH04R500FI, USPC Class: 381 1; e "Ambience generation for stereo signals", Avendano et al., Date Issued: July 28, 2009, Application: 10/163,158, Filed: June 4, 2002 são conhecidos, que podem ser utilizados para diversas aplicações. Os algoritmos de separação direta-ambiente da técnica anteriores têm base na comparação de sinal intercanais de som estéreo em faixas de frequência.
Ademais, em „Binaural 3-D Audio Rendering Based on Spatial Audio Scene Coding", Goodwin, Jot, AES 123rd Convention, New York 2007, é abordada a reprodução biauricular com extração ambiente. A extração ambiente em conexão com a reprodução biauricular também é mencionada em J. Usher e J. Benesty, "Enhancement of spatial sound quality: a new reverberationextraction audio upmixer," IEEE Trans. Audio, Speech, Language Processing, vol. 15, pp. 2141-2150, Sept. 2007. O ultimo documento foca na extração ambiente em gravações de microfone estéreo, utilizando filtração de canal cruzado de média dos minimos quadrados adaptativa do componente direto em cada canal. Os codecs de áudio espaciais, por exemplo, MPEG surround, tipicamente consistem em uma ou duas correntes de áudio de canal em combinação com informações paralelas espaciais, o que estende o áudio em múltiplos canais, conforme descrito em ISO/IEC 23003-1 - MPEG Surround; e Breebaart, J. , Herre, J., Villemoes, L., Jin, C., Kjõrling, K. , Plogsties, J., Koppens, J. (2006). "Multi-channel 5 goes mobile: MPEG Surround binaural rendering". Proc. 29th AES conference, Seoul, Korea.
Entretanto, tecnologias de codificação de áudio paramétrica modernas, como MPEG-surround (MPS) e estéreo paramétrico (PS) provêem somente um número reduzido de canais de 10 downmix de áudio - em alguns casos, somente um - junto às informações paralelas espaciais adicionais. A comparação entre os canais de entrada "originais" é, então, somente possível após decodificar primeiro o som no formato de saida pretendido.
Portanto, um conceito para extrair uma parte de 15 sinal direto ou uma parte de sinal ambiente de um sinal downmix e informações paramétricas espaciais é necessário. Entretanto, não há soluções existentes para extração direta/ambiente utilizando as informações paralelas paramétricas.
Portanto, é um objetivo da presente invenção 20 prover um conceito para extrair uma parte de sinal direto ou uma parte de sinal ambiente de um sinal downmix pelo uso das informações paramétricas espaciais.
Esse objetivo é alcançado por um aparelho, de acordo com a reivindicação 1, um método, de acordo com a 25 reivindicação 15, ou um programa de computador, de acordo com a reivindicação 16.
A idéia básica que fundamenta a presente invenção é que a extração direta/ambiente mencionada acima pode ser alcançada quando uma informação de nível de uma parte direta ou uma parte ambiente de um sinal de áudio de múltiplos canais é estimada com base nas informações paramétricas espaciais e uma parte de sinal direto ou uma parte de sinal ambiente é extraída de 5 um sinal downmix com base na informação de nível estimada. Aqui, o sinal downmix e as informações paramétricas espaciais representam o sinal de áudio de múltiplos canais tendo mais canais que o sinal downmix. Essa medida permite uma extração direta e/ou ambiente de um sinal downmix tendo um ou mais canais de entrada ao utilizar 10 informações paralelas paramétricas espaciais.
De acordo com uma realização da presente invenção, um aparelho para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais compreende um estimador direto/ambiente e um extrator direto/ambiente. O sinal 15 downmix e as informações paramétricas espaciais representam um sinal de áudio de múltiplos canais tendo mais canais que o sinal downmix. Ademais, as informações paramétricas espaciais compreendem relações intercanais do sinal de áudio de múltiplos canais. O estimador direto/ambiente é configurado para estimar uma 20 informação de nível de uma parte direta ou uma parte ambiente do sinal de áudio de múltiplos canais com base nas informações paramétricas espaciais. O extrator direto/ambiente é configurado para extrair uma parte de sinal direto ou uma parte de sinal ambiente do sinal downmix com base na informação de nível estimada 25 da parte direta ou da parte ambiente.
De acordo com outra realização da presente invenção, o aparelho para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais ainda compreende um dispositivo de interpretação de som direta biauricular, um dispositivo de interpretação de som ambiente biauricular e um combinador. 0 dispositivo de interpretação de som direta biauricular é configurado para processar a parte de sinal direto para obter um primeiro sinal de saida biauricular. 0 dispositivo de interpretação de som ambiente biauricular é configurado para processar a parte de sinal ambiente para obter um segundo sinal de saída biauricular. 0 combinador é configurado para combinar o primeiro e o segundo sinais de saida biauriculares para obter um sinal de saída biauricular combinado. Portanto, uma reprodução biauricular de um sinal de áudio, em que a parte de sinal direto e a parte de sinal ambiente do sinal de áudio são processadas separadamente, pode ser provida.
A seguir, as realizações da presente invenção são explicadas com referência aos desenhos anexos nos quais:
A Figura 1 apresenta um diagrama de blocos de uma realização de I, aparelho para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais que representam um sinal de áudio de múltiplos canais;
A Figura 2 apresenta um diagrama de blocos de uma realização de um aparelho para extrair um sinal direto/ambiente de um sinal downmix mono e informações paramétricas espaciais que representam um sinal de áudio estéreo paramétrico;
A Figura 3a apresenta uma ilustração esquemática da decomposição espectral de um sinal de áudio de múltiplos canais, de acordo com uma realização da presente invenção;
A Figura 3b apresenta uma ilustração esquemática para calcular relações intercanais de um sinal de áudio de múltiplos canais com base na decomposição espectral da Figura 3a;
A Figura 4 apresenta um diagrama de blocos de uma realização de um extrator direto/ambiente com downmixagem de informação de nivel estimada;
A Figura 5 apresenta um diagrama de blocos de uma realização adicional de um extrator direto/ambiente ao aplicar parâmetros de ganho a um sinal downmix;
A Figura 6 apresenta um diagrama de blocos de uma realização adicional de um extrator direto/ambiente com base na solução de LMS com mixagem cruzada de canal;
A Figura 7a apresenta um diagrama de blocos de uma realização de um estimador direto/ambiente utilizando uma fórmula de estimativa ambiente estéreo;
A Figura 7b apresenta um gráfico de uma proporção de energia direta para total versus coerência intercanais exemplar;
A Figura 8 apresenta um diagrama de blocos de um sistema codificador/decodificador, de acordo com uma realização da presente invenção;
A Figura 9a apresenta um diagrama de blocos de uma visão geral de interpretação de som direta biauricular, de acordo com uma realização da presente invenção;
A Figura 9b apresenta um diagrama de blocos de detalhes da interpretação de som direta biauricular da Figura 9a;
A Figura 10a apresenta um diagrama de blocos de uma visão geral de interpretação de som ambiente biauricular, de acordo com uma realização da presente invenção;
A Figura 10b apresenta um diagrama de blocos de detalhes da interpretação de som ambiente biauricular de detalhes da interpretação de som ambiente biauricular da Figura 10a;
A Figura 11 apresenta um diagrama de blocos conceituai de uma realização da reprodução biauricular de um sinal de áudio de múltiplos canais;
A Figura 12 apresenta um diagrama de blocos geral de uma realização de extração direta/ambiente incluindo reprodução biauricular;
A Figura 13a apresenta um diagrama de blocos de uma realização de um aparelho para extrair um sinal direto/ambiente de um sinal downmix mono em um dominio de banco de filtro;
A Figura 13b apresenta um diagrama de blocos de uma realização de um bloco de extração direta/ambiente da Figura 13a; e
A Figura 14 apresenta uma ilustração esquemática de um esquema de decodificação de MPEG Surround exemplar, de acordo com uma realização adicional da presente invenção.
A Figura 1 apresenta um diagrama de blocos de uma realização de um aparelho 100 para extrair um sinal direto/ambiente 125-1, 125-2 de um sinal downmix 115 e informações paramétricas espaciais 105. Conforme apresentado na Figura 1, o sinal downmix 115 e as informações paramétricas espaciais 105 representam um sinal de áudio de múltiplos canais 101 tendo mais canais Chi ... ChN que o sinal downmix 115. As informações paramétricas espaciais 105 podem compreender relações intercanais do sinal de áudio de múltiplos canais 101. Em particular, o aparelho 100 compreende um estimador direto/ambiente 110 e um extrator direto/ambiente 120. O estimador direto/ambiente 110 pode ser configurado para estimar informação de nivel 113 de uma parte direta ou uma parte ambiente do sinal de áudio de múltiplos canais 101 com base nas informações paramétricas espaciais 105. O extrator direto/ambiente 120 pode ser configurado para extrair uma parte de sinal direto 125-1 ou uma parte de sinal ambiente 125-2 do sinal downmix 115 com base na informação de nivel estimada 113 da parte direta ou a parte ambiente.
A Figura 2 apresenta um diagrama de blocos de uma realização de um aparelho 200 para extrair um sinal direto/ambiente 125-1, 125-2 de um sinal downmix mono 215 e informações paramétricas espaciais 105 que representam um sinal de áudio estéreo paramétrico 201. O aparelho 200 da Figura 2 compreende essencialmente os mesmos blocos que o aparelho 100 da Figura 1. Portanto, blocos idênticos tendo implementações e/ou funções semelhantes são denotados pelos mesmos números. Ademais, o sinal de áudio estéreo paramétrico 201 da Figura 2 pode corresponder ao sinal de áudio de múltiplos canais 101 da Figura 1, e o sinal downmix mono 215 da Figura 2 pode corresponder ao sinal downmix 115 da Figura 1. Na realização da Figura 2, o sinal downmix mono 215 e as informações paramétricas espaciais 105 representam o sinal de áudio estéreo paramétrico 201. O sinal de áudio estéreo paramétrico pode compreender um canal esquerdo indicado por 'L' e um canal direito indicado por 'R' . Aqui, o extrator direto/ambiente 120 é configurado para extrair a parte de sinal direto 125-1 ou a parte de sinal ambiente 125-2 do sinal downmix mono 215 com base na informação de nivel estimada 113, que podem ser derivadas das informações paramétricas espaciais 105 pelo uso do estimador direto/ambiente 110.
Na prática, os parâmetros espaciais (informações paramétricas espaciais 105) na realização da Figura 1 ou Figura 2, respectivamente, referem-se especialmente às informações paralelas de MPEG surround (MPS) ou de estéreo paramétrico (PS) . Essas duas tecnologias são métodos de codificação de áudio surround ou de estéreo de baixa taxa de bits da técnica anterior. Com referência à Figura 2, PS provê um canal de áudio downmix com parâmetros espaciais, e com referência à Figura 1, MPS prove um, dois ou mais canais de áudio downmix com parâmetros espaciais.
Especificamente, as realizações da Figura 1 e Figura 2 apresentam claramente que as informações paralelas paramétricas espaciais 105 podem ser prontamente utilizadas no campo de extração direta e/ou ambiente de um sinal (isto é, sinal downmix 115; 215) que tem um ou mais canais de áudio.
A estimativa de niveis direto e/ou ambiente (informação de nivel 113) tem base nas informações sobre as relações intercanais ou diferenças intercanais, como diferenças e/ou correlação de nivel. Esses valores podem ser calculados de um sinal estéreo ou de múltiplos canais. A Figura 3a apresenta uma ilustração esquemática de decomposição espectral 300 de um sinal de áudio de múltiplos canais (Ch1...ChN) a ser utilizado para calcular relações intercanais dos respectivos Chi ... ChN. Como pode ser visto na Figura 3a, uma decomposição espectral de um canal inspecionado Chi do sinal de áudio de múltiplos canais (Chi ... ChN) ou uma combinação linear R do resto dos canais, respectivamente, compreende uma pluralidade 301 de subfaixas, em que cada subfaixa 303 da pluralidade 301 de subfaixas se estende ao longo de um eixo horizontal (eixo de tempo 310) tendo valores de subfaixa 305, conforme indicado por caixas pequenas de uma grade tempo/frequência. Ademais, as subfaixas 303 são localizadas consecutivamente ao longo de um eixo vertical (eixo de frequência 320) correspondente a diferentes regiões de frequência de um banco de filtro. Na Figura 3a, um respectivo recorte de tempo/frequência X"’k ou Xβké indicado por uma linha tracejada. Aqui, o indice i denota o canal Chi e R a combinação linear do resto dos canais, enquanto os indices nek correspondem a determinadas intervalos de tempo do banco do filtro 307 e subfaixas de banco de filtro303. Com base nesses recortes de tempo/frequência X”’k e X^'k , porexemplo, que são localizados no mesmo ponto de tempo/frequência(t0, fo) em relação aos eixos de tempo/frequência 310, 320,relações intercanais 335, como coerências intercanais (ICCi) oudiferenças de nivel de canal (CLDj.) do canal inspecionado Chi, pode ser calculado em uma etapa 330, conforme apresentado na Figura 3b. Aqui, o cálculo das relações intercanais ICCi e CLDi pode ser realizado ao utilizar as seguintes relações:
Figure img0001
em que Chié o canal inspecionado e R a combinação linear de canais restantes, enquanto <...> denota uma média de tempo. Um exemplo de uma combinação linear R de canais restantes é sua soma normalizada de energia. Além disso, a diferença de nivel de canal (CLDi) é tipicamente um valor de decibel do parâmetro <Jj .
Com referência às equações acima, a diferença de nível de canal (CLDi) ou parâmetro <yj pode corresponder a um nivel Pi de canal Chi normalizado a um nível PR da combinação linear R do resto dos canais. Aqui, os níveis Pi ou PR podem ser derivados do parâmetro de diferença de nível intercanais ICLDÍ do canal Chi e uma combinação linear ICLDR dos parâmetros de diferença de nível intercanais ICLDj (j i) do resto dos canais.
Aqui, ICLDÍ e ICLDj podem ser relacionados a um canal de referência Chref, respectivamente. Nas realizações adicionais, os parâmetros de diferença de nível intercanais ICLDÍ e ICLDj também podem ser relacionados a qualquer outro canal do sinal de áudio de múltiplos canais (Chi ...ChN) sendo o canal de referência Chref. Isso, eventualmente, levará ao mesmo resultado para a diferença de nível de canal (CLDi) ou parâmetro cr .
De acordo com as realizações adicionais, as relações intercanais 335 da Figura 3b também podem ser derivadas ao operar em diferentes ou todos os pares Ch±, Chj de canais de entrada do sinal de áudio de múltiplos canais (Chi ... ChN) . Nesse caso, os parâmetros de coerência intercanais ICCifj calculados em par ou diferença de nível de canal (CLDifj) ou parâmetros cr,- (ou ICLDÍ, j) podem ser obtidos, os índices (i, j)denotando um determinado par de canais Chi e Chj, respectivamente.
A Figura 4 apresenta um diagrama de blocos de uma realização 400 de um extrator direto/ambiente 420, que inclui downmixagem da informação de nível estimada 113. A realização da Figura 4 compreende essencialmente os mesmos blocos que os da realização da Figura 1. Portanto, blocos idênticos tendo implementações e/ou funções semelhantes são denotados pelos mesmosnúmeros. Entretanto, o extrator direto/ambiente 420 da Figura 4, podem corresponder ao extrator direto/ambiente 120 da Figura 1, é configurado para dowmixar a informação de nivel estimada 113 da parte direta ou da parte ambiente do sinal de áudio de múltiplos canais para obter informação de nivel downmixada da parte direta ou da parte ambiente e extrair a parte de sinal direto 125-1 ou a parte de sinal ambiente 125-2 do sinal downmix 115 com base na informação de nivel downmixada. Conforme apresentado na Figura 4, as informações paramétricas espaciais 105 podem, por exemplo, ser derivadas do sinal de áudio de múltiplos canais 101 (Chi - ChN) da Figura 1 e podem compreender as relações intercanais 335 de Chi - ChN introduzidas na Figura 3b. As informações paramétricas espaciais 105 da Figura 4 também podem compreender informações de dowmixagem 410 a serem alimentadas ao extrator direto/ambiente 420. Nas realizações, as informações de dowmixagem 410 podem caracterizar o downmix de um sinal de áudio de múltiplos canais original (por exemplo, o sinal de áudio de múltiplos canais 101 da Figura 1) no sinal downmix 115. A dowmixagem pode, por exemplo, ser realizada ao utilizar um downmixador (não apresentado) que opera em qualquer dominio de codificação, como em um dominio de tempo ou um dominio espectral.
De acordo com as realizações adicionais, o extrator direto/ambiente 420 também pode ser configurado para realizar um downmix da informação de nivel estimada 113 da parte direta ou da parte ambiente do sinal de áudio de múltiplos canais 101 ao combinar a informação de nivel estimada da parte direta com soma coerente e a informação de nivel estimada da parte ambiente com soma incoerente.
É ressaltado que a informação de nivel estimada pode representar níveis de energia ou níveis de potência da parte direta ou da parte ambiente, respectivamente.
Em particular, a dowmixagem das energias (isto é, informação de nível 113) da parte direta/ambiente estimada pode ser realizada ao assumir incoerência completa ou coerência completa entre os canais. As duas fórmulas que podem ser aplicadas no caso de dowmixagem com base na soma incoerente ou coerente, respectivamente, são as seguintes.
Para sinais incoerentes, a energia downmixada ou informação de nível downmixada pode ser calculada por
Figure img0002
Para sinais coerentes, a energia downmixada ou informação de nível downmixada pode ser calculada por
Figure img0003
Aqui, g é o ganho de downmix, que pode ser obtido das informações de dowmixagem, enquanto E(Chi) denota a energia da parte direta/ambiente de um canal Chi do sinal de áudio de múltiplos canais. Como um exemplo típico de dowmixagem incoerente, no caso de dowmixagem de 5.1 canais em dois, a energia do downmix deixado pode ser:
Figure img0004
A Figura 5 apresenta uma realização adicional de um extrator direto/ambiente 520 ao aplicar parâmetros de ganho gD, gA a um sinal downmix 115. O extrator direto/ambiente 520 da Figura 5 pode corresponder ao extrator direto/ambiente 420 da Figura 4. Primeiro, informação de nível estimada de uma parte direta 545-1 ou uma parte ambiente 545-2 pode ser recebida de um estimador direto/ambiente conforme descrito antes. A informação de nivel recebida 545-1, 545-2 pode ser combinada/downmixada em uma etapa 550 para obter informação de nivel downmixada da parte direta 555-1 ou da parte ambiente 555-2, respectivamente. Então, em uma etapa 560, parâmetros de ganho gD 565-1 ou gA 565-2 podem ser derivados da informação de nivel downmixada 555-1, 555-2 para a parte direta ou a parte ambiente, respectivamente. Por fim, o extrator direto/ambiente 520 pode ser utilizado para aplicar os parâmetros de ganho derivados 565-1, 565-2 ao sinal downmix 115 (etapa 570), de modo que a parte de sinal direto 125-1 ou de sinal ambiente 125-2 seja obtida.
Aqui, deve ser observado que nas realizações da Figuras 1; 4; 5, o sinal downmix 115 pode consistir em uma pluralidade de canais downmix (Chi„.ChM) presentes nas entradas dos extratores diretos/ambientes 120; 420; 520, respectivamente.
Nas realizações adicionais, o extrator direto/ambiente 520 é configurado para determinar uma proporção de energia direta para total (DTT) ou ambiente para total (ATT) da informação de nivel downmixada 555-1, 555-2 da parte direta ou da parte ambiente e utilizar como os parâmetros de ganho 565-1, 565-2 parâmetros de extração com base na proporção de energia DTT ou ATT determinada.
Ainda, mas realizações adicionais, o extrator direto/ambiente 520 é configurado para multiplicar o sinal downmix 115 como uma primeira raiz quadrada de parâmetro de extração (DTT) para obter a parte de sinal direto 125-1 e com uma segunda raiz quadrada de parâmetro de extração (ATT) para obter a parte de sinal ambiente 125-2. Aqui, o sinal downmix 115 pode corresponder ao sinal downmix mono 215 conforme apresentado na realização da Figura 2 ( 'caso de downmix mono') .
No caso de downmix mono, a extração ambiente pode ser feita ao aplicar raiz quadrada(ATT) e a raiz quadrada(DTT). Entretanto, a mesma abordagem também é válida para sinais downmix de múltiplos canais, em particular, ao aplicar a raiz quadrada (ATTjJ e a raiz quadrada (DTTj.) para cada canal Chi.
De acordo com as realizações adicionais, no caso de o sinal downmix 115 compreender uma pluralidade de canais ( 'caso de downmix de múltiplos canais'), o extrator direto/ambiente 520 pode ser configurado para aplicar uma primeira pluralidade de parâmetros de extração, por exemplo raiz quadrada(DTTi) , ao sinal downmix 115 para obter a parte de sinal direto 125-1 e uma segunda pluralidade de parâmetros de extração, por exemplo, a raiz quadrada (ATTi) , ao sinal downmix 115 para obter a parte de sinal ambiente 125-2. Aqui, a primeira e a segunda pluralidade de parâmetros de extração podem constituir uma matriz diagonal.
Em geral, o extrator direto/ambiente 120; 420; 520 também pode ser configurado para extrair a parte de sinal direto 125-1 ou a parte de sinal ambiente 125-2 ao aplicar a matriz de extração M por M quadrática ao sinal downmix 115, em que um tamanho (M) da matriz de extração M por M quadrática corresponde a diversos (M) canais downmix (Chi„.ChM) .
A aplicação de extração ambiente pode, portanto, ser descrita ao aplicar uma matriz de extração M por M quadrática, onde M é o número de canais downmix (Chi...ChM) . Isso pode incluir todas as maneiras possiveis de manipular o sinal de entrada para obter a saida direta/ambiente, incluindo a abordagem relativamente simples com base nos parâmetros da raiz quadrada (ATTi) e a raiz quadrada (DTTJ que representam elementos principais de uma matriz de extração M por M quadrática sendo configurada como uma matriz diagonal, ou uma abordagem de mixagem cruzada LMS como uma matriz completa. A última será descrita a seguir. Aqui, deve ser observado que a abordagem acima de aplicação da matriz de equação de M por M abrange qualquer número de canais, incluindo um.
De acordo com as realizações adicionais, a matriz de extração pode não ser necessariamente uma matriz quadrática do tamanho de matriz M por M, pois poderiamos ter um número menor de canais de saida. Portanto, a matriz de extração pode ter um número reduzido de linhas. Um exemplo disso seria a extração de um único sinal direto em vez de M.
Também não é sempre necessário considerar todos os M canais downmix como a entrada correspondente ao ter M colunas da matriz de extração. Isso, em particular, poderia ser relevante a aplicações onde não é necessário ter todos os canais como entradas.
A Figura 6 apresenta o diagrama de blocos de uma realização adicional 600 de um extrator direto/ambiente 620 com base na solução de LMS (média dos minimos quadrados) com mixagem cruzada de canal. O extrator direto/ambiente 620 da Figura 6 pode corresponder ao extrator direto/ambiente 120 da Figura 1. Na realização da Figura 6, blocos idênticos tendo implementações e/ou funções semelhantes como na realização da Figura 1 são, portanto, denotados pelos mesmos números. Entretanto, o sinal downmix 615 da Figura 6, que pode corresponder ao sinal downmix 115 da Figura 1, pode compreender uma pluralidade 617 de canais downmix Chi„.ChM, em que o número dos canais downmix (M) é menor que o dos canais Ch1...ChN (N) do sinal de áudio de múltiplos canais 101, isto é, M < N. Especificamente, o extrator direto/ambiente 620 é configurado 5 para extrair a parte de sinal direto 125-1 ou a parte de sinalambiente 125-2 por uma solução pela média dos minimos quadrados (LMS) com mixagem cruzada de canal, a solução de LMS não precisando de niveis ambiente iguais. Essa solução de LMS que não precisa de niveis ambiente iguais e que também é estendivel a qualquer número de canais é provida a seguir. A solução de LMS mencionada agora não é obrigatória, mas representa uma alternativa mais precisa à que está acima.
Os simbolos utilizados na solução de LMS para as ponderações de mixagem cruzada para extração direta/ambiente são: Chi canal i ai ganho do som direto no canal i D e D parte direta do som e sua estimativa Ae Ai parte ambiente do canal I e sua estimativa px = £[xX] energia estimada de X £[ ] expectativa EX erro de estimativa de X w^. ponderações de mixagem cruzada de LMS para o canal i à parte direta w-inponderações de mixagem cruzada de LMS para o canal n ao ambiente do canal i
Nesse contexto, deve ser observado que a derivaçãoda solução de LMS pode ter base em uma representação espectral dos respectivos canais do sinal de áudio de múltiplos canais, o que significa todas as funções nas faixas de frequência.
O modeo de sinal a dado por Chj = atD + Aj
A derivação das primeiras separações com a) a parte direta e, então, b) com a parte ambiente. Por fim, a solução para as ponderações é derivada e o método para uma normalização das ponderações é descrito. A) PARTE DIRETA
A estimativa da parte direta das ponderações é
Figure img0005
A estimativa de erro, lê-se
Figure img0006
Para ter a solução de LMS,precisamos de E ortogonal aos sinais de entrada
Figure img0007
Na forma de matriz, a relação acima lê Aw = P
Figure img0008
B) PARTE AMBIENTE
Começamos do mesmo modelo de sinal e estimamos as ponderações de
Figure img0009
0 erro de estimativa é
Figure img0010
e a ortogonalidade na forma de matrix a relacao acima le
Figure img0011
solucao para as ponderacoes
As ponderacoes podem ser solucionadas ao inverter a matrix A que e identical tanto no calculo da patre direta e como no da parte ambiente. No caso de sinais stereos a solucao e
Figure img0012
onde divé o divisor a2a2PDPAX+a{axPDPA2 +PAXPA2
NORMALIZAÇÃO DAS PONDERAÇÕES
As ponderações são para a solução de LMS, mas como os niveis de energia devem ser preservados, as ponderações são normalizadas. Isso também torna a divisão pelo termo div desnecessária nas fórmulas acima. A normalização acontece ao garantir que as energias dos canais direto e ambiente de saida sejam PD e PAi, onde i é o canal indice.
Isso é simples, assumindo que conhecemos as coerências intercanais, fatores de mixagem e as energias de canal. Para simplicidade, focamos no caso de dois canais e especialmente a um par de ponderação e w- que são os ganhos para produzir
O primeiro canal ambiente do primeiro e segundo canais de áudio. As etapas são as seguintes: Etapa 1: Calcular a energia de sinal de saida (em que a parte coerente adiciona na forma de amplitude, e parte incoerente na forma de energia)
Figure img0013
Etapa 2: calcular o fator de ganho de normalização
Figure img0014
e aplicar o resultado aos fatores de ponderação de mixagem cruzada w- e Wj12. Na etapa 1, os valores absolutos e os operadores de sinal para ICC são incluidos para considerar também o caso em que os canais de áudio são negativamente coerentes. Os fatores de ponderação incoerentes também são normalizados da mesma maneira.
Em particular, com referência ao mencionado acima, o extrator direto/ambiente 620 pode ser configurado para derivar a solução de LMS ao assumir um modelo de sinal de múltiplos canais estável, de modo que a solução de LMS não será restrita a um sinal downmix de canal estéreo.
A Figura 7a apresenta um diagrama de blocos de uma realização 700 de um estimador direto/ambiente 710, que tem base em uma fórmula de estimativa ambiente estéreo. O estimador direto/ambiente 710 da Figura 7 pode corresponder ao estimador direto/ambiente 110 da Figura 1. Em particular, o estimador direto/ambiente 710 da Figura 7 é configurado para aplicar a fórmula de estimativa ambiente estéreo utilizando as informações paramétricas espaciais 105 para cada canal (Chi) do sinal de áudio de múltiplos canais 101, em que a fórmula de estimativa ambiente estéreo pode ser representada como uma dependência functional
Figure img0015
] apresentando explicitamente uma dependência da diferença de nivel de canal (CLDÍ) OU parâmetro cq e uma coerência intercanais (ICCi) parâmetro do canal Chj,. Conforme retratado na Figura 7, as informações paramétricas espaciais 105 são alimentadas ao estimador direto/ambiente 710 e podem compreender os parâmetros de relação intercanais ICCi e cq para cada canal Chi. Após aplicar essa fórmula de estimativa ambiente estéreo pelo uso do estimador direto/ambiente 710, a proporção de energia direta para total (DTTÍ) OU ambiente para total (ATTi) , respectivamente, será obtida em sua saida 715. Deve ser observado que a fórmula de estimativa ambiente estéreo acima utilizada para estimar a respectiva proporção de energia DTT ou ATT não tem base em uma condição de ambiente igual.
Em particular, a estimativa de proporção direta/ambiente pode ser realizada em que a proporção (DTT) da energia direta em um canal em comparação à energia total daquele canal pode ser formulada por Proporção
Figure img0016
onde a =
Figure img0017
é o canal inspecionado e R é a combinação linear do resto dos canais. ( ) é a média de tempo. Essa fórmula segue quando se assume que o nivel ambiente é igual no canal e na combinação linear do resto dos canais, e a coerência disso deve ser zero.
A Figura 7b apresenta um gráfico 750 de uma proporção de energia DTT (direta para total) 760 exemplar como uma função do parâmetro de coerência intercanais ICC 770. Na Figura 7b realização, a diferença de nivel de canal (CLD) ou parâmetro oé exemplificadamente ajustado a 1 (o= 1), de modo que o nivel P(Chi) do canal Chi e o nivel P(D) da combinação linear R do resto dos canais será igual. Nesse caso, a proporção de energia DTT 760 será linearmente proporcional ao parâmetro ICC, conforme indicado por uma linha reta 775 marcada por DTT ~ ICC. Pode ser visto na Figura 7b que no caso de ICC = 0, que pode corresponder à relação intercanais completamente incoerente, a proporção de energia DTT 7 60 será 0, o que pode corresponder a uma situação completamente ambiente (caso 'R/ ) . Entretanto, no caso de ICC = 1, que pode corresponder a uma relação intercanais completamente coerente, a proporção de energia DTT 760 pode ser 1, o que pode corresponder a uma situação completamente direta (caso 'R2' ) . Portanto, no caso Rx, essencialmente não há energia direta, enquanto no caso R2, essencialmente não há energia ambiente em um canal em relação à energia total daquele canal.
A Figura 8 apresenta um diagrama de blocos de um sistema codificador/decodificador 800, de acordo com as realizações adicionais da presente invenção. No lado do decodificador do sistema codificador/decodificador 800, uma realização do decodificador 820 é apresentada, que pode corresponder ao aparelho 100 da Figura 1. Devido à semelhança das realizações da Figura 1 e Figura 8, blocos idênticos tendo implementações e/ou funções semelhantes nessas realizações são denotados pelos mesmos números. Conforme apresentado nas realizações da Figura 8, o extrator direto/ambiente 120 pode ser operado em um sinal downmix 115 tendo a pluralidade Chi ... ChM de canais downmix. O estimador direto/ambiente 110 da Figura 8 pode, além disso, ser configurado para receber pelo menos dois canais downmix 825 do sinal downmix 815 (opcional), de modo que a informação de nivel 113 da parte direta ou da parte ambiente do sinal de áudio de múltiplos canais 101 será estimada com base no lado das informações paramétricas espaciais 105 nos pelo menos dois canais downmix 825 recebidos. Por fim, a parte de sinal direto 125-1 ou a parte de sinal ambiente 125-2 será obtida após a extração pelo extrator direto/ambiente 120.
No lado do codificador do sistema codificador/decodificador 800, uma realização de um codificador 810 é apresentada, que pode compreender um downmixador 815 para dowmixagem do sinal de áudio de múltiplos canais (Chi ... ChN) no sinal downmix 115 tendo a pluralidade ChT ... ChM de canais downmix, em que o número de canais é reduzido de N para M. O downmixador 815 também pode ser configurado para produzir as informações paramétricas espaciais 105 ao calcular relações intercanais do sinal de áudio de múltiplos canais 101. No sistema codificador/decodificador 800 da Figura 8, o sinal downmix 115 e as informações paramétricas espaciais 105 podem ser transmitidos do codificador 810 para o decodificador 820. Aqui, o codificador 810 pode derivar um sinal codificado com base no sinal downmix 115 e as informações paramétricas espaciais 105 para transmissão do lado do codificador ao lado do decodificador. Ademais, as informações paramétricas espaciais 105 têm base nas informações de canal do sinal de áudio de múltiplos canais 101.
Por um lado, os parâmetros de relação intercanais Oi (Chi, R) θ ICCi (Chi, R) podem ser calculados entre o canal Chi e a combinação linear R do resto dos canais no codificador 810 e transmitidos dentro do sinal codificado. O decodificador 820 pode, por sua vez, receber o sinal codificado e ser operado nos parâmetros de relação intercanais transmitidos cq(Chi, R) e ICCi(Chi, R)•
Por outro lado, o codificador 810 também pode ser configurado para calcular o parâmetro de coerências intercanais ICCi,j entre pares de diferentes canais (Chi, Chj) a serem transmitidos. Nesse caso, o decodificador 810 deve ser capaz de derivar os parâmetros ICCi (Chi, R) entre o canal Chi θ a combinação linear R do resto dos canais dos parâmetros ICCi(j (Chi, Chj) calculados em pares transmitidos, de modo que as realizações correspondentes que foram descritas anteriormente possam ser realizadas. Deve ser observado nesse contexto que o decodificador 820 não pode reconstruir os parâmetros ICCi(Chif R) a partir somente do conhecimento do sinal downmix 115.
Nas realizações, os parâmetros espaciais transmitidos não são somente sobre comparações de canal em par.
Por exemplo, o caso MPS mais tipico é que aqui há dois canais downmix. O primeiro conjunto de parâmetros espaciais na decodificação de MPS torna os dois canais em três: Centro, Esquerdo e Direito. O conjunto de parâmetros que orienta esse mapeamento é chamado de coeficiente de previsão de centro (CPC) e um parâmetro ICC que é especifico a essa configuração de dois para três .
O segundo conjunto de parâmetros espaciais divide cada um em dois: Os canais laterais em canais frontal e traseiro correspondentes, e o canal central no canal central e Lfe. Esse mapeamento é sobre os parâmetros ICC e CLD introduzidos antes.
Não é prático fazer normas de cálculo para todos os tipos de configurações de dowmixagem e todos os tipos de parâmetros espaciais. Entretanto, é prático seguir as etapas de dowmixagem virtualmente. Como nós conhecemos como os dois canais se tornam três, e os três se tornam seis, encontraremos, no final, uma relação de entrada-saida de como os dois canais de áudio são roteados a seis saidas. As saidas são somente combinações lineares dos canais downmix, mais combinações lineares das versões descorrelacionadas destes. Não é necessário decodificar de fato o sinal de saida e medi-lo, mas como conhecemos essa "matriz de decodificação", podemos calcular computacionalmente de maneira eficiente os parâmetros ICC e CLD entre quaisquer canais ou combinação de canais no dominio paramétrico.
Independente da configuração de sinal downmix e de múltiplos canais, cada saida do sinal decodificado é uma combinação linear dos sinais downmix mais uma combinação linear de uma versão descorrelacionada de cada um deles.
Figure img0018
onde o operador D[] corresponde a um descorrelacionador, isto é, um processo que torna incoerente uma duplicata do sinal de entrada. Os fatores a e b são conhecidos, uma vez que são diretamente deriváveis das informações paralelas paramétricas. Isso ocorre porque, por definição, as informações paramétricas são orientações para o decodificador sobre como criar a saida de múltiplos canais dos sinais downmix. A fórmula acima pode ser simplificada a
Figure img0019
uma vez que todas as partes descorrelacionadas podem ser combinadas para a comparação energética/de coerência. A energia de D é conhecida, uma vez que os fatores b também eram conhecidos na primeira fórmula.
A partir desse ponto, deve ser observado que podemos fazer qualquer tipo de coerência e comparação de energia entre os canais de saida ou entre diferentes combinações lineares dos canais de saida. No caso de um exemplo simples de dois canais downmix e um conjunto de canais de saida, do qual, por exemplo, canais número 3 e 5 são comparados entre si, o sigma é calculado como segue
Figure img0020
onde E[] é o operador de expectativa (na prática:Ambos os termos podem ser formulados como segue
Figure img0021
Todos os parâmetros acima são conhecidos ou capazes de medir a partir dos sinais downmix. Os termos cruzados E[Ch_dmx*D] foram, por definição, zero e, portanto, não estão na fileira inferior da fórmula. Semelhantemente, a fórmula de coerência é
Figure img0022
Novamente, uma vez que todas as partes da fórmula acima são a combinação linear das entradas mais o sinal descorrelacionado, a solução está diretamente disponível.
Os exemplos acima foram com a comparação de dois canais de saida, mas semelhantemente pode-se fazer uma comparação entre combinações lineares de canais de saida, como com um processo exemplar que será descrito posteriormente.
Em resumo das realizações anteriores, a técnica/conceito apresentado pode compreender as seguintes etapas: 1. Recuperar as relações intercanais (coerência, nivel) de um conjunto "original" de canais que pode ser maior que o número do(s) canal (is) downmix. 2. Estimar as energias ambiente e direta nesse conjunto "original" de canais. 3. Downmixar as energias direta e ambiente desse conjunto "original" de canais em um número menor de canais. 4. Utilizar as energias downmixadas para extrair os sinais direto e ambiente nos canais downmix providos ao aplicar fatores de ganho ou uma matriz de ganho.
O uso das informações paralelas paramétricas espaciais é mais bem explicado e resumido pela realização da Figura 2. Na realização da Figura 2, temos uma corrente de estéreo paramétrico, que inclui um único canal de áudio e informações paralelas espaciais sobre as diferenças intercanais (coerência, nivel) do som estéreo que isso representa. Agora, uma vez que conhecemos as diferenças intercanais, podemos aplicar a fórmula de estimativa ambiente estéreo acima delas, e obter as energias direta e ambiente dos canais de estéreo originais. Então, podemos "downmixar" as energias de canais ao adicionar as energias diretas junto (com soma coerente) e energias ambiente (com soma incoerente) e derivar as proporções de energia direta para total e ambiente para total do único canal downmix.
Com referência à realização da Figura 2, as informações paramétricas espaciais compreendem essencialmente parâmetros de coerência intercanais (ICCL, ICCR) e diferença de nivel de canal (CLDL, CLDR) correspondentes ao canal esquerdo (L) e ao direito (R) do sinal de áudio estéreo paramétrico, respectivamente. Aqui, deve ser observado que os parâmetros de coerências intercanais ICCL e ICCR são iguais (ICCL = ICCR) , enquanto os parâmetros de diferença de nivel de canal CLDL e CLDR são relacionados por CLDL = - CLDR. Correspondentemente, uma vez que os parâmetros de diferença de nivel de canal CLDL e CLDR são tipicamente valores de decibéis dos parâmetros e <JR,respectivamente, os parâmetros (JL e (JR para o canal esquerdo (L) e o direito (R) são relacionados por (JL= 1/(JR. Esses parâmetros de diferença intercanais podem ser prontamente utilizados para calcular as respectivas proporções de energia direta para total (DTTL, DTTR) e ambiente para total (ATTL, ATTR) para ambos os canais (L,R) com base na fórmula de estimativa ambiente estéreo. Na fórmula de estimativa ambiente estéreo, as proporções de energia direta para total e ambiente para total (DTTL, ATTL) do canal esquerdo (L) dependem dos parâmetros de diferença intercanais (CLDL, ICCL) para o canal esquerdo L, enquanto as proporções de energia direta para total e ambiente para total (DTTR, ATTR) do canal direito (R) dependem dos parâmetros de diferença intercanais (CLDR, ICCR) para o canal direito R. Ademais, as energias (EL, ER) para ambos os canais L, R do sinal de áudio estéreo paramétrico podem ser derivadas com base na diferença de nivel de canal parâmetros (CLDL, CLDR) para o canal esquerdo (L) e para o direito (R), respectivamente. Aqui, a energia (EL) para o canal esquerdo L pode ser obtida ao aplicar a diferença de nivel de canal parâmetro (CLDL) para o canal esquerdo L ao sinal downmix mono, enquanto a energia (ER) para o canal direito R pode ser obtida ao aplicar a diferença de nivel de canal parâmetro (CLDR) para o canal direito R ao sinal downmix mono. Então, ao multiplicar as energias (EL, ER) para ambos os canais (E, D) com parâmetros com base em DTTL, DTTR e ATTL, ATTR correspondentes, as energias direta (EDL, EDR) e ambiente (EAL, EAR) para ambos os canais (E, D) serão obtidas. Então, as energias direta (EDL, EDR) para ambos os canais (E, D) podem ser combinadas/adicionadas ao utilizar uma norma de downmixagem coerente para obter uma energia downmixada (ED,mono) para a parte direta do sinal downmix mono, enquanto as energias ambiente (EAL, EAR) para ambos os canais (E, D) podem ser combinadas/adicionadas ao utilizar uma norma de dowmixagem incoerente para obter uma energia downmixada (EA/mono) para a parte ambiente do sinal downmix mono. Então, ao relacionar as energias downmixadas (ED,mono, EA,mono) para a parte de sinal direto e a parte de sinal ambiente à energia total (Emono) do sinal downmix mono, a proporção de energia direta para total (DTTmono) e ambiente para total (ATTmono) do sinal downmix mono será obtida. Por fim, com base nessas proporções de energia DTTmono e ATTmono, a parte de sinal direto ou a parte de sinal ambiente pode ser essencialmente extraída do sinal downmix mono.
Na reprodução de áudio, geralmente surge uma necessidade de reproduzir o som em fones de ouvido. A audição em fone de ouvido tem um aspecto especifico que a torna drasticamente diferente da audição em alto-falante e também a qualquer ambiente de som natural. O áudio é ajustado diretamente ao ouvido esquerdo e ao direito. O conteúdo de áudio produzido é tipicamente produzido para reprodução em alto-falante. Portanto, os sinais de áudio não contêm as propriedades e indicações que nosso sistema auditivo utiliza na percepção sonora espacial. Esse é o caso, a menos que o processamento biauricular seja introduzido no sistema.
O processamento biauricular, fundamentalmente, pode ser dito como sendo um processo que ocorre no som de entrada e o modifica de modo que contenha somente essas propriedades interauricular e monauricular que são perceptualmente corretas (em relação à maneira que nosso sistema de audição processa o som espacial). O processamento biauricular não é uma tarefa simples e as soluções existentes, de acordo com a técnica anterior, têm muitas sub-idealidades.Há um amplo número de pedidos nos quais o processamento biauricular para reprodução de música e filme já é incluido, como reprodutores multimídia e dispositivos de processamento que são designados para transformar sinais de áudio de múltiplos canais na contraparte biauricular para fones de ouvido. A abordagem tipica é utilizar as funções de transferência relacionadas à cabeça (HRTFs) para tornar alto-falantes virtuais e adicionar um efeito ambiente ao sinal. Isso, na teoria, poderia ser equivalente à audição com alto-falantes em um ambiente especifico.
A prática, entretanto, apresentou repetidamente que essa abordagem não satisfez consistentemente os ouvintes. Parece haver um compromisso que a boa espacialização com esse método simples vem o custo de perda de qualidade de áudio, como ter alterações não preferidas na cor ou timbre do som, percepção irritante de efeito ambiente e perda de dinâmica. Os problemas adicionais incluem localização imprecisa (por exemplo, localização na cabeça, confusão frontal-traseira) , falta de distância espacial das fontes sonoras e falta de correspondência interauricular, isto é, sensação auditiva próxima dos ouvidos devido às indicações interauriculares erradas.
Diferentes ouvintes podem julgar os problemas de maneira muito diferente. A sensibilidade também varia dependendo do material de entrada, como música (critérios de qualidade estritos em termos de cor do som), filmes (menos estritos) e jogos (ainda menos estritos, mas a localização é importante) . Também há tipicamente diferentes objetivos de projeto dependendo do 5 conteúdo.
Portanto, a seguinte descrição lida com uma abordagem de superação dos problema acima com tanto sucesso possivel para maximizar a qualidade geral percebida média.
A Figura 9a apresenta um diagrama de blocos deuma visão geral 900 de um dispositivo de interpretação de som direta biauricular 910, de acordo com as realizações adicionais da presente invenção. Conforme apresentado na Figura 9a, o dispositivo de interpretação de som direta biauricular 910 é configurado para processar a parte de sinal direto 125-1, que podeestar presente na saida do extrator direto/ambiente 120 na realização da Figura 1, para obter um primeiro sinal de saida biauricular 915. O primeiro sinal de saida biauricular 915 pode compreender um canal esquerdo indicado por E e um canal direito indicado por D.
Aqui, o dispositivo de interpretação de somdireta biauricular 910 pode ser configurado a alimentar a parte de sinal direto 125-1 por meio das funções de transferência relacionadas à cabeça (HRTFs) para obter uma parte de sinal direto transformada. O dispositivo de interpretação de som diretabiauricular 910 pode, além disso, ser configurado para aplicar efeito ambiente à parte de sinal direto transformada para obter finalmente o primeiro sinal de saida biauricular 915.
A Figura 9b apresenta um diagrama de blocos dedetalhes 905 do dispositivo de interpretação de som direta biauricular 910 da Figura 9a. O dispositivo de interpretação de som direta biauricular 910 pode compreender um "transformador HRTF" indicado pelo bloco 912 e um dispositivo de processamento de 5 efeito ambiente (reverberação ou simulação paralela das reflexões anteriores) indicado pelo bloco 914. Conforme apresentado na Figura 9b, o transformador HRTF 912 e o dispositivo de processamento de efeito ambiente 914 pode ser operado na parte de sinal direto 125-1 ao aplicar as funções de transferência 10 relacionadas à cabeça (HRTFs) e efeito ambiente em paralelo, de modo que o primeiro sinal de saida biauricular 915 será obtido.
Especificamente, com referência à Figura 9b, esse processamento de efeito ambiente também pode prover um sinal direto reverberado incoerente 919, que pode ser processado por um 15 filtro de mixagem cruzada 920 subsequente para adaptar o sinal à coerência interauricular de campos de som difusos. Aqui, a saida combinada do filtro 920 e o transformador HRTF 912 constituem o primeiro sinal de saida biauricular 915. De acordo com as realizações adicionais, o processamento de efeito ambiente no som 20 direto também pode ser uma representação paramétrica de reflexões anteriores.
Nas realizações, portanto, o efeito ambiente pode preferencialmente ser aplicado em paralelo aos HRTFs, e não em série (isto é, ao aplicar efeito ambiente após alimentar o sinal 25 através dos HRTFs). Especificamente, somente o som que propaga diretamente da fonte vai através ou é transformada pelos HRTFs correspondentes. O som indireto/reverberado pode ser aproximado para entrar nos ouvidos tudo à volta, isto é, de maneira estatística (ao empregar controle de coerência em vez de HRTFs). Também pode haver implementações em série, mas o método paralelo é preferido.
A Figura 10a apresenta um diagrama de blocos de uma visão geral 1000 de um dispositivo de interpretação de som ambiente biauricular 1010, de acordo com as realizações adicionais da presente invenção. Conforme apresentado na Figura 10a, o dispositivo de interpretação de som ambiente biauricular 1010 pode ser configurado para processar a parte de sinal ambiente de saída 125-2, por exemplo, do extrator direto/ambiente 120 da Figura 1, para obter o segundo sinal de saída biauricular 1015. O segundo sinal de saída biauricular 1015 também pode compreender um canal esquerdo (L) e a canal direito (R).
A Figura 10b apresenta um diagrama de blocos de detalhes 1005 do dispositivo de interpretação de som ambiente biauricular 1010 da Figura 10a. Pode ser visto na Figura 10b que o dispositivo de interpretação de som ambiente biauricular 1010 pode ser configurado para aplicar efeito ambiente, conforme indicado pelo bloco 1012 denotado por "processamento de efeito ambiente", à parte de sinal ambiente 125-2, de modo que um sinal ambiente reverberado incoerente 1013 será obtido. O dispositivo de interpretação de som ambiente biauricular 1010 pode, além disso, ser configurado para processar o sinal ambiente reverberado incoerente 1013 ao aplicar um filtro, como um filtro de mixagem cruzada indicado pelo bloco 1014, de modo que o segundo sinal de saída biauricular 1015 será provido, o segundo sinal biauricular 1015 sendo adaptado à coerência interauricular de campos sonoros difusos reais. O bloco 1012 denotado por "processamento de efeito ambiente" também pode ser configurado de modo que produza diretamente a coerência interauricular de campos sonoros difusos reais. Nesse caso, o bloco 1014 não é utilizado.
De acordo com uma realização adicional, o dispositivo de interpretação de som ambiente biauricular 1010 é configurado para aplicar efeito ambiente e/ou um filtro à parte de sinal ambiente 125-2 para prover o segundo sinal de saida biauricular 1015, de modo que o segundo sinal de saida biauricular 1015 será adaptado à coerência interauricular de campos sonoros difusos reais.
Nas realizações acima, descorrelação e controle de coerência podem ser realizados em duas etapas consecutivas, mas isso não é uma exigência. Também é possivel atingir o mesmo resultado com um processo de única etapa, sem uma formulação intermediária de sinais incoerentes. Ambos os métodos são igualmente válidos.
A Figura 11 apresenta um diagrama de blocos conceituai de uma realização 1100 de reprodução biauricular de um sinal de áudio de entrada de múltiplos canais 101. Especificamente, a realização da Figura 11 representa um aparelho para a reprodução biauricular do sinal de áudio de entrada de múltiplos canais 101, compreendendo um primeiro conversor 1110 ("transformação de frequência"), o separador 1120 ("separação direta-ambiente"), o dispositivo de interpretação de som direta biauricular 910 ("interpretação de fonte direta"), o dispositivo de interpretação de som ambiente biauricular 1010 ("interpretação de som ambiente"), o combinador 1130, conforme indicado por 'mais'e um segundo conversor 1140 ("transformação de frequência inversa"). Em particular, o primeiro conversor 1110 pode ser configurado para converter o sinal de áudio de entrada de múltiplos canais 101 em uma representação espectral 1115. O separador 1120 pode ser configurado para extrair a parte de sinal direto 125-1 ou a parte de sinal ambiente 125-2 da representação espectral 1115. Aqui, o separador 1120 pode corresponder ao aparelho 100 da Figura 1, especialmente incluindo o estimador direto/ambiente 110 e o extrator direto/ambiente 120 da realização da Figura 1. Conforme explicado antes, o dispositivo de interpretação de som direta biauricular 910 pode ser operado na parte de sinal direto 125-1 para obter o primeiro sinal de saida biauricular 915. De maneira correspondente, o dispositivo de interpretação de som ambiente biauricular 1010 pode ser operado na parte de sinal ambiente 125-2 para obter o segundo sinal de saida biauricular 1015. O combinador 1130 pode ser configurado para combinar o primeiro sinal de saida biauricular 915 e o segundo sinal de saida biauricular 1015 para obter um sinal combinado 1135. Por fim, o segundo conversor 1140 pode ser configurado para converter o sinal combinado 1135 em um dominio de tempo para obter um sinal de áudio de saida estéreo 1150 ("saida estéreo para fones de ouvido").
A operação de transformação de frequência da realização da Figura 11 ilustra que o sistema funciona em um dominio de transformação de frequência, que é dominio natural no processamento perceptual de áudio espacial. O sistema em si não tem necessariamente uma transformação de frequência se for utilizado como um acréscimo em um sistema que já funciona no dominio de transformação de frequência.
O processo de separação direta/ambiente acima pode ser subdividido em duas partes diferentes. Na parte de estimativa direta/ambiente, os niveis e/ou proporções da parte direta/ambiente são estimados com base na combinação de um modelo de sinal e as propriedades do sinal de áudio. Na parte de extração direta/ambiente, as proporções conhecidas e o sinal de entrada podem ser utilizados na criação dos sinais de saida direto em ambiente.
Por fim, a Figura 12 apresenta um diagrama de blocos geral de uma realização 1200 da estimativa/extração direta/ambiente incluindo o caso de uso de reprodução biauricular. Em particular, a realização 1200 da Figura 12 pode corresponder à realização 1100 da Figura 11. Entretanto, na realização 1200, os detalhes do separador 1120 da Figura 11 correspondente aos blocos 110, 120 da realização da Figura 1 são apresentados, o que inclui o processo de estimativa/extração com base nas informações paramétricas espaciais 105. Além disso, oposta à realização 1100 da Figura 11, não é apresentado processo de conversão entre diferentes dominios na realização 1200 da Figura 12. Os blocos da realização 1200 também são explicitamente operados no sinal downmix 115, que pode ser derivado do sinal de áudio de múltiplos canais 101.
A Figura 13a apresenta um diagrama de blocos de uma realização de um aparelho 1300 para extrair um sinal direto/ambiente de um sinal downmix mono em um dominio de banco de filtro. Conforme apresentado na Figura 13a, o aparelho 1300 compreende um banco de filtro de análise 1310, um banco de filtro de sintese 1320 para a parte direta e um banco de filtro de sintese 1322 para a parte ambiente.
Em particular, o banco de filtro de análise 1310 do aparelho 1300 pode ser implementado para realizar uma transformada de Fourier de tempo curto (STFT) ou pode, por exemplo, ser configurado como um banco de filtro QMF de análise, enquanto os bancos de filtro de sintese 1320, 1322 do aparelho 1300 pode ser implementado para realizar uma transformada de Fourier de tempo curto inversa (ISTFT) ou pode, por exemplo, ser configurado como bancos de filtro QMF se sintese.
O banco de filtro de análise 1310 é configurado para receber um sinal downmix mono 1315, que pode corresponder ao sinal downmix mono 215 conforme apresentado na realização da Figura 2, e para converter o sinal downmix mono 1315 em uma pluralidade 1311 de subfaixas de banco de filtro. Como pode ser visto na Figura 13a, a pluralidade 1311 de subfaixas de banco de filtro é conectado a uma pluralidade 1350, 1352 de blocos deextração direta/ambiente, respectivamente, em que a pluralidade 1350, 1352 de blocos de extração direta/ambiente é configurada para aplicar parâmetros com base em DTTmono ou ATTmono 1333, 1335 às subfaixas de banco de filtro, respectivamente.
O parâmetros com base em DTTmono ATTmono 1333, 1335 podem ser fornecidos de uma calculadora DTTmono, ATTmono 1330, conforme apresentada na Figura 13b. Em particular, a calculadora DTTmonor ATTraono 1330 da Figura 13b pode ser configurada para calcular as proporções de energia DTTmono, ATTmono ou derivar os parâmetros com base em DTTmono, ATTmono dos parâmetros de coerência intercanais e diferença de nivel de canal providos (ICCL, CLDL,ICCR, CLDR) 105 correspondentes ao canal esquerdo e ao direito (E, D) de um sinal de áudio estéreo paramétrico (por exemplo, o sinal de áudio estéreo paramétrico 201 da Figura 2), que foram descritos de maneira correspondente antes. Aqui, para uma única subfaixa de filtro de banco, os parâmetros correspondentes 105 e parâmetros com base em DTTmonor ATTmono 1333, 1335 podem ser utilizados. Nesse contexto, é pontuado que esses parâmetros não são constantes ao longo da frequência.
Como um resultado da aplicação dos parâmetros com base em DTTmono ou ATTmono 1333, 1335, uma pluralidade 1353, 1355 de subfaixas de banco de filtro modificadas serão obtidas, respectivamente. Subsequentemente, a pluralidade 1353, 1355 de subfaixas de banco de filtro modificadas é alimentada nos bancos de filtro de sintese 1320, 1322, respectivamente, que são configurados para sintetizar a pluralidade 1353, 1355 de subfaixas de banco de filtro modificadas de modo a obter a parte de sinal direto 1325-1 ou a parte de sinal ambiente 1325-2 do sinal downmix mono 1315, respectivamente. Aqui, a parte de sinal direto 1325-1 da Figura 13a pode corresponder à parte de sinal direto 125-1 da Figura 2, enquanto a parte de sinal ambiente 1325-2 da Figura 13a pode corresponder à parte de sinal ambiente 125-2 da Figura 2.
Com referência à Figura 13b, um bloco de extração direta/ambiente 1380 da pluralidade 1350, 1352 de blocos de extração direta/ambiente da Figura 13a compreende especialmente a calculadora DTTmono, ATTmono 1330 e um multiplicador 1360. O multiplicador 1360 pode ser configurado para multiplicar uma única subfaixa de banco de filtro (FB) 1301 da pluralidade de subfaixas de banco de filtro 1311 com o parâmetro com base em DTTmono/ATTmonocorrespondente 1333, 1335, de modo que uma única subfaixa de banco de filtro modificada 1365 da pluralidade de subfaixas de banco de filtro 1353, 1355 serão obtidas. Em particular, o bloco de extração direta/ambiente 1380 é configurado para aplicar o parâmetro com base em DTTmono, no caso o bloco 1380 pertence à pluralidade 1350 de blocos, enquanto é configurado para aplicar o parâmetro com base em ATTmono, no caso o bloco 1380pertence à pluralidade 1352 de blocos. A única subfaixa de bancode filtro modificada 1365 pode, além disso, ser fornecida aorespectivo banco de filtro de sintese 1320, 1322 para a partedireta ou a parte ambiente.
De acordo com as realizações, os parâmetros espaciais e os parâmetros derivados são dados em uma resolução de frequência, de acordo com as faixas criticas do sistema auditivo humano, por exemplo, 28 faixas, que é normalmente menor que a resolução do banco de filtro.
Portanto, a extração direta/ambiente, de acordo com a realização da Figura 13a, opera essencialmente em diferentes subfaixas em um dominio de banco de filtro com base nos parâmetros de coerência intercanais e diferença de nivel de canal calculados por subfaixa, que podem corresponder aos parâmetros de relação intercanais 335 da Figura 3b.
A Figura 14 apresenta uma ilustração esquemática de um esquema de decodificação de MPEG Surround 1400 exemplar, de acordo com a realização adicional da presente invenção. Em particular, a realização da Figura 14 descreve uma decodificação de um downmix estéreo 1410 a seis canais de saida 1420. Aqui, os sinais denotados por "res" são sinais residuais, que são substituições opcionais para sinais descorrelacionados (dos blocos denotados por "D") . De acordo com a realização da Figura 14, as informações paramétricas espaciais ou parâmetros de relação intercanais (ICC, CLD) transmitidos dentro de uma corrente MPS de um codificador, como o codificador 810 da Figura 8 para um decodificador, como o decodificador 820 da Figura 8, podem ser utilizados para gerar matrizes de decodificação 1430, 1440denotada por "matriz pre-descorrelacionadora Ml" e "matriz de mixagem M2", respectivamente. Especifico à realização da Figura 14 que a geração dos canais de saida 1420 (isto é, canais upmix E, ES, D, DS, C, LFE) dos canais laterais (E, D) e do canal central (C) (E, D, C 1435) ao utilizar a matriz de mixagem M2 1440, é essencialmente determinada pelas informações paramétricas espaciais 1405, que podem corresponder às informações paramétricas espaciais 105 da Figura 1, compreendendo parâmetros de relação intercanais (ICC, CLD) particulares, de acordo com o Padrão de MPS Surround.
Aqui, uma divisão do canal esquerdo (L) nos canais de saida correspondentes E, ES, o canal direito (R) nos canais de saida correspondentes D, DS e o canal central (C) nos canais de saida correspondentes C, LFE, respectivamente, pode ser representada pela configuração de um para dois (OTT) tendo uma entrada respectiva para os parâmetros ICC, CLD correspondentes.
O esquema de decodificação de MPEG Surround 1400 exemplar que corresponde especificamente a uma "configuração 5-2- 5" pode, por exemplo, compreender as seguintes etapas. Em uma primeira etapa, os parâmetros espaciais ou informações paralelas paramétricas podem ser formulados nas matrizes de decodificação 1430, 1440, que são apresentadas na Figura 14, de acordo com o Padrão de MPS Surround existente. Em uma segunda etapa, as matrizes de decodificação 1430, 1440 podem ser utilizadas no dominio de parâmetro para prover informações intercanais dos canais upmix 1420. Em uma terceira etapa, com as informações intercanais assim providas, as energias direta/ambiente de cada canal upmix podem ser calculadas. Em uma quarta etapa, as energias direta/ambiente obtidas podem ser downmixada ao número de canais downmix 1410. Em uma quinta etapa, as ponderações que serão aplicadas aos canais downmix 1410 podem ser calculadas.
Antes de seguir adiante, deve ser pontuado que o processo exemplar mencionado agora requer a medida de
Figure img0023
que são, então, potências médias dos canais downmix, e
Figure img0024
que podem ser mencionados com o espectro cruzado, a partir dos canais downmix. Aqui, as potências médias dos canais downmix são propositadamente mencionados como energias, uma vez que o termo "potência média" não é um daqueles termos comuns a serem utilizados.
O operador de expectativa indicado por colchetes pode ser substituído em aplicações práticas por uma média de tempo, recursiva ou não recursiva. As energias e o espectro cruzado são capazes de medir de maneira simples do sinal downmix.
Também deve ser observado que a energia de uma combinação linear de dois canais pode ser formulada das energias dos canais, os fatores de mixagem e o espectro cruzado (todos no dominio paramétrico, onde não são necessárias operações de sinal). A combinação linear Ch = aLdmx + bRdmx tem a seguinte energia:
Figure img0025
A seguir, descrevem-se as etapas individuais do processo exemplar (isto é, esquema de decodificação).
PRIMEIRA ETAPA (PARÂMETROS ESPACIAIS ÀS MATRIZES DE MIXAGEM)
Conforme descrito antes, as matrizes Ml e M2 são criadas, de acordo com o padrão de MPS Surround. A fileira a:th - o elemento de coluna b:th de Ml é Ml(a,b).
SEGUNDA ETAPA (MATRIZES DE MIXAGEM COM ENERGIAS E ESPECTROS CRUZADOS DO DOWNMIX PARA INFORMAÇÕES INTERCANAIS DOS CANAIS UPMIXADOS)
Agora, temos as matrizes de mixagem Ml e M2. Precisamos formular como os canais de saida são criados a partir do canal downmix esquerdo (Ldmx) e do canal downmix direito (Rdmx) . Presumimos que os descorrelacionadores são utilizados (Figura 14, área cinza) . A decodificação/upmixagem no padrão de MPS provê basicamente no fim da seguinte fórmula para a relação de entrada- saída geral o processo completo:
Figure img0026
O mencionado acima é exemplar para o canal esquerdo frontal upmixado. Os outros canais podem ser formulados da mesma maneira. Os elementos D são os descorrelacionadores, a-e são ponderações que são calculáveis das entradas da matriz Ml e M2.
Em particular, os fatores a-e são formuláveis simplesmente das entradas da matriz:
Figure img0027
e para os outros canais da mesma forma. Os sinais Ssão = MIH+3,] Ldmx + Mln+3_2Rdmx
Esses sinais Ssão as entradas aos descorrelacionadores da matriz do lado esquerdo na Figura 14. A energia pode ser calculada, conforme explicado acima. O descorrelacionador não afeta a energia.
Figure img0028
Uma maneira perceptualmente motivada para fazer extração ambiente de múltiplos canais é ao comparar um canal em relação à soma de todos os outros canais. (Observe que isso é uma opção de muitas). Agora, se considerarmos exemplarmente o caso do canal L, o resto dos canais lê:
Figure img0029
Utilizamos o simbolo "X" aqui, porque a utilização de "R" para "resto dos canais" poderia ser confusa. Então, a energia do canal L é
Figure img0030
Então, a energia do canal X é 
Figure img0031
E o espectro cruzado é:
Figure img0032
Agora, podemos formular o ICC
Figure img0033
TERCEIRA ETAPA (INFORMAÇÕES INTERCANAIS NOSCANAIS UPMIXADOS AOS PARÂMETROS DTT DOS CANAIS UPMIXADOS)
Agora, podemos calcular a DTT de canal L, de acordo com
Figure img0034
A energia direta de Lé E
Figure img0035
A energia ambiente de Lé
Figure img0036
4^i2]=(1"pπ>£[ii2]
QUARTA ETAPA (DOWMIXAGEM DAS ENERGIAS DIRETA/AMBIENTE)
Se exemplificadamente a utilização de uma norma de dowmixagem incoerente, a energia ambiente de canal downmix esquerdo é
Figure img0037
e semelhantemente para a parte direta e a parte ambiente do canal direito. Observe que acima é somente uma norma de dowmixagem. Pode haver outras normas de dowmixagem também.
QUINTA ETAPA (CÁLCULO DAS PONDERAÇÕES PARAEXTRAÇÃO AMBIENTE EM CANAIS DOWNMIX)
A proporção de DTT de downmix esquerda
Figure img0038
Os fatores de ponderação podem então ser calculados conforme descrito na realização da Figura 5 (isto é, ao utilizar a abordagem de raiz quadrada(DTT) ou raiz quadrada(1- DTT) ) ou como na realização da Figura 6 (isto é, ao utilizar um método de matriz de mixagem cruzada).
Basicamente, o processo exemplar descrito acima se refere aos parâmetros CPC, ICC e CLD na corrente MPS para as proporções ambiente dos canais downmix.
De acordo com as realizações adicionais, há tipicamente outros meios para alcançar objetivos semelhantes eoutras condições também. Por exemplo, pode haver outras normas para dowmixagem, outros layouts de alto-falante, outros métodos de decodificação e outras maneiras de fazer a estimativa ambiente demúltiplos canais que a descrita anteriormente, em que um canal específico é comparado aos canais restantes.
Embora a presente invenção tenha sido descrito no contexto de diagramas de blocos, onde os blocos representam os componentes de hardware reais ou lógicos, a presente invenção também pode ser implementada por um método implementado em computador. No último caso, os blocos representam etapas de método *correspondentes, onde essas etapas representam as funcionalidades realizadas por blocos de hardware lógicos ou fisicos.
As realizações descritas são meramenteilustrativas para os princípios da presente invenção. É entendido que modificações e variações das disposições e dos detalhes aqui descritos serão aparentes aos técnicos no assunto. Pretende-se, portanto, ser limitada somente pelo escopo das reivindicações da 10 patente anexas e não pelos detalhes específicos apresentados a titulo de descrição e explicação das realizações aqui.
Dependendo de determinadas exigências de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou em software. A implementação pode 15 ser realizada utilizando um meio de armazenamento digital, em particular, um disco, um DVD ou um CD tendo sinais de controle legiveis eletronicamente neles, que cooperam com sistema de computador programáveis, de modo que os métodos inventivos sejam realizados. De modo geral, a presente invenção pode, portanto, ser 20 implementada como um produto de programa de computador com o código de programa armazenado em um carregador legivel por máquina, o código de programa sendo operado para realizar os métodos inventivos quando o produto programa de computador for executado em um computador. Em outras palavras, os métodos 25 inventivos são, portanto, um programa de computador tendo um código de programa para realizar pelo menos um dos métodos inventivos quando o programa de computador executar em um computador. O sinal de áudio codificado inventivo pode ser armazenado em qualquer meio de armazenamento legível por máquina, como um meio de armazenamento digital.
Uma vantagem do conceito e técnica inovadores é que as realizações mencionadas acima, isto é, o aparelho, método ou programa de computador, descritas nesse pedido permite estimar e extrair os componentes diretos e/ou ambientes de um sinal de áudio com o auxílio de informações espaciais paramétricas. Em particular, o processamento inovador da presente invenção funciona nas faixas de frequência, conforme tipicamente nos campos de extração ambiente. 0 conceito apresentado é relevante ao processamento de sinal de áudio, uma vez que há diversas aplicações que precisam de separação de componentes direto e ambiente de um sinal de áudio.
Oposto aos métodos de extração ambiente da técnica anterior, o presente conceito não tem base em sinais de entradas estéreo somente e também pode se aplicar a situações de downmix mono. Para um único canal downmix, em geral, não podem ser computadas diferenças intercanais. Entretanto, ao considerar as informações paralelas espaciais, a extração ambiente se torna possível também nesse caso.
A presente invenção é vantajosa em que utiliza os parâmetros espaciais para estimar os níveis ambientes do sinal "original". Tem-se base no conceito que os parâmetros espaciais já contêm informações sobre as diferenças intercanais do sinal estéreo ou de múltiplos canais "original".
Uma vez que os níveis ambientes estéreo ou de múltiplos canais originais são estimados, pode-se também derivar os níveis direto e ambiente no(s) canal(is) downmix. Isso pode ser feito por combinações lineares (isto é, soma ponderada) das energias ambiente para a parte ambiente, e energias direta ou amplitudes para a parte direta. Portanto, as realizações da presente invenção provêem estimativa e extração com o auxilio de informações paralelas espaciais.Estendendo-se a partir desse conceito de processamento com base em informações paralelas, as seguintes propriedades ou vantagens benéficas existem.
As realizações da presente invenção provêem estimativa ambiente com o auxilio de informações paralelas espaciais e os canais downmix providos. Essa estimativa ambiente é importante em casos quando há mais de um canal downmix provido junto às informações paralelas. As informações paralelas e as informações que são medidas dos canais downmix, podem ser utilizadas junto à estimativa ambiente. Em MPEG surround com um downmix estéreo, essas duas fontes de informações juntas provêem as informações completas das relações intercanais do som de múltiplos canais original e a estimativa ambiente tem base nessas relações.
As realizações da presente invenção também provêem dowmixagem das energias direta e ambiente. Na situação descrita de extração ambiente com base em informações paralelas, há uma etapa intermediária de estimativa de ambiente em um número de canais maior que os canais downmix providos. Portanto, essas informações de ambiente têm de ser mapeadas ao número de canais de áudio downmix de maneira válida. Esse processo pode ser mencionado como dowmixagem devido à sua correspondência à dowmixagem de canal de áudio. Isso pode ser feito de maneira mais simples ao combinar a energia direta e ambiente da mesma forma que os canais downmix providos foram downmixados.
A norma de dowmixagem não tem uma solução ideal, mas é provavelmente dependente da aplicação. Por exemplo, em MPEG surround, pode ser benéfico tratar os canais de maneira diferente (centro, alto-falantes frontais, alto-falantes traseiros) devido a seu conteúdo de sinal tipicamente diferente.
Ademais, as realizações provêem uma estimativa ambiente de múltiplos canais independentemente em cada canal em relação aos outros canais. Essa propriedade/abordagem permite utilizar simplesmente a fórmula de estimativa ambiente estéreo apresentada para cada canal em relação a todos os outros canais. Por essa medida, não é necessário assumir nivel ambiente igual em todos os canais. A abordagem apresentada tem base na suposição sobre a percepção espacial que o componente de ambiente em cada canal é que o componente que tem uma contraparte incoerente em alguns de todos os outros canais. Um exemplo que sugere a validade dessa suposição é que um dos dois canais que emitem ruido (ambiente) pode ser dividido ainda em outros canais com metade de energia cada, sem afetar o cenário sonoro percebido significativamente.
Em termos de processamento de sinal, é vantajoso que a estimativa de proporção direta/ambiente real acontece ao aplicar a fórmula de estimativa ambiente apresentada para cada canal versus a combinação linear de todos os outros canais.
Por fim, as realizações provêem uma aplicação de energias ambiente diretas estimadas para extrair os sinais reais. Uma vez que os niveis ambientes nos canais downmix são conhecidos, pode-se aplicar dois métodos inventivos para obter os sinais ambiente. O primeiro método tem base em uma multiplicação simples, em que as partes direta e ambiente para cada canal downmix podem ser geradas ao multiplicar o sinal com a raiz quadrada (proporção de energia direta para total) e raiz quadrada (proporção de energia ambiente para total). Isso provê para cada canal downmix dois sinais que são coerentes entre si, mas tem as energias que as partes direta e ambiente foram estimadas para ter.
O segundo método tem como base uma solução pela média dos minimos quadrados com mixagem cruzada dos canais, em que a mixagem cruzada de canal (também possivel com sinais negativos) permite melhor estimativa dos sinais ambiente diretos que na solução acima. Ao contrário da uma solução média minima para niveis ambiente de entrada estéreo e iguais nos canais providos em "Multiple-loudspeaker playback of stereo signals", C. Faller, Journal of the AES, Oct. 2007 e "Patent application title: Method to Generate Multi-Channel Audio Signal from Stereo Signals", Inventors: Christof Faller, Agents: FISH & RICHARDSON P.C., Assignees: LG ELECTRONICS, INC., Origin: MINNEAPOLIS, MN US, IPC8 Class: AH04R500FI, USPC Class: 381 1, a presente invenção provê uma solução pela média dos minimos quadrados que não precisa de niveis ambiente iguais e também é capaz de estender a qualquer número de canais.
As propriedades adicionais do processamento inovador são as seguintes. No processamento ambiente para interpretação biauricular, o ambiente pode ser processado com um filtro que tem as propriedade de prover coerência interauricular nas faixas de frequência que são semelhantes à coerência interauricular nos campos sonoros difusos reais, em que o filtro também pode incluir efeito ambiente. No processamento da parte direta para interpretação biauricular, a parte direta pode ser alimentada através das funções de transferência relacionadas à cabeça (HRTFs) com possivel adição de efeito ambiente, como as reflexões e/ou reverberação anterior.
Além disso, um controle de "separação de nivel" correspondente para um controle seco/molhado pode ser realizado nas realizações adicionais. Em particular, a separação completa pode não ser desejável em muitas aplicações uma vez que isso pode levar a artefatos audiveis, como alterações abruptas, efeitos de modulação etc. Portanto, todas as partes relevantes dos processos descritos podem ser implementadas com um controle de "separação de nivel" para controlar a quantidade de separação desejada e útil. Com relação à Figura 11, esse controle de separação de nivel é indicado por uma entrada de controle 1105 de uma caixa tracejada para controlar a separação direta/ambiente 1120 e/ou os dispositivos de interpretação biauricular 910, 1010, respectivamente. Esse controle pode funcionar semelhante a um controle seco/molhado em processamento de efeitos de áudio.
Os benefícios principais da solução apresentada são as seguintes. O sistema funciona em todas as situações, também com estéreo paramétrico e MPEG surround com downmix mono, soluções improváveis anteriores que dependem somente das informações de downmix. O sistema é, além disso, capaz de utilizar informações paralelas espaciais transmitidas junto ao sinal de áudio nos fluxos de bits de áudio espacial para estimar mais precisamente energias direta e ambiente que com análise intercanais simples dos canais downmix. Portanto, muitas aplicações, como processamento biauricular, podem beneficiar ao aplicar diferentes processamentos para partes direta e ambiente do som.
As realizações têm base nas seguintes suposições psicoacústicas. Os sistemas auditivos humanos localizam fontes com base em indicações interauricular em separações de tempo e frequência (áreas restritas à determinada variação de frequência e tempo) . Se duas ou mais fontes concomitantes incoerentes que se sobrepõem no tempo e frequência forem apresentadas simultaneamente em diferentes localizações, o sistema auditivo não é capaz de perceber a localização das fontes. Isso se deve à soma dessas fontes não produzir indicações interauriculares confiáveis no ouvinte. O meu sistema auditivo assim descrito, de modo a apanhar do cenário de áudio próximo às separações de tempo e frequência o que provê informações de localização confiáveis e trata do resto das não localizáveis. Por esses meios o sistema auditivo é capaz de localizar fontes em ambientes sonoros complexos. As fontes coerentes simultâneas têm um efeito diferente, elas formam aproximadamente as mesmas indicações interauriculares que uma única fonte entre as fontes coerentes formariam.
Essa também é a propriedade que as realizações tiram vantagem. O nivel de som localizável (direto) e não localizável (ambiente) pode ser estimado e esses componentes serão então extraídos. A espacialização do processamento de sinal é aplicada somente à parte localizável/direta, enquanto o processamento de difusão/espaço/envelope é aplicado à parte não localizável/ambiente. Isso proporciona um beneficio significativo no projeto de um sistema de processamento biauricular, uma vez que muitos processos podem ser aplicados somente onde eles forem necessários, deixando o sinal restante não afetado. Todo o processamento acontece em faixas de frequência que se aproximam da resolução de frequência auditiva humana.
As realizações têm base em uma decomposição dosinal para maximizar a qualidade perceptual, mas minimizar os problemas percebidos. Por essa decomposição, é possivel obter o componente direto e o ambiente de um sinal de áudio separadamente. Os dois componentes podem, então, ser ainda processados para 10 alcançar um efeito ou representação desejada.
Especificamente, as realizações da presente invenção permitem a estimativa ambiente com auxilio das informações paralelas espaciais no dominio codificado.
A presente invenção também é vantajosa em que os 15 problemas tipicos de reprodução de fone de ouvido de sinais de áudio podem ser reduzidos ao separar os sinais em um sinal direto e um ambiente. As realizações permitem melhorar os métodos de extração direta/ambiente existentes a serem aplicados à interpretação sonora biauricular para reprodução de fone de 20 ouvido.
O principal caso de uso do processamento com base em informações paralelas espaciais é naturalmente MPEG surround e estéreo paramétrico (e técnicas de codificação paramétricas semelhantes). As aplicações tipicas que se beneficiam da extração 25 ambiente são as de reprodução biauricular devido à capacidade de aplicar uma medida diferente do efeito ambiente a diferentes partes do som, e a upmixagem a um número maior de canais devido à capacidade de posicionar e processar diferentes componentes do som de maneira diferente. Pode haver também aplicações nas quais o usuário precisaria de modificação do nivel direto/ambiente, por exemplo, a fim de realçar a inteligibilidade da fala.

Claims (14)

1. APARELHO (100) PARA EXTRAIR UM SINAL DIRETO E/OU AMBIENTE (125-1, 125-2) DE UM SINAL DOWNMIX (115) EINFORMAÇÕES PARAMÉTRICAS ESPACIAIS (105), o sinal downmix (115) e as informações paramétricas espaciais (105) representando um sinal de áudio de múltiplos canais (101) tendo mais canais (Ch1 ... ChN) que o sinal downmix (115), em que as informações paramétricas espaciais (105) são caracterizadas por compreender relações intercanais do sinal de áudio de múltiplos canais (101), o aparelho (100) compreendendo: um estimador direto/ambiente (110) para estimar a informação de nível direta (113) de uma parte direta do sinal de áudio de múltiplos canais (101) e/ou para estimar uma informação de nível ambiente (113) de uma parte ambiente do sinal de áudio de múltiplos canais (101) com base nas informações paramétricas espaciais (105); e um extrator direto/ambiente (120) para extrair uma parte de sinal direto (125-1) e/ou uma parte de sinal ambiente (125-2) do sinal downmix (115) com base na informação de nível direta estimada (113) da parte direta ou com base na informação de nível ambiente estimada (113) da parte ambiente; em que o extrator direto/ambiente é configurado para misturar as informações de nível direto estimadas da parte direta ou as informações de nível de ambiente estimadas da parte ambiente para adquirir informações de nível misturadas da parte direta ou da parte ambiente e extrair a porção de sinal direto ou o parte do sinal ambiente do sinal de downmix com base nas informações de nível de downmix; em que o estimador direto/ambiente é configurado para estimar as informações de nível direto da parte direta do sinal de áudio multicanal ou para estimar as informações de nível de ambiente da porção ambiente do sinal de áudio multicanal com base nas informações paramétricas espaciais e pelo menos dois canais de downmix do sinal de downmix recebidos pelo estimador direto/ambiente.
2. APARELHO, de acordo com a reivindicação 1, caracterizado por o extrator direto/ambiente (420) é, além disso, configurado para realizar um downmix da informação de nível direta estimada (113) da parte direta ou da informação de nível ambiente estimada (113) da parte ambiente ao combinar a informação de nível direta estimada (113) da parte direta com a soma coerente e da informação de nível ambiente estimada (113) da parte ambiente com soma incoerente.
3. APARELHO, de acordo com a reivindicação 1, caracterizado por o extrator direto/ambiente (520) ser, além disso, configurado para derivar parâmetros de ganho (565-1, 5652) da informação de nível downmixada (555-1, 555-2) da partedireta ou da parte ambiente e aplicar os parâmetros de ganho derivados (565-1, 565-2) ao sinal downmix (115) para obter aparte de sinal direto (125-1) ou a parte de sinal ambiente (1252).
4. APARELHO, de acordo com a reivindicação 3, caracterizado por o extrator direto/ambiente (520) ser, além disso, configurado para determinar uma proporção de energia direta para total (DTT) ou ambiente para total (ATT) da informação de nível downmixada (555-1, 555-2) da parte direta ou da parte ambiente e utilizar os parâmetros de ganho (565-1, 5652) parâmetros de extração com base na proporção de energia DTT ou ATT determinada.
5. APARELHO, de acordo com a reivindicação 1, caracterizado por o extrator direto/ambiente (520) ser configurado para extrair a parte de sinal direto (125-1) ou a parte de sinal ambiente (125-2) ao aplicar uma matriz de extração M por M quadrática ao sinal downmix (115), em que um tamanho (M) da matriz de extração M por M quadrática corresponde a diversos (M) canais downmix (Ch1...ChM) .
6. APARELHO, de acordo com a reivindicação 5, caracterizado por o extrator direto/ambiente (520) ser, além disso, configurado para aplicar uma primeira pluralidade de parâmetros de extração ao sinal downmix (115) para obter a parte de sinal direto (125-1) e uma segunda pluralidade de parâmetros de extração ao sinal downmix (115) para obter a parte de sinal ambiente (125-2), a primeira e a segunda pluralidade de parâmetros de extração constituindo em uma matriz diagonal.
7. APARELHO, de acordo com a reivindicação 1, caracterizado por o estimador direto/ambiente (110) é configurado para estimar a informação de nível direta (113) da parte direta do sinal de áudio de múltiplos canais (101) ou para estimar a informação de nível ambiente (113) da parte ambiente do sinal de áudio de múltiplos canais (101) com base nas informações paramétricas espaciais (105) e pelo menos dois canais downmix (825) do sinal downmix (115) recebidos pelo estimador direto/ambiente (110).
8. APARELHO, de acordo com a reivindicação 1, caracterizado por estimador direto/ambiente (710) é configurado para aplicar uma fórmula de estimativa ambiente estéreo utilizando as informações paramétricas espaciais (105) para cada canal (Chi) do sinal de áudio de múltiplos canais (101), em que a fórmula de estimativa ambiente estéreo é dada por DTT = fen- fr (Ch, R), ICC, (Ch,, R)], ATT = 1 - DTT dependendo de uma diferença de nível de canal (CLDi), que é um valor de decibel de ai, e um parâmetro de coerência intercanais (ICCi) do canal Chi, e em que R é uma combinação linear dos canais restantes.
9. APARELHO, de acordo com a reivindicação 1, caracterizado por o extrator direto/ambiente (620) é configurado para extrair a parte de sinal direto (125-1) ou a parte de sinal ambiente (125-2) por uma solução pela média dos mínimos quadrados (LMS) com mixagem cruzada de canal, a solução de LMS não precisando de níveis ambiente iguais.
10. APARELHO, de acordo com a reivindicação 8, caracterizado por o extrator direto/ambiente (620) é configurado para derivar a solução de LMS ao assumir um modelo de sinal, de modo que a solução de LMS não se restrinja um sinal downmix de canal estéreo.
11. APARELHO, de acordo com a reivindicação 1, o aparelho é caracterizado por ainda compreender: um dispositivo de interpretação de som direta biauricular (910) para processar a parte de sinal direto (125-1) para obter um primeiro sinal de saída biauricular (915); um dispositivo de interpretação de som ambiente biauricular (1010) para processar a parte de sinal ambiente (125-2) para obter um segundo sinal de saída biauricular (1015);e um combinador (1130) para combinar o primeiro (915) e o segundo (1015) sinal de saída biauricular para obter um sinal de saída biauricular combinado (1135).
12. APARELHO, de acordo com a reivindicação 11, caracterizado por o dispositivo de interpretação de som ambiente biauricular (1010) ser configurado para aplicar efeito ambiente e/ou um filtro à parte de sinal ambiente (125-2) para prover o segundo sinal de saída biauricular (1015), o segundo sinal de saída biauricular (1015) sendo adaptado para coerência interauricular dos campos sonoros difusos reais.
13. APARELHO, de acordo com a reivindicação 11 ou 13, caracterizado por o dispositivo de interpretação de som direta biauricular (910) ser configurado para alimentar a parte de sinal direto (125-1) através dos filtros com base nas funções de transferência relacionadas à cabeça (HRTFs) para obter o primeiro sinal de saída biauricular (915).
14. MÉTODO (100) PARA EXTRAIR UM SINAL DIRETO E/OU AMBIENTE (125-1, 125-2) DE UM SINAL DOWNMIX (115) EINFORMAÇÕES PARAMÉTRICAS ESPACIAIS (105), o sinal downmix (115) e as informações paramétricas espaciais (105) representando um sinal de áudio de múltiplos canais (101) tendo mais canais (Ch1 ... ChN) que o sinal downmix (115), em que as informações paramétricas espaciais (105) são caracterizadas por compreender relações intercanais do sinal de áudio de múltiplos canais(101), o método (100) compreendendo: estimar (110) uma informação de nível direta (113) de uma parte direta do sinal de áudio de múltiplos canais (101) e/ou estimar (110) uma informação de nível ambiente (113) de uma parte ambiente do sinal de áudio de múltiplos canais (101) com base nas informações paramétricas espaciais (105); e extrair (120) uma parte de sinal direto (125-1) e/ou uma parte de sinal ambiente (125-2) do sinal downmix (115) com base na informação de nível direta estimada (113) da parte direta ou com base na informação de nível ambiente estimada (113) da parte ambiente; em que a extração compreende a mistura de informações de nível direto estimadas da parte direta ou as informações de nível de ambiente estimadas da parte ambiente para adquirir informações de nível de mistura reduzida da parte direta ou da parte ambiental e extrair a parte de sinal direto ou a parte de sinal ambiente da sinal de downmix com base nas informações de nível downmixed; em que que a estimativa compreende estimar a informação de nível direto da porção direta do sinal de áudio multicanal ou estimar a informação de nível de ambiente da porção ambiente do sinal de áudio multicanal com base nas informações paramétricas espaciais e pelo menos dois canais downmix do sinal downmix.
BR112012017551-3A 2010-01-15 2011-01-11 Aparelho e método para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais BR112012017551B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US29527810P 2010-01-15 2010-01-15
US61/295,278 2010-01-15
EP10174230.2 2010-08-26
EP10174230A EP2360681A1 (en) 2010-01-15 2010-08-26 Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
PCT/EP2011/050265 WO2011086060A1 (en) 2010-01-15 2011-01-11 Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information

Publications (2)

Publication Number Publication Date
BR112012017551A2 BR112012017551A2 (pt) 2017-10-03
BR112012017551B1 true BR112012017551B1 (pt) 2020-12-15

Family

ID=43536672

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112012017551-3A BR112012017551B1 (pt) 2010-01-15 2011-01-11 Aparelho e método para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais

Country Status (14)

Country Link
US (1) US9093063B2 (pt)
EP (2) EP2360681A1 (pt)
JP (1) JP5820820B2 (pt)
KR (1) KR101491890B1 (pt)
CN (1) CN102804264B (pt)
AR (1) AR079998A1 (pt)
AU (1) AU2011206670B2 (pt)
BR (1) BR112012017551B1 (pt)
CA (1) CA2786943C (pt)
ES (1) ES2587196T3 (pt)
MX (1) MX2012008119A (pt)
RU (1) RU2568926C2 (pt)
TW (1) TWI459376B (pt)
WO (1) WO2011086060A1 (pt)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2522016A4 (en) 2010-01-06 2015-04-22 Lg Electronics Inc DEVICE FOR PROCESSING AN AUDIO SIGNAL AND METHOD THEREFOR
TWI687918B (zh) * 2010-12-03 2020-03-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9253574B2 (en) 2011-09-13 2016-02-02 Dts, Inc. Direct-diffuse decomposition
JP6096789B2 (ja) * 2011-11-01 2017-03-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオオブジェクトのエンコーディング及びデコーディング
CN104704558A (zh) * 2012-09-14 2015-06-10 杜比实验室特许公司 基于多声道音频内容分析的上混检测
BR112015018522B1 (pt) * 2013-02-14 2021-12-14 Dolby Laboratories Licensing Corporation Método, aparelho e meio não transitório que tem um método armazenado no mesmo para controlar a coerência entre canais de sinais de áudio com upmix.
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
US9549276B2 (en) * 2013-03-29 2017-01-17 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
US10075795B2 (en) 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、***和装置
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015031505A1 (en) * 2013-08-28 2015-03-05 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement
JP6201047B2 (ja) 2013-10-21 2017-09-20 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成のための脱相関器構造
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105684467B (zh) 2013-10-31 2018-09-11 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
EP2892250A1 (en) * 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
EP3213323B1 (en) 2014-10-31 2018-12-12 Dolby International AB Parametric encoding and decoding of multichannel audio signals
EP3257270B1 (en) * 2015-03-27 2019-02-06 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing stereo signals for reproduction in cars to achieve individual three-dimensional sound by frontal loudspeakers
US10978079B2 (en) 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corporation Audio encoding and decoding using presentation transform parameters
CN105405445B (zh) * 2015-12-10 2019-03-22 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
RU2687882C1 (ru) 2016-03-15 2019-05-16 Фраунхофер-Гезеллшафт Цур Фёрдерунг Дер Ангевандтен Форшунг Е.В. Устройство, способ формирования характеристики звукового поля и машиночитаемый носитель информации
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
JP6846822B2 (ja) * 2016-04-27 2021-03-24 国立大学法人富山大学 オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10306391B1 (en) 2017-12-18 2019-05-28 Apple Inc. Stereophonic to monophonic down-mixing
WO2020009350A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 오클루션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
EP3818730A4 (en) 2018-07-03 2022-08-31 Nokia Technologies Oy SIGNALING AND ENERGY REPORT SUMMARY
EP3618464A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器***及其声重放方法
GB2578603A (en) * 2018-10-31 2020-05-20 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
JP7213364B2 (ja) 2018-10-31 2023-01-26 ノキア テクノロジーズ オーユー 空間オーディオパラメータの符号化及び対応する復号の決定
CN114402631B (zh) * 2019-05-15 2024-05-31 苹果公司 用于回放捕获的声音的方法和电子设备
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL129752A (en) * 1999-05-04 2003-01-12 Eci Telecom Ltd Telecommunication method and system for using same
CN1144224C (zh) * 2000-02-14 2004-03-31 王幼庚 耳前声波记录生成空间声信号的方法
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1761110A1 (en) 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
RU2393646C1 (ru) * 2006-03-28 2010-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Усовершенствованный способ для формирования сигнала при восстановлении многоканального аудио
US8103005B2 (en) 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
ES2875416T3 (es) * 2008-12-11 2021-11-10 Fraunhofer Ges Forschung Aparato para generar una señal de audio multicanal

Also Published As

Publication number Publication date
ES2587196T3 (es) 2016-10-21
US20120314876A1 (en) 2012-12-13
MX2012008119A (es) 2012-10-09
JP5820820B2 (ja) 2015-11-24
US9093063B2 (en) 2015-07-28
EP2360681A1 (en) 2011-08-24
CA2786943A1 (en) 2011-07-21
KR101491890B1 (ko) 2015-02-09
EP2524370B1 (en) 2016-07-27
AU2011206670A1 (en) 2012-08-09
RU2012136027A (ru) 2014-02-20
KR20120109627A (ko) 2012-10-08
CN102804264B (zh) 2016-03-09
WO2011086060A1 (en) 2011-07-21
EP2524370A1 (en) 2012-11-21
RU2568926C2 (ru) 2015-11-20
BR112012017551A2 (pt) 2017-10-03
TW201142825A (en) 2011-12-01
AR079998A1 (es) 2012-03-07
JP2013517518A (ja) 2013-05-16
CA2786943C (en) 2017-11-07
AU2011206670B2 (en) 2014-01-23
TWI459376B (zh) 2014-11-01
CN102804264A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
BR112012017551B1 (pt) Aparelho e método para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais
US20200335115A1 (en) Audio encoding and decoding
US9552819B2 (en) Multiplet-based matrix mixing for high-channel count multichannel audio
JP2023071866A (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
RU2409911C2 (ru) Декодирование бинауральных аудиосигналов
PT2372701E (pt) Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
BRPI0913460B1 (pt) Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais
BR122018069726B1 (pt) Equipamento e método para o processamento de um sinal de áudio multicanais, equipamento para o processamento inverso dos dados de entrada e método de processamento inverso dos dados de entrada
PT1829026T (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial
EP2834813A1 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
JP7383685B2 (ja) バイノーラル・ダイアログ向上
Breebaart et al. Binaural rendering in MPEG Surround
He et al. Literature review on spatial audio
MX2008011994A (es) Generacion de mezclas descendentes espaciales a partir de representaciones parametricas de señales de multicanal.

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 11/01/2011, OBSERVADAS AS CONDICOES LEGAIS.