BR112015010995B1 - Ajuste por segmento do sinal de áudio espacial para configuração diferente do autofalante de reprodução - Google Patents

Ajuste por segmento do sinal de áudio espacial para configuração diferente do autofalante de reprodução Download PDF

Info

Publication number
BR112015010995B1
BR112015010995B1 BR112015010995-0A BR112015010995A BR112015010995B1 BR 112015010995 B1 BR112015010995 B1 BR 112015010995B1 BR 112015010995 A BR112015010995 A BR 112015010995A BR 112015010995 B1 BR112015010995 B1 BR 112015010995B1
Authority
BR
Brazil
Prior art keywords
speaker
segment
direct sound
playback
configuration
Prior art date
Application number
BR112015010995-0A
Other languages
English (en)
Other versions
BR112015010995A2 (pt
Inventor
Alexander ADAMI
Jurgen Herre
Achim Kuntz
Giovanni Del Galdo
Fabian Kuch
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V
Techniche Universitat Ilmenau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V, Techniche Universitat Ilmenau filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V
Publication of BR112015010995A2 publication Critical patent/BR112015010995A2/pt
Publication of BR112015010995B1 publication Critical patent/BR112015010995B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

ajuste por segmento do sinal de áudio espacial para configuração diferente do alto-falante de reprodução. aparelho (100) para adaptar um sinal áudio espacial (2) para uma configuração de alto-falante original em uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. o aparelho compreende um decompositor de ambiência direto (130) que é configurado para decompor os sinais do canal em um segmento da configuração de alto-falante original em som direto (d) e componentes de ambiência (a) e para determinar uma direção de chegada (150) recebe uma informação da configuração de ato-falante de reprodução e ajusta os componentes de som direto (d), utilizando a informação da configuração de alto-falante de reprodução, de modo que uma direção de chegada percebida dos componentes de som direto na configuração de alto-falante de reprodução seja substancialmente idêntica à direção de chegada dos componentes de som direto. um combinador (180) combina os componentes de som direto ajustados e, possivelmente, os componentes de ambiência modificados para obter os sinais do alto-falante para alto-falantes da configuração de alto-falante de reprodução.

Description

DESCRIÇÃO CAMPO TÉCNICO
[0001] A presente invenção refere-se geralmente ao processamento do sinal de áudio espacial e, em particular, a um aparelho e um método para adaptar um sinal de áudio espacial direcionado a uma configuração de alto-falante original a uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. Outras aplicações da presente invenção referem-se à conversão de cena de som multicanal de alta qualidade flexivel.
HISTÓRICO DA INVENÇÃO
[0002] As exigências de um sistema de reprodução de áudio moderno mudaram ao longo dos anos. Do canal único (mono) ao canal duplo (estéreo) até sistemas multicanais, como Surround 5.1 e 7.1 ou sintese de campo de onda uniforme, o número de canais de alto-falante utilizado tem aumentado. Sistemas uniformes com alto-falantes elevados devem ser vistos em cinemas modernos. Isso tem o objetivo de fornecer ao ouvinte uma experiência de áudio de uma cena de áudio gravada ou artificialmente criada, com relação ao sentido da realidade, imersão e envelope que se aproxima ao máximo à cena do áudio real ou, de modo alternativo, que melhor reflete as intenções do engenheiro de som (veja, por exemplo, M. Morimoto, "The Role of Rear Loudspeakers in Spatial Impression", na 103a Convenção da AES, 1997 ; D. Griesinger, "Spaciousness and Envelope in Musical Acoustics", na 101a Convenção da AES, 1996 ; K. Hamasaki, K. Hiyama e R. Okumura, "The 22.2 Multicanal Sound System and Its Application", na 118a Convenção da AES, 2005). Entretanto, há pelo menos duas desvantagens: devido à pluralidade de sistemas de som disponíveis, com relação ao número de alto-falantes utilizados e seu posicionamento recomendado, não há compatibilidade geral entre todos esses sistemas. Além disso, qualquer desvio do posicionamento recomendado do alto-falante resultará em uma cena de áudio comprometida e, portanto, reduzirá a experiência de áudio espacial do ouvinte e, assim, a qualidade espacial.
[0003] Em uma aplicação do mundo real, os sistemas de reprodução multicanal geralmente não são configurados corretamente com relação ao posicionamento do alto-falante. A fim de não distorcer a imagem espacial original de uma cena de áudio que resultaria de um posicionamento com falha, um sistema de alta qualidade flexivel é necessário, o qual pode compensar essas incompatibilidades de configuração. As abordagens do estado da técnica geralmente não possuem capacidade de descrever uma cena de som complexa e talvez artificialmente gerada em que, por exemplo, mais do que uma fonte direta por faixa de frequência e instante de tempo aparece.
[0004] Portanto, é um objeto da presente invenção fornecer um conceito melhorado para adaptar um sinal de áudio espacial, de modo que a imagem espacial de uma cena de áudio seja mantida substancialmente a mesma se a configuração de alto-falante de reprodução desviar da configuração de alto- falante original, ou seja, se a configuração de alto-falante cujo conteúdo de áudio do sinal de áudio espacial for originalmente produzida para isso.
SUMÁRIO DA INVENÇÃO
[0005] Este objeto é obtido por um aparelho, de acordo com a reivindicação 1, um método, de acordo com a reivindicação 14, ou um programa de computador, de acordo com a reivindicação 15.
[0006] De acordo com uma aplicação da presente invenção, um aparelho é fornecido para adaptar um sinal de áudio espacial para uma configuração de alto-falante original a uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. O sinal de áudio espacial compreende uma pluralidade de sinais do canal. O aparelho compreende um agrupador configurado para agrupar, pelo menos, dois sinais do canal em um segmento. O aparelho também compreende um decompositor de ambiência direto configurado para decompor, pelo menos, dois sinais do canal no segmento em, pelo menos, um componente de som direto e, pelo menos, um componente de ambiência. O decompositor de ambiência direto pode, ainda, ser configurado para determinar uma direção de chegada de, pelo menos, um componente de som direto. O aparelho também compreende um renderizador de som direto configurado para receber uma informação da configuração de alto-falante de reprodução para, pelo menos, um segmento de reprodução associado com o segmento, e para ajustar, pelo menos, um componente de som direto utilizando a informação da configuração de alto-falante de reprodução para o segmento, de modo que uma direção de chegada percebida de, pelo menos, um componente de som direto na configuração de alto-falante de reprodução seja idêntica à direção de chegada do segmento ou mais próximo à direção de chegada de, pelo menos, um componente de som direto comparado a uma situação na qual nenhum ajuste tenha ocorrido. Além disso, o aparelho compreende um combinador configurado para combinar componentes de som direto ajustados e componentes de ambiência ou componentes de ambiência modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.
[0007] A ideia básica subjacente da presente invenção é agrupar canais de alto-falante vizinhos em segmentos (por exemplo, setores circulares, setores cilíndricos ou setores esféricos) e decompor cada sinal do segmento em partes dos sinais ambiente e direto correspondentes. Os sinais diretos levam a uma posição da fonte de plataforma (ou várias posições da fonte de plataforma) dentro de cada segmento, enquanto os sinais ambientes correspondem ao som difuso e são responsáveis pelo envelope do ouvinte. Durante o processo de renderização, os componentes diretos são remapeados, ponderados e ajustados por meio das posições da fonte de plataforma para se adaptar à configuração real do alto-falante de reprodução e preservar a localização original das fontes. Os componentes ambientes são mapeados e ponderados para produzir a mesma quantidade de envelope na configuração de audição modificada. Pelo menos parte do processamento pode ser realizada em uma base de posição de tempo-frequência. Com essa metodologia, mesmo um número reduzido ou aumentado de alto-falantes na configuração de saida pode ser gerenciado.
[0008] Um segmento da configuração de alto-falante original também pode ser chamado de "segmento original", para referência mais fácil na seguinte descrição. De forma semelhante, um segmento na configuração de alto-falante de reprodução também pode ser chamado de "segmento de reprodução". Um segmento é tipicamente calibrado ou delimitado por dois ou mais alto-falantes e uma posição de um ouvinte, isto é, um segmento tipicamente corresponde ao espaço que é delimitado por dois ou mais alto-falantes e um ouvinte. Um dado alto-falante pode ser atribuido a dois ou mais segmentos. Em uma configuração de alto-falante bidimensional, um alto-falante particular é tipicamente atribuido a um segmento "esquerdo" e um segmento "direito", isto é, o alto-falante emite som principalmente aos segmentos esquerdo e direito. 0 agrupador (ou elemento de agrupamento) é configurado para coletar esses sinais do canal, que são associados com um dado segmento. Uma vez que cada sinal do canal pode ser atribuido a dois ou mais canais, ele pode ser distribuído a esses dois ou mais segmentos pelo agrupador ou por vários agrupadores.
[0009] O decompositor de ambiência direto pode ser configurado para determinar os componentes de som direto e os componentes de ambiência para cada canal. De modo alternativo, o decompositor de ambiência direto pode ser configurado para determinar um único componente de som direto e um único componente de ambiência por segmento. A(s) direção(ões) de chegada pode(m) ser determinada(s) pela análise (por exemplo, correlação cruzada) de, pelo menos, dois sinais do canal. Como uma alternativa, a(s) direção(ões) de chegada pode(m) ser determinada (s) com base nas informações fornecidas ao decompositor de ambiência direto de outro componente do aparelho ou de outra entidade externa.
[0010] O renderizador de som direto pode tipicamente considerar como uma diferença entre a configuração de alto- falante original e a configuração de alto-falante de reprodução afeta um segmento da configuração de alto-falante original atualmente contemplado, e quais medidas devem ser consideradas, a fim de manter a percepção dos componentes de som direto dentro do referido segmento. Essas medições podem compreender (lista não exaustiva): - modificação de uma ponderação de amplitude do componente de som direto entre os alto-falantes do referi-do segmento; - modificação de uma relação de fase e/ou uma relação de atraso entre os componentes de som direto es-pecíficos por alto-falante para os alto-falantes de tal seg-mento; - remoção do componente de som direto para tal segmento de um alto-falante particular, devido à disponi-bilidade de um alto-falante mais bem adequado na configuração de alto-falante de reprodução; - aplicação do componente de som direto para um segmento vizinho na configuração de alto-falante original em um alto-falante no segmento atualmente contemplado, pois tal alto-falante é mais bem adequado para reproduzir tal com-ponente de som direto (por exemplo, devido a um limite do segmento que cruzou a direção de chegada para uma fonte fan-tasma ao passar da configuração de alto-falante original para a configuração de alto-falante de reprodução); - aplicação do componente de som direto em um alto-falante adicionado (alto-falante adicional) que está disponivel na configuração de alto-falante de reprodução, mas não na configuração de alto-falante original; - possiveis medições adicionais conforme descrito abaixo.
[0011] O renderizador de som direto pode compreender uma pluralidade de renderizadores de segmento, cada renderizador de segmento realizando o processamento dos sinais do canal de um segmento.
[0012] O combinador pode combinar os componentes de som direto ajustados, os componentes de ambiência, e/ou os componentes de ambiência modificados que foram gerados pelo renderizador de som direto (ou outro renderizador de som direto) para um ou mais segmentos vizinhos com relação a um segmento atualmente contemplado. De acordo com algumas aplicações, os componentes de ambiência podem ser substancialmente idênticos a pelo menos um componente de ambiência determinado pelo decompositor de ambiência direto. De acordo com aplicações alternativas, os componentes de ambiência modificados podem ser determinados com base nos componentes de ambiência determinados pelo decompositor de ambiente direto, considerando uma diferença entre o segmento original e o segmento de reprodução.
[0013] De acordo com outra aplicação, a configuração de alto-falante de reprodução pode compreender um alto- falante adicional dentro do segmento. Assim, o segmento da configuração de alto-falante original corresponde a dois ou mais segmentos do segmento do alto-falante de reprodução, ou seja, o segmento original na configuração de alto-falante original foi dividido em dois ou mais segmentos de reprodução na configuração de alto-falante de reprodução. O renderizador de som direto pode ser configurado para gerar os componentes de som direto ajustados para, pelo menos, dois alto-falantes e o alto-falante adicional da configuração de alto-falante de reprodução.
[0014] O caso oposto também é possivel: de acordo com outra aplicação, a configuração de alto-falante de reprodução pode não possuir um alto-falante comparado à configuração de alto-falante original de modo que o segmento e um segmento vizinho da configuração de alto-falante original sejam unidos a um segmento unido da configuração de alto-falante de reprodução. O renderizador de som direto pode, então, ser configurado para distribuir componentes de som direto ajustados de um sinal do canal correspondente ao alto-falante ausente na configuração de alto-falante de reprodução em, pelo menos, dois alto-falantes remanescentes reprodução. 0 alto-falante que está presente na configuração de alto-falante original, mas não na configuração de alto- falante de reprodução, também pode ser referido como "alto- falante ausente".
[0015] De acordo com outras aplicações, o renderizador de som direto pode ser configurado para realocar um componente de som direto tendo uma direção de chegada determinada do segmento na configuração de alto-falante original em um segmento vizinho na configuração de alto- falante de reprodução, se um limite entre o segmento e o segmento vizinho transgredir ou cruzar a direção de chegada determinada ao passar da configuração de alto-falante original para a configuração de alto-falante de reprodução.
[0016] De acordo com outras aplicações, o renderizador de som direto pode, ainda, ser configurado para realocar o componente de som direto tendo a direção de chegada determinada de, pelo menos, um primeiro alto-falante em, pelo menos, um segundo alto-falante, pelo menos um primeiro alto-falante sendo atribuido ao segmento na configuração de alto-falante original, mas não ao segmento vizinho na configuração de alto-falante de reprodução, e, pelo menos, um segundo alto-falante sendo atribuido ao segmento vizinho na configuração de alto-falante de reprodução.
[0017] De acordo com outras aplicações, o renderizador de som direto pode ser configurado para gerar componentes de som direto especificos por segmento do alto- falante para, pelo menos, dois pares do segmento por alto- falante válidos da configuração de alto-falante de reprodução, pelo menos dois pares do segmento por alto- falante válidos referentes a um mesmo alto-falante e dois segmentos vizinhos na configuração de alto-falante de reprodução. O combinador pode ser configurado para combinar os componentes de som direto específicos por segmento do alto-falante para, pelo menos, dois pares do segmento por alto-falante válidos referentes ao mesmo alto-falante para obter um dos sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução. Um par do segmento do alto-falante válido refere-se a um alto-falante e um dos segmentos ao qual esse alto-falante é atribuído. O alto-falante pode ser parte de outros pares do segmento por alto-falante válidos se o alto-falante for atribuído a outros segmentos (como é tipicamente o caso). De forma semelhante, o segmento pode ser (e tipicamente é) parte de outros pares do segmento por alto-falante válidos. O renderizador de som direto pode ser configurado para considerar essa ambivalência de cada alto-falante e fornecer os componentes de som direto específicos por segmento para o alto-falante. O combinador pode ser configurado para reunir os diferentes componentes de som direto específicos por segmento (e possivelmente, como o caso pode ser, também, componentes do ambiente especifico por segmento) direcionados para um alto-falante particular da configuração de alto- falante de reprodução dos vários segmentos ao qual esse alto- falante particular é atribuído. Observe que a adição ou a remoção de um alto-falante na configuração de alto-falante de reprodução pode ter um impacto nos pares do segmento por alto-falante válidos: a adição de um alto-falante tipicamente divide um segmento original em, pelo menos, dois segmentos de reprodução, de modo que os alto-falantes afetados são atribuídos aos novos segmentos na configuração de alto- falante de reprodução. A remoção de um alto-falante pode resultar em dois ou mais segmentos originais sendo unidos a um segmento de reprodução e uma influência correspondente nos pares do segmento por alto-falante válidos.
[0018] Outras aplicações da presente invenção fornecem um método para adaptar um sinal de áudio espacial direcionado para uma configuração de alto-falante original a uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. O sinal de áudio espacial compreende uma pluralidade de canais. O método compreende o agrupamento de, pelo menos, dois sinais do canal em um segmento, e a decomposição de, pelo menos, dois sinais do canal no segmento em, pelo menos, um componente de som direto e, pelo menos, um componente de ambiência. O método compreende, ainda, a determinação de uma direção de chegada de, pelo menos, um componente de som direto. O método compreende, ainda, o ajuste de, pelo menos, um componente de som direto utilizando uma informação da configuração de alto- falante de reprodução para o segmento, de modo que uma direção de chegada percebida do componente de som direto na configuração de alto-falante de reprodução seja substancialmente idêntica à direção de chegada de um segmento. Pelo menos, a direção de chegada percebida de, pelo menos, um componente de som direto está mais próxima à direção de chegada do segmento em comparação a uma situação na qual nenhum ajuste tenha ocorrido. 0 método compreende, ainda, combinar os componentes de som direto ajustados e os componentes de ambiência ou os componentes de ambiência modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.
BREVE DESCRIÇÃO DAS FIGURAS
[0019] A seguir, as aplicações da presente invenção serão explicadas com referência aos desenhos anexos, nos quais:
[0020] A figura 1 mostra um diagrama em blocos esquemático de um possivel cenário de aplicação;
[0021] A figura 2 mostra um diagrama em blocos esquemático de uma visão geral do sistema de um aparelho e um método para ajustar um sinal de áudio espacial;
[0022] A figura 3 mostra uma ilustração esquemática de um exemplo para uma configuração modificada do alto- falante com um alto-falante que foi movido/deslocado;
[0023] A figura 4 mostra uma ilustração esquemática de um exemplo para outra configuração modificada do alto- falante com um número elevado de alto-falantes;
[0024] A figura 5 mostra uma ilustração esquemática de um exemplo para outra configuração modificada do alto- falante com um número reduzido de alto-falantes;
[0025] As figuras 6A e 6B mostram as ilustrações esquemáticas de exemplos para outras configurações modificadas do alto-falante com alto-falantes deslocados;
[0026] A figura 7 mostra um diagrama em blocos esquemático de um aparelho para ajustar um sinal de áudio espacial; e
[0027] A figura 8 mostra um fluxograma esquemático de um método para ajustar um sinal de áudio espacial.
DESCRIÇÃO DETALHADA DAS APLICAÇÕES
[0028] Antes de discutir a presente invenção em mais detalhes utilizando os desenhos, indica-se que os elementos idênticos das figuras, os elementos tendo a mesma função ou o mesmo efeito são fornecidos com os mesmos números de referência, ou semelhantes, de modo que a descrição e a funcionalidade desses elementos ilustradas nas diferentes aplicações seja mutuamente permutável ou possam ser aplicadas em outra nas diferentes aplicações.
[0029] Alguns métodos para ajustar um sinal de áudio espacial não são flexiveis o suficiente para gerenciar uma cena de som complexa, especialmente aqueles que são baseados nas suposições fisicas globais (veja, por exemplo, V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, vol. 55, n° 6, pp. 503-516, 2007 e V. Pulkki e J. Herre, "Method and Apparatus for Conversion Between Multi-Channel Audio Formats", Publicação do Pedido de Patente Norte-Americano N° US 2008/0232616 Al) ou que são restritos a um componente localizável (direto) por faixa de frequência em toda a cena de áudio (veja, por exemplo, M. Goodwin e J.-M. Jot, "Spatial Audio Scene Coding", na 125a Convenção da AES, 2008 e J. Thompson, B. Smith, A. Warner e J.-M .Jot, "Direct-Diffuse Decomposition of Multichannel Signals Using a System of Pairwise Correlations", na 133a Convenção da AES 2012, Outubro 2012) . A suposição de onda plana ou componente direto pode ser suficiente em alguns cenários especiais, mas, no geral, não pode capturar uma cena de áudio complexa com várias fontes ativas em um periodo. Isso resulta em distorção espacial e em fontes instáveis ou mesmo puladas durante a reprodução.
[0030] Há sistemas que modelam os alto-falantes de configuração de entrada que não correspondem a configuração de saida como alto-falantes virtuais (todo o sinal de alto- falante é deslocado pelos alto-falantes vizinhos na posição direcionada do alto-falante) (A. Ando, "Conversion of Multicanal Sound Signal Maintaining Physical Properties of Sound in Reproduced Sound Field", IEEE Transações no Processamento de Áudio, Fala e Linguagem, vol. 19, n° 6, pp. 1467-1475, 2011). Isso também pode resultar na distorção espacial de fontes fantasmas, para as quais esses canais de alto-falante contribuem. A abordagem mencionada por A. Laborie, R. Bruno e S. Montoya em "Reproducing Multicanal Sound on any Speaker Layout", 118a Convenção da AES, 2005 precisa que o usuário primeiro calibre seus alto-falantes e depois renderize os sinais para essa configuração de uma transformação do sinal intensivo computacional.
[0031] Além disso, um sistema de alta qualidade deveria ser conservador de forma de onda. Quando os canais de entrada são renderizados a uma configuração de alto-falante que iguala a configuração inicial, a forma de onda não deve mudar significantemente; caso contrário, a informação se perde, podendo resultar em perturbações sonoras e qualidades de áudio e espacial reduzidas. Métodos com base no objeto podem apresentar aqui diafonia adicional, que é introduzida durante a extração do objeto (F.Melchior, "Vorrichtung zum Verãndern einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion", Pedido de Patente Alemão N° DE 10 2010 030 534 Al, 2011). As suposições fisicas globais também resultam em diferentes formas de onda (veja, por exemplo M. Goodwin e J.-M. Jot, "Spatial Audio Scene Coding", na 125a Convenção da AES, 2008 ; V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, vol. 55, n° 6, pp. 503-516, 2007; e V. Pulkki e J.Herre, "Method and Apparatus for Conversion Between Multi-Channel Audio Formats", Publicação do Pedido de Patente Norte-Americano N° US 2008/0232616 Al).
[0032] Um deslocador multicanal pode ser utilizado para colocar uma fonte fantasma em algum lugar na cena de áudio. Os algoritmos mencionados por Eppolito, Pulkki e Blauert têm como base as suposições relativamente simples que podem causar graves imprecisões na localização espacial onde uma fonte foi deslocada e onde a fonte é percebida em (A. Eppolito, "Multi-Channel Sound Panner", Publicação do Pedido de Patente Norte-Americano N° US 2012/0170758 Al; V.Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, vol. 45, n° 6, pp. 456-466, 1997 e J. Blauert, "Spatial hearing: The psychophysics of human ed. Cambridge e Mass: MIT Press, 2001, seção 2.2.2).
[0033] Os métodos de upmix de extração de ambiência são designados para extrair as partes do sinal ambiente e distribui-las entre os alto-falantes adicionais para gerar uma certa quantidade de envelope (J. S. Usher e J. Benesty, "Enhancement of Spatial Sound Quality: A New Reverberation-Extraction Audio Upmixer", IEEE Transações no Processamento de Áudio, Fala e Linguagem, vol. 15, n° 7, pp. 2141-2150, 2007; C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", J. Audio Eng. Soc, vol. 54, n° 11, pp. 1051-1064, 2006; C. Avendano e J.-M. Jot, "Ambience extraction and synthesis from stereo signals for multi-channel audio up- mix", no Processamento de Acústica, Fala e Sinai (ICASSP), 2002 IEEE Conferência Internacional, vol. 2, 2002, pp. II1957 - 11-1960; e R. Irwan e R. M. Aarts, "Two-to-Five Channel Sound Processing", J. Audio Eng. Soc, vol. 50, n° 11, pp. 914-926, 2002). A extração tern como base apenas urn ou dois canais, que é a razão pela qual a cena de áudio resultante não é mais uma imagem precisa da cena original, e a razão pela qual estas não são abordagens úteis para as nossas finalidades. Isso também é verdadeiro para abordagens de matriz, conforme descrito por Dressier em "Dolby Surround Pro Logic II Decoder Principles of Operation" (disponivel online, o endereço está indicado abaixo). A abordagem de upmix dois-para-três mencionada por Vickers na Publicação do Pedido de Patente Norte-Americano N° US 2010/0296672 Al "Two- to-Three Channel Upmix for Center Channel Derivation" utiliza algum conhecimento prévio sobre a posição do terceiro alto- falante e a distribuição do sinal resultante entre os outros dois alto-falantes, e, portanto, não possui a capacidade de gerar sinais precisos para uma posição arbitrária do alto- falante inserido.
[0034] Aplicações da presente invenção têm o objetivo de fornecer um sistema que seja capaz de preservar a cena de áudio original em um ambiente de reprodução, onde a configuração de alto-falante desvie da original agrupando os alto-falantes adequados em segmentos e aplicando um upmix, downmix e/ou processamento de ajuste de deslocamento. Um estágio de pós-processamento em um codec de áudio regular poderia ser um possivel cenário de aplicação. Esse caso é descrito na figura 1, em que N, ps, Ds, q>s e M, ps, $s, (ps são os números de alto-falantes e suas posições correspondentes nas coordenadas polares na configuração de alto-falante original e modificada/deslocada, respectivamente. No geral, entretanto, o método proposto é aplicável a qualquer cadeia do sinal de áudio como uma ferramenta de pós-processamento. Nas aplicações, os segmentos da configuração de alto-falante (configuração de alto-falante de original e/ou reprodução) representam um subconjunto de direções dentro de um plano bidimensional (2D) ou dentro de um espaço tridimensional (3D). De acordo com as aplicações, para uma configuração de alto-falante plana bidimensional (2D) , toda a faixa de interesse do ângulo azimute pode ser dividida em vários segmentos (setores) que cobrem uma faixa reduzida de ângulos azimute. De forma análoga, no caso 3D, toda a faixa do ângulo sólido (azimute e elevação) pode ser dividida em segmentos que cobrem uma faixa de ângulo menor.
[0035] Cada segmento pode ser caracterizado por uma medição de direção associada, que pode ser utilizada para especificar ou se referir ao segmento correspondente. A medição direcional pode, por exemplo, ser um vetor apontando ao centro do segmento, ou um ângulo azimute, no caso 2D, ou um conjunto de um ângulo azimute e um ângulo de elevação, no caso 3D. O segmento pode ser referido tanto como um subconjunto de direções dentro de um plano 2D ou dentro de um espaço 3D. Para simplicidade de apresentação, os seguintes exemplos são descritos de maneira exemplar para o caso 2D; entretanto a extensão às configurações 3D é direta.
[0036] A figura 1 mostra um diagrama em blocos esquemático do possivel cenário de aplicação mencionado acima para um aparelho e/ou um método para ajustar um sinal de áudio espacial. Um sinal de áudio espacial do lado do codificador 1 é codificado por um codificador 10. O sinal de áudio espacial do lado do codificador tem canais N e foi produzido para uma configuração de alto-falante original, por exemplo, uma configuração de alto-falante 5.0 ou uma configuração de alto-falante 5.1 com posições do alto-falante a 0 grau, +/- 30 graus e +/- 110 graus, com relação a uma orientação de um ouvinte. O codificador 10 produz um sinal de áudio codificado que pode ser transmitido ou armazenado. Tipicamente, o sinal de áudio codificado foi comprimido em comparação ao sinal de áudio espacial do lado do codificador 1, a fim de simplificar as exigências para armazenamento e/ou transmissão. Um decodificador 20 é fornecido para decodificar e, em particular, descomprimir o sinal de áudio espacial codificado. 0 decodificador 20 produz um sinal de áudio espacial decodificado 2 que é altamente semelhante ou até mesmo idêntico ao sinal de áudio espacial do lado do codificador 1. A essa altura, no processamento do sinal de áudio espacial, pode ser empregado um método ou um aparelho 100 para ajustar um sinal de áudio espacial. A finalidade do método ou do aparelho 100 é ajustar o sinal de áudio espacial 2 em uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original. O método ou o aparelho fornece um sinal de áudio espacial 3 ou 4 ajustado, que é exigido na configuração de alto-falante de reprodução em mãos.
[0037] Uma visão geral do sistema do método proposto é descrita na figura 2. A representação de dominio de frequência de curta duração dos canais de entrada são agrupados em segmentos K por um agrupador 110 (elemento de agrupamento) e inseridos em uma Decomposição Direta/de Ambiência 130 e um estágio de Estimativa por DOA 140, em que A é a ambiência e D são os sinais diretos por alto-falante, e o segmento e □, □ são as DOAs estimadas por segmento. Esses sinais são inseridos em um renderizador de ambiência 170 ou um renderizador de som direto 150, respectivamente, resultando nos sinais diretos e de ambiência recentemente renderizados  e D por alto-falante e segmento para a configuração de saida. Os sinais do segmento são combinados por um combinador 180 em sinais de saida angulares corrigidos. Para compensar os deslocamentos na configuração de saida com relação à distância, os canais são escalados e atrasados em um estágio de ajuste de distância 190 para finalmente resultar nos canais do alto-falante da configuração de reprodução. O referido método também pode ser estendido para gerenciar as configurações de reprodução com um número aumentado, bem como reduzido, de alto-falantes, e é descrito abaixo.
[0038] Em uma primeira etapa, o método ou o aparelho agrupa os sinais do alto-falante vizinhos adequados em segmentos K, enquanto cada sinal de alto-falante pode contribuir com os vários segmentos e cada segmento consiste em, pelo menos, dois sinais de alto-falante. Em uma configuração de alto-falante como a descrita na figura 3, os segmentos iniciais da configuração, por exemplo, seriam formados pelos pares de alto-falante Segin = [{LI,L2}, {L2,L3}, {L3,L4}, {L4,L5}, {LS,LI}] e os segmentos de saída seriam Segout = [{LI,L'2}, {L'2,L3}, {L3,L4}, {L4,L5}, {L5,LI}]. O alto- falante L2 na configuração de alto-falante original (alto- falante desenhado na linha tracejada) foi modificado para um alto-falante movido ou deslocado L'2 na configuração de alto- falante de reprodução.
[0039] Durante a análise, uma Decomposição Direta/de Ambiência por segmento com base na correlação cruzada normalizada é realizada, resultando nos componentes do sinal direto D e no componente do sinal de ambiência A para cada alto-falante (para cada canal) com relação a cada segmento considerado. Isto é, o método proposto/aparelho pode estimar os sinais diretos e ambientes para uma diferente fonte dentro de cada segmento. A Decomposição Direta/de Ambiência não é restrita à abordagem mencionada, com base na correlação cruzada normalizada, mas, pode ser realizada com qualquer algoritmo de decomposição adequado. 0 número de sinais diretos e de ambiência gerados por segmento vai de, pelo menos, um até o número de alto-falantes de contribuição ao segmento considerado. Por exemplo, para a configuração inicial dada na figura 3, há pelo menos um sinal direto ou ambiente ou no máximo dois sinais diretos e dois ambientes por segmento.
[0040] Além disso, visto que um sinal de alto- falante particular está contribuindo para os vários segmentos durante a Decomposição Direta/de Ambiência, os sinais podem ser reduzidos ou divididos antes de entrar na Decomposição Direta/de Ambiência. A forma mais fácil de fazer isso seria uma redução de cada sinal de alto-falante dentro de cada segmento pelo número de segmentos para o qual esse alto- falante particular contribui. Por exemplo, para o caso na figura 3, cada canal de alto-falante contribui para dois segmentos, então, o fator de redução seria 1/2 para cada canal de alto-falante. Mas, no geral, uma divisão mais sofisticada e desequilibrada também é possivel.
[0041] Um estágio de estimativa da direção-de- chegada (estágio de estimativa da DOA) 140 pode ser fixado na Decomposição Direta/de Ambiência 130. As DOAs, que consistem em um ângulo azimute □ e possivelmente em um ângulo de elevação □, são estimadas por segmento e faixa de frequência e de acordo com o método escolhido de Decomposição Direta/de Ambiência. Por exemplo, se o método de decomposição de correlação cruzada normalizada é utilizado, a Estimativa por DOA utiliza considerações de energia da entrada e dos sinais de som direto extraídos para a estimativa. No geral, entretanto, ele pode ser escolhido entre várias Decomposições Diretas/de Ambiência e algoritmos de detecção de posição.
[0042] No estágio de renderização 170, 150 (Renderizador de Ambiência e de Som Direto), ocorre a conversão real entre configuração de alto-falante de entrada e saida, com sinais diretos e de ambiência sendo tratados separada e diferentemente. Qualquer modificação na configuração inicial pode ser descrita como uma combinação de três casos básicos: inserção, remoção, e deslocamento de alto-falantes. Por razões de simplicidade, esses casos são descritos individualmente, mas em um cenário do mundo real eles ocorrem simultaneamente e, assim, também são tratados simultaneamente. Isso é realizado pela superimposição dos casos básicos. A inserção e a remoção de alto-falantes afetam apenas os segmentos considerados e devem ser vistas como uma técnica de upmix e downmix com base no segmento. Durante a renderização, os sinais diretos podem ser inseridos em uma função de deslocamento, que garante uma localização correta das fontes fantasmas na configuração de saida. Para isso, os sinais podem ser "deslocados inversamente", com relação à configuração inicial, e deslocados novamente, com relação à configuração de saida. Isso pode ser obtido, aplicando-se os coeficientes de realocação aos sinais diretos dentro de um segmento. Uma possivel implementação, por exemplo, para o do coeficiente de deslocamento cθk poderia ser como segue:
Figure img0001
[0043] em que gk sào os ganhos de deslocamento na configuração inicial (derivados das DOAs estimadas) e hk são os ganhos de deslocamento para a configuração de saida. k = 1...K indica o segmento considerado e s = 1...S indica o alto-falante considerado dentro do segmento, ε é uma pequena constante de regularização. Isso produz os sinais diretos deslocados:
Figure img0002
[0044] Em qualquer segmento no qual os alto-falantes de contribuição combinam nas configurações de entrada e de saida, isso resulta em uma multiplicação por 1 e deixa os componentes diretos extraidos inalterados.
[0045] Um coeficiente de correção também é aplicado aos sinais ambientes que, no geral, dependem de quanto os tamanhos do segmento mudaram. 0 coeficiente de correção poderia ser implementado como segue:
Figure img0003
[0046] em que
Figure img0004
. denotam o ângulo entre as posições do alto-falante dentro do segmento k na configuração inicial (configuração de alto-falante original) ou na configuração de saida (configuração de alto-falante de reprodução), respectivamente. Isso produz os sinais de ambiência corrigidos:
Figure img0005
[0047] Como os sinais diretos, em qualquer segment no qual os alto-falantes de contribuição combinam nas configurações de entrada e de saida, os sinais ambientes são multiplicados por um e deixados inalterados. Esse comportamento de renderização direta e de ambiência garante uma forma de processamento de preservação da onda de um canal de alto-falante particular se nenhum dos segmentos para o qual o canal de alto-falante contribui apresentar mudanças. Além disso, o processamento converge levemente para a solução de preservação da forma de onda, se as posições do alto- falante dos segmentos forem progressivamente movidas em direção às posições da configuração inicial.
[0048] A figura 4 visualiza um cenário em que um alto-falante (L6) foi adicionado a uma configuração de alto- falante padrão 5.1, ou seja, um número elevado de alto- falantes. Adicionar um alto-falante pode resultar em um ou mais dos seguintes efeitos: a estabilidade fora do ponto ideal da cena de áudio pode ser melhorada, ou seja, uma estabilidade melhorada da cena de áudio espacial percebida se um ouvinte se mover para fora do ponto de audição ideal (chamado ponto ideal). O envelope do ouvinte pode ser melhorado e/ou a localização espacial pode ser melhorada, por exemplo, se uma fonte fantasma for substituída por um alto- falante real. Na figura 4, S denota uma posição da fonte de plataforma estimada no segmento formado pelos alto-falantes L2 e L3. A posição da fonte de plataforma estimada pode ser determinada com base na decomposição direta/de ambiência realizada pelo decompositor direto/de ambiência 130 e na estimativa da direção-de-chegada para uma ou mais fontes fantasmas dentro do segmento. Para o alto-falante adicionado, um sinal apropriado direto e de ambiência deve ser criado e os sinais diretos e ambientes dos alto-falantes vizinhos devem ser aplicados. Isso resulta efetivamente em um upmix para o segmento atual com um gerenciamento do sinal como segue:
[0049] Sinais diretos: Na configuração de alto-falante de reprodução (configuração de saida) com o alto- falante adicional Lg, a fonte fantasma S é atribuida ao segmento {L2, Lg} na configuração de alto-falante de reprodução. Assim, as partes do sinal direto correspondentes a S no alto-falante ou no canal original L3 devem ser retribuídas e realocadas ao alto-falante adicional Lg, e processadas por uma função de realização, o que garante que a posição percebida de S permanece a mesma na configuração de alto-falante de reprodução. A realocação inclui remover os sinais realocados de L3. Partes diretas de S em L2 também devem ser processadas pela realocação.
[0050] Sinais ambientes: O sinal ambiente para Lg é gerado fora das partes do sinal ambiente em L2 e L3 e passado para um decorrelacionador, para garantir uma percepção ambiente dos sinais gerados. As energias dos sinais ambientes em L2, Lg e L3 (cada alto-falante dos segmentos de configuração de saida recentemente formados {L2, Lg} e {Lg, L3}) é ajustado de acordo com um Esquema de Remapeamento de Energia da Ambiência selecionável, que a seguir é referido como AERS. Parte desses esquemas é um esquema de Energia da Ambiência Constante (CAE | Constant Ambience Energy), em que toda a energia da ambiência é mantida constante, e um esquema de Densidade de Ambiência Constante (CAD I Constant Ambience Density), em que a densidade da energia da ambiência dentro de um segmento é mantida constante (por exemplo, a densidade da energia da ambiência dentro dos novos segmentos {L2, L6} e {L6, L3} deve ser a mesma que no segmento original {L2, L3}). Esses esquemas são a seguir abreviados como CAE e CAD, respectivamente.
[0051] Se S é posicionado no segmento de reprodução {L6, L3] O processamento de sinais diretos e ambientes segue as mesmas regras e é realizado de forma análoga.
[0052] Conforme ilustrado na figura 4, a configuração de alto-falante de reprodução compreende um alto-falante adicional Lg dentro do segmento original {L2, L3], de modo que o segmento original da configuração de alto- falante original corresponda a dois segmentos {L2, L6] e {L6, L3} da configuração de alto-falante de reprodução. No geral, o segmento original pode corresponder a dois ou mais segmentos dos segmentos de reprodução, ou seja, o alto- falante adicional subdivide o segmento original em dois ou mais segmentos. O renderizador de som direto 150 é configurado nesse cenário para gerar os componentes de som direto ajustados para, pelo menos, dois alto-falantes L2, L3 e para o alto-falante adicional L6 da configuração de alto- falante de reprodução.
[0053] A figura 5 ilustra esquematicamente uma situação de um número reduzido de alto-falantes na configuração de alto-falante de reprodução em comparação à configuração de alto-falante original. Na figura 5, é descrito um cenário onde um alto-falante (L2) foi removido de uma configuração de alto-falante padrão 5.1. e S2 representam as posições estimadas da fonte de plataforma por faixa de frequência nos segmentos iniciais da configuração {Li, L2} e {L2, L3}, respectivamente. O gerenciamento de sinal, descrito abaixo, resulta efetivamente em um downmix dos dois segmentos {Li, L2} e {L2, L3} em um novo segmento {Li, L3}.
[0054] Sinais diretos: Partes do sinal direto de L2 devem ser realocadas para Li e L3 e unidas, de modo que as posições percebidas da fonte de plataforma Si e S2 não mudem. Isso é realizado pela realocação das partes diretas de Sj em L2 a L3 e das partes diretas de S2 em L2 a L3. Sinais correspondentes de Si e S2 em Li e L3 são processados por uma função de realização, que garante a percepção correta das posições da fonte de plataforma na configuração de alto- falante de reprodução. A união é realizada por uma sobreposição dos sinais correspondentes.
[0055] Sinais ambientes: Os sinais ambientes correspondentes aos segmentos {Li, L2} e {L2, L3], ambos localizados em L2, são realocados em Li e L3, respectivamente. Novamente, os sinais realocados são realocados de acordo com um dos Esquemas de Remapeamento de Energia de Ambiência (AERSs I Ambience Energy Remapping Schemes) introduzidos e unidos com os sinais ambientes originais em Li e L3.
[0056] Conforme ilustrado na figura 5, a configuração de alto-falante de reprodução não possui o alto- falante L2 em comparação com a configuração de alto-falante original, de modo que o segmento {Li, L2] e um segmento vizinho {L2, L3} são unidos em um segmento unido da configuração de alto-falante de reprodução. No geral e, particularmente, em uma configuração tridimensional do alto- falante, a remoção de um alto-falante pode resultar em vários segmentos originais sendo unidos a um segmento de reprodução.
[0057] As figuras 6A e 6B ilustram esquematicamente duas situações de alto-falantes deslocados. Em particular, o alto-falante L2 na configuração de alto-falante original foi movido para uma nova posição e é referido como alto-falante L'2 na configuração de alto-falante de reprodução. Um processamento proposto para o caso de um alto-falante deslocado é como segue.
[0058] Dois exemplos para possiveis cenários de deslocamento do alto-falante são descritos nas figuras 6A e 6B, em que, na figura 6A, apenas um redimensionamento do segmento ocorre e nenhuma realocação de uma fonte fantasma se torna necessária, visto que na figura 6B o alto-falante deslocado L'2 é movido além da posição (direção) estimada da fonte fantasma S2 e, assim, a fonte precisa ser realocada e unida ao segmento de saida {LI,L'2}. O alto-falante original L2 e a sua direção da perspectiva do ouvinte são desenhados em linhas tracejadas nas figuras 6A e 6B.
[0059] No caso ilustrado esquematicamente na figura 6A, os sinais diretos são processados como segue. Conforme estabelecido antes, uma realocação não é necessária. Assim, o processamento é confinado para passar o componente do sinal direto de SI e S2 nos alto-falantes Li, L2 e L3, respectivamente, à função de realização, que ajusta os sinais de modo que as fontes fantasmas sejam percebidas na sua posição original com o alto-falante deslocado L'2.
[0060] Os sinais ambientes no caso mostrado na figura 6A são processados como segue. Visto que ainda não há necessidade de realocações do sinal, os sinais ambientes nos segmentos e alto-falantes correspondentes são simplesmente ajustados de acordo com um dos AERSs.
[0061] Com relação à figura 6B, o processamento dos sinais diretos é descrito agora. Se um alto-falante é movido além de uma posição da fonte de plataforma, ele se torna necessário para realocar essa fonte em um diferente segmento de saida. Aqui, o sinal de origem de S2 deve ser realocado ao segmento de saida {Li, L'2} e processado pela função de realização para garantir uma percepção da posição da fonte igual. Adicionalmente, os sinais de origem correspondentes de S2 em {Li, L2} devem ser deslocados novamente para combinar com o novo segmento de saida {LI,L'2J e ambas as partes do novo sinal de origem em cada alto-falante Li e L'2 devem ser unidas.
[0062] Assim, o renderizador de som direto é configurado para realocar um componente de som direto tendo uma direção de chegada determinada S2 do segmento {L2, L3} na configuração de alto-falante original em um segmento vizinho {Li, L'2} na configuração de alto-falante de reprodução se um limite entre o segmento e o segmento vizinho transgredir a direção de chegada determinada S2 ao passar da configuração de alto-falante original à configuração de alto-falante de reprodução. Além disso, o renderizador de som direto pode ser configurado para realocar o componente de som direto tendo a direção de chegada determinada de, pelo menos, um alto- falante do segmento original {L2, L3} em, pelo menos, um alto-falante no segmento vizinho na configuração de saida {Li, L’2} • Particularmente, o renderizador direto pode ser configurado para realocar o componente direto de S2 em L3 atribuido ao segmento {L2, L3} na configuração inicial ao alto-falante deslocado L'2 atribuido ao segmento {Li, L'2} na configuração de reprodução e para realocar o componente direto de S2 em L2 atribuido ao segmento {L2, L3} na configuração inicial ao Li atribuido ao segmento {Li, L'2} na configuração de reprodução. Observe que a ação de realocar também pode envolver um ajuste do componente de som direto, por exemplo, realizando uma realocação com relação a uma amplitude relativa e/ou a um atraso relativo dos sinais do alto-falante.
[0063] Para os sinais ambientes na figura 6B, um processamento semelhante pode ser realizado: os sinais ambientes no segmento {L2, L3} são ajustados utilizando um dos AERSs. Para grandes deslocamentos, adicionalmente, uma parte desses sinais ambientes pode ser adicionada ao segmento {Li, L'2} e ajustada por um AERS.
[0064] Dentro do estágio de combinação 180 (figura 2), os sinais de alto-falante reais para a configuração de alto-falante de reprodução (configuração de saida) são formados. Isso é feito adicionando-se os sinais diretos e ambientes remapeados e renderizados correspondentes dos respectivos segmentos esquerdo e direito, com relação ao alto-falante no meio (os termos alto-falante "esquerdo" e "direito" significam o caso bidimensional, ou seja, todos os alto-falantes estão no mesmo plano, tipicamente um plano horizontal). Na saida do estágio de combinação 180, os sinais para a cena de áudio original, agora renderizados para a nova configuração de alto-falante (a configuração de alto-falante de reprodução) com alto-falantes M nas posições <9, e (ps, são emitidos.
[0065] Neste ponto, ou seja, na saida do combinador ou estágio de combinação 180, o novo sistema fornece sinais do alto-falante, em que todas as modificações com relação ao ângulo azimute e de elevação dos alto-falantes na configuração de saida foram corrigidos. Se um alto-falante na configuração de saida foi movido, de modo que sua distância ao ponto de audição tenha mudado para uma nova distância ps , o estágio de ajuste de distância opcional 190 pode aplicar um fator de correção e um atraso nesse canal para compensar a mudança de distância. A saida 4 desse estágio resulta nos canais de alto-falante da configuração de reprodução real.
[0066] Outra aplicação pode utilizar a invenção para implementar um ponto ideal móvel da configuração de alto- falante de reprodução. Para isso, em uma primeira etapa, o algoritmo ou o aparelho deve determinar a posição do ouvinte. Isso pode ser feito facilmente utilizando-se uma técnica/dispositivo de rastreamento para determinar a posição atual do ouvinte. Então, o aparelho calcula novamente as posições dos alto-falantes com relação à posição do ouvinte, que significa um novo sistema de coordenada com o ouvinte na origem. Isso é equivalente a ter um ouvinte fixo e alto- falantes móveis. 0 algoritmo, então, calcula os sinais ótimos para esta nova configuração.
[0067] A figura 7 mostra um diagrama em blocos esquemático de um aparelho 100 para ajustar um sinal de áudio espacial 2 em uma configuração de alto-falante de reprodução de acordo com pelo menos uma aplicação. O aparelho 100 compreende um agrupador 110 configurado para agrupar, pelo menos, dois sinais do canal 702 em um segmento. O aparelho 100 compreende, ainda, um decompositor de ambiência direto 130 configurado para decompor, pelo menos, dois sinais do canal 7 02 no segmento em, pelo menos, um componente de som direto 732 e, pelo menos, um componente de ambiência 734. O decompositor de ambiência direto 130 pode opcionalmente compreender um estimador de direção-de-chegada 140 configurado para estimar a(s) DOA(s) de, pelo menos, um componente de som direto 732. Como uma alternativa, a(s) DOA(s) pode(m) ser fornecida(s) de uma estimativa de DOA externa ou como meta informação/informação adicional acompanhando o sinal de áudio espacial 2.
[0068] Um renderizador de som direto 150 é configurado para receber uma informação da configuração de alto-falante de reprodução para, pelo menos, um segmento de reprodução associado com o segmento e para ajustar, pelo menos, um componente de som direto 732 utilizando a informação da configuração de alto-falante de reprodução para o segmento, de modo que uma direção de chegada percebida de, pelo menos, um componente de som direto na configuração de alto-falante de reprodução seja substancialmente idêntica à direção de chegada do segmento. Pelo menos, a renderização realizada pelo renderizador de som direto 150 resulta na direção de chegada percebida estando mais próxima à direção de chegada de, pelo menos, um componente de som direto em comparação a uma situação na qual nenhum ajuste tenha ocorrido. Em uma inserção na figura 7, um segmento original da configuração de alto-falante original e um segmento de reprodução da configuração de alto-falante de reprodução correspondente é ilustrado esquematicamente. Tipicamente, a configuração de alto-falante original é conhecida ou padronizada de modo que a informação sobre a configuração de alto-falante original não deva necessariamente ser fornecida ao renderizador de som direto 150, mas essa informação já está disponível para o renderizador de som direto. Contudo, o renderizador de som direto pode ser configurado para receber a informação da configuração de alto-falante original. Dessa forma, o renderizador de som direto 150 pode ser configurado para suportar os sinais de áudio espaciais como entrada que foram gravadas ou criadas para diferentes configurações do alto-falante original, como 5.1, 7.1, 10.2, ou, ainda, configurações 22.2.
[0069] O aparelho 100 compreende, ainda, um combinador 180 configurado para combinar os componentes de som direto ajustados 752, e os componentes de ambiência 734 ou componentes de ambiência modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução. Os sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução são parte do sinal de áudio espacial ajustado 3, que pode ser emitido pelo aparelho 100. Conforme mencionado acima, um ajuste de distância pode ser realizado no sinal de áudio espacial ajustado por DOA para obter o sinal de áudio espacial ajustado por distância e DOA 4 (veja figura 2) . O combinador 180 também pode ser configurado para combinar o componente de som direto ajustado 752 e o componente de ambiência 734 com som direto e/ou componentes de ambiência de um ou mais segmento(s) vizinho(s) que compartilham o alto-falante com o segmento contemplado.
[0070] A figura 8 mostra um fluxograma esquemático de um método para ajustar um sinal de áudio espacial em uma configuração de alto-falante de reprodução que difere de uma configuração de alto-falante original direcionada para apresentar o conteúdo de áudio conduzido pelo sinal de áudio espacial. 0 método compreende uma etapa 802 de agrupamento de, pelo menos, dois sinais do canal em um segmento. O segmento é tipicamente um dos segmentos da configuração de alto-falante original. Pelo menos dois sinais do canal no segmento são decompostos em componentes de som direto e componentes de ambiência durante a etapa 804. O método ainda compreende a etapa 806 para determinar uma a direção de chegada dos componentes de som direto. Os componentes de som direto são ajustados em uma etapa 808 utilizando uma informação da configuração de alto-falante de reprodução para o segmento, de modo que uma direção de chegada percebida dos componentes de som direto na configuração de alto-falante de reprodução seja idêntica à direção de chegada do segmento ou mais próxima à direção de chegada do segmento em comparação com uma situação na qual nenhum ajuste tenha ocorrido. O método também compreende uma etapa 809 para combinar componentes de som direto ajustados e os componentes de ambiência ou componentes de ambiência modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.
[0071] O ajuste proposto de um sinal de áudio espacial em uma configuração de alto-falante de reprodução encontrada pode se referir a um ou mais dos seguintes aspectos: - Agrupar canais de alto-falante vizinhos da configuração original em segmentos - Decomposição Direta/de Ambiência com base no segmento - Vários algoritmos diferentes de Decomposição Direta/de Ambiência e de extração de posição selecionáveis - Remapeamento dos componentes diretos de modo que a direção percebida substancialmente permaneça a mesma - Remapeamento dos componentes de ambiência de modo que o envelope percebido substancialmente permaneça o mesmo - Correção de distância do alto-falante aplicando um fator de escala e/ou um atraso - Vários algoritmos de deslocamento selecionáveis - Remapeamento independente dos componentes diretos e de ambiência - Processamento seletivo de tempo e frequência - Processamento de preservação da onda geral para todos os canais de alto-falante se a configuração de saida corresponder à configuração inicial - Preservação da forma de onda por canal para cada alto-falante onde os segmentos para os quais o alto- falante contribui são inalterados com relação às configurações de entrada e de saida • Casos especiais: - "Deslocamento inverso" e deslocamento de uma dada cena de entrada com um diferente algoritmo de deslocamento - Por segmento, pelo menos um sinal direto e de ambiência. Nos segmentos que consistem em dois alto- falantes: máximo de dois sinais diretos e dois sinais ambientes. 0 número de sinais diretos e de ambiência utilizados é independente de cada um, mas depende da qualidade alvo espacial direcionada dos sinais diretos e de ambiência renderizados. -Downmix/Upmix com base no segmento 0 Remapeamento de Ambiência é realizado de acordo com Esquemas de Remapeamento de Energia de Ambiência (AERSs), compreendendo: 0 Energia da ambiência constante 0 Densidade de ambiência (angular) constante
[0072] Pelo menos algumas aplicações da presente invenção são configuradas para realizar uma conversão da cena sonora flexivel com base no canal, que compreende uma decomposição dos canais originais do alto-falante em partes do sinal direto e partes do sinal ambiente de uma fonte (fantasma) de acordo com cada segmento construído previamente. As direções-de-chegada (DOAs) de cada fonte direta são estimadas e inseridas, juntamente com os sinais diretos e ambientes, em um renderizador e regulador de distância, em que, de acordo com a configuração de alto- falante de reprodução e as DOAs, os sinais de alto-falante originais são modificados para preservar a cena de áudio real. 0 método e o aparelho propostos funcionam preservando a forma de onda e podem, ainda, gerenciar as configurações de saida com um número reduzido ou aumentado de canais de alto- falante em relação aos disponíveis na configuração inicial.
[0073] Embora a presente invenção tenha sido descrita no contexto de diagramas em bloco, em que os blocos representam os componentes de hardware reais ou lógicos, a presente invenção também pode ser implementada por um método implementado por computador. No último caso, os blocos representam as etapas do método correspondente, em que essas etapas suportam as funcionalidades realizadas pelos blocos de hardware fisicos ou lógicos correspondentes.
[0074] As aplicações descritas são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos neste documento serão evidentes a outros técnicos no assunto. É a intensão, portanto, ser limitada apenas pelo escopo das reivindicações anexas da patente e não pelos detalhes especificos em forma de descrição e explicação das aplicações neste documento.
[0075] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou uma a característica de uma etapa do método. De maneira análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais etapas do método mais importantes podem ser executadas por esse aparelho.
[0076) Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinal de controle eletronicamente legivel armazenado nele, que cooperam (ou podem cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Assim, o meio de armazenamento digital pode ser legivel por computador.
[0077] Algumas aplicações, de acordo com a invenção, compreendem um carregador de dados tendo sinais de controle legiveis eletronicamente, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.
[0078] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um carregador legivel por máquina.
[0079] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um carregador legivel por máquina.
[0080] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.
[0081] Outra aplicação do método inventivo é, portanto, um carregador de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento. O carregador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangiveis e/ou não transitórios.
[0082] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida por meio de uma conexão de comunicação de dados, por exemplo, via Internet.
[0083] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descrito neste documento.
[0084] Outra aplicação compreende um computador tendo nele instalado o programa de computador para realizar um dos métodos descritos neste documento.
[0085] Outra aplicação, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos neste documento a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. 0 aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.
[0086] Em algumas aplicações, um dispositivo lógico programável (por exemplo, uma matriz de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, uma matriz de portas de campo programáveis pode operar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
[0087] As aplicações da presente invenção podem ter como base as técnicas para Decomposição Direta e de Ambiência. A decomposição direta e de ambiência pode ser realizada tanto com base em um modelo do sinal quanto em um modelo fisico.
[0088] A ideia por trás de uma decomposição direta e de ambiência com base em um modelo de sinal é a suposição de que um som localizável e percebido direto consiste tanto em um único sinal quanto em sinais mais coerentes ou correlacionados. Visto que o ambiente, logo, som não localizável, corresponde às partes do sinal não correlacionadas. A transição entre direto e ambiência é transparente e depende da correlação entre os sinais. Mais informações sobre a decomposição direta e de ambiência podem ser encontradas: em C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals," J. Audio Eng. Soc, vol. 54, n° 11, pp. 1051-1064, 2006; em J. S. Usher e J. Benesty, "Enhancement of Spatial Sound Quality: A New Reverberation-Extraction Audio Upmixer," IEEE Transações no Processamento de Áudio, Fala e Linguagem, vol. 15, n° 7, pp. 2141-2150, 2007; e em M. Goodwin e J.-M. Jot, "Primary-Ambient Signal Decomposition and Vector-Based Localization for Spatial Audio Coding and Enhancement," IEEE Conferência Internacional no Processamento de Acústica, Fala e Sinal (ICASSP), vol. 1, 2007, pp. I-9-I- 12.
[0089] A Codificação de Áudio Direcional (DirAC | Directional Audio Coding) é um possivel método para decompor os sinais em energias do sinal direto e difuso com base em um modelo fisico. Aqui, as propriedades do campo de som para a pressão do som e velocidade do som (particula) no ponto de audição são capturadas tanto por uma gravação do formato B real quanto virtual. Depois, com a suposição que o campo de som apenas consiste em uma única onda plana e o resto sendo energia difusa, o sinal pode ser decomposto nas partes do sinal direto e difuso. A partir das partes diretas, as chamadas Direções de chegada (DOAs) podem ser calculadas. Com o conhecimento das posições reais do alto-falante, as partes do sinal direto podem ser deslocadas novamente utilizando as leis de deslocamento dedicado (veja, por exemplo, V. Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning," J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997.) para preservar sua posição global no estágio de renderização. Finalmente, o ambiente descorrelacionado e as partes do sinal direto deslocadas são combinadas novamente, resultando nos sinais do alto-falante (conforme descrito em, por exemplo, V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, 2007 ; ou V. Pulkki e J. Herre, "Method and Apparatus for Conversion Between Multi-Channel Audio Formats," Publicação do Pedido de Patente Norte-Americano No. US 2008/0232616 Al, 2008).
[0090] Outra abordagem é descrita por J. Thompson, B. Smith, A. Warner, e J.-M. Jot in "Direct-Diffuse Decomposition of Multichannel Signals Using a System of Pairwise Correlations" (apresentado na 133a Convenção da AES 2012, Outubro 2012), onde energias diretas e difusas de um sinal multicanal são estimadas por um sistema de correlações em pares. O modelo de sinal utilizado aqui permite detectar um sinal difuso e direto dentro de cada canal incluindo a mudança de fase do sinal direto pelos canais. Uma suposição desta abordagem é que os sinais diretos por todos os canais são correlacionados, ou seja, eles estão todos representando o mesmo sinal de origem. O processamento é realizado no dominio de frequência e para cada faixa de frequência.
[0091] Uma possivel implementação da decomposição direta-difusa (ou decomposição direta-de ambiência) é agora descrita em conexão com os sinais estéreos como um exemplo. Outras técnicas para decomposição direta-difusa ainda são possiveis, e outros sinais que não sejam os sinais estéreos podem ser submetidos à decomposição direta-difusa.Tipicamente, sinais estéreos são gravados ou misturados de modo que para cada fonte o sinal passa coerentemente do canal do sinal esquerdo e direito com identificações direcionais especificas (diferença de nivel, diferença de tempo) e sinais independentes refletidos/reverberados nos canais determinando a largura do objeto auditivo e indicações do envelope do ouvinte. Únicos sinais estéreos de origem podem ser modelados por um sinal s que imita o som direto de uma direção determinada por um fator a, e por sinais independentes ni e n2 correspondentes ás reflexões laterais. 0 par de sinal estéreo Xi, x2 é relacionado a estes sinais s, nlf e n2 pelas seguintes equações: x2 (k) = s(k) + m (k) x2(k) = a's(k) + n2(k),
[0092] em que k é um indice de tempo. Certamente, o sinal do som direto s aparece em ambos os sinais estéreos x2 e x2f entretanto, tipicamente com diferente amplitude. A decomposição descrita pode ser realizada em várias faixas de frequência e de forma adaptativa no tempo a fim de obter uma decomposição que não é apenas válida em um cenário de objeto auditivo, mas ainda para cenas de som não estacionárias com várias fontes atualmente ativas. Certamente, as equações acima podem ser escritas para um indice de tempo k particular e uma sub-banda de frequência m particular como: = sm(k) + ni,m(k) x2,m(k) = Absm(k) + n2,m(k),
[0093] onde m é o indice da sub-banda, k é o indice de tempo, Ab o fator de amplitude para sinal sm para uma determinada banda do parâmetro b que pode compreender uma ou mais sub-bandas dos sinais de sub-banda. Em cada porção de tempo-frequência com indices m e k os sinais sm, ni,m , n2rm e fator Ab são estimados independentemente. Uma decomposição da sub-banda motivada perceptualmente pode ser utilizada. Esta decomposição pode ser baseada na rápida transformada de Fourier, banco de filtro de espelho em quadratura, ou outro banco do filtro. Para cada banda do parâmetro b, os sinais sm, ni,m , n2,m θ Ab são estimados com base nos segmentos com um certo comprimento temporal (por exemplo, aproximadamente 20ms) . Dado o par do sinal da sub-banda estéreo xlrm e X2,m, o objetivo é estimar smr ni,m , n2,m e Ab em cada banda do parâmetro. Uma análise das potências e correlação cruzada do par de sinal estéreo pode ser realizada para esta finalidade. A variável pxi,b denota uma estimativa de curta duração da potência de xlrm na banda do parâmetro b. As potências de nlfm e n2,m podem ser assumidas para serem as mesmas, ou seja, é assumido que a quantidade do som independente lateral é o mesmo para os sinais esquerdo e direito: pni,b = Pni,b = Pn,b.
[0094] A potência (pxi,b r Px2,b) θ a correlação cruzada normalizada pxí x2rb para a banda do parâmetro b pode ser calculada utilizando a representação da sub-banda do sinal estéreo. As variáveis Abf ps,b t e Pn,b são subsequentemente estimadas como uma função de pxi,b , Px2,b , e Pxi x2,b estimado. Três equações referentes às variáveis conhecidas e desconhecidas são:
Figure img0006
[0095] Estas equações solucionadas para Abl ps,t>r e Pnrb resultam:
Figure img0007
[0096] com
Figure img0008
[0097] Depois, as estimativas do método de quadrados minimos de sm, nj,m e n2,m são calculadas como uma função de Ab, Ps,b> e Pn,b- Para cada banda do parâmetro b e cada estrutura do sinal independente, o sinal sm é estimado como sm(k) = W]j,xi'fn(k) + w2.hX1.M = + w2,b bsm (k) + «2,m(^))
[0098] onde vJzjb e w2fb são ponderações em valor real. As ponderações wlfb e w2/b são ótimas em um sentido do quadrado médio minimo quando um sinal de erro E é ortogonal a Xj,m e x2,m na banda do parâmetro b. Os sinais n1/m e n2fin podem ser estimados em uma forma semelhante. Por exemplo, nlfm pode ser estimado como
Figure img0009
[0099] A pós-escala pode então ser realizada nas estimativas no método de quadrado minimo iniciais sm, hXm, e hlm a fim de combinar a potência das estimativas em cada banda do parâmetro a pSfb e pn,b- Uma descrição mais detalhada do método de quadrado médio minimo pode ser encontrada no capitulo 10.3 do livro "Spatial Audio Processing" por J. Breebart e C. Faller, que está incorporado neste documento por referência. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0100] As aplicações da presente invenção podem se referir ou empregar um ou mais Deslocadores Multicanal. Deslocadores Multicanal são ferramentas que permitem que o engenheiro de som coloque uma fonte virtual ou fantasma dentro de uma cena de áudio artificial. Isso pode ser obtido de várias formas. Seguindo uma função de ganho dedicado ou lei de deslocamento, uma fonte fantasma pode ser colocada dentro de uma cena de áudio aplicando uma ponderação de amplitude ou atraso ou ambos ao sinal de origem. Mais informações sobre Deslocadores Multicanal podem ser encontradas na Publicação do Pedido de Patente Norte- Americano No. US 2012/0170758 Al "Multi-Channel Sound Panner" por A. Eppolito, em V. Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning," J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997 ; e em J.Blauert, "Spatial hearing: The psychophysics of human sound localization", seção 2.2.2, 3a ed. Cambridge e Mass: MIT Press, 2001. Por exemplo, um deslocador pode ser empregado podendo um número arbitrário de canais de entrada e mudanças nas configurações no espaço do som de saida. Por exemplo, o deslocador pode continuamente gerenciar as mudanças no número de canais de entrada. Ainda, o deslocador pode suportar mudanças ao número e posições de alto-falantes no espaço de saida. 0 deslocador pode permitir o controle continuo de atenuação e colapso. 0 deslocador pode manter canais originais na periferia do espaço do som ao compactar os canais. 0 deslocador pode permitir o controle sobre a passagem pela qual as fontes compactam. Estes aspectos podem ser obtidos por um método que compreende receber a entrada que solicita o reequilibrio de uma pluralidade de canais de áudio original em um espaço do som tendo uma pluralidade de alto-falantes, em que a pluralidade de canais de áudio original é inicialmente descrita por uma posição inicial no espaço do som e uma amplitude inicial, e em que as posições e as amplitudes dos canais definem um equilíbrio dos canais no espaço do som. Com base na entrada, uma nova posição no espaço do som é determinada para, pelo menos, um dos canais originais. Com base na entrada, uma modificação à amplitude de, pelo menos, um dos canais originais é determinada, em que a nova posição e a modificação à amplitude atinge o reequilibrio. Em resposta à determinação que a entrada indica que um alto-falante particular da pluralidade de alto- falantes deve ser desabilitado, o som que foi a origem do alto-falante particular pode ser automaticamente transferido a outros alto-falantes adjacentes ao alto-falante particular. 0 método é realizado por um ou mais dispositivos de cálculo computacional. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0101] Algumas aplicações da presente invenção podem se referir ou empregar conceitos para mudar as cenas de áudio existentes. Um sistema para compor ou ainda mudar uma cena de áudio existente foi introduzido por IOSONO (conforme descrito no Pedido de Patente Alemão No. DE 10 2010 030 534 Al, "Vorrichtung zum Verãndern einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion"). Ele utiliza uma representação original com base no objeto mais metadados adicionais, combinados com uma função direcional para posicionar fonte dentro da cena de áudio. Se uma cena de áudio já existente, sem objeto de áudio e metadados, é inserida neste sistema, os objetos de áudio, direções e funções direcionais devem primeiro ser determinados desta cena de áudio. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0102] Algumas aplicações da presente invenção podem se referir ou empregar uma Conversão do Canal e Correção de Posicionamento. A maioria dos sistemas que têm o objetivo de corrigir um posicionamento com falha do alto-falante ou desvio nos canais de reprodução tentam preservar as propriedades fisicas do campo de som. Para um cenário de downmix, uma possivel abordagem poderia ser modelar os alto- falantes omitidos como alto-falantes virtuais pelo deslocamento e por este meio preservar a pressão do som e a velocidade da particula no ponto de audição (conforme descrito em. Ando, "Conversion of Multichannel Sound Signal Maintaining Physical Properties of Sound in Reproduced Sound Field", IEEE Transações no Processamento de Áudio, Fala e Linguagem, vol. 19, no. 6, pp. 1467-1475, 2011). Outro método seria calcular os sinais do alto-falante na configuração alvo para recuperar o campo de som original. Isso é feito pela transição dos sinais do alto-falante originais em uma representação do campo de som e renderização dos novos sinais do alto-falante desta representação (conforme descrito na. Laborie, R. Bruno, e S. Montoya, "Reproducing Multichannel Sound on any Speaker Layout", in 118a Convenção da AES, 2005).
[0103] De acordo com Ando, uma conversão de um sinal de som multicanal é possivel pela conversão do sinal do sistema de som multicanal original neste de um sistema alternativo com um diferente número de canais enquanto mantém as propriedades fisicas do som no ponto de audição no campo de som reproduzido. Este problema de conversão pode ser descrito pela equação linear indeterminada. Para obter uma solução analitica à equação, o método divide o campo de som do sistema alternativo com base nas posições de três alto- falantes e soluciona a "solução local" em cada subcampo. Como um resultado, o sistema alternativo localiza cada sinal do canal do sistema de som original na posição de alto-falante correspondente como uma fonte fantasma. A composição das soluções locais introduz a "solução global," isso é, a solução analitica ao problema de conversão. Os experimentos foram realizados com 22-sinais do canal de um sistema de som multicanal 22.2 sem os dois canais de efeito de baixa frequência convertidos em 10-, 8-, e 6-sinais do canal pelo método. As avaliações subjetivas mostraram que o método proposto poderia reproduzir a impressão espacial do som do canal 22 original com oito alto-falantes. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0104] A Codificação da Cena de Áudio Espacial (SASC I Spatial Audio Scene Coding) é um exemplo para um sistema motivado não fisico (M. Goodwin e J.-M. Jot, "Spatial Audio Scene Coding," na 125a Convenção da AES, 2008). Esta realiza uma Análise de Componente Principal (PCA | Principal Component Analysis) para decompor os sinais de entrada multicanal em seus componentes de ambiência e primários sob algumas restrições de correlação entre canais (M. Goodwin e J.-M. Jot, "Primary-Ambient Signal Decomposition and VectorBased Localization for Spatial Audio Coding and Enhancement", na IEEE Conferência Internacional no Processamento de Acústica, Fala e Sinal (ICASSP), vol. 1, 2007, pp. 1-9 - I12.). O componente primário é identificado aqui como o autovetor da matriz de correlação do canal de entrada com o maior autovalor. Depois disso, uma análise de localização primária ou de ambiência é realizada, onde um vetor de localização direta ou ambiente são determinadas. A renderização dos sinais de saida é feita pela geração de uma matriz de formato que contém os vetores de unidade indicando para a direção espacial dos canais de saida. Com base nesta matriz de formato, um conjunto de ponderações nulas é derivado, de modo que o vetor de ponderação esteja no espaço vazio da matriz de formato. Os componentes direcionais são gerados pelo deslocamento em pares entre estes vetores e componentes não direcionais são gerados utilizando todo o conjunto de vetores na matriz de formato. Os sinais de saida finais são gerados pela interpolação entre as partes do sinal deslocado direcional ou não direcional. Nesta estrutura da Codificação da Cena de Áudio Espacial (SASC), a ideia central é para representar uma cena de áudio de entrada em uma forma que é independente de qualquer formato de reprodução assumido ou direcionado. Esta parametrização agnóstica por formato permite a ótima reprodução sobre qualquer dado sistema de reprodução bem como modificação da cena flexivel. As ferramentas de análise e sintese do sinal necessárias para SASC são descritas, incluindo uma apresentação de novas abordagens para decomposição ambiente primária multicanal. As aplicações de SASC na codificação de áudio espacial, upmix, decodificação da matriz de amplitude por fase, conversão de formato multicanal, e reprodução binaural podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0105] Algumas aplicações da presente invenção podem se referir ou empregar técnicas de upmix. No geral, as técnicas de upmix poderiam ser classificadas em duas categorias principais: o tipo de métodos que alimentam os canais surround com ambiência sintetizada ou extraida dos canais de entrada existentes (veja, por exemplo J. S. Usher e J. Benesty, "Enhancement of Spatial Sound Quality: A New Reverberation-Extraction Audio Upmixer", IEEE Transações no Processamento de Áudio, Fala e Linguagem, vol. 15, no. 7, pp. 2141-2150, 2007 ; C. Faller, "Multiple-Alto-falante Playback of Sinal estéreos", J. Audio Eng. Soc, vol. 54, no. 11, pp. 1051-1064, 2006 ; C. Avendano e J.-M. Jot, "MultipleLoudspeaker Playback of Stereo Signals", no Processamento de Acústica, Fala e Sinai (ICASSP) , 2002 IEEE Conferência Internacional, vol. 2, 2002, pp. 11-1957 - 11-1960 ; e R. Irwan e R. M. Aarts, "Two-to-Five Channel Sound Processing", J. Audio Eng. Soc, vol. 50, no. 11, pp. 914-926, 2002), e aqueles que criam os sinais de acionamento para os canais adicionais pela matriz dos existentes (veja, por exemplo R. Dressier. (05.08.2004) Dolby Surround Pro Logic II Decoder Principles of Operation. [Online]. Deiposnivel em: http://www.dolby.com/uploadedFiles/Assets/US/Doc/Professional /209 Dolby Surround Pro Logic II Decoder Principles of Operat ion.pdf). Um caso especial é o método proposto na Publicação do Pedido de Patente Norte-Americano No. US2010/0296672 Al "Two-to-Three Channel Upmix For Center Channel Derivation" por E. Vickers, onde ao invés de uma extração de ambiência uma decomposição espacial é realizada. Entre outros, os métodos de geração de ambiência podem compreender a aplicação de reverberação artificial, calculando a diferença dos sinais esquerdo e direito, aplicando pequenos atrasos para os canais surround e análises do sinal com base na correlação. Exemplos para técnicas de matriz são conversores da matriz linear e métodos de direção da matriz. Uma breve visão geral destes métodos é dada por C. Avendano e J.-M. Jot em "Frequency Domain Techniques for Stereo to Multichannel Upmix," na 22a Conferência Internacional de AES sobre Áudio Virtual, Sintétido e de Entretenimento, 2002 e pelos mesmos autores em "Ambience extraction and synthesis from stereo signals for multi-channel audio up-mix" no Processamento de Acústica, Fala e Sinai (ICASSP), 2002 IEEE Conferência Internacional, vol. 2, 2002, pp. 11-1957 -11-1960. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0106] A extração de ambiência e sintese dos sinais estéreos para upmix do áudio multicanal pode ser obtida por uma técnica de dominio de frequência para identificar e extrair a informação de ambiência nos sinais de áudio estéreo. O método é baseado no cálculo computacional de um indice de coerência entre canais e uma função de mapeamento não-linear que nos permite determinar as regiões de tempo- frequência que consistem na maior parte em componentes de ambiência no sinal de dois canais. Os sinais de ambiência são então sintetizados e utilizados para inserir os canais surround de um sistema de reprodução multicanal. Os resultados da simulação demonstram a eficiência da técnica ao extrair informação de ambiência e testes de upmix no áudio real revelam as várias vantagens e desvantagens do sistema comparado às estratégias prévias de upmix. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0107] As técnicas de dominie de frequência para upmix estéreo em multicanal podem ainda ser empregadas em conexão ou no contexto do ajuste de um sinal de áudio espacial em uma configuração de alto-falante de reprodução. Várias técnicas de upmix para gerar o áudio multicanal das gravações estéreo estão disponíveis. As técnicas utilizam uma estrutura de análise comum com base na comparação entre as Transformadas de Fourier de Curta Duração dos sinais estéreos esquerdo e direito. Uma medição de coerência entre canais é utilizada para identificar as regiões de tempo-frequência que consistem a maioria das vezes em componentes de ambiência, que podem então ser ponderados através de uma função de mapeamento não-linear, e extraídos para sintetizar os sinais de ambiência. Uma medição de similaridade é utilizada para identificar os coeficientes de deslocamento das várias fontes na mistura no plano de tempo-frequência, e diferentes funções de mapeamento são aplicadas para desfazer a mistura (extrair) uma ou mais fontes, e/ou compactar novamente os sinais em um número arbitrário de canais. Uma possivel aplicação das várias técnicas refere-se ao desenho de um sistema de upmix de dois a cinco canais. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0108] Um decodificador surround pode ser adepto a salientar as indicações espaciais ocultas nas gravações musicais convencionais em uma forma natural e convicta. O ouvinte é desenhado em um espaço tridimensional ao invés de ouvir uma apresentação plana bidimensional. Isso não ajuda apenas a desenvolver um campo de som mais envolvente, mas ainda soluciona o problema do "ponto ideal" estreito da reprodução estéreo convencional. Em alguns decodificadores lógicos o circuito de controle está visando o nivel relativo e a fase entre os sinais de entrada. Esta informação é enviada ao estágio da matriz de saida variável para ajustar VCAs que controlam o nivel dos sinais antifase. Os sinais antifase cancelam os sinais de diafonia indesejados, resultando na separação do canal melhorada. Isso é chamado de desenho direto. Este conceito pode ser estendido visando os mesmos sinais de entrada e realizando o controle de loop fechado de modo que eles combinem seus niveis. Estes sinais de áudio combinados são enviados diretamente aos estágios da matriz para derivar os vários canais de saida. Por causa dos mesmos sinais de áudio que alimentam a matriz de saida serem utilizados para controlar o servo loop, é chamado de desenho lógico de retrocesso. 0 conceito do controle de retrocesso pode melhorar a precisão e otimizar as características dinâmicas. Incorporar o retrocesso global ao redor do processo de direção lógica traz beneficios semelhantes na direção do comportamento preciso e dinâmico. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0109] Em conexão com reprodução de alto-falante múltiplo, uma decomposição espacial perceptualmente motivada para dois-canal sinais de áudio estéreo, capturando a informação sobre o estágio de som virtual pode ser utilizada. A decomposição espacial permite resintetizar os sinais de áudio para reprodução sobre os sistemas de som que não seja o estéreo de dois canais. Com o uso de mais alto-falantes frontais a largura do estágio de som virtual pode ser elevada além de ±30° e a região do ponto é estendida. Opcionalmente, os componentes laterais do som independente podem ser reproduzidos separadamente sobre os alto-falantes nos lados de um ouvinte para aumentar o envelope do ouvinte. A decomposição espacial pode ser utilizada com som surround e sistemas de áudio com base na sintese do campo de onda. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.
[0110] A decomposição do sinal ambiente primário e a localização com base no vetor para a codificação de áudio espacial e endereço de melhoria o comercial crescente precisa armazenar e distribuir o áudio multicanal e para renderizar o conteúdo de forma ótima nos sistemas de reprodução arbitrária. Um esquema de análise-síntese pode aplicar a análise do componente principal em uma representação de domínio por STFT (domínio de transformação da frequência de curta duração | short time frequency transformation domain) do áudio original para separar em componentes primários e ambientes, que são então respectivamente analisados quanto às indicações que descrevem a percepção espacial da cena de áudio em uma base por porção; estas indicações podem ser utilizadas pela síntese para renderizar o áudio apropriadamente no sistema de reprodução disponível. Esta estrutura pode ser adaptada para codificação de áudio espacial robusta, ou pode ser aplicada diretamente aos cenários de melhoria onde não há restrições nos dados espaciais intermediários e representação de áudio.
[0111] Com relação a amplitude e envelope em acústica musical, a sabedoria convencional defende que a amplitude e envelope são causados pela energia do som lateral em salas, e principalmente a energia lateral de chegada prévia que é mais responsável. Entretanto, pela definição as pequenas salas não são espaçosas, elas ainda podem ser carregadas com reflexões previamente laterais. Assim, os mecanismos perceptuais para amplitude e envelope podem ter uma influência sobre o ajuste de um sinal de áudio espacial. As percepções são encontradas para ser relacionadas de forma mais comum à energia lateral (difusa) em salas nas extremidades das notas (a reverberação de fundo) e menos frequente, mas de forma importante, às propriedades do campo de som como as notas são mantidas. Uma medição para amplitude, chamada tempo de atraso precoce lateral (LEDT | lateral early decay time), é sugerida. Um ou mais destes aspectos podem ser empregados em conexão ou no contexto do ajuste proposto de um sinal de áudio espacial.

Claims (15)

1. Aparelho (100) para adaptar um sinal de áudio espacial (2) para uma configuração de alto-falante original em uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original, caracterizado pelo sinal de áudio espacial (2) compreender uma pluralidade de sinais do canal, o aparelho compreendendo: um agrupador (110) configurado para agrupar, pelo menos, dois sinais do canal em um segmento; um decompositor de ambiência direto (130) configurado para decompor, pelo menos, os dois sinais do canal no segmento em, pelo menos, um componente de som direto (D; 732) e, pelo menos, um componente de ambiência (A; 734), e para determinar uma direção de chegada de, pelo menos, um componente de som direto (S, S1, S2); um renderizador de som direto (150) configurado para receber uma informação da configuração de alto-falante de reprodução para, pelo menos, um segmento de reprodução associado com o segmento e para ajustar, pelo menos, um componente de som direto (D; 732) utilizando a informação da configuração de alto-falante de reprodução para o segmento, de modo que uma direção de chegada percebida de, pelo menos, um componente de som direto (S, S1, S2) na configuração de alto-falante de reprodução seja idêntica à direção de chegada do segmento ou mais próximo à direção de chegada de, pelo menos, um componente de som direto, comparado a uma situação na qual nenhum ajuste tenha ocorrido; e um combinador (180) configurado para combinar componentes de som direto ajustados (752) e componentes de ambiência (734) ou componentes de ambiência modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.
2. Aparelho (100) de acordo com a reivindicação 1, caracterizado pela configuração de alto- falante de reprodução compreender um alto-falante adicional (L6) dentro do segmento, de modo que o segmento da configuração de alto-falante original corresponda a dois ou mais segmentos do segmento do alto-falante de reprodução; em que o renderizador de som direto (150) é configurado para gerar os componentes de som direto ajustados (752) para, pelo menos, dois alto-falantes e o alto-falante adicional da configuração de alto-falante de reprodução.
3. Aparelho (100) de acordo com a reivindicação 1 ou 2, caracterizado pela configuração de alto-falante de reprodução não possuir um alto-falante comparado à configuração de alto-falante original, de modo que o segmento e um segmento vizinho da configuração de alto-falante original são unidos em um segmento unido da configuração de alto-falante de reprodução; em que o renderizador de som direto (150) é configurado para distribuir componentes de som direto ajustados (752) de um canal correspondente ao alto-falante que não possui na configuração de alto-falante de reprodução a pelo menos dois alto-falantes remanescentes (L1, L3) do segmento unido da configuração de alto-falante de reprodução.
4. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 3, caracterizado pelo renderizador de som direto (150) ser configurado para realocar um componente de som direto (S2) tendo uma direção de chegada determinada do segmento ({L2, L3}) da configuração de alto-falante original a um segmento vizinho ({L1, L‘2}) da configuração de alto-falante de reprodução, se um limite entre o segmento ({L2, L3}) e o segmento vizinho ({L1, L‘2}) transgredir a direção de chegada determinada ao passar da configuração de alto-falante original para a configuração de alto-falante de reprodução.
5. Aparelho (100) de acordo com a reivindicação 4, caracterizado pelo renderizador de som direto (150) ser, ainda, configurado para realocar o componente de som direto (S2), tendo a direção de chegada determinada de, pelo menos, um primeiro alto-falante (L3) a, pelo menos, um segundo alto-falante (L‘2), pelo menos, um primeiro alto-falante (L3) sendo atribuído ao segmento ({L2, L3}) na configuração de alto-falante original, mas não ao segmento vizinho ({L1, L‘2}) na configuração de alto-falante de reprodução e, pelo menos, um segundo alto- falante (L‘2) sendo atribuído ao segmento vizinho ({L1, L‘2}) na configuração de alto-falante de reprodução.
6. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 5, caracterizado pelo renderizador de som direto (150) ser configurado para realizar uma realocação de, pelo menos, um componente de som direto (S, S1, S2) utilizando a informação da configuração de alto-falante de reprodução e a direção de chegada percebida de, pelo menos, um componente de som direto.
7. Aparelho (100) de acordo com a reivindicação 6, caracterizado pelo renderizador de som direto (150) ser, ainda, configurado para realizar a realocação de, pelo menos, um componente de som direto (S1) tendo a direção de chegada determinada pelo ajuste de sinais do alto-falante para os alto-falantes (L1, L2) no segmento ({L1, L2}) da configuração de alto-falante original para obter os sinais do alto-falante ajustados para os alto-falantes (L1, L‘2) em um segmento modificado correspondente {L1, L‘2} da configuração de alto-falante de reprodução, se, pelo menos, um dos alto-falantes (L1, L2) no segmento ({L1, L2}) da configuração de alto-falante original for deslocado no segmento modificado correspondente {L1, L‘2} da configuração de alto-falante de reprodução sem transgredir a direção de chegada determinada.
8. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 7, caracterizado pelo renderizador de som direto (150) ser configurado para gerar componentes de som direto específicos do segmento do alto- falante para, pelo menos, dois pares do segmento do alto- falante válidos da configuração de alto-falante de reprodução, pelo menos, dois pares do segmento do alto- falante válidos referentes a um mesmo alto-falante e dois segmentos vizinhos na configuração de alto-falante de reprodução; e em que o combinador (180) é configurado para combinar os componentes de som direto específicos do segmento do alto-falante para, pelo menos, dois pares do segmento do alto-falante válidos referentes ao mesmo alto- falante para obter um dos sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.
9. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 8, caracterizado pelo renderizador de som direto (150) ser, ainda, configurado para processar, pelo menos, um componente de som direto (D; 732) para um dado segmento da configuração de alto-falante de reprodução e para, assim, gerar componentes de som direto ajustados para cada alto-falante atribuído ao dado segmento.
10. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 9, caracterizado por compreender, ainda, um renderizador de ambiência (170), configurado para receber a informação da configuração de alto-falante de reprodução para, pelo menos, um segmento de reprodução e para ajustar, pelo menos, um componente de ambiência utilizando a informação da configuração de alto- falante de reprodução para o segmento, de modo que um envelope percebido de, pelo menos, um componente de ambiência na configuração de alto-falante de reprodução seja idêntico ao envelope do segmento ou mais próximo ao envelope de, pelo menos, um componente de ambiência comparado a uma situação na qual nenhum ajuste ocorreu.
11. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 10, caracterizado pelo agrupador (110) ser, ainda, configurado para escalar, pelo menos, dois canais como uma função de quantos segmentos da configuração de alto-falante original um canal de, pelo menos, dois canais é atribuído.
12. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 11, caracterizado por compreender, ainda, um regulador de distância (190) configurado para ajustar, pelo menos, um de uma amplitude e um atraso de, pelo menos, um dos sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução utilizando uma informação de distância relativa a uma distância entre um ouvinte e um alto-falante de interesse na configuração de alto-falante de reprodução.
13. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 12, caracterizado por compreender, ainda, um rastreador do ouvinte configurado para determinar uma posição atual de um ouvinte com relação à configuração de alto-falante de reprodução, e para determinar a informação da configuração de alto-falante de reprodução utilizando a posição atual do ouvinte.
14. Aparelho (100) de acordo com qualquer uma das reivindicações de 1 a 13, caracterizado por compreender, ainda, um transformador de tempo-frequência configurado para transformar o sinal de áudio espacial de uma representação de domínio de tempo em uma representação de domínio de frequência ou em uma representação de domínio de tempo-frequência, em que o decompositor de ambiência direto e o renderizador de som direto são configurados para processar a representação de domínio de frequência ou a representação de domínio de tempo-frequência.
15. Método para adaptar um sinal de áudio espacial (2) para uma configuração de alto-falante original em uma configuração de alto-falante de reprodução que difere da configuração de alto-falante original, caracterizado pelo sinal de áudio espacial (2) compreender uma pluralidade de canais, o método compreendendo: agrupamento (802) de, pelo menos, dois sinais do canal em um segmento; decomposição (804) de, pelo menos, dois sinais do canal no segmento em componentes de som direto (D; 732) e componentes de ambiência (A; 734); determinação (806) de uma direção de chegada dos componentes de som direto; ajuste (808) dos componentes de som direto utilizando uma informação da configuração de alto-falante de reprodução para o segmento, de modo que uma direção de chegada percebida dos componentes de som direto na configuração de alto-falante de reprodução seja idêntica à direção de chegada do segmento ou mais próxima à direção de chegada do segmento comparado a uma situação na qual nenhum ajuste tenha ocorrido; e combinação (809) de componentes de som direto ajustados (752) e dos componentes de ambiência (A; 734) ou componentes de ambiência modificados para obter sinais do alto-falante para, pelo menos, dois alto-falantes da configuração de alto-falante de reprodução.
BR112015010995-0A 2012-11-15 2013-11-11 Ajuste por segmento do sinal de áudio espacial para configuração diferente do autofalante de reprodução BR112015010995B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261726878P 2012-11-15 2012-11-15
US61/726,878 2012-11-15
EP13159424.4 2013-03-15
EP13159424.4A EP2733964A1 (en) 2012-11-15 2013-03-15 Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
PCT/EP2013/073482 WO2014076030A1 (en) 2012-11-15 2013-11-11 Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup

Publications (2)

Publication Number Publication Date
BR112015010995A2 BR112015010995A2 (pt) 2019-12-17
BR112015010995B1 true BR112015010995B1 (pt) 2021-09-21

Family

ID=47891484

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015010995-0A BR112015010995B1 (pt) 2012-11-15 2013-11-11 Ajuste por segmento do sinal de áudio espacial para configuração diferente do autofalante de reprodução

Country Status (11)

Country Link
US (1) US9805726B2 (pt)
EP (2) EP2733964A1 (pt)
JP (1) JP6047240B2 (pt)
KR (1) KR101828138B1 (pt)
CN (1) CN104919822B (pt)
BR (1) BR112015010995B1 (pt)
CA (1) CA2891739C (pt)
ES (1) ES2659179T3 (pt)
MX (1) MX346013B (pt)
RU (1) RU2625953C2 (pt)
WO (1) WO2014076030A1 (pt)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014168618A1 (en) * 2013-04-11 2014-10-16 Nuance Communications, Inc. System for automatic speech recognition and audio entertainment
EP2997743B1 (en) * 2013-05-16 2019-07-10 Koninklijke Philips N.V. An audio apparatus and method therefor
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
JP6710675B2 (ja) * 2014-07-31 2020-06-17 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ処理システムおよび方法
CN110636415B (zh) * 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、***和存储介质
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
RU2673390C1 (ru) * 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
CN105992120B (zh) * 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
SG11201710889UA (en) * 2015-07-16 2018-02-27 Sony Corp Information processing apparatus, information processing method, and program
EP3357259B1 (en) * 2015-09-30 2020-09-23 Dolby International AB Method and apparatus for generating 3d audio content from two-channel stereo content
WO2017188141A1 (ja) * 2016-04-27 2017-11-02 国立大学法人富山大学 オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
US9980078B2 (en) * 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
CN106960672B (zh) * 2017-03-30 2020-08-21 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
EP3729830B1 (en) 2017-12-18 2023-01-25 Dolby International AB Method and system for handling local transitions between listening positions in a virtual reality environment
CN116017263A (zh) * 2017-12-18 2023-04-25 杜比国际公司 用于处理虚拟现实环境中的听音位置之间的全局过渡的方法和***
EP3518562A1 (en) * 2018-01-29 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
GB2571572A (en) 2018-03-02 2019-09-04 Nokia Technologies Oy Audio processing
GB2572419A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
CN113993060A (zh) * 2018-04-09 2022-01-28 杜比国际公司 用于mpeg-h 3d音频的三自由度(3dof+)扩展的方法、设备和***
GB2579348A (en) * 2018-11-16 2020-06-24 Nokia Technologies Oy Audio processing
KR102608680B1 (ko) * 2018-12-17 2023-12-04 삼성전자주식회사 전자장치 및 그 제어방법
EP3900401A1 (en) 2018-12-19 2021-10-27 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
CN111385728B (zh) * 2018-12-29 2022-01-11 华为技术有限公司 一种音频信号处理方法及装置
CN111757239B (zh) * 2019-03-28 2021-11-19 瑞昱半导体股份有限公司 音频处理方法与音频处理***
US11356266B2 (en) 2020-09-11 2022-06-07 Bank Of America Corporation User authentication using diverse media inputs and hash-based ledgers
US11368456B2 (en) 2020-09-11 2022-06-21 Bank Of America Corporation User security profile for multi-media identity verification
US11601776B2 (en) * 2020-12-18 2023-03-07 Qualcomm Incorporated Smart hybrid rendering for augmented reality/virtual reality audio
CN115103293B (zh) * 2022-06-16 2023-03-21 华南理工大学 一种面向目标的声重放方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3072051B2 (ja) * 1996-06-10 2000-07-31 住友ベークライト株式会社 神経細胞用培養液、その製造方法及びこれを用いる神経細胞の培養方法
JP3072051U (ja) 2000-03-28 2000-09-29 船井電機株式会社 デジタルオーディオシステム
EP1275272B1 (en) * 2000-04-19 2012-11-21 SNK Tech Investment L.L.C. Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
JP2005223747A (ja) * 2004-02-06 2005-08-18 Nippon Hoso Kyokai <Nhk> サラウンドパン方法、サラウンドパン回路およびサラウンドパンプログラム、並びに、音声調整卓
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
JP2007225482A (ja) * 2006-02-24 2007-09-06 Matsushita Electric Ind Co Ltd 音場測定装置および音場測定方法
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US20080253577A1 (en) 2007-04-13 2008-10-16 Apple Inc. Multi-channel sound panner
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
RU2439717C1 (ru) * 2008-01-01 2012-01-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки звукового сигнала
GB2457508B (en) * 2008-02-18 2010-06-09 Ltd Sony Computer Entertainmen System and method of audio adaptaton
EP2398257B1 (en) * 2008-12-18 2017-05-10 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US8705769B2 (en) 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
KR101764175B1 (ko) * 2010-05-04 2017-08-14 삼성전자주식회사 입체 음향 재생 방법 및 장치
EP2578000A1 (en) * 2010-06-02 2013-04-10 Koninklijke Philips Electronics N.V. System and method for sound processing
DE102010030534A1 (de) 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
CH703771A2 (de) * 2010-09-10 2012-03-15 Stormingswiss Gmbh Vorrichtung und Verfahren zur zeitlichen Auswertung und Optimierung von stereophonen oder pseudostereophonen Signalen.
EP2523473A1 (en) * 2011-05-11 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an output signal employing a decomposer

Also Published As

Publication number Publication date
BR112015010995A2 (pt) 2019-12-17
CA2891739C (en) 2018-01-23
JP2016501472A (ja) 2016-01-18
US9805726B2 (en) 2017-10-31
CA2891739A1 (en) 2014-05-22
KR101828138B1 (ko) 2018-02-09
CN104919822B (zh) 2017-07-07
EP2920982A1 (en) 2015-09-23
US20150248891A1 (en) 2015-09-03
ES2659179T3 (es) 2018-03-14
RU2015122676A (ru) 2017-01-10
WO2014076030A1 (en) 2014-05-22
US20170069330A9 (en) 2017-03-09
KR20150100656A (ko) 2015-09-02
CN104919822A (zh) 2015-09-16
EP2733964A1 (en) 2014-05-21
EP2920982B1 (en) 2017-12-20
MX2015006125A (es) 2015-08-05
MX346013B (es) 2017-02-28
RU2625953C2 (ru) 2017-07-19
JP6047240B2 (ja) 2016-12-21

Similar Documents

Publication Publication Date Title
BR112015010995B1 (pt) Ajuste por segmento do sinal de áudio espacial para configuração diferente do autofalante de reprodução
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
US10187739B2 (en) System and method for capturing, encoding, distributing, and decoding immersive audio
JP7119060B2 (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
JP6950014B2 (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
KR102540642B1 (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
GB2572650A (en) Spatial audio parameters and associated spatial audio playback
BR112014013336B1 (pt) Aparelho e método para combinar fluxos de codificação de áudio espacial com base em geometria
WO2023083876A2 (en) Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 11/11/2013, OBSERVADAS AS CONDICOES LEGAIS.