BR112020018466A2 - representando áudio espacial por meio de um sinal de áudio e de metadados associados - Google Patents

representando áudio espacial por meio de um sinal de áudio e de metadados associados Download PDF

Info

Publication number
BR112020018466A2
BR112020018466A2 BR112020018466-7A BR112020018466A BR112020018466A2 BR 112020018466 A2 BR112020018466 A2 BR 112020018466A2 BR 112020018466 A BR112020018466 A BR 112020018466A BR 112020018466 A2 BR112020018466 A2 BR 112020018466A2
Authority
BR
Brazil
Prior art keywords
audio
downmix
metadata
audio signal
channel
Prior art date
Application number
BR112020018466-7A
Other languages
English (en)
Inventor
Stefan Bruhn
Original Assignee
Dolby Laboratories Licensing Corporation
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation, Dolby International Ab filed Critical Dolby Laboratories Licensing Corporation
Publication of BR112020018466A2 publication Critical patent/BR112020018466A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

representando áudio espacial por meio de um sinal de áudio e de metadados associados” a presente invenção refere-se a métodos de codificação e decodificação para representar áudio espacial que é uma combinação de som direcional e som difuso. um método de codificação ilustrativo inclui entre outras coisas criar um sinal de áudio de downmix de canal único ou multicanal por processar downmix para sinais de áudio de entrada a partir de vários microfones em uma unidade de captura de áudio capturando o áudio espacial; determinar primeiros parâmetros de metadados associados com o sinal de áudio de downmix; em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e combinar o sinal de áudio de downmix criado e os primeiros parâmetros de metadados em uma representação do áudio espacial.

Description

Relatório Descritivo da Patente de Invenção para “REPRESENTANDO ÁUDIO ESPACIAL POR MEIO DE UM SINAL DE ÁUDIO E DE METADADOS ASSOCIADOS”.
REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS
[001] Este pedido reivindica o benefício de prioridade do Pedido de Patente Provisório dos Estados Unidos N o 62/760.262 depositado em 13 de novembro de 2018; do Pedido de Patente Provisório dos Es- tados Unidos No 62/795.248 depositado em 22 de janeiro de 2019; do Pedido de Patente Provisório dos Estados Unidos N o 62/828.038 de- positado em 2 de abril de 2019; e do Pedido de Patente Provisório dos Estados Unidos No 62/926.719 depositado em 28 de outubro de 2019, cujos conteúdos são incorporados por este documento por referência.
CAMPO TÉCNICO
[002] A invenção neste documento geralmente se relaciona com codificação de uma cena de áudio compreendendo objetos de áudio. Em particular, ela se relaciona com métodos, sistemas, produtos de programa de computador e com formatos de dados para representar áudio espacial, e com um codificador, decodificador e sintetizador as- sociados para codificar, decodificar e sintetizar áudio espacial.
ANTECEDENTES
[003] A introdução de acesso sem fios de alta velocidade 4G/5G para redes de telecomunicações, combinada com a disponibilidade de plataformas de hardware crescentemente poderosas, tem proporcio- nados uma fundação para comunicações e serviços de multimídia avançados serem implementados mais rapidamente e facilmente do que em qualquer época precedente.
[004] O codec de Serviços de Voz Avançados (EVS) do Projeto Parceria de Terceira Geração (3GPP) tem proporcionado um aprimo- ramento altamente significativo na experiência do usuário com a intro- dução da codificação de fala e áudio de banda super larga (SWB) e banda total (FB), junto com resiliência aprimorada à perda de pacote. Entretanto, largura de banda de áudio estendida é apenas uma das dimensões requeridas para experiência verdadeiramente imersiva. O suporte além do mono e do multimono atualmente oferecido pelos EVS é de forma ideal requerido para imergir o usuário em um mundo virtual convincente de uma maneira com uso eficiente de recursos.
[005] Em adição, os codecs de áudio atualmente especificados no 3GPP proporcionam qualidade e compactação adequadas para conteúdo estéreo, mas carecem das características de conversação (por exemplo, latência suficientemente baixa) necessárias para a voz conversacional e teleconferência. Estes codificadores também care- cem de funcionalidade de múltiplos canais que é necessária para ser- viços imersivos, tais como reprodução contínua ao vivo, realidade vir- tual (VR) e teleconferência imersiva.
[006] Uma extensão para o codec EVS tem sido proposta para Serviços Imersivos de Voz e Áudio (IVAS) para atender esta falta de tecnologia e para endereçar a demanda crescente por serviços multi- mídia elaborados. Em adição, aplicativos de teleconferência através de 4G / 5G irão se beneficiar de um codec IVAS utilizado como um codifi- cador conversacional aprimorado suportando codificação multifluxo (por exemplo, áudio baseado em canal, objeto e cena). Casos de uso para este codec de próxima geração incluem, mas não estão limitados à voz conversacional, teleconferência multifluxo, VR conversacional e reprodução contínua de conteúdo gerado ao vivo e não ao vivo.
[007] Apesar de a meta ser desenvolver um codec único com ca- racterísticas atrativas e performance (por exemplo, excelente qualida- de de áudio, pouco atraso, suporte à codificação de áudio espacial, variação apropriada de taxas de bits, resiliência a erro de alta qualida- de, complexidade de implementação prática), atualmente não existe acordo finalizado em relação ao formato de entrada de áudio do codec
IVAS. O Formato de Áudio Espacial Assistido por Metadados (MASA) foi proposto como um possível formato de entrada de áudio. Entretan- to, os parâmetros MASA convencionais tornam algumas suposições idealísticas, tal como captura de áudio sendo feita em um único ponto. Entretanto, em um cenário do mundo real, onde um telefone móvel ou tablet é utilizado como um dispositivo de captura de áudio, tal suposi- ção de captura de som em um único ponto pode não ser possível. Ao invés disso, dependendo do fator de forma do dispositivo particular, os vários microfones do dispositivo podem estar localizados alguma dis- tância separados e diferentes sinais de microfone capturados podem não estar totalmente alinhados no tempo. Isto é particularmente ver- dadeiro quando também é feita consideração a como a fonte do áudio pode ser deslocar no espaço.
[008] Outra suposição subjacente do formato MASA é que todos os canais de microfone são proporcionados no mesmo nível e que não existem diferenças na resposta de frequência e de fase entre os mes- mos. Novamente, em um cenário do mundo real, os canais de micro- fone podem possuir diferentes características de frequência e de fase dependentes da direção, as quais também podem variar com o tempo. Poderia ser assumido, por exemplo, que o dispositivo de captura de áudio fosse temporariamente mantido de modo que um dos microfo- nes fosse obstruído ou que existe algum objeto próximo do telefone que causa reflexões ou difrações das ondas de som que chegam. As- sim, existem vários fatores adicionais a considerar quando determi- nando qual formato de áudio seria adequado em conjunto com um co- dec tal como o codec IVAS.
BREVE DESCRIÇÃO DOS DESENHOS
[009] Modalidades ilustrativas serão agora descritas com referen- cia aos desenhos acompanhantes, nos quais:
[0010] A FIGURA 1 é um fluxograma de um método para repre-
sentar áudio espacial de acordo com modalidades ilustrativas;
[0011] A FIGURA 2 é uma ilustração esquemática de um dispositi- vo de captura de áudio e de fontes de som direcionais e difusas, res- pectivamente, de acordo com modalidades ilustrativas;
[0012] A FIGURA 3A apresenta uma tabela (Tabela 1A) de como um parâmetro de valor de bit de canal indica como vários canais são utilizados para o formato MASA, de acordo com modalidades ilustrati- vas;
[0013] A FIGURA 3B apresenta uma tabela (Tabela 1B) de uma estrutura de metadados que pode ser utilizada para representar captu- ra de FOA plano e FOA com mistura para menos canais (“downmix”) em dois canais MASA, de acordo com modalidades ilustrativas;
[0014] A FIGURA 4 apresenta uma tabela (Tabela 2) de valores de compensação de atraso para cada microfone e por representação TF, de acordo com modalidades ilustrativas;
[0015] A FIGURA 5 apresenta uma tabela (Tabela 3) de uma es- trutura de metadados que pode ser utilizada para indicar qual conjunto de valores de compensação aplicar para qual representação TF, de acordo com modalidades ilustrativas;
[0016] A FIGURA 6 apresenta uma tabela (Tabela 4) de uma es- trutura de metadados que pode ser utilizada para representar ajuste de ganho para cada microfone, de acordo com modalidades ilustrativas;
[0017] A FIGURA 7 apresenta um sistema que inclui um dispositi- vo de captura de áudio, um codificador, um decodificador e um sinteti- zador, de acordo com modalidades ilustrativas.
[0018] A FIGURA 8 apresenta um dispositivo de captura de áudio, de acordo com modalidades ilustrativas;
[0019] A FIGURA 9 apresenta um decodificador e sintetizador, de acordo com modalidades ilustrativas.
[0020] Todas as figuras são esquemáticas e geralmente somente apresentam partes que são necessária de modo a elucidar a invenção, ao passo que outras partes podem ser omitidas ou meramente sugeri- das. A não ser que de outro modo indicado, números de referência iguais se referem a partes iguais em diferentes figuras.
DESCRIÇÃO DETALHADA
[0021] Em vista do dito acima é portando um objetivo proporcionar métodos, sistemas, e produtos de programa de computador e um for- mato de dados para representação aprimorada de áudio espacial. Um codificador, um decodificador e um sintetizador para áudio espacial também são proporcionados. I. Vista Geral – Representação de Áudio Espacial
[0022] De acordo com um primeiro aspecto, é proporcionado um método, um sistema, um produto de programa de computador e um formato de dados para representar áudio espacial.
[0023] De acordo com modalidades ilustrativas, é proporcionado um método para representar áudio espacial, o áudio espacial sendo uma combinação de som direcional e som difuso, compreendendo:  criar um sinal de áudio de downmix de canal único ou multicanal por misturar para menos canais sinais de áudio de entrada a partir de vários microfones em uma unidade de captura de áudio capturando áudio espacial;  determinar primeiros parâmetros de metadados associa- dos com o sinal de áudio de downmix, em que os primeiros parâme- tros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase asso- ciado com cada sinal de áudio de entrada; e  combinar o sinal de áudio downmix criado e os primeiros parâmetros de metadados em uma representação do áudio espacial.
[0024] Com a disposição acima, uma representação aprimorada do áudio espacial pode ser alcançada, levando em consideração dife-
rentes propriedades e/ou posições espaciais dos vários microfones. Além disso, utilizar os metadados nos estágios de processamento subseqüentes de codificação, decodificação ou de sintetização pode contribuir para representar e reconstruir de forma confiável o áudio capturado enquanto representando o áudio em uma forma codificação em taxa de bits eficiente.
[0025] De acordo com modalidades ilustrativas, combinar o sinal de áudio de downmix criado com os primeiros parâmetros de metada- dos em uma representação do áudio espacial pode ainda compreen- der incluir segundos parâmetros de metadados na representação do áudio espacial, os segundos parâmetros de metadados sendo indicati- vos de uma configuração de downmix para os sinais de áudio de en- trada.
[0026] Isto é vantajoso pelo fato de que permite reconstruir (por exemplo, através de uma operação de upmix (mistura para mais ca- nais)) os sinais de áudio de entrada em um decodificador. Além disso, por proporcionar os segundos metadados, downmix adicional pode ser executado por uma unidade separada antes de codificar a representa- ção do áudio espacial para um fluxo de bits.
[0027] De acordo com modalidades ilustrativas, os primeiros pa- râmetros de metadados podem ser determinados para uma ou mais faixas de frequências dos sinais de áudio de entrada do microfone.
[0028] Isto é vantajoso pelo fato de que permite parâmetros de ajuste de atraso, de ganho e/ou de fase individualmente adaptados, por exemplo, considerando as diferentes respostas de frequência para diferentes faixas de frequências dos sinais de microfone.
[0029] De acordo com modalidades ilustrativas, o downmix para criar um sinal de áudio de downmix de canal único ou multicanal pode ser descrito por:
[0030] em que:
[0031] é uma matriz de downmix contendo coeficientes de downmix definindo pesos para cada sinal de áudio de entrada a partir dos vários microfones, e
[0032] m é uma matriz representando os sinais de áudio de entra- da a partir dos vários microfones.
[0033] De acordo com modalidades ilustrativas, os coeficientes de downmix podem ser escolhidos para selecionar o sinal de áudio de entrada do microfone atualmente possuindo a melhor relação de sinal para ruído com respeito ao som direcional, e para descartar sinais de áudio de entrada a partir de quaisquer outros microfones.
[0034] Isto é vantajoso pelo fato de que permite alcançar uma re- presentação com boa qualidade do áudio espacial com uma complexi- dade reduzida de computação na unidade de captura de áudio. Nesta modalidade, somente um sinal de áudio de entrada é escolhido para representar o áudio espacial em um quadro de áudio e/ou representa- ção de frequência de tempo específico. Por consequência, a comple- xidade computacional para a operação de downmix é reduzida.
[0035] De acordo com modalidades ilustrativas, a seleção pode ser determinada baseada em Tempo – Frequência (TF).
[0036] Isto é vantajoso pelo fato de que permite operação de downmix aprimorada, por exemplo, considerando as diferentes respos- tas espaciais para diferentes faixas de freqüências dos sinais de mi- crofone.
[0037] De acordo com modalidades ilustrativas, a seleção pode ser feita para um quadro de áudio particular.
[0038] De forma vantajosa, isto permite adaptações com respeito aos sinais de captura de microfone variando com o tempo, e por sua vez, qualidade aprimorada de áudio.
[0039] De acordo com modalidades ilustrativas, os coeficientes de downmix podem ser escolhidos para maximizar a relação sinal para ruído com respeito ao som direcional, quando combinando os sinais de áudio de entrada a partir de diferentes microfones.
[0040] Isto é vantajoso pelo fato que permite uma qualidade apri- morada do downmix devido à atenuação de componentes não deseja- dos do sinal que não tem origem a partir das fontes direcionais.
[0041] De acordo com modalidades ilustrativas, a maximização pode ser feita para uma faixa de freqüências particular.
[0042] De acordo com modalidades ilustrativas, a maximização pode ser feia para um quadro de áudio particular.
[0043] De acordo com modalidades ilustrativas, determinar primei- ros parâmetros de metadados pode incluir analisar um ou mais dentre: características de atraso, ganho e de fase dos sinais de áudio de en- trada a partir dos vários microfones.
[0044] De acordo com modalidades ilustrativas, os primeiros pa- râmetros de metadados podem ser determinados baseado em Tempo – Frequência (TF).
[0045] De acordo com modalidades ilustrativas, pelo menos uma parte do downmix pode ocorrer na unidade de captura de áudio.
[0046] De acordo com modalidades ilustrativas, pelo menos uma parte do downmix pode ocorrer em um codificador.
[0047] De acordo com modalidades ilustrativas, quando detectan- do mais do que uma fonte de som direcional, os primeiros metadados podem ser determinados para cada fonte.
[0048] De acordo com modalidades ilustrativas, a representação do áudio espacial pode incluir pelo menos um dos seguintes parâme- tros: um índice de direção, uma relação de energia direta para total; uma coerência de difusão; um tempo de chegada, ganho e fase para cada microfone; uma relação de energia difusa para total. Uma coe- rência de som envolvente; uma relação de energia restante para total;
e uma distância.
[0049] De acordo com modalidades ilustrativas, um parâmetro de metadados dos segundos ou primeiros parâmetros de metadados po- de indicar se o sinal de áudio de downmix criado é gerado a partir de: sinais estéreo esquerdo direito, sinais Ambisônicos de Primeira Ordem (FOA), ou sinais componentes FOA.
[0050] De acordo com modalidades ilustrativas, a representação do áudio espacial pode conter parâmetros de metadados organizados em um campo definição e em um campo seletor, em que o campo de- finição especifica pelo menos um conjunto de parâmetros de compen- sação de atraso com os vários microfones, e o campo seletor especifi- cando a seleção de um conjunto de parâmetros de compensação de atraso.
[0051] De acordo com modalidades ilustrativas, o campo seletor pode especificar qual conjunto de parâmetros de compensação de atraso se aplica para qualquer dada representação de Tempo – Fre- quência.
[0052] De acordo com modalidades ilustrativas, o valor de atraso de tempo relativo pode estar aproximadamente no intervalo de [-2,0 ms, 2,0 ms].
[0053] De acordo com modalidades ilustrativas, os parâmetros de metadados na representação do áudio espacial podem ainda incluir um campo especificando o ajuste de ganho aplicado e um campo es- pecificando o ajuste de fase.
[0054] De acordo com modalidades ilustrativas, o ajuste de ganho pode estar aproximadamente no intervalo de [+10 dB, -30 dB].
[0055] De acordo com modalidades ilustrativas, pelo menos partes dos primeiros e/ou dos segundos elementos de metadados são deter- minadas no dispositivo de captura de áudio utilizando tabelas de con- sulta armazenadas.
[0056] De acordo com modalidades ilustrativas, pelo menos partes dos primeiros e/ou dos segundos elementos de metadados são deter- minadas em um dispositivo remoto conectado com o dispositivo de captura de áudio. II. Vista Geral - Sistema
[0057] De acordo com um segundo aspecto, é proporcionado um sistema para representar áudio espacial.
[0058] De acordo com modalidades ilustrativas, é proporcionado um sistema para representar áudio espacial, compreendendo:
[0059] um componente de recepção configurado para receber si- nais de áudio de entrada a partir de vários microfones em uma unida- de de captura de áudio capturando o áudio espacial;
[0060] um componente de downmix configurado para criar um si- nal de áudio de downmix de canal único ou multicanal por executar downmix nos sinais de áudio recebidos;
[0061] um componente de determinação de metadados configura- do para determinar primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e
[0062] um componente de combinação configurado para combinar o sinal de áudio de downmix criado e os primeiros parâmetros de me- tadados em uma representação do áudio espacial. III. Vista Geral – Formato de Dados
[0063] De acordo com um terceiro aspecto, é proporcionado o formato de dados para representar áudio espacial. O formato de dados pode de forma vantajosa ser utilizado em conjunto com componentes físicos se relacionando com o áudio espacial, tais como dispositivos de captura de áudio, codificadores, decodificadores, sintetizadores, e as-
sim por diante, e vários tipos de produtos de programa de computador e outro equipamento que são utilizados para transmitir áudio espacial entre dispositivos e/ou localizações.
[0064] De acordo com modalidades ilustrativas, o formato de da- dos compreende:
[0065] um sinal de áudio de downmix resultando a partir de um downmix de sinais de áudio de entrada a partir de vários microfones em uma unidade de captura de áudio capturando o áudio espacial; e
[0066] primeiros parâmetros de metadados indicativos de um ou mais dentre: uma configuração de downmix para os sinais de áudio de entrada, um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associado com cada sinal de áudio de entrada.
[0067] De acordo com um exemplo, o formato de dados é armaze- nado em uma memória não temporária. IV. Vista Geral - Codificador
[0068] De acordo com um quarto aspecto, é proporcionado um co- dificador para codificar uma representação de áudio espacial.
[0069] De acordo com modalidades ilustrativas, é proporcionado um codificador configurado para:
[0070] receber uma representação de áudio espacial, a represen- tação compreendendo:
[0071] um sinal de áudio de downmix de canal único ou multicanal criado por executar downmix nos sinais de áudio de entrada a partir de vários microfones em uma unidade de captura de áudio capturando o áudio espacial; e
[0072] primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e
[0073] codificar o sinal de áudio de downmix de canal único ou multicanal em um fluxo de bits utilizando os primeiros metadados, ou
[0074] codificar o sinal de áudio de downmix de canal único ou multicanal e os primeiros metadados em um fluxo de bits. V. Vista Geral - Decodificador
[0075] De acordo com um quinto aspecto, é proporcionado um de- codificador para decodificar uma representação de áudio espacial.
[0076] De acordo com modalidades ilustrativas, é proporcionado um decodificador configurado para:
[0077] receber um fluxo de bits indicativo de uma representação codificada de áudio espacial, a representação compreendendo:
[0078] um sinal de áudio de downmix de canal único ou multicanal criado por executar downmix nos sinais de áudio de entrada a partir de vários microfones em uma unidade de captura de áudio capturando o áudio espacial; e
[0079] primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e
[0080] decodificar o fluxo de bits em uma aproximação do áudio espacial, por utilizar os primeiros parâmetros de metadados. VI. Vista Geral - Sintetizador
[0081] De acordo com um sexto aspecto, é proporcionado um sin- tetizador para sintetizar uma representação de áudio espacial.
[0082] De acordo com modalidades ilustrativas, é proporcionado um sintetizador configurado para:
[0083] receber uma representação de áudio espacial, a represen- tação compreendendo:
[0084] um sinal de áudio de downmix de canal único ou multicanal criado por executar downmix nos sinais de áudio de entrada a partir de vários microfones em uma unidade de captura de áudio capturando o áudio espacial, e
[0085] primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e
[0086] sintetizar o sinal de áudio espacial utilizando os primeiros metadados. VII. Vista Geral - Geralmente
[0087] O segundo ao sexto aspectos podem geralmente possuir as mesmas características e vantagens que o primeiro aspecto.
[0088] Outros objetivos, características e vantagens da presente invenção serão aparentes a partir da invenção detalhada seguinte, a partir das reivindicações dependentes anexas bem como a partir dos desenhos.
[0089] As etapas de qualquer método descrito neste documento não têm que ser executadas na ordem exata descrita, a não ser que explicitamente declarado. VII. Modalidades Ilustrativas
[0090] Como descrito acima, capturar e representar áudio espacial apresenta um conjunto específico de desafios, de modo que o áudio capturado possa ser fielmente reproduzido na extremidade de recep- ção. As várias modalidades da presente invenção descritas neste do- cumento endereçam vários aspectos destas questões, por incluir vá- rios parâmetros de metadados juntos com o sinal de áudio de downmix quando transmitindo o sinal de áudio de downmix.
[0091] A invenção será descrita a título de exemplo, e com refe- rência ao formato de áudio MASA. Entretanto, é importante perceber que os princípios gerais da invenção são aplicáveis para uma ampla faixa de formatos que podem ser utilizados para representar áudio, e a descrição neste documento não está limitada ao MASA.
[0092] Além disso, deve ser percebido que os parâmetros de me- tadados que são descritos abaixo não são uma lista completa de pa- râmetros de metadados, mas que podem existir parâmetros de meta- dados adicionais (ou um subconjunto menor de parâmetros de meta- dados) que podem ser utilizados para transportar dados sobre o sinal de áudio de downmix para os vários dispositivos utilizados na codifica- ção, decodificação e sintetização do áudio.
[0093] Além disso, apesar de que os exemplos neste documento serão descritos no contexto de um codificador IVAS, deve ser obser- vado que este é meramente um tipo de codificador no qual os princí- pios gerais da invenção podem ser aplicados, e que podem existir ou- tros tipos de codificadores, decodificadores e sintetizadores que po- dem ser utilizados em conjunto com as várias modalidades descritas neste documento.
[0094] Por último, deve ser observado que apesar de os termos “upmix” (“mistura para mais canais”) e “downmix" (“mistura para menos canais”) serem utilizados por todo este documento, eles podem não necessariamente implicar em aumento e redução, respectivamente, do número de canais. Apesar de isso ser frequentemente o caso, deve ser percebido que qualquer termo pode se referir a reduzir ou a au- mentar o número de canais. Assim, ambos os termos se situam sob o conceito mais geral de “misturar”. Similarmente, o termo “sinal de áu- dio de downmix” será utilizado por todo o relatório descritivo, mas deve ser percebido que ocasionalmente outros termos podem ser utilizados, tal como “canal MASA”, “canal de transporte”, ou “canal de downmix”, todos possuindo essencialmente o mesmo significado que “sinal de áudio de downmix”.
[0095] Voltando-se agora para a FIGURA 1, um método 100 é descrito para representar áudio espacial, de acordo com uma modali- dade. Como pode ser visto na FIGURA 1, o método inicia por capturar áudio espacial utilizando um dispositivo de captura de áudio, etapa
102. A FIGURA 2 apresenta uma vista esquemática de um ambiente de som 200 no qual um dispositivo de captura de áudio 202, tal como um telefone celular ou computador tablet, por exemplo, captura áudio a partir de uma fonte ambiental difusa 204 e de uma fonte direcional 206, tal como uma pessoa falando. Na modalidade ilustrada, o disposi- tivo de captura de áudio 202 possui três microfones m1, m2, e m3, respectivamente.
[0096] O som direcional é incidente a partir de uma direção de chegada (DOA) representada pelos ângulos de elevação e azimute. O som difuso do ambiente é assumido como sendo onidirecional, isto é, espacialmente invariável ou espacialmente uniforme. Também consi- derada na discussão subseqüente é a potencial ocorrência de uma segunda fonte de som direcional, a qual não é apresentada na FIGURA 2.
[0097] A seguir, os sinais a partir dos microfones passam por downmix para criar um sinal de áudio de downmix de canal único ou multicanal, etapa 104. Existem várias razões para propagar somente um sinal de áudio de downmix mono. Por exemplo, podem existir limi- tações de taxa de bit ou a intenção de tornar um sinal de áudio de downmix mono de alta qualidade disponível após alguns aprimoramen- tos proprietários terem sido feitos, tal como conformação de feixe e equalização ou supressão de ruído. Em outras modalidades, o down- mix resulta em um sinal de áudio de downmix multicanal. Geralmente, o número de canais no sinal de áudio de downmix é menor do que o número de sinais de áudio de entrada, entretanto, em alguns casos o número de canais no sinal de áudio de downmix pode ser igual ao nú-
mero de sinais de áudio de entrada e o downmix é ao invés disso para alcançar uma SNR aumentada, ou reduzir a quantidade de dados no sinal de áudio de downmix resultante comparado com os sinais de áu- dio de entrada. Isto é ainda detalhado abaixo.
[0098] Propagar os parâmetros relevantes utilizados durante o downmix para o codec IVAS como parte dos metadados MASA pode fornecer a possibilidade de recuperar o sinal estéreo e/ou um sinal de áudio de downmix espacial na melhor fidelidade possível.
[0099] Neste cenário, um único canal MASA é obtido pela seguinte operação de downmix: e
[00100] Os sinais m e x podem, durante os vários estágios de pro- cessamento, não necessariamente ser representados como sinais de tempo de banda total, mas possivelmente também como sinais com- ponentes de várias subbandas no domínio de tempo ou frequência (representação TF). Neste caso, eles eventualmente seriam recombi- nados e potencialmente transformados para o domínio de tempo antes de serem propagados para o codec IVAS.
[00101] Os sistemas de codificação / decodificação de áudio tipica- mente dividem o espaço de tempo – frequência em representações de tempo / frequência, por exemplo, pela aplicação de bancadas de filtros adequadas para os sinais de áudio de entrada. Por uma representação de tempo / frequência geralmente se quer dizer uma parte do espaço de tempo – frequência correspondendo a um intervalo de tempo e a uma faixa de frequências. O intervalo de tempo tipicamente pode cor- responder à duração de um quadro de tempo utilizado no sistema de codificação / decodificação de áudio. A faixa de frequências é uma parte de toda a faixa de frequências de um sinal / objeto de áudio que está sendo codificado ou decodificado. A faixa de frequências tipica- mente pode corresponder a uma ou várias faixas de freqüências vizi- nhas definidas por uma bancada de filtros utilizado no sistema de codi- ficação / decodificação. No caso da faixa de frequências corresponder às várias faixas de frequências vizinhas definidas pela bancada de fil- tros, isto permite ter faixas de frequências não uniformes no processo de decodificação do sinal de áudio de downmix, por exemplo, faixas de frequências mais largas para frequências superiores do sinal de áudio de downmix.
[00102] Em uma implementação utilizando um único canal MASA, existem pelo menos duas escolhas quanto a como a matriz de down- mix D pode ser definida. Uma escolha é captar o sinal do microfone possuindo melhor relação sinal para ruído (SNR) com respeito ao som direcional. Na configuração apresentada na FIGURA 2, é provável que o microfone m1 capture o melhor sinal à medida que ele está direcio- nado para a fonte de som direcional. Os sinais a partir dos outros mi- crofones poderiam então ser descartados. Neste caso, a matriz de downmix poderia ser como a seguir:
[00103] Embora a fonte de som se mova em relação ao dispositivo de captura de áudio, outro microfone mais adequado poderia ser sele- cionado de modo que o sinal m2 ou m3 é utilizado como o canal MASA resultante.
[00104] Quando trocando os sinais de microfone, é importante ter certeza que o sinal do canal MASA x não sofre de quaisquer poten- ciais descontinuidades. As descontinuidades poderiam ocorrer devido aos diferentes tempos de chegada da fonte de som direcional nos dife- rentes microfones, ou devido às diferentes características de ganho ou de fase do caminho acústico a partir da fonte até os microfones. Por consequência, as características de atraso, ganho e fase individuais das diferentes entradas de microfone devem ser analisadas e com- pensadas. Portanto, os sinais reais do microfone podem passar por algum ajuste de atraso e operação de filtragem antes do downmix MASA.
[00105] Em outra modalidade, os coeficientes da matriz de downmix são estabelecidos de modo que a SNR do canal MASA com respeito à fonte direcional seja maximizada. Isto pode ser obtido, por exemplo, por adicionar diferentes sinais de microfone com pesos apropriada- mente ajustados k1,1, k1,2, k1,3. Para fazer este trabalho de um modo eficaz, características individuais de atraso, ganho e fase das diferen- tes entradas de microfone devem ser novamente analisadas e com- pensadas, o que também poderia ser entendido como conformação de feixe acústico em direção à fonte direcional.
[00106] Os ajustes de ganho / fase podem ser entendidos como uma operação de filtragem com seleção de frequência. Assim, os ajus- tes correspondentes também podem ser otimizados para realizar a re- dução de ruído acústico ou aprimoramento dos sinais de som direcio- nais, por exemplo, seguindo uma abordagem de Wiener.
[00107] Como uma variação adicional, pode existir um exemplo com três canais MASA. Neste caso, a matriz de downmix D pode ser definida pela seguinte matriz 3 x 3:
[00108] Por consequência, existem agora três sinais (ao invés de um no primeiro exemplo) que podem ser codificados com o codec IVAS.
[00109] O primeiro canal MASA pode ser gerado como descrito no primeiro exemplo. O segundo canal MASA pode ser utilizado para transportar um segundo som direcional, se existir um. Os coeficientes da matriz de downmix então podem ser selecionados de acordo com princípios similares aos para o primeiro canal MASA, entretanto, de modo que a SNR do segundo som direcional seja maximizada. Os co- eficientes da matriz de downmix para o terceiro canal MASA podem ser adaptados para extrair o componente de som difuso enquanto minimizando os sons direcionais.
[00110] Tipicamente, a captura estérea de fontes direcionais domi- nantes na presença de algum som ambiente pode ser executada, co- mo apresentado na FIGURA 2 e descrito acima. Isto pode ocorrer fre- quentemente em alguns casos de uso, por exemplo, na telefonia. De acordo com as várias modalidades descritas neste documento, parâ- metros de metadados também são determinados em conjunto com o processo de downmix, etapa 104, os quais serão subsequentemente adicionados para e propagados juntos com o sinal de áudio de down- mix mono único.
[00111] Em uma modalidade, três parâmetros de metadados princi- pais estão associados com cada sinal de áudio capturado: um valor de atraso de tempo relativo, um valor de ganho e um valor de fase. De acordo com uma abordagem geral, o canal MASA é obtido de acordo com as seguintes operações:  Ajuste de atraso de cada sinal de microfone mi (i = 1, 2) por uma quantidade  Ajuste de ganho e fase de cada componente / representa- ção de tempo Frequência de cada sinal de microfone com atraso ajus- tado por um ganho e um parâmetro de ajuste de fase, e , respecti- vamente.
[00112] O termo de ajuste de atraso na expressão acima pode ser interpretado como um tempo de chegada de uma onda sonora pla- na a partir da direção da fonte direcional, e assim, ele também é con- venientemente expresso como o tempo de chegada em relação ao tempo de chegada da onda de som em um ponto de referência , tal como o centro geométrico do dispositivo de captura de áudio 202, apesar de que qualquer ponto de referência poderia ser utilizado. Por exemplo, quando dois microfones são utilizados, o ajuste de atraso pode ser formulado como a diferença entre e , o que é equivalen- te a mover o ponto de referência para a posição do segundo microfo- ne. Em uma modalidade, o parâmetro de tempo de chegada permite modelar tempos de chegada relativos em um intervalo de [-2,0 ms, 2,0 ms], o que corresponde a um deslocamento máximo de um microfone em relação à origem de ao redor de 68 cm.
[00113] Como os ajustes de ganho e fase, em uma modalidade, eles são parametrizados para cada representação TF, de modo que mudanças de ganho podem ser modeladas na variação [+10 dB, -30 dB], enquanto mudanças de fase podem ser representadas na varia- ção [-Pì, +Pi].
[00114] No caso fundamental com somente uma única fonte direci- onal dominante, tal como a fonte 206 apresentada na FIGURA 2, o ajuste de atraso tipicamente é constante através de todo o espectro de frequências. À medida que a posição da fonte direcional 206 pode mu- dar, os dois parâmetros de ajuste de atraso (um para cada microfone) iriam variar com o passar do tempo. Assim, os parâmetros de ajuste de atraso são dependentes do sinal.
[00115] Em um caso mais complexo, em que existem várias fontes 206 de som direcional, uma fonte a partir de uma primeira direção po- deria ser dominante em alguma faixa de frequências, enquanto uma fonte diferente a partir de outra direção pode ser dominante em outra faixa de frequências. Em tal cenário, o ajuste de atraso ao invés disso é vantajosamente realizado para cada faixa de freqüências.
[00116] Em uma modalidade, isto pode ser feito por sinais do micro- fone de compensação de atraso em uma dada representação de Tem-
po - Frequência (TF) com respeito à direção de som que é vista como dominante. Se nenhuma direção de som dominante for detectada na representação TF, nenhuma compensação de atraso é realizada.
[00117] Em uma modalidade diferente, os sinais de microfone em um dado tule TF podem ser compensados em relação ao atraso com a meta de maximizar uma relação de sinal para ruído (SNR) com respei- to ao som direcional, como capturado por todos os microfones.
[00118] Em uma modalidade, um limite adequado de diferentes fon- tes para as quais uma compensação de atraso pode ser feita é três. Isto oferece a possibilidade de fazer compensação de atraso em uma representação TF com respeito a uma dentre as três fontes dominan- tes, ou não fazer. O conjunto correspondente de valores de compen- sação de atraso (um conjunto se aplicada para todos os sinais de mi- crofone) pode assim ser sinalizado somente por dois bits por represen- tação TF. Isto cobre os principais cenários de captura praticamente relevantes e possui a vantagem de que a quantidade de metadados ou sua taxa de bits permanece baixa.
[00119] Outro cenário possível é onde sinais Ambisônicos de Pri- meira Ordem (FOA) ao invés de sinais estéreo são capturados e pas- sam por downmix, por exemplo, em um único canal MASA. O conceito de FOA é bem conhecido pelos versados na técnica, mas pode ser brevemente descrito como um método para gravar, misturar, e repro- duzir áudio 360 graus tridimensional. A abordagem básica de Ambisô- nico é tratar uma cena de áudio como uma esfera completa de 360 graus de som proveniente a partir de diferentes direções ao redor de um ponto central onde o microfone é colocado enquanto gravando, ou onde o “ponto ideal” do ouvinte está localizado enquanto reproduzindo.
[00120] A captura de FOA plano e FOA com downmix para um úni- co canal MASA são extensões relativamente diretas do caso de captu- ra estéreo descrita acima. O caso de FOA plano é caracterizado por um microfone triplo, tal como o apresentado na FIGURA 2, fazendo a captura antes do downmix. No último caso FOA, a captura é feita com quatro microfones, cuja disposição ou seletividades direcionais se es- tendem para todas as três dimensões espaciais.
[00121] Os parâmetros de ajuste de compensação de atraso, de amplitude e de fase podem ser utilizados para recuperar os três ou, respectivamente, quatro sinais de captura originais e para permitir um sintetizador espacial mais confiável utilizando os metadados MASA do que seria possível apenas baseado no sinal de downmix mono. Alter- nativamente, os parâmetros de ajuste de compensação de atraso, de amplitude e de fase podem ser utilizados para gerar uma representa- ção FOA mais precisa (plana) que fica mais próxima da que teria sido capturada com uma grade de microfones normal.
[00122] Ainda em outro cenário, FOA plano e FOA podem ser cap- turados e passados pelo processo de downmix em dois ou mais canais MASA. Este caso é uma extensão do caso precedente com a diferen- ça que os três ou quatro sinais de microfone capturados passam pelo processo de downmix em dois ao invés de em somente um único ca- nal MASA. Os mesmos princípios se aplicam, onde o propósito de proporcionar parâmetros de ajuste de compensação de atraso, de am- plitude e de fase é permitir melhor reconstrução possível dos sinais originais antes do downmix.
[00123] Como os versados na técnica podem perceber, de modo a acomodar todos estes cenários de utilização, a representação do áu- dio espacial irá precisar incluir metadados sobre não somente o atra- so, anho e fase, mas também parâmetros que sejam indicativos da configuração de downmix para o sinal de áudio de downmix.
[00124] Retornando agora para a FIGURA 1, os parâmetros de me- tadados determinados são combinados com o sinal de áudio de downmix em uma representação do áudio espacial, etapa 108, a qual termina o processo 100. O dito a seguir é uma descrição de como es- tes parâmetros de metadados podem ser representados de acordo com uma modalidade da invenção.
[00125] Para suportar os casos de uso descritos acima com down- mix para um único ou vários canais MASA, dois elementos de meta- dados são utilizados. Um elemento de metadados é metadados de configuração independente do sinal que é indicativo do downmix. Este elemento de metadados é descrito abaixo em conjunto com as FIGURAS 3A a 3B. O outro elemento de metadados está associado com o downmix. Este elemento de metadados é descrito abaixo em conjunto com as FIGURAS 4 a 6 e pode ser determinado como des- crito acima em conjunto com a FIGURA 1. Este elemento é requerido quando o downmix é sinalizado.
[00126] A Tabela 1A, apresentada na FIGURA 3A é uma estrutura de metadados que pode ser utilizada para indicar o número de canais MASA, a partir de um único (mono) canal MASA, através de dois (es- téreo) canais MASA até de um máximo de quatro canais MASA, repre- sentados pelos Valores de Bit de Canal 00, 11, 10 e 11, respectiva- mente.
[00127] A Tabela 1B, apresentada na FIGURA 3B contém os valo- res de bit de canal a partir da Tabela 1A (neste caso particular somen- te os valores de canal “00” e “01” são apresentados para propósitos ilustrativos), e apresenta como a configuração de captura de microfone pode ser representada. Por exemplo, como pode ser visto na Tabela 1B para o canal MASA único (mono), pode ser sinalizado se as confi- gurações de captura são mono, estéreo, FOA Plano ou FOA. Como pode ainda ser visto na Tabela 1B, a configuração de captura de mi- crofone é codificada como um campo com 2 bits (na coluna denomi- nada valor de Bit). A Tabela 1B também inclui uma descrição adicional dos metadados. A configuração independente de sinal adicional pode,
por exemplo, representar que o áudio se originou a partir de uma gra- de de microfones de um smartphone ou de um dispositivo similar.
[00128] No caso onde os metadados de downmix são dependentes do sinal, alguns detalhes adicionais são necessários, como será des- crito agora. Como indicado na Tabela 1B para o caso específico quan- do o sinal de transporte é um sinal mono obtido através do downmix de sinais de múltiplos microfones, estes detalhes são proporcionados em um campo de metadados dependentes do sinal. A informação pro- porcionada neste campo de metadados descreve o ajuste de atraso aplicado (com o possível propósito de conformação de feixe acústico em direção às fontes direcionais) e a filtragem dos sinais de microfone (com o possível propósito de equalização / supressão de ruído) antes do downmix. Isto oferece informação adicional que pode beneficiar a codificação, decodificação e/ou sintetização.
[00129] Em uma modalidade, os metadados de downmix compre- endem quatro campos, uma definição e o campo seletor para sinalizar a compensação de atraso aplicada, seguido por dois campos sinali- zando os ajustes de ganho e fase aplicados, respectivamente.
[00130] O número de sinais de microfone passados pelo processo de downmix n é sinalizado pelo campo “valor de Bit” da Tabela 1B, isto é, n = 2 para downmix estéreo (“valor de Bit – 01”), n = 3 para down- mix FOA plano (“valor de Bit = 10”), e n = 4 para downmix FOA ("valor de Bit = 11”).
[00131] Até três diferentes conjuntos de valores de compensação de atraso para até n sinais de microfone podem ser definidos e sinali- zados por representação TF. Cada conjunto é respectivo da direção de uma fonte direcional. A definição dos conjuntos de valores de compen- sação de atraso e a sinalização de qual conjunto se aplica para qual representação TF é feita com dois campos separados (definição e se- letor).
[00132] Em uma modalidade, o campo definição é uma matriz m x 3 com elementos com 8 bits codificando a compensação de atraso aplicada . Estes parâmetros são respectivos do conjunto aos quais eles pertencem, isto é, respectivos da direção de uma fonte direcional . Os elementos são ainda respectivos do microfone de captura (ou do sinal de captura associado) ( . Isto é esquematicamente ilustrado na Tabela 2, apresentada na FIGURA 4.
[00133] A FIGURA 4 em conjunto com a FIGURA 3 assim apresen- tam uma modalidade em que a representação do áudio espacial con- tém parâmetros de metadados que são organizados em um campo definição e em um campo seletor. O campo definição especifica pelo menos um conjunto de parâmetros de compensação de atraso associ- ado com vários microfones, e o campo seletor especifica a seleção de um conjunto de parâmetros de compensação de atraso. De forma van- tajosa, a representação do valor de atraso de tempo relativo entre os microfones é compacto e assim, requer menos taxa de bits quando transmitido para um codificador subseqüente ou similar.
[00134] O parâmetro de compensação de atraso representa um tempo de chegada relativo de uma onda de som plana assumida a partir da direção de uma fonte comparado com a chegada da onda em um ponto central geométrico (arbitrário) do dispositivo de captura de áudio 202. A codificação deste parâmetro com a palavra de código de número inteiro com 8 bits B é feita de acordo com a seguinte equação: . Equação (1)
[00135] Isto quantiza o parâmetro de atraso relativo linearmente em um intervalo de [-2,0 ms, 2,0 ms], o que corresponde a um desloca- mento máximo de um microfone em relação à origem de ao redor de 68 cm. Obviamente, isto é apena um exemplo e outras características de quantização e resoluções também podem ser consideradas.
[00136] A sinalização de qual conjunto de valores de compensação de atraso se aplica para qual representação TF é feita utilizando um campo seletor representando as 4*24 representações TF em um qua- dro de 20 ms, o que assume 4 subquadros em um quadro de 20 ms e 24 bandas de frequencias. Cada elemento de campo contém um con- junto de codificação de entrada com 2 bits 1 ... 3 de valores de com- pensação de atraso com os respectivos códigos “01”, “10”, e “11”. Uma entrada "00” é utilizada se nenhuma compensação de atraso se aplicar para a representação TF. Isto é esquematicamente ilustrado na Tabela 3, apresentada na FIGURA 5.
[00137] O ajuste de Ganho é sinalizado nos campos de metadados 2 a 4, um para cada microfone. Cada campo é uma matriz de códigos de ajuste de ganho com 8 bits , respectivos para as 4*24 represen- tações TF em um quadro de 20 ms. A codificação dos parâmetros de ajuste de ganho com a palavra código de número inteiro é feita de acordo com a seguinte equação: . Equação (2)
[00138] Os campos de metadados 2 a 4 para cada microfone são organizados como apresentado na Tabela 4, apresentada na FIGURA
6.
[00139] O ajuste de fase é sinalizado análogo aos ajustes de ganho nos campos de metadados 2 a 4, para cada microfone. Cada campo é uma matriz e códigos de ajuste de fase com 8 bits , respectivos pa- ra as 4*24 representações TF em um quadro de 20 ms. A codificação dos parâmetros de ajuste de fase com a palavra código de número in- teiro é feita de acordo com a seguinte equação: . Equação (3)
[00140] Os campos de metadados 2 a 4 para cada microfone são organizados como apresentado na tabela 4 com a única diferença de que os elementos do campo são as palavras código de ajuste de fase .
[00141] Esta representação de sinais MASA, a qual inclui metada- dos associados, pode então ser utilizada pelos codificadores, decodifi- cadores, sintetizadores e outros tipos de equipamento de áudio a se- rem utilizados para transmitir, receber e de forma confiável restaurar o ambiente de som espacial. As técnicas para fazer isso são bem co- nhecidas pelos versados na técnica, e podem facilmente ser adapta- das para se ajustarem à representação de áudio espacial descrita nes- te documento. Portanto, nenhuma discussão adicional sobre estes dispositivos específicos é julgada como sendo necessária neste con- texto.
[00142] Como entendido pelos versados na técnica, os elementos de metadados podem ser determinados localmente em um dispositivo (tal como um dispositivo de captura de áudio, um dispositivo codifica- dor, etc.), ou podem ser armazenados em uma tabela de valores pre- determinados. Por exemplo, baseado no ajuste de atraso entre micro- fones, o valor de compensação de atraso (FIGURA 4) para um micro- fone pode ser determinado por uma tabela de consulta armazenada no dispositivo de captura de áudio, ou recebida a partir de um dispositivo remoto baseado em um modo de cálculo de ajuste de atraso feito no dispositivo de captura de áudio, ou recebida a partir de tal dispositivo remoto baseado em um cálculo de ajuste de atraso executado neste dispositivo remoto (isto é, baseado nos sinais de entrada).
[00143] A FIGURA 7 apresenta um sistema 700 de acordo com uma modalidade ilustrativa, na qual as características descritas acima da invenção podem ser implementadas. O sistema 700 inclui um dis- positivo de captura de áudio 202, um codificador 704, um decodifica-
dor 706 e um sintetizador 708. Os diferentes componentes do sistema 700 podem se comunicar uns com os outros através de uma conexão com uso de fios ou sem uso de fios, ou de qualquer combinação das mesmas, e os dados tipicamente são enviados entre as unidades na forma de um fluxo de bits. O dispositivo de captura de áudio 202 foi descrito acima e em conjunto com a FIGURA 2, e é configurado para capturar áudio espacial que é uma combinação de som direcional e som difuso. O dispositivo de captura de áudio 202 cria um sinal de áu- dio de downmix de canal único ou multicanal por executar downmix nos sinais de áudio de entrada a partir de vários microfones em uma unidade de captura de áudio capturando o áudio espacial. Então, o dispositivo de captura de áudio 202 determina primeiro parâmetros de metadados associados com o sinal de áudio de downmix . Isto será ainda exemplificado abaixo em conjunto com a figura 8. Os primeiros parâmetros de metadados são indicativos de um valor de atraso de tempo relativo, de um valor de ganho, e/ou de um valor de fase asso- ciados com cada sinal de áudio de entrada. O dispositivo de captura de áudio 202 finalmente combina o sinal de áudio de downmix com os primeiros parâmetros de metadados em uma representação do áudio espacial. Deve ser observado que enquanto na modalidade atual, toda a captura e combinação de áudio é feita no dispositivo de captura de áudio 202, também podem existir modalidades alternativas, nas quais algumas partes de criar, determinar e combinar operações ocorrem no codificador 704.
[00144] O codificador 704 recebe a representação de áudio espaci- al a partir do dispositivo de captura de áudio 202. Ou seja, o codifica- dor 704 recebe um formato de dados compreendendo um sinal de áu- dio de downmix de canal único ou multicanal resultando a partir de um processo de downmix de sinais de áudio de entrada a partir de vários microfones em uma unidade de captura de áudio capturando o áudio espacial, e os primeiros parâmetros de metadados indicativos de uma configuração de downmix para os sinais de áudio de entrada, um valor de atraso de tempo relativo, um valor de ganho, e/ou um valor de fase associados com cada sinal de áudio de entrada. Deve ser observado que o formato de dados pode ser armazenado em uma memória não temporária antes / após ser recebido pelo codificador. O codificador 704 então codifica o sinal de áudio de downmix de canal único ou mul- ticanal em um fluxo de bits utilizando os primeiros metadados. Em al- gumas modalidades, o codificador 704 pode ser um codificador IVAS, como descrito acima, mas como os versados na técnica podem perce- ber, outros tipos de codificadores 704 podem possuir capacidades si- milares e também serem possíveis de utilizar.
[00145] O fluxo de bits codificado, o qual é indicativo da representa- ção codificada do áudio espacial, então é recebido pelo decodificador
7067. O decodificador 706 decodifica o fluxo de bits em uma aproxi- mação do áudio espacial, por utilizar os parâmetros de metadados que estão incluídos no fluxo de bits a partir do codificador 704. Finalmente, o sintetizador 708 recebe a representação decodificada do áudio es- pacial e sintetiza o áudio espacial utilizando os metadados, para criar uma reprodução fiel do áudio espacial na extremidade de recepção, por exemplo, por meio de um ou mais alto-falantes.
[00146] A FIGURA 8 apresenta um dispositivo de captura de áudio 202 de acordo com algumas modalidades. O dispositivo de captura de áudio 202 pode, em algumas modalidades, compreender uma memó- ria 802 com tabelas de consulta armazenadas para determinar os pri- meiros e/ou os segundos metadados. O dispositivo de captura de áu- dio 202 pode, em algumas modalidades, ser conectado com um dispo- sitivo remoto 804 (o qual pode estar localizado na nuvem ou ser um dispositivo físico conectado com o dispositivo de captura de áudio 202) que compreende uma memória 806 com tabelas de consulta armaze-
nadas para determinar os primeiros e/ou os segundos metadados. O dispositivo de captura de áudio pode, em algumas modalidades, fazer cálculos / processamento necessário (por exemplo, utilizar um proces- sador 803) para, por exemplo, determinar o valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada e transmitir tais parâmetros para o dispositi- vo remoto para receber os primeiros e/ou os segundos metadados a partir deste dispositivo. Em outras modalidades, o dispositivo de captu- ra de áudio 202 está transmitindo os sinais de entrada para o dispositi- vo remoto 804 o qual executa os cálculos / processamento necessário (por exemplo, utilizando um processador 805) e determina os primei- ros e/ou os segundos metadados para transmissão de volta para o dispositivo de captura de áudio 202. Ainda em outra modalidade, o dispositivo remoto 804 que executa os cálculos / processamento ne- cessário, transmite parâmetros de volta para o dispositivo de captura de áudio 202 que determina os primeiros e/ou os segundos metadados localmente baseado nos parâmetros recebidos (por exemplo, por utili- zar a memória 806 com as tabelas de consulta armazenadas).
[00147] A FIGURA 9 apresenta um decodificador 706 e sintetizador 708 (cada um compreendendo um processador 910, 912 para execu- tar vários processamentos, por exemplo, decodificação, sintetização, etc.) de acordo com modalidades. O decodificador e sintetizador po- dem ser dispositivos separados ou um mesmo dispositivo. O proces- sador (processadores) 910, 912 pode ser compartilhado entre e o de- codificador e o sintetizador ou serem processadores separados. Simi- lar ao que é descrito em conjunto com a figura 8, a interpretação dos primeiros e/ou segundos metadados pode ser feita utilizando uma ta- bela de consulta armazenada em uma memória 902 no decodificador 706, uma memória 904 no sintetizador 708, ou uma memória 906 em um dispositivo remoto 905 (compreendendo um processador 908) co-
nectado com o decodificador ou com o sintetizador. Equivalentes, extensões, alternativas e coisas diversas
[00148] Modalidades adicionais da presente invenção irão se tornar aparentes para os versados na técnica após estudo da descrição aci- ma. Mesmo que, no entanto, a presente descrição e desenhos revelem modalidades e exemplos, a invenção não está restrita a estes exem- plos específicos. Várias modificações e variações podem ser feitas sem afastamento do escopo da presente invenção, o qual é definido pelas reivindicações acompanhantes. Quaisquer sinais de referência aparecendo nas reivindicações não são para ser entendidos como limi- tando seu escopo.
[00149] Adicionalmente, variações para as modalidades descritas podem ser entendidas e efetuadas pelos versados na técnica ao prati- carem a invenção, a partir de um estudo dos desenhos, da invenção, e das reivindicações anexas. Nas reivindicações, a palavra “compreen- dendo” não exclui outros elementos ou etapas, e o artigo indefinido “um” ou “uma” não exclui vários. O simples fato de que algumas medi- das são citadas em reivindicações dependentes mutuamente diferen- tes não indica que uma combinação destas medidas não pode ser uti- lizada como vantagem.
[00150] Os sistemas e métodos descritos acima neste documento podem ser implementados como software, firmware, hardware ou uma combinação dos mesmos. Em uma implementação de hardware, a di- visão de tarefas entre as unidades funcionais referidas na descrição acima não necessariamente corresponde à divisão em unidades físi- cas; ao contrário, um componente físico pode possuir várias funciona- lidades, e uma tarefa pode ser realizada por vários componentes físi- cos em cooperação. Alguns componentes ou todos os componentes podem ser implementados como software executado por um proces- sador de sinal digital ou microprocessador, ou ser implementados co-
mo hardware ou como um circuito integrado de aplicação específica. Tal software pode ser distribuído na mídia legível por computador, a qual pode compreender mídia de armazenamento do computador (ou mídia não temporária) e mídia de comunicação (ou mídia temporária). Como é bem conhecido para os versados na técnica, o termo mídia de armazenamento do computador inclui tanto mídia volátil como não vo- látil, removível e não removível, implementada em qualquer método ou tecnologia para armazenamento de informação tal como instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados. A mídia de armazenamento do computador inclui, mas não está limitada à RAM, ROM, EEPROM, memória flash ou ou- tra tecnologia de memória, CD-ROM, discos versáteis digitais (DVD) ou outro armazenamento em disco ótico, cassetes magnéticos, fita magnética, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético, ou qualquer outro meio que possa ser utilizado para armazenar a informação desejada e que possa ser acessado por um computador. Além disso, é bem conhecido para os versados na técnica que mídia de comunicação tipicamente incorpora instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados em um sinal de dados modulado tal como uma onda portadora ou outro mecanismo de transporte e inclui quais- quer mídias de distribuição de informação.
[00151] Todas as figuras são esquemáticas geralmente apresentam somente partes que são necessárias de modo a elucidar a invenção, ao passo que outras partes podem ser omitidas ou simplesmente su- geridas. A não ser que de outro modo indicado, números de referência iguais se referem a partes iguais em diferentes figuras.

Claims (38)

REIVINDICAÇÕES
1. Método para representar áudio espacial, o áudio espacial sendo uma combinação de som direcional e som difuso, caracterizado pelo fato de que o método compreende: criar um sinal de áudio de downmix de canal único ou multi- canal por executar downmix nos sinais de áudio de entrada a partir de vários microfones (m1, m2, m3) em uma unidade de captura de áudio capturando o áudio espacial; determinar primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e combinar o sinal de áudio de downmix criado e os primeiros parâmetros de metadados em uma representação do áudio espacial.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que combinar o sinal de áudio de downmix criado e os primeiros parâmetros de metadados em uma representação do áudio espacial ainda compreende: Incluir segundos parâmetros de metadados na representa- ção do áudio espacial, os segundos parâmetros de metadados sendo indicativos de uma configuração de downmix para os sinais de áudio de entrada.
3. Método, de acordo com a reivindicação 1 ou 2, caracteri- zado pelo fato de que os primeiros parâmetros de metadados são de- terminados para uma ou mais faixas de frequências dos Sinais de áu- dio de entrada de microfone.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que o downmix para criar um sinal de áudio de downmix de canal único ou multicanal x é descrito por:
em que: é uma matriz de downmix contendo coeficientes de downmix definindo pesos para cada sinal de áudio de entrada a partir dos vários microfones, e m é uma matriz representando os sinais de áudio de entra- da a partir dos vários microfones.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que os coeficientes de downmix são escolhidos para sele- cionar o sinal de áudio de entrada do microfone atualmente possuindo a melhor relação de sinal para ruído com respeito ao som direcional, e descartar sinais de áudio de entrada a partir de quaisquer outros mi- crofones.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a seleção é feita baseada em representação de Tem- po – Frequência (TF).
7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a seleção é feita para todas as faixas de frequências de um quadro de áudio particular.
8. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que os coeficientes de downmix são escolhidos para ma- ximizar a relação de sinal para ruído com respeito ao som direcional, quando combinando os sinais de áudio de entrada a partir dos diferen- tes microfones.
9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a maximização é feita para uma faixa de frequências particular.
10. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a maximização é feita para um quadro de áudio parti- cular.
11. Método, de acordo com qualquer uma das reivindica- ções 1 a 10, caracterizado pelo fato de que a determinação dos primei- ros parâmetros de metadados inclui analisar uma ou mais dentre: ca- racterísticas de atraso, ganho e fase dos sinais de áudio de entrada a partir dos vários microfones.
12. Método, de acordo com qualquer uma das reivindica- ções 1 a 11, caracterizado pelo fato de que os primeiros parâmetros de metadados são determinados baseado em representação de Tem- po - Frequência (TF).
13. Método, de acordo com qualquer uma das reivindica- ções 1 a 12, caracterizado pelo fato de que pelo menos uma parte do processo de downmix ocorre na unidade de captura de áudio.
14. Método, de acordo com qualquer uma das reivindica- ções 1 a 12, caracterizado pelo fato de que pelo menos uma parte do processo de downmix ocorre em um codificador.
15. Método, de acordo com qualquer uma das reivindica- ções 1 a 14, caracterizado pelo fato de que ainda compreende: em resposta a detectar mais do que uma fonte de som dire- cional, determinar primeiros metadados para cada fonte.
16. Método, de acordo com qualquer uma das reivindica- ções 1 a 15, caracterizado pelo fato de que a representação do áudio espacial inclui pelo menos um dentre os seguintes parâmetros: um ín- dice de direção, uma proporção de energia direta para total; uma coe- rência de espalhamento; um tempo de chegada, ganho e fase para cada microfone; uma proporção de energia difusa para total; uma coe- rência de som envolvente; uma proporção de energia restante para total; e uma distância.
17. Método, de acordo com qualquer uma das reivindica- ções 1 a 16, caracterizado pelo fato de que um parâmetro de metada- dos dos segundos ou primeiros parâmetros de metadados indica se o sinal de áudio de downmix criado é gerado a partir: de sinais estéreo esquerdo e direito, sinais Ambisônicos de Primeira Ordem (FOA) pla- nos, ou de sinais componentes Ambisônicos de Primeira Ordem.
18. Método, de acordo com qualquer uma das reivindica- ções 1 a 17, caracterizado pelo fato de que a representação do áudio espacial contém parâmetros de metadados organizados em um campo definição e em um campo seletor, o campo definição especificando pelo menos um conjunto de parâmetros de compensação de atraso associados com os vários microfones, e o campo seletor especificando a seleção de um conjunto de parâmetros de compensação de atraso.
19. Método, de acordo com a reivindicação 18, caracteriza- do pelo fato de que o campo seletor especifica qual conjunto de parâ- metros de compensação de atraso se aplica para qualquer dada re- presentação de Tempo – Frequência.
20. Método, de acordo com qualquer uma das reivindica- ções 1 a 19, caracterizado pelo fato de que o valor de atraso de tempo relativo está aproximadamente no intervalo de [-2,0 ms, 2,0 ms].
21. Método, de acordo com a reivindicação 18, caracteriza- do pelo fato de que os parâmetros de metadados na representação do áudio espacial ainda incluem um campo especificando o ajuste de ga- nho aplicado e um campo especificando o ajuste de fase.
22. Método, de acordo com a reivindicação 21, caracteriza- do pelo fato de que o ajuste de ganho está aproximadamente no inter- valo de [+10 dB, -30 dB].
23. Método, de acordo com qualquer uma das reivindica- ções 1 a 22, caracterizado pelo fato de que pelo menos partes dos primeiros e/ou dos segundos elementos de metadados são determina- das no dispositivo de captura de áudio utilizando tabelas de consulta armazenadas em uma memória.
24. Método, de acordo com qualquer uma das reivindica-
ções 1 a 23, caracterizado pelo fato de que pelo menos partes dos primeiros e/ou dos segundos elementos de metadados são determina- das em um dispositivo remoto conectado com o dispositivo de captura de áudio.
25. Sistema para representar áudio espacial, caracterizado pelo fato de que compreende: um componente de recepção configurado para receber si- nais de áudio de entrada a partir de vários microfones (m1, m2, m3) em uma unidade de captura de áudio capturando o áudio espacial; um componente de processamento de downmix para criar um sinal de áudio de downmix de canal único ou multicanal por pro- cessar o downmix para os sinais de áudio recebidos; um componente de determinação de metadados configura- do para determinar primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e um componente de combinação configurado para combinar o sinal de áudio de downmix criado e os primeiros parâmetros de me- tadados em uma representação do áudio espacial.
26. Sistema, de acordo com a reivindicação 25, caracteri- zado pelo fato de que o componente de combinação é ainda configu- rado para incluir segundos parâmetros de metadados na representa- ção do áudio espacial, os segundos parâmetros de metadados sendo indicativos de uma configuração de downmix para os sinais de áudio de entrada.
27. Formato de dados para representar áudio espacial, ca- racterizado pelo fato de que compreende: um sinal de áudio de downmix de canal único ou multicanal resultando a partir de um downmix de sinais de áudio de entrada a partir de vários microfones (m1, m2, m3) em uma unidade de captura de áudio capturando o áudio espacial; e primeiros parâmetros de metadados indicativos de um ou mais dentre: uma configuração de downmix para os sinais de áudio de entrada, um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada.
28. Formato de dados, de acordo com a reivindicação 27, caracterizado pelo fato de que ainda compreende segundos parâme- tros de metadados indicativos de uma configuração de downmix para os sinais de áudio de entrada.
29. Produto de programa de computador, caracterizado pe- lo fato de que compreende um meio legível por computador com ins- truções para executar o método como definido em qualquer uma das reivindicações 1 a 24.
30. Codificador, caracterizado pelo fato de ser configurado para: receber uma representação de áudio espacial, a represen- tação compreendendo: um sinal de áudio de downmix de canal único ou multicanal criado por processar downmix para sinais de áudio de entrada a partir de vários microfones (m1, m2, m3) em uma unidade de captura de áu- dio capturando o áudio espacial; e primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e executar um dentre: codificar o sinal de áudio de downmix de canal único ou multicanal em um fluxo de bits utilizando os primeiros metadados; e codificar o sinal de áudio de downmix de canal único ou multicanal e os primeiros metadados em um fluxo de bits.
31. Codificador, de acordo com a reivindicação 30, caracte- rizado pelo fato de que: a representação de áudio espacial ainda inclui segundos parâmetros de metadados sendo indicativos de uma configuração de downmix para os sinais de áudio de entrada; e o codificador é configurado para codificar o sinal de áudio de downmix de canal único ou multicanal em um fluxo de bits utilizan- do os primeiros e segundos parâmetros de metadados.
32. Codificador, de acordo com a reivindicação 30, caracte- rizado pelo fato de que uma parte do processo de downmix ocorre na unidade de captura de áudio e uma parte do processo de downmix ocorre no codificador.
33. Decodificador, caracterizado pelo fato de ser configura- do para: receber um fluxo de bits indicativo de uma representação codificada de áudio espacial, a representação compreendendo: um sinal de áudio de downmix de canal único ou multicanal criado por processar downmix para sinais de áudio de entrada a partir de vários microfones (m1, m2, m3) em uma unidade de captura de áu- dio (202) capturando o áudio espacial, e primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e decodificar o fluxo de bits em uma aproximação do áudio espacial, por utilizar os primeiros parâmetros de metadados.
34. Decodificador, de acordo com a reivindicação 33, carac- terizado pelo fato de que: a representação do áudio espacial ainda inclui segundos parâmetros de metadados sendo indicativos de uma configuração de downmix para os sinais de áudio de entrada; e o decodificador é configurado para decodificar o fluxo de bits em uma aproximação do áudio espacial, por utilizar os primeiros e segundos parâmetros de metadados.
35. Decodificador, de acordo com a reivindicação 33 ou 34, caracterizado pelo fato de que ainda compreende: Utilizar um primeiro parâmetro de metadados para restaurar uma diferente de tempo entre canais ou ajustar uma magnitude ou uma fase de uma saída de áudio decodificada.
36. Decodificador, de acordo com a reivindicação 34, carac- terizado pelo fato de que ainda compreende: utilizar um segundo parâmetro de metadados para determi- nar uma matriz de upmix para recuperação de um sinal de fonte dire- cional ou recuperação de um sinal de som ambiente.
37. Sintetizador, caracterizado pelo fato de ser configurado para: receber uma representação de áudio espacial, a represen- tação compreendendo: um sinal de áudio de downmix de canal único ou multicanal criado por processar downmix para sinais de áudio de entrada a partir de vários microfones (m1, m2, m3) em uma unidade de captura de áu- dio capturando o áudio espacial, e primeiros parâmetros de metadados associados com o sinal de áudio de downmix, em que os primeiros parâmetros de metadados são indicativos de um ou mais dentre: um valor de atraso de tempo relativo, um valor de ganho, e um valor de fase associados com cada sinal de áudio de entrada; e sintetizar o áudio espacial utilizando os primeiros metada- dos.
38. Sintetizador, de acordo com a reivindicação 37, caracte- rizado pelo fato de que: a representação de áudio espacial ainda inclui segundos parâmetros de metadados sendo indicativos de uma configuração de downmix para os sinais de áudio de entrada; e o sintetizador é configurado para sintetizar áudio espacial utilizando os primeiros e segundos parâmetros de metadados.
BR112020018466-7A 2018-11-13 2019-11-12 representando áudio espacial por meio de um sinal de áudio e de metadados associados BR112020018466A2 (pt)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201862760262P 2018-11-13 2018-11-13
US62/760,262 2018-11-13
US201962795248P 2019-01-22 2019-01-22
US62/795,248 2019-01-22
US201962828038P 2019-04-02 2019-04-02
US62/828,038 2019-04-02
US201962926719P 2019-10-28 2019-10-28
US62/926,719 2019-10-28
PCT/US2019/060862 WO2020102156A1 (en) 2018-11-13 2019-11-12 Representing spatial audio by means of an audio signal and associated metadata

Publications (1)

Publication Number Publication Date
BR112020018466A2 true BR112020018466A2 (pt) 2021-05-18

Family

ID=69160199

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020018466-7A BR112020018466A2 (pt) 2018-11-13 2019-11-12 representando áudio espacial por meio de um sinal de áudio e de metadados associados

Country Status (7)

Country Link
US (2) US11765536B2 (pt)
EP (1) EP3881560A1 (pt)
JP (1) JP2022511156A (pt)
KR (1) KR20210090096A (pt)
CN (1) CN111819863A (pt)
BR (1) BR112020018466A2 (pt)
WO (1) WO2020102156A1 (pt)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
KR20220017332A (ko) * 2020-08-04 2022-02-11 삼성전자주식회사 오디오 데이터를 처리하는 전자 장치와 이의 동작 방법
KR20220101427A (ko) * 2021-01-11 2022-07-19 삼성전자주식회사 오디오 데이터 처리 방법 및 이를 지원하는 전자 장치
WO2023088560A1 (en) * 2021-11-18 2023-05-25 Nokia Technologies Oy Metadata processing for first order ambisonics
CN114333858A (zh) * 2021-12-06 2022-04-12 安徽听见科技有限公司 音频编码及解码方法和相关装置、设备、存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2366975A (en) 2000-09-19 2002-03-20 Central Research Lab Ltd A method of audio signal processing for a loudspeaker located close to an ear
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US8060042B2 (en) 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2010033642A2 (en) 2008-09-16 2010-03-25 Realnetworks, Inc. Systems and methods for video/multimedia rendering, composition, and user-interactivity
CN102203854B (zh) 2008-10-29 2013-01-02 杜比国际公司 使用预先存在的音频增益元数据的信号削波保护
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
JP5417227B2 (ja) 2010-03-12 2014-02-12 日本放送協会 マルチチャンネル音響信号のダウンミックス装置及びプログラム
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2673956B1 (en) * 2011-02-10 2019-04-24 Dolby Laboratories Licensing Corporation System and method for wind detection and suppression
JP2013210501A (ja) 2012-03-30 2013-10-10 Brother Ind Ltd 素片登録装置,音声合成装置,及びプログラム
WO2013186593A1 (en) 2012-06-14 2013-12-19 Nokia Corporation Audio capture apparatus
CA2880028C (en) * 2012-08-03 2019-04-30 Thorsten Kastner Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
CN105814630B (zh) 2013-10-22 2020-04-28 弗劳恩霍夫应用研究促进协会 用于音频设备的组合动态范围压缩和引导截断防止的构思
CN106104679B (zh) 2014-04-02 2019-11-26 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
US10068577B2 (en) 2014-04-25 2018-09-04 Dolby Laboratories Licensing Corporation Audio segmentation based on spatial metadata
US9930462B2 (en) 2014-09-14 2018-03-27 Insoundz Ltd. System and method for on-site microphone calibration
EP3251116A4 (en) 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
WO2016209098A1 (en) 2015-06-26 2016-12-29 Intel Corporation Phase response mismatch correction for multiple microphones
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
GB2554446A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US10885921B2 (en) 2017-07-07 2021-01-05 Qualcomm Incorporated Multi-stream audio coding
US10854209B2 (en) 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
CA3134343A1 (en) 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
EP3707706B1 (en) 2017-11-10 2021-08-04 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
MX2020005045A (es) 2017-11-17 2020-08-20 Fraunhofer Ges Forschung Aparato y metodo para codificar o decodificar parametros de codificacion de audio direccional utilizando cuantificacion y codificacion entropica.
WO2019106221A1 (en) 2017-11-28 2019-06-06 Nokia Technologies Oy Processing of spatial audio parameters
WO2019105575A1 (en) 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN111542877B (zh) 2017-12-28 2023-11-24 诺基亚技术有限公司 空间音频参数编码和相关联的解码的确定
EP4344194A3 (en) * 2018-11-13 2024-06-12 Dolby Laboratories Licensing Corporation Audio processing in immersive audio services

Also Published As

Publication number Publication date
WO2020102156A1 (en) 2020-05-22
RU2020130054A (ru) 2022-03-14
JP2022511156A (ja) 2022-01-31
KR20210090096A (ko) 2021-07-19
CN111819863A (zh) 2020-10-23
US20240114307A1 (en) 2024-04-04
US20220007126A1 (en) 2022-01-06
US11765536B2 (en) 2023-09-19
EP3881560A1 (en) 2021-09-22

Similar Documents

Publication Publication Date Title
US10187739B2 (en) System and method for capturing, encoding, distributing, and decoding immersive audio
BR112020018466A2 (pt) representando áudio espacial por meio de um sinal de áudio e de metadados associados
US9552819B2 (en) Multiplet-based matrix mixing for high-channel count multichannel audio
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
BR112020007486A2 (pt) aparelho, método e programa de computador para codificação, decodificação, processamento de cena e outros procedimentos relacionados com a codificação de áudio espacial baseada em dirac
US20140086416A1 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
BR112014028439B1 (pt) Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos
GB2572650A (en) Spatial audio parameters and associated spatial audio playback
JP7311602B2 (ja) 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム
JP2023551040A (ja) オーディオの符号化及び復号方法及び装置
JP2024063226A (ja) DirACベースの空間オーディオ符号化のためのパケット損失隠蔽
WO2021240053A1 (en) Spatial audio representation and rendering
JP2023551016A (ja) オーディオ符号化及び復号方法並びに装置
RU2809609C2 (ru) Представление пространственного звука посредством звукового сигнала и ассоциированных с ним метаданных
RU2807473C2 (ru) Маскировка потерь пакетов для пространственного кодирования аудиоданных на основе dirac
RU2779415C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием диффузной компенсации
RU2782511C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием компенсации прямых компонент
RU2772423C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием генераторов компонент низкого порядка, среднего порядка и высокого порядка
BR122020017110B1 (pt) Método e aparelho para descomprimir um sinal ambissônico de ordem superior (aos) comprimido e meio legível por computador não transitório
BR122020017086B1 (pt) Método e aparelho para descomprimir um sinal ambissônico de ordem superior (aos) comprimido e meio legível por computador não transitório