BR112021013289A2 - Método e nó para renderizar áudio, programa de computador, e, portadora - Google Patents

Método e nó para renderizar áudio, programa de computador, e, portadora Download PDF

Info

Publication number
BR112021013289A2
BR112021013289A2 BR112021013289-9A BR112021013289A BR112021013289A2 BR 112021013289 A2 BR112021013289 A2 BR 112021013289A2 BR 112021013289 A BR112021013289 A BR 112021013289A BR 112021013289 A2 BR112021013289 A2 BR 112021013289A2
Authority
BR
Brazil
Prior art keywords
representation
audio element
audio
spatial region
listener
Prior art date
Application number
BR112021013289-9A
Other languages
English (en)
Inventor
Tommy Falk
Erlendur Karlsson
Mengqiu ZHANG
Tomas Jansson Toftgård
Werner De Bruijn
Original Assignee
Telefonaktiebolaget Lm Ericsson (Publ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget Lm Ericsson (Publ) filed Critical Telefonaktiebolaget Lm Ericsson (Publ)
Publication of BR112021013289A2 publication Critical patent/BR112021013289A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

método e nó para renderizar áudio, e, portadora. um método de renderização de áudio. o método inclui receber um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial. o método inclui adicionalmente determinar que um ouvinte está fora da região espacial. o método inclui adicionalmente derivar uma representação exterior do elemento de áudio e renderizar o elemento de áudio usando a representação exterior do elemento de áudio. em outro aspecto, é provido um método de provimento de um elemento de áudio contornado espacialmente. o método inclui prover, para um nó de renderização, um elemento de áudio. o elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; e (ii) informações que indicam a região espacial.

Description

1 / 44 MÉTODO E NÓ PARA RENDERIZAR ÁUDIO, E, PORTADORA
CAMPO DA TÉCNICA
[001] São descritas modalidades que se referem a elementos de áudio contornados espacialmente.
FUNDAMENTOS
[002] A percepção de som de um ouvinte é influenciada pela consciência espacial; por exemplo, um ouvinte pode ser capaz de determinar a direção de onde uma onda sonora está vindo. Com base em parte na determinação da direção de onde uma onda sonora está vindo, um ouvinte também pode ser capaz de separar várias ondas sonoras simultâneas. Um ouvinte (também conhecido como observador) recebe sinais captados pelos dois tímpanos do ouvinte, um sinal do ouvido esquerdo e um sinal do ouvido direito. A partir desses dois sinais, o ouvinte deduz informações espaciais. Ao tentar criar um ambiente de áudio 3D virtual realista, portanto, é útil simular os sinais do ouvido esquerdo e direito que o ouvinte ouviria no ambiente virtual e, em seguida, fornecer esses sinais aos ouvidos esquerdo e direito do ouvinte. Isso pode intensificar o efeito de um ambiente virtual.
[003] A renderização espacial de áudio em um ambiente virtual é o processo que, em última instância, fornece os sinais de áudio de saída que resultam em sinais de ouvido esquerdo e direito de um ouvinte físico que experimenta o ambiente virtual que são consistentes com os sinais de ouvido esquerdo e direito de um sistema virtual ouvinte em uma determinada posição e orientação naquele ambiente. O fornecimento desses sinais pode ser, por exemplo, através de alto-falantes externos ou fones de ouvido. No caso de fornecimento de fone de ouvido, o renderizador normalmente gera os sinais dos ouvidos esquerdo e direito diretamente, já que eles são fornecidos diretamente aos ouvidos esquerdo e direito do ouvinte físico pelos fones de ouvido. No caso de fornecimento de alto-falante, o renderizador visa gerar os sinais de alto-falante para a configuração de alto-falante usada para o
2 / 44 fornecimento de tal maneira que a combinação das ondas sonoras dos alto- falantes nos ouvidos do ouvinte físico seja os sinais de ouvido esquerdo e direito destinados. O objetivo final do processo de renderização é que o áudio espacial percebido pelo ouvinte físico concorde bem com a representação espacial de áudio provida ao renderizador.
[004] As plataformas e padrões mais conhecidos para a produção, transmissão e renderização de áudio espacial imersivo suportam um ou mais dentre três formatos principais para representação de cena de áudio espacial: Representação de cena de áudio com base em canal; Representação de cena de áudio com base em objeto; e representação de cena de áudio ambissônico de ordem superior (HOA).
[005] Os sistemas de realidade virtual (VR), realidade aumentada (AR) e realidade mista (MR) que incluem áudio imersivo geralmente suportam combinações de dois (ou em alguns casos, todos os três) dentre esses formatos de representação. Dependendo das características da cena a ser renderizada e das capacidades do sistema, um formato de representação pode ser mais adequado do que o outro. Por sua definição, os formatos com base em canal e HOA são usados para descrever o campo de som espacial em (e até certo ponto ao redor) uma posição de escuta definida dentro de algum espaço de escuta (real ou virtual). Em outras palavras, os formatos com base em canal e HOA são centrados no ouvinte.
[006] Nos contextos de VR, AR e MR, HOA é atraente em virtude de ser muito adequado para representar cenas imersivas altamente complexas de uma forma relativamente compacta e escalável, e porque habilita fácil rotação do campo de som renderizado em resposta às mudanças na orientação da cabeça do ouvinte. A última propriedade do HOA é particularmente atraente para aplicativos de VR, AR e MR, em que o áudio é fornecido ao ouvinte por meio de fones de ouvido com rastreamento de cabeça.
[007] As representações de cenas de áudio com base em objetos, ao
3 / 44 contrário dessas representações centradas no ouvinte, descrevem fontes sonoras que emitem ondas sonoras para o ambiente e suas propriedades. Em sua forma mais simples, uma fonte sonora é uma fonte pontual onidirecional com uma posição e orientação no espaço que emite as ondas sonoras uniformemente em todas as direções. Uma fonte pontual também pode ser direcional; nesse caso, ela irradia as ondas sonoras de maneira irregular em diferentes direções e a diretividade dessa radiação precisará ser especificada. Outra fonte de áudio mais complicada é uma fonte de superfície que emite ondas sonoras a partir de uma superfície bidimensional ou tridimensional em seus arredores. Essa fonte também terá uma posição, orientação e um padrão de radiação irregular se for direcional. Em outras palavras, as representações de cena de áudio com base em objeto são centradas na fonte. Isso torna este formato muito adequado para representar cenas de áudio VR, AR e MR interativas nas quais as posições relativas das fontes e do ouvinte podem ser alteradas interativamente (por exemplo, por meio de ações do usuário).
SUMÁRIO
[008] Embora os formatos de representação com base em canal, com base em objeto e HOA sejam ferramentas muito poderosas para criar e fornecer cenas de áudio interativas imersivas, casos de uso são previstos no contexto de VR para o qual esses formatos, em sua forma atual, não são suficientes. Especificamente, tais casos de uso podem incluir elementos de áudio que têm tanto um espaço interior quanto exterior, em que um ouvinte pode se mover a partir do interior do elemento de áudio para seu exterior e vice-versa, e em que uma experiência de áudio diferente é esperada dependendo se o ouvinte está localizado dentro ou fora do elemento de áudio.
[009] Tais elementos de áudio podem assumir a forma de um espaço contornado espacialmente ou “ambiente” de onde o ouvinte pode entrar e sair. Alguns exemplos incluem uma praça movimentada em uma cidade virtual, um estádio de futebol e uma floresta. Como deve ficar claro a partir desses
4 / 44 exemplos, o contorno espacial do elemento de áudio não precisa ser um contorno “rígido”, mas pode ser um contorno “tênue” que é mais conceitualmente (e talvez um pouco mais arbitrariamente) definido. Alternativamente, os elementos de áudio podem assumir a forma de um “objeto” espacialmente extenso mais claramente definido ou entidade da qual o ouvinte pode entrar e sair, por exemplo, uma fonte, uma multidão de pessoas, um conjunto de música (por exemplo, um coro ou orquestra) e uma plateia aplaudindo em uma sala de concertos. Aqui, a definição do contorno espacial do elemento de áudio pode ser bastante “rígida” (se o elemento de áudio for um objeto real, como o exemplo da fonte) ou “tênue” (se o elemento de áudio representar uma entidade mais conceitual, como o exemplo de multidão).
[0010] Em muitos casos de uso de RV, seria desejável que o ouvinte pudesse se mover livremente entre o interior e o exterior dos tipos de elementos de áudio descritos acima, com uma experiência de áudio espacialmente significativa em ambas as situações. Ser espacialmente significativo aqui significa, pelo menos em parte, que o ouvinte percebe o som de forma realista e/ou que há uma transição gradual (por exemplo, transição suave) ao se mover entre o interior e o exterior do elemento de áudio.
[0011] Alguns trabalhos anteriores tentaram resolver o problema de fazer uma transição suave de uma representação acústica centrada no ouvinte para outra, em que os campos sonoros dos dois espaços são basicamente independentes um do outro. Outros procuraram maneiras de renderizar o som ambiente dentro das formas da área que desvanecem gradualmente à medida que você se afasta da área especificada. Por exemplo, uma dessas abordagens tem dois estados, o estado de Dentro e o estado de Fora. No estado de Fora, ele renderiza o som como um som estéreo, em que a atenuação de distância é aplicada com base na distância mais próxima do ouvinte até a superfície da
5 / 44 área de contorno. No estado de Dentro, a localização do som estéreo emitido é ajustada para seguir o ouvinte e a orientação do ouvinte. Em alguns trabalhos anteriores, o problema de renderizar uma fonte de superfície que emite ondas sonoras de uma superfície bidimensional ou tridimensional em seus arredores (também conhecido como uma fonte sonora volumétrica) foi abordado. Alguns desses trabalhos anteriores também descrevem algumas tentativas rudimentares de renderizar o som dentro de tais superfícies. Os métodos usados para fazer isso não foram descritos em detalhes, mas os autores reivindicam que, uma vez dentro do volume, você ouve o som ao seu redor.
[0012] Um problema que as modalidades aqui descritas abordam trata de direcionar um elemento de áudio com uma representação interna centrada no ouvinte e maneiras de renderizar esse elemento de áudio para posições de escuta tanto dentro quanto fora do volume que encapsula o elemento, de uma maneira espacialmente consistente e significativa.
[0013] O trabalho anterior descrito acima não almeja o mesmo problema e tem falhas claras se alguém tentar aplicar esse trabalho a este problema específico. Algumas dessas insuficiências são descritas a seguir.
[0014] A primeira aproximação descrita acima (que fornece um desvanecimento gradual entre duas representações centradas no ouvinte) não renderiza nenhum dos elementos de áudio centrados no ouvinte de uma forma espacialmente consistente e significativa em posições de escuta fora do respectivo volume que encapsula cada elemento. Na verdade, está renderizando eles com distorções espaciais substanciais. No caso específico de uma representação interna no formato HOA, a renderização típica em uma configuração de alto-falantes (virtuais) só leva a um resultado significativo no interior dessa configuração de alto-falante. Um cenário “ingênuo” para renderização externa de uma representação HOA interna poderia ser para apenas renderizar a representação HOA na configuração de alto-falante virtual destinada à renderização interna e, em seguida, esperar que esses
6 / 44 mesmos sinais de alto-falante também provejam um resultado espacial significativo em posições de escuta fora desta configuração de alto-falantes. No entanto, isso normalmente não funcionará em virtude de que os sinais do alto-falante podem conter relações muito específicas (como componentes antifásicos) que se combinam da maneira destinada apenas no centro interno da configuração do alto-falante (ou em posições próximas a isso). Em posições fora da configuração do alto-falante, os sinais se combinam de forma descontrolada e normalmente indesejável, levando a uma imagem espacial altamente distorcida que tem pouca relação com a desejada.
[0015] Na segunda aproximação descrita acima (som ambiente dentro das formas da área que desvanecem gradualmente conforme você se afasta da área especificada), a única diferença entre a renderização de dentro e de fora parece ser que a atenuação de distância de fora é aplicada, enquanto dentro há apenas uma panorâmica básica dependendo da orientação do ouvinte.
[0016] As abordagens finais descritas acima (que renderizam uma fonte de superfície que emite ondas sonoras de uma superfície bidimensional ou tridimensional em seus arredores) apenas descrevem implementações de renderização muito rudimentares das fontes de som volumétricas dentro do volume de contorno, sem a intenção de fazer qualquer renderização de uma forma espacialmente consistente e significativa. Conforme implementado, parece usar um sinal mono simples.
[0017] Consequentemente, as modalidades aqui providas são úteis para superar alguns ou todos esses problemas e para prover outros benefícios.
[0018] Nas modalidades, um elemento de áudio espacial é representado por um conjunto de sinais que descrevem o campo sonoro “interior” do elemento de áudio de uma forma centrada no ouvinte e também por metadados associados que indicam uma região espacial dentro da qual a representação interior centrada no ouvinte é válida. Para posições de escuta (virtuais) fora da região espacial definida, uma representação diferente,
7 / 44 “exterior” do campo de som espacial do mesmo elemento de áudio é usada para renderização, criando assim uma experiência de áudio distintamente diferente, dependendo se o ouvinte está (virtualmente) localizado dentro ou fora do elemento de áudio. A representação exterior pode ser derivada da representação interior, de forma que uma relação espacialmente consistente e significativa entre as duas representações seja mantida. Em que o campo sonoro interior pode estar em uma representação centrada no ouvinte, em algumas modalidades, a representação exterior pode ser baseada em objeto.
[0019] Algumas vantagens das modalidades aqui providas incluem que algumas modalidades são mais eficientes (por exemplo, em tamanho de transmissão e/ou tempo de renderização) do que em prover representações internas e externas independentes. Nas modalidades em que a representação exterior é derivada da representação interior, as mudanças dinâmicas na representação interior são refletidas diretamente na representação exterior resultante. As modalidades também exibem menor complexidade computacional em comparação com técnicas de modelagem de propagação de som físico, por exemplo, habilitando implementações em um ambiente de baixa complexidade/baixa latência (como aplicativos móveis de RV).
[0020] De acordo com um primeiro aspecto, é provido um método para prover um elemento de áudio contornado espacialmente. O método inclui prover, para um nó de renderização, um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial.
[0021] Em algumas modalidades, as informações que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada a partir da representação interior. Nas modalidades,
8 / 44 as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior. Nas modalidades, a representação interior é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico (HOA) (por exemplo, uma cena de áudio HOA de ordem superior).
[0022] Em algumas modalidades, para pontos próximos a um contorno da região espacial, uma diferença entre a representação interna e a representação externa é pequena, de modo que haja uma transição gradual (por exemplo, transição suave) entre a representação interna e a representação externa.
[0023] De acordo com um segundo aspecto, um método de renderização de áudio (por exemplo, renderização de um elemento de áudio contornado espacialmente) é provido. O método inclui receber um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial. O método inclui adicionalmente determinar que um ouvinte está dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio.
[0024] Em algumas modalidades, o método inclui adicionalmente detectar que o ouvinte se moveu para fora da região espacial; derivar a representação exterior do elemento de áudio (por exemplo, opcionalmente com base nas informações que indicam como a representação exterior deve ser derivada); e renderizar o elemento de áudio usando a representação
9 / 44 exterior do elemento de áudio. Nas modalidades, o método inclui adicionalmente determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, transicionar gradualmente (por exemplo, desvanecimento cruzado) entre a representação exterior e a representação interior com base na primeira distância
[0025] Em algumas modalidades, as informações que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada a partir da representação interior. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior. Nas modalidades, a representação interior é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico (HOA) (por exemplo, uma cena de áudio HOA de ordem superior).
[0026] Em algumas modalidades, para pontos próximos a um contorno da região espacial, há uma transição gradual (por exemplo, transição suave) entre a representação interna e a representação externa. Nas modalidades, derivar a representação exterior do elemento de áudio é baseado adicionalmente em uma ou mais dentre uma posição e uma orientação do ouvinte.
[0027] De acordo com um terceiro aspecto, um método de renderização de áudio (por exemplo, renderização de um elemento de áudio contornado espacialmente) é provido. O método inclui receber um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é
10 / 44 válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial. O método inclui adicionalmente determinar que um ouvinte está fora da região espacial; derivar a representação exterior do elemento de áudio (por exemplo, opcionalmente com base nas informações que indicam como a representação exterior deve ser derivada); e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[0028] Em algumas modalidades, a representação exterior do elemento de áudio é derivada da representação interior. Nas modalidades, o método inclui adicionalmente detectar que o ouvinte se moveu dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio. Nas modalidades, o método inclui adicionalmente determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e, como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, transicionar gradualmente (por exemplo, desvanecimento cruzado) entre a representação interior e a representação exterior com base na primeira distância.
[0029] Em algumas modalidades, as informações que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada a partir da representação interior. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior. Nas
11 / 44 modalidades, a representação interior é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico (HOA) (por exemplo, uma cena de áudio HOA de ordem superior)..
[0030] Em algumas modalidades, para pontos próximos a um contorno da região espacial, há uma transição gradual (por exemplo, transição suave) entre a representação interna e a representação externa. Nas modalidades, derivar a representação exterior do elemento de áudio é baseado adicionalmente em uma ou mais dentre uma posição e uma orientação do ouvinte.
[0031] De acordo com um quarto aspecto, um nó (por exemplo, um decodificador) para prover um elemento de áudio espacialmente contornado é provido. O nó é adaptado para prover, para um nó de renderização, um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial.
[0032] De acordo com um quinto aspecto, um nó (por exemplo, um nó de renderização) para renderização de áudio é provido. O nó está adaptado para receber um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial. O nó é adaptado adicionalmente para determinar se um ouvinte está dentro da região espacial ou fora da região espacial. O nó é adaptado adicionalmente para, se o ouvinte
12 / 44 estiver dentro da região espacial, renderizar o elemento de áudio usando a representação interior do elemento de áudio. Caso contrário, se o ouvinte estiver fora da região espacial, o nó é adaptado adicionalmente para derivar a representação exterior do elemento de áudio (por exemplo, opcionalmente com base nas informações que indicam como a representação exterior deve ser derivada); e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[0033] De acordo com uma sexta modalidade, um nó (por exemplo, um decodificador) para prover um elemento de áudio espacialmente contornado é provido. O nó inclui uma unidade de provimento configurada para prover, para um nó de renderização, um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial.
[0034] De acordo com uma sétima modalidade, um nó (por exemplo, um nó de renderização) para renderização de áudio é provido. O nó inclui uma unidade de recebimento configurada para receber um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial. O nó inclui adicionalmente uma unidade de determinação configurada para determinar se um ouvinte está dentro da região espacial ou fora da região espacial; e uma unidade de renderização e uma unidade de derivação. Se a unidade de determinação determinar que o ouvinte
13 / 44 está dentro da região espacial, a unidade de renderização é configurada para renderizar o elemento de áudio usando a representação interior do elemento de áudio. Caso contrário, se a unidade de determinação determinar que o ouvinte está fora da região espacial, a unidade de derivação é configurada para derivar a representação exterior do elemento de áudio (por exemplo, opcionalmente com base nas informações que indicam como a representação exterior deve ser derivada); e a unidade de renderização é configurada para renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[0035] De acordo com um oitavo aspecto, é provido um programa de computador que compreende instruções que, quando executadas pelo circuito de processamento de um nó, fazem com que o nó realize o método de qualquer um dentre o primeiro, segundo e terceiro aspectos.
[0036] De acordo com um nono aspecto, uma portadora que contém o programa de computador de qualquer modalidade do oitavo aspecto é provida, em que a portadora é uma dentre um sinal eletrônico, um sinal óptico, um sinal de rádio e uma mídia de armazenamento legível por computador.
BREVE DESCRIÇÃO DOS DESENHOS
[0037] Os desenhos anexos, que são aqui incorporados e fazem parte do relatório descritivo, ilustram várias modalidades.
[0038] A Figura 1 ilustra um exemplo de um ambiente de áudio contornado espacialmente, de acordo com uma modalidade.
[0039] A Figura 2 ilustra um exemplo de dois microfones virtuais sendo usados para capturar uma mixagem de redução estéreo de um campo de som ambissônico, de acordo com uma modalidade.
[0040] A Figura 3 ilustra um exemplo de como dois alto-falantes virtuais são usados para renderizar a representação externa de um elemento de áudio para um ouvinte, de acordo com uma modalidade.
14 / 44
[0041] A Figura 4 é um fluxograma que ilustra um processo de acordo com uma modalidade.
[0042] A Figura 5 é um fluxograma que ilustra um processo de acordo com uma modalidade.
[0043] A Figura 6 é um fluxograma que ilustra um processo de acordo com uma modalidade.
[0044] A Figura 7 é um fluxograma que ilustra um processo de acordo com uma modalidade.
[0045] A Figura 8 é um diagrama que mostra unidades funcionais de um nó de codificação e um nó de renderização, de acordo com as modalidades.
[0046] A Figura 9 é um diagrama de blocos de um nó, de acordo com as modalidades.
DESCRIÇÃO DETALHADA
[0047] A Figura 1 ilustra um exemplo de um ambiente de áudio espacialmente contornado. Conforme mostrado neste exemplo, um elemento de áudio (aqui, um coro), está posicionado em algum lugar em um espaço virtual de uma cena VR, AR ou MR. É presumido que o elemento de áudio do coro é representado por uma gravação de áudio espacial do coro que foi feita com alguma configuração de gravação espacial adequada, por exemplo, uma rede de microfones esféricos que foi colocado em uma posição central dentro do coro durante uma apresentação ao vivo. Esta gravação pode ser considerada uma representação centrada no ouvinte “interior” do elemento de áudio do coro. Embora, na realidade, o coro inclua várias fontes de som individuais, ele pode ser considerado conceitualmente um único elemento de áudio que é delimitado por algum contorno nocional S, indicado pela linha tracejada na Figura 1. Em uma descrição da cena virtual que é transmitida ao dispositivo do usuário, por exemplo, na forma de um gráfico de cena, o coro pode de fato ser descrito como um único elemento de áudio dentro da cena,
15 / 44 com algumas propriedades associadas em metadados que incluem alguma especificação do contorno nocional S.
[0048] Neste exemplo, é presumido que o usuário é livre para escolher uma posição de escuta dentro do espaço virtual. Duas dessas tais posições estão marcadas na Figura 1, posição A e posição B. Primeiro, considere o caso em que o usuário selecionou uma posição de escuta A que está dentro do contorno S do elemento de áudio (o coro). Nesta posição de escuta, o usuário está (virtualmente) envolvido pelo coro e, portanto, uma experiência de audição envolvente correspondente será esperada. A representação do coro centrada no ouvinte disponível, resultante de uma gravação espacial a partir de dentro do coro, é muito adequada para fornecer a experiência de audição desejada e, portanto, é usada para renderizar o elemento de áudio para o usuário (por exemplo, usando a renderização de fone de ouvido binaural incluindo o processamento das rotações de cabeça). Este também será o caso para outras posições de escuta dentro do contorno nocional S, que são todas consideradas posições de escuta “internas” para o elemento de áudio.
[0049] Agora, o usuário muda as posições de escuta a partir da posição A para a posição B, que está localizada fora do contorno nocional S. Assim, esta pode ser considerada uma posição de escuta “exterior” para o elemento de áudio. Nesta posição de escuta exterior, a experiência de áudio esperada será muito diferente. Em vez de estar envolvido pelo coro, o usuário agora espera ouvir o coro como uma entidade acústica localizada em alguma posição distante dentro do espaço, mais como um objeto de áudio. No entanto, dependendo da distância do usuário ao elemento de áudio, a experiência de áudio esperada do coro ainda será espacial, isto é, com uma certa variação natural dentro da área virtual que ocupa. De forma mais geral, pode ser afirmado que a experiência de áudio esperada dependerá da posição de escuta específica do usuário em relação ao elemento de áudio.
16 / 44
[0050] O problema que agora surge é que a representação “interior” centrada no ouvinte disponível do elemento de áudio não é diretamente adequada para fornecer essa experiência de áudio esperada ao ouvinte, pois representa a perspectiva de um ouvinte posicionado no centro do coro. O que é necessário é uma representação “exterior” do elemento de áudio que seja mais representativa para a experiência de audição esperada na posição de escuta “exterior” específica. Nas modalidades, esta representação exterior necessária é derivada da representação “interior” centrada no ouvinte disponível, transformando-a de uma maneira adequada, por exemplo, por meio de uma etapa de processamento de mixagem de redução ou de mapeamento. Modalidades específicas para o processamento de transformação são descritas abaixo. Nas modalidades, tal transformação resulta em uma representação do campo sonoro com base em objeto.
[0051] A representação exterior do elemento de áudio do coro que é derivado da representação interior agora é usada para renderizar seu som ao usuário, resultando em uma experiência de escuta que corresponde à posição de escuta selecionada, similarmente ao que é feito com a representação centrada na fonte de objetos de áudio comuns.
[0052] Tendo esboçado o conceito por meio do exemplo simplificado acima, várias modalidades, variações e recursos opcionais para implementar o conceito geral em detalhes são agora descritos. REPRESENTAÇÃO E RENDERIZAÇÃO INTERIOR.
[0053] Em uma modalidade, o elemento de áudio é representado por uma representação de áudio interior centrada no ouvinte (por exemplo, um ou mais de formatos HOA e com base em canal) e metadados associados que especificam a região espacial dentro da qual a representação interior é válida. A região espacial é usada aqui em um sentido amplo e não se limita a uma região fechada; pode incluir várias regiões fechadas e também pode incluir regiões não contornadas. Em outras palavras, os metadados definem a faixa
17 / 44 ou faixas de posições do usuário para as quais a representação de áudio interior do elemento de áudio deve ser usada. Em algumas modalidades, a região espacial pode ser definida por um contorno espacial, de modo que as posições de um lado do contorno sejam consideradas na região espacial e outras posições sejam consideradas fora da região espacial.
[0054] Em uma modalidade, a representação interior centrada no ouvinte é uma representação em um formato HOA. A região espacial na qual a representação “interior” é válida pode ser definida em relação a um ponto de referência dentro do elemento de áudio (por exemplo, seu ponto central), ou em relação ao quadro de referência da cena de áudio, ou de alguma outra forma. A região espacial pode ser definida de qualquer forma adequada, por exemplo por um raio em torno de alguma posição de referência (como o centro geométrico do elemento de áudio), ou de forma mais geral como uma trajetória ou um conjunto de pontos conectados no espaço 3D especificando o contorno espacial, como uma superfície 3D em malha. De modo geral, o renderizador deve ter acesso a um procedimento para determinar se uma dada posição está ou não dentro ou fora da região espacial. Em algumas modalidades, tal procedimento será computacionalmente simples.
[0055] Para as posições do usuário dentro da região espacial do elemento de áudio (conforme especificado pelos metadados), a renderização pode ser homogênea, o que significa que a renderização da representação interior (por exemplo, um conjunto de sinais HOA) é a mesma para qualquer posição do usuário dentro da região espacial definida. Esta é uma solução atraente e eficiente em algumas circunstâncias, especialmente nos casos em que a representação interior funciona principalmente como áudio de “fundo” ou de “atmosfera” ou tem um caráter espacialmente difuso. Exemplos de tais casos são: uma floresta, onde um único sinal HOA pode descrever o som de fundo da floresta (pássaros, folhas correndo) para qualquer posição do usuário dentro dos contornos espaciais definidos da floresta; um café movimentado; e
18 / 44 uma movimentada praça da cidade. Observe que, embora a renderização seja a mesma para qualquer posição do usuário na região, a experiência de áudio ainda é imersiva em todas as posições.
[0056] Em algumas modalidades, as rotações de cabeça do usuário são vantajosamente levadas em conta. Ou seja, a rotação do campo de som renderizado (HOA) pode ser aplicada em resposta às mudanças na orientação de cabeça do usuário. Isso pode intensificar significativamente a imersão do usuário ao custo de apenas um ligeiro aumento na complexidade de renderização.
[0057] Nos casos em que existem fontes de som individuais na cena cujas localizações espaciais e/ou equilíbrio devem permanecer consistentes com o movimento do usuário, a renderização dentro do elemento de áudio pode ser adaptada para refletir explicitamente o movimento do usuário e as mudanças resultantes nas posições relativas e níveis de fontes de áudio. Exemplos disso incluem: uma sala com uma TV em um canto e uma fonte circular. Aqui, a renderização da representação interior não é homogênea como acima, mas é adaptada em dependência da posição de escuta virtual. É possível adaptar a renderização com base na posição de escuta virtual. Por exemplo, várias técnicas são conhecidas para o caso de uma representação interior no formato HOA (por exemplo, renderização HOA em uma configuração de alto-falante virtual, expansão e translação de onda plana e reexpansão do campo sonoro HOA).
[0058] Note a partir do que foi dito acima que a região espacial dentro da qual a representação do campo sonoro interior centrado no ouvinte é válida é definida a partir de uma perspectiva de descrição de cena de alto nível. Ou seja, pode ser considerada uma escolha artística feita pelo criador do conteúdo. Pode ser completamente independente de qualquer região intrínseca de validade da própria representação de áudio interior (por exemplo, uma região física de validade do conjunto de sinal HOA).
19 / 44
TRANSFORMANDO A REPRESENTAÇÃO INTERIOR EM REPRESENTAÇÃO EXTERIOR
[0059] A representação “exterior” pode ser derivada da representação “interior” centrada no ouvinte, por exemplo, por mixagem de redução ou de outra forma que transforma a representação espacial “interior” de acordo com as regras. Essas regras podem ser especificadas explicitamente nos metadados. A mixagem de redução ou transformação pode levar em consideração a posição e orientação do ouvinte e pode depender da posição de escuta específica em relação ao elemento de áudio e/ou na rotação de cabeça do usuário em todos os três graus de liberdade (movimentos em torno dos eixos geométricos lateral, vertical e longitudinal).
[0060] A representação exterior pode assumir a forma de um objeto de áudio espacialmente localizado. Mais especificamente, em algumas modalidades, pode assumir a forma de um objeto de áudio estéreo espacialmente heterogêneo, por exemplo, tal como descrito em um pedido codepositado.
[0061] Uma descrição detalhada de uma implementação de exemplo com ambissônico (ambissônico de primeira ordem (FOA) ou HOA) como a representação interna centrada no ouvinte e uma representação externa de mixagem de redução estéreo é agora provida.
[0062] Conforme descrito anteriormente, a representação exterior pode ser derivada da representação interna centrada no ouvinte capturando uma mixagem de redução da representação interna. Como um exemplo, isso pode ser alcançado ao posicionar diversos microfones virtuais em algum ponto. Para o caso em que a representação interna está na forma de um sinal ambissônico, o ponto central da representação ambissônico é geralmente o ponto com a melhor resolução espacial e, portanto, o ponto preferido para colocar os microfones virtuais. O número de microfones virtuais usados pode variar, mas para prover uma mixagem de redução estéreo, pelo menos dois
20 / 44 microfones são necessários.
[0063] A Figura 2 ilustra um exemplo de dois microfones virtuais sendo usados para capturar uma mixagem de redução estéreo de um campo de som ambissônico, de acordo com uma modalidade. Conforme mostrado, dois microfones virtuais rotulados como D são posicionados dentro do centro de um campo sonoro ambissônico rotulado como C que representa um elemento de áudio rotulado como B. Os microfones são representados com uma pequena distância entre eles para fins ilustrativos, mas podem ser posicionados no mesmo ponto. A orientação dos microfones é definida em relação à linha entre a posição do ouvinte (marcada como A) e o centro do elemento de áudio, de modo que as propriedades direcionais da representação interna centrada no ouvinte sejam preservadas na representação externa. A fim de capturar uma imagem estéreo ampla, dois microfones cardioides virtuais podem ser posicionados no ponto central do objeto ambissônico e podem ter um ângulo de +90 e -90 graus em relação à linha mencionada.
[0064] Para uma representação interna ambissônica de primeira ordem, cada sinal de microfone virtual pode então ser calculado como: , (1) em que w, x, e y são os sinais HOA de primeira ordem, ϴ denota o ângulo horizontal do microfone no sistema de coordenadas ambissônicas, e p é um número na faixa de [0,1] que descreve o padrão polar do microfone. Para um padrão cardioide, 0,5 deve ser usado.
[0065] Mais microfones virtuais (por exemplo, mais do que os dois mostrados na Figura 2) com outras orientações podem ser usados para prover uma mistura mais uniforme de todo o campo sonoro interno, mas isso significaria alguns cálculos extras e também que a largura do estéreo da mixagem de redução ficaria ligeiramente mais estreita. Os sinais a partir dos microfones são combinados para formar uma mixagem de redução estéreo. No caso mais simples de apenas dois microfones, o sinal dos respectivos
21 / 44 microfones pode ser usado diretamente como os sinais esquerdo e direito. Outras orientações de microfone (por exemplo, diferentes dos +90 e -90 graus usados no exemplo acima) podem ser usadas, nas quais a equação (1) é consequentemente modificada.
[0066] Conforme descrito anteriormente, a rotação de cabeça do usuário pode ser levada em conta ao fazer a mixagem de redução. Por exemplo, a direção dos microfones virtuais pode ser adaptada para a posição atual da cabeça do ouvinte de modo que os ângulos dos microfones sigam o movimento da cabeça do ouvinte em torno do eixo geométrico longitudinal. Por exemplo, se o usuário mantiver a cabeça virada (movimentada em torno do eixo geométrico longitudinal) em 90 graus, os microfones podem ser girados dessa forma e capturar as informações de altura em vez de largura. A equação (1), nesse caso, deve ser generalizada para incluir também as direções verticais dos microfones virtuais.
[0067] Como mencionado acima, a representação externa e sua renderização podem estar de acordo com o conceito de elementos de áudio espacialmente heterogêneos, em que a mixagem de redução estéreo é renderizada como um elemento de áudio com uma determinada posição e extensão espacial. Na implementação mais direta, o sinal estéreo seria então renderizado por meio de dois alto-falantes virtuais cujas posições são atualizadas dinamicamente a fim de prover ao ouvinte um som espacial que corresponde à posição real e ao tamanho do elemento que o áudio está representando. A Figura 3 ilustra um exemplo disso, isto é, como dois alto- falantes virtuais (L e R) são usados para renderizar a representação externa do elemento de áudio B para um ouvinte no local A.
[0068] Como alternativa ao uso de dois microfones virtuais direcionais coincidentes, conforme descrito acima, um efeito similar pode ser obtido por meio da mixagem de redução para dois microfones virtuais espaçados, preferivelmente, microfones virtuais onidirecionais espaçados.
22 / 44 Estes são então colocados em posições simétricas na linha perpendicular à linha entre o ouvinte e o ponto central, espaçados, por exemplo, por 20 cm de distância. Os sinais de mixagem de redução para esses microfones virtuais podem ser calculados ao renderizar o sinal ambissônico para uma configuração de alto-falante virtual em torno da configuração do microfone virtual e, em seguida, somar as contribuições de todos os alto-falantes virtuais para cada microfone. A soma pode levar em conta as diferenças de tempo e nível resultantes dos diferentes alto-falantes virtuais. Uma vantagem desse método é que os microfones omnidirecionais não têm “preferência” por direções de fonte específicas dentro da área espacial interna, portanto, todas as fontes dentro da área são tratadas igualmente.
[0069] Em adição aos métodos de mixagem de redução ambissônicos descritos em detalhes acima, outros métodos similares podem ser usados. Um exemplo é o formato UHJ ambissônico.
[0070] Cuidado especial deve ser tomado durante a transição entre a representação interna (que na modalidade descrita acima é alguma variante da renderização ambissônica) e a representação externa, de modo que a transição seja suave e natural. Uma maneira de fazer isso é executar a renderização interna e externa em paralelo durante a transição e executar o desvanecimento cruzado suavemente de uma para a outra dentro de uma determinada zona de transição. Por exemplo, a zona de transição pode ser definida, por exemplo, como qualquer ponto dentro de uma distância de limite a partir do contorno espacial, ou a zona de transição pode ser definida como uma região independente de qualquer referência à região espacial. O lado negativo desse método é o processamento extra de executar dois métodos de renderização em paralelo.
[0071] A técnica de desvanecimento cruzado depende da direção em que o usuário está se movendo. Por exemplo, se o usuário começa em uma posição dentro da região espacial e, então, começa a se mover em direção ao
23 / 44 contorno e, eventualmente, para fora da região espacial, então a representação interna pode ser desvanecida gradualmente e a representação externa aumentada gradualmente, conforme o usuário completa este movimento. Por outro lado, se o usuário começa em uma posição fora da região espacial e então começa a se mover em direção ao contorno e, eventualmente, para dentro da região espacial, então a representação externa pode ser desvanecida gradualmente e a representação interna aumentada gradualmente.
GENERALIZAÇÃO PARA OUTRAS REPRESENTAÇÕES INTERNAS CENTRADAS NO OUVINTE (NÃO AMBISSÔNICAS).
[0072] Na descrição acima, modalidades são providas para elementos de áudio para os quais o campo sonoro interior é representado por um conjunto de sinais HOA. Contudo, nem todas as modalidades são limitadas a sinais HOA e as técnicas descritas também podem ser aplicadas para elementos de áudio que têm uma representação de campo sonoro interior em outros formatos centrados no ouvinte, por exemplo, (i) um formato circundante com base em canal como 5.1, (ii) um formato de Planejamento de Amplitude com Base em Vetor (VBAP), (iii) um formato de Codificação de áudio Direcional (DirAC), ou (iv) algum outro formato de representação de campo sonoro espacial centrado no ouvinte.
[0073] Indiferentemente do formato para a representação interior, as modalidades proveem a transformação da representação interior centrada no ouvinte que é válida dentro da região espacial em uma representação externa que é válida fora da região espacial, por exemplo, por mixagem de redução para uma configuração de microfone virtual conforme descrito acima para o caso HOA e, em seguida, renderizando a representação relevante para o usuário, dependendo se a posição de escuta do usuário está dentro ou fora da região espacial.
[0074] Por exemplo, as representações internas com base em canal são representações centradas no ouvinte que, como tal, são essencialmente
24 / 44 sem sentido em posições de escuta externas (por exemplo, similar à situação para representações HOA já explicadas). Portanto, a representação interna com base em canal precisa ser transformada em uma representação mais significativa antes de renderizar para posições de escuta externas. Para representações internas com base em canal, conforme descrito para o caso HOA, microfones virtuais podem ser usados para fazer a mixagem de redução do sinal para derivar a representação externa.
[0075] Nas modalidades, há uma mudança suave ou gradual da representação interna para a representação externa (ou vice-versa) quando o usuário cruza o contorno da região espacial. Os metadados podem ser incluídos com o elemento de áudio que especifica a região de transição (por exemplo, para suportar o desvanecimento cruzado), e os metadados também podem indicar qual algoritmo a ser usado para derivar a representação externa. As regras para transformar a representação interior centrada no ouvinte para a representação exterior podem ser explicitamente incluídas nos metadados que são transmitidos com o elemento de áudio (por exemplo, na forma de uma matriz de mixagem de redução) ou podem ser especificadas independentemente no renderizador. No último caso, alguns metadados ainda podem ser transmitidos com o elemento de áudio para controlar aspectos específicos do processo de transformação no renderizador, como qualquer um dos aspectos descritos acima; também, nas modalidades, os metadados podem indicar ao renderizador que ele deve usar suas próprias regras de transformação para derivar a representação exterior. A especificação das regras de transformação completas pode ser distribuída ao longo da cadeia de sinal entre o criador de conteúdo e o renderizador de qualquer maneira adequada.
[0076] Alternativamente, em vez da representação exterior ser derivada da representação interior, a representação exterior pode, em algumas modalidades, ser provida explicitamente, por exemplo, como um sinal de
25 / 44 áudio estéreo ou multicanal, ou como outro sinal HOA. Uma vantagem dessa modalidade é que seria fácil de integrar em vários padrões existentes, requisitando apenas pequenas adições ou modificações aos mecanismos de agrupamento existentes desses padrões. Por exemplo, a integração desta modalidade no mecanismo de agrupamento MPEG-H existente requisitaria meramente uma extensão da estrutura de agrupamento existente na forma da adição de um novo tipo de grupo (combinando, por exemplo, um conjunto de sinal HOA e um sinal estéreo correspondente) mais alguns metadados adicionais (incluindo pelo menos a descrição da região espacial, mais opcionalmente qualquer um dentre os outros tipos de metadados descritos aqui). Uma desvantagem desta modalidade, no entanto, é que não há consistência espacial implícita entre as representações interior e exterior. Isso pode ser um problema se as propriedades espaciais do elemento de áudio mudarem ao longo do tempo devido à interação do lado do usuário. Nos casos em que não existe tal interação, a relação espacial entre as duas representações pode ser tratada no lado da produção de conteúdo.
[0077] A Figura 4 é um fluxograma que ilustra um processo de acordo com uma modalidade. Na etapa 402, um nó de renderização pode receber um elemento de áudio, tal como descrito em várias modalidades aqui descritas. O elemento de áudio pode conter uma representação interior e metadados que indicam uma região espacial para a qual a representação interior é válida, bem como informações que indicam como derivar uma informação exterior. Um teste é realizado para determinar se um ouvinte está dentro da região espacial na etapa 404. Se for o caso, o áudio é renderizado usando a representação interior em 406. Se não for o caso, o áudio é renderizado usando a representação exterior em 408. A representação exterior pode primeiro ser derivada, por exemplo a partir da representação interior, conforme necessário. Em algumas modalidades, a fim de prover uma transição mais suave entre o exterior e interior da região espacial para um ouvinte que está se movendo,
26 / 44 um teste pode ser realizado para determinar se um ouvinte está perto de um contorno da região espacial na etapa 410. Por exemplo, se o usuário estiver dentro de uma pequena distância δ do contorno, o ouvinte pode ser considerado próximo ao contorno. Esta pequena distância δ pode ser especificada nos metadados ou de outra forma conhecida pelo nó de renderização e pode ser uma configuração ajustável. Se o ouvinte estiver perto do contorno, então as representações interiores e exteriores podem ser renderizadas simultaneamente e desvanecidas de modo cruzado entre si na etapa 412. O desvanecimento cruzado pode levar em consideração um ou mais dentre uma distância que o ouvinte está do contorno, em que lado do contorno o ouvinte está (interior ou exterior) e um vetor de velocidade do ouvinte.
[0078] A Figura 5 é um fluxograma que ilustra um processo 500 de acordo com uma modalidade. O processo 500 é um método de provimento de um elemento de áudio (por exemplo, um elemento de áudio contornado espacialmente). O método inclui prover, para um nó de renderização, um elemento de áudio (etapa 502). O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial.
[0079] Em algumas modalidades, as informações que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada a partir da representação interior. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior. Nas
27 / 44 modalidades, a representação interior é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico (HOA) (por exemplo, uma cena de áudio HOA de ordem superior).
[0080] Em algumas modalidades, para pontos próximos a um contorno da região espacial, há uma transição gradual (por exemplo, suave) entre a representação interna e a representação externa.
[0081] A Figura 6 é um fluxograma que ilustra um processo de acordo com uma modalidade. O processo 600 é um método de renderização de áudio (por exemplo, um método de renderização de um elemento de áudio contornado espacialmente). O método inclui receber um elemento de áudio (etapa 602). O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial. O método inclui adicionalmente determinar que um ouvinte está dentro da região espacial (etapa 604); e renderizar o elemento de áudio usando a representação interior do elemento de áudio (etapa 606).
[0082] Em algumas modalidades, o método inclui adicionalmente detectar que o ouvinte se moveu para fora da região espacial; derivar a representação exterior do elemento de áudio (por exemplo, opcionalmente com base nas informações que indicam como a representação exterior deve ser derivada); e renderizar o elemento de áudio usando a representação exterior do elemento de áudio. Em modalidades, o método inclui adicionalmente determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e, como resultado da determinação de que a
28 / 44 primeira distância é menor do que um valor de limite de transição, transicionar gradualmente (por exemplo, desvanecimento cruzado) entre a representação exterior e a representação interior com base na primeira distância.
[0083] Em algumas modalidades, as informações que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada a partir da representação interior. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior. Nas modalidades, a representação interior é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico (HOA) (por exemplo, uma cena de áudio HOA de ordem superior)..
[0084] Em algumas modalidades, para pontos próximos a um contorno da região espacial, há uma transição gradual (por exemplo, suave) entre a representação interna e a representação externa. Nas modalidades, derivar a representação exterior do elemento de áudio é baseado adicionalmente em uma ou mais dentre uma posição e uma orientação do ouvinte.
[0085] A Figura 7 é um fluxograma que ilustra um processo de acordo com uma modalidade. O processo 700 é um método de renderização de áudio (por exemplo, um método de renderização de um elemento de áudio contornado espacialmente). O método inclui receber um elemento de áudio (etapa 702). O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma
29 / 44 representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial. O método inclui adicionalmente determinar que um ouvinte está fora da região espacial (etapa 704); derivar a representação exterior do elemento de áudio (por exemplo, opcionalmente com base nas informações que indicam como a representação exterior deve ser derivada) (etapa 706); e renderizar o elemento de áudio usando a representação exterior do elemento de áudio (etapa 708).
[0086] Em algumas modalidades, a representação exterior do elemento de áudio é derivada da representação interior. Nas modalidades, o método inclui adicionalmente detectar que o ouvinte se moveu dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio. Nas modalidades, o método inclui adicionalmente determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e, como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, transicionar gradualmente (por exemplo, desvanecimento cruzado) entre a representação interior e a representação exterior com base na primeira distância.
[0087] Em algumas modalidades, as informações que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada a partir da representação interior. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução. Nas modalidades, as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior. Nas modalidades, a representação interior é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico (HOA) (por exemplo, uma cena
30 / 44 de áudio HOA de ordem superior)..
[0088] Em algumas modalidades, para pontos próximos a um contorno da região espacial, uma diferença entre a representação interna e a representação externa é pequena, de modo que haja uma transição gradual (por exemplo, transição suave) entre a representação interna e a representação externa. Nas modalidades, derivar a representação exterior do elemento de áudio é baseado adicionalmente em uma ou mais dentre uma posição e uma orientação do ouvinte.
[0089] A Figura 8 é um diagrama que mostra unidades funcionais de um aparelho (também conhecidas como nó) 802 (por exemplo, um decodificador) e um nó 804 (por exemplo, um nó de renderização), de acordo com as modalidades. O nó 802 inclui uma unidade de provimento 810. O nó 804 inclui uma unidade de recebimento 812, uma unidade de determinação 814, uma unidade de derivação 816 e uma unidade de processamento 818.
[0090] O nó 802 (por exemplo, um decodificador) é configurado para prover um elemento de áudio contornado espacialmente. O nó 802 inclui uma unidade de provimento 810 configurada para prover, para um nó de renderização, um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial.
[0091] O nó 804 (por exemplo, um nó de renderização) é configurado para renderização de áudio (por exemplo, renderização de um elemento de áudio espacialmente contornado). O nó 804 inclui uma unidade de recebimento 812 configurada para receber um elemento de áudio. O elemento de áudio inclui: (i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior está em um formato
31 / 44 centrado no ouvinte; (ii) informações que indicam a região espacial; e opcionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial. O nó 804 inclui adicionalmente uma unidade de determinação 814 configurada para determinar se um ouvinte está dentro da região espacial ou fora da região espacial; e uma unidade de renderização 818 e uma unidade de derivação 816. Se a unidade de determinação 814 determinar que o ouvinte está dentro da região espacial, a unidade de renderização 818 é configurada para renderizar o elemento de áudio usando a representação interior do elemento de áudio. Caso contrário, se a unidade de determinação 814 determinar que o ouvinte está fora da região espacial, a unidade de derivação 816 é configurada para derivar a representação exterior do elemento de áudio (por exemplo, opcionalmente com base nas informações que indicam como a representação exterior deve ser derivada); e a unidade de renderização 818 é configurada para renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[0092] A Figura 9 é um diagrama de blocos de um nó (como os nós 802 e 804), de acordo com algumas modalidades. Como mostrado na Figura 9, o nó pode compreender: circuito de processamento (PC) 902, que pode incluir um ou mais processadores (P) 955 (por exemplo, um microprocessador de uso geral e/ou um ou mais outros processadores, como um circuito integrado específico de aplicativo (ASIC), matrizes de portas programáveis em campo (FPGAs) e semelhantes); uma interface de rede 948 que compreende um transmissor (Tx) 945 e um receptor (Rx) 947 para permitir que o nó transmita e receba dados de outros nós conectados a uma rede 910 (por exemplo, uma rede de protocolo de Internet (IP)) para a qual a interface de rede 948 está conectada; e uma unidade de armazenamento local (também conhecida como “sistema de armazenamento de dados”) 908, que pode incluir um ou mais dispositivos de armazenamento não voláteis e/ou um ou mais
32 / 44 dispositivos de armazenamento voláteis. Em modalidades em que PC 902 inclui um processador programável, um produto de programa de computador (CPP) 941 pode ser provido. O CPP 941 inclui uma mídia legível por computador (CRM) 942 que armazena um programa de computador (CP) 943 que compreende instruções legíveis por computador (CRI) 944. CRM 942 pode ser uma mídia legível por computador não transitória, como mídia magnética (por exemplo, um disco rígido), mídia óptica, dispositivos de memória (por exemplo, memória de acesso aleatório, memória flash) e semelhantes. Em algumas modalidades, o CRI 944 do programa de computador 943 é configurado de modo que, quando executado pelo PC 902, o CRI faz com que o nó realize as etapas descritas aqui (por exemplo, etapas descritas aqui com referência aos fluxogramas). Em outras modalidades, o nó pode ser configurado para executar as etapas descritas aqui sem a necessidade de código. Ou seja, por exemplo, o PC 902 pode consistir apenas em um ou mais ASICs. Consequentemente, os recursos das modalidades aqui descritas podem ser implementados em hardware e/ou software.
SUMÁRIO DAS DIVERSAS MODALIDADES
[0093] A1. Um método de renderização de áudio, sendo que o método compreende: receber um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior do elemento de áudio de modo que a representação interior do elemento de áudio seja válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial; determinar que um ouvinte está fora da região espacial; derivar uma representação exterior do elemento de áudio; e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[0094] A2. O método da modalidade A1, em que a representação exterior do elemento de áudio é derivada da representação interior do elemento de áudio.
33 / 44
[0095] A3. O método da modalidade A1 ou A2, em que o elemento de áudio compreende adicionalmente informações que indicam como a representação exterior do elemento de áudio deve ser derivada de modo que a representação exterior do elemento de áudio seja válida fora da região espacial e sendo que derivar a representação exterior de o elemento de áudio compreende derivar a representação exterior do elemento de áudio com base nas informações que indicam como a representação exterior do elemento de áudio deve ser derivada.
[0096] A4. O método de qualquer uma dentre modalidades A1-A3, que compreende adicionalmente: detectar que o ouvinte se moveu dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio.
[0097] A5. O método de qualquer uma dentre as modalidades A1-A4, que compreende adicionalmente: determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, transicionar gradualmente entre a representação interior do elemento de áudio e a representação exterior do elemento de áudio com base na primeira distância.
[0098] A6. O método da modalidade A5, em que a transicionar gradualmente entre a representação interior do elemento de áudio e a representação exterior do elemento de áudio com base na primeira distância compreende o desvanecimento cruzado entre a representação interior do elemento de áudio e a representação exterior do elemento de áudio com base na primeira distância.
[0099] A7. O método de qualquer uma dentre as modalidades A3-A6, em que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada indicam que a representação exterior do
34 / 44 elemento de áudio deve ser derivada da representação interior.
[00100] A8. O método de qualquer uma dentre as modalidades A3-A7, em que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada incluem uma matriz de mixagem de redução.
[00101] A9. O método de qualquer uma dentre as modalidades A3-A6, em que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada compreendem um conjunto de sinais que representam a representação exterior do elemento de áudio.
[00102] A10. O método de qualquer uma dentre as modalidades A1- A9, em que a representação interior do elemento de áudio é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico.
[00103] A11. O método de qualquer uma dentre as modalidades A1- A10, em que derivar a representação exterior do elemento de áudio é adicionalmente baseado em uma ou mais dentre uma posição ou orientação do ouvinte.
[00104] B1. Um método, sendo que o método compreende: prover, para um nó de renderização, um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior do elemento de áudio de modo que a representação interior do elemento de áudio seja válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial, em que o elemento de áudio compreende adicionalmente informações que indicam como uma representação exterior do elemento de áudio deve ser derivada de modo que a representação exterior do áudio elemento é válida fora da região espacial.
[00105] B2. O método de acordo com a modalidade B1, em que as informações que indicam como a representação exterior do elemento de áudio
35 / 44 deve ser derivada indicam que a representação exterior do elemento de áudio deve ser derivada da representação interior do elemento de áudio.
[00106] B3. O método de acordo com a modalidade B1 ou B2, em que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada incluem uma matriz de mixagem de redução.
[00107] B4. O método de acordo com modalidade B1, em que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada incluem um conjunto de sinais que representam a representação exterior do elemento de áudio.
[00108] B5. O método de qualquer uma dentre as modalidades B1-B4, em que a representação interior do elemento de áudio é representada por um ou mais dentre: i) uma representação de cena de áudio com base em canal e ii) uma representação de cena de áudio ambissônico.
[00109] B6. O método de qualquer uma dentre as modalidades B1-B5, em que para pontos próximos a um contorno da região espacial, há uma transição gradual entre a representação interna do elemento de áudio e a representação externa do elemento de áudio.
[00110] C1. Um método de renderização de áudio, sendo que o método compreende: receber um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior do elemento de áudio de modo que a representação interior do elemento de áudio seja válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial; determinar que um ouvinte está dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio, em que o elemento de áudio compreende adicionalmente informações que indicam como uma representação exterior do elemento de áudio deve ser derivada de modo que a representação exterior do elemento de áudio seja válida fora da região espacial.
36 / 44
[00111] C2. O método da modalidade C1, que compreende adicionalmente: detectar que o ouvinte se moveu para fora da região espacial; derivar a representação exterior do elemento de áudio; e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[00112] C3. O método da modalidade C2, em que a derivação da representação exterior do elemento de áudio é baseada nas informações que indicam como a representação exterior do elemento de áudio deve ser derivada.
[00113] C4. O método de qualquer uma dentre as modalidades C2 ou C3, em que derivar a representação exterior do elemento de áudio é adicionalmente baseado em uma ou mais dentre uma posição ou orientação do ouvinte.
[00114] C5. O método de qualquer uma dentre modalidades C1-C4, que compreende adicionalmente: determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, transicionar gradualmente entre a representação exterior do elemento de áudio e a representação interior do elemento de áudio com base na primeira distância.
[00115] C6. O método da modalidade C5, em que a transicionar gradualmente entre a representação interior do elemento de áudio e a representação exterior do elemento de áudio com base na primeira distância compreende o desvanecimento cruzado entre a representação interior do elemento de áudio e a representação exterior do elemento de áudio com base na primeira distância.
[00116] C7. O método de qualquer uma dentre as modalidades C1-C6, em que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada indicam que a representação exterior do
37 / 44 elemento de áudio deve ser derivada da representação interior do elemento de áudio.
[00117] C8. O método de qualquer uma dentre as modalidades C1-C7, em que as informações que indicam uma representação exterior do elemento de áudio deve ser derivada incluem uma matriz de mixagem de redução.
[00118] C9. O método de qualquer uma dentre as modalidades C1-C7, em que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada incluem um conjunto de sinais que representam a representação exterior do elemento de áudio.
[00119] C10. O método de qualquer uma dentre as modalidades C1- C9, em que a representação interior do elemento de áudio é representada por uma ou mais dentre: i) uma representação de cena de áudio baseada em canal e ii) uma representação de cena de áudio ambissônico.
[00120] C12. O método de qualquer uma dentre as modalidades C1- C11, em que para pontos próximos a um contorno da região espacial, há uma transição gradual entre a representação interna do elemento de áudio e a representação externa do elemento de áudio.
[00121] PA1. Método para prover um elemento de áudio espacialmente contornado, sendo que o método compreende: prover, para um nó de renderização, um elemento de áudio, em que o elemento de áudio compreende: (i) uma representação interior de modo que a representação interior seja válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; e (ii) informações que indicam a região espacial.
[00122] PA1a. O método da modalidade PA1, em que o elemento de áudio compreende adicionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial.
[00123] PA2. O método da modalidade PA1a, em que as informações
38 / 44 que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada da representação interior.
[00124] PA3. O método de qualquer uma dentre as modalidades PA1a- PA2, em que as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução.
[00125] PA4. O método da modalidade PA1a, em que as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior.
[00126] PA5. O método de qualquer uma dentre as modalidades PA1- PA4, em que a representação interior é representada por um ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico de ordem superior (HOA).
[00127] PA6. O método de qualquer uma dentre as modalidades PA1- PA5, em que para pontos próximos a um contorno da região espacial, uma diferença entre a representação interna e a representação externa é pequena, de modo que haja uma transição suave entre a representação interna e a representação externa.
[00128] PB1. Método para renderizar um elemento de áudio espacialmente contornado, sendo que o método compreende: receber um elemento de áudio, em que o elemento de áudio compreende: (i) uma representação interior de modo que a representação interior seja válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; e (ii) informações que indicam a região espacial; determinar que um ouvinte está dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio.
[00129] PB1a. O método da modalidade PB1, em que o elemento de áudio compreende adicionalmente (iii) informações que indicam como uma representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial.
39 / 44
[00130] PB2. O método de qualquer uma dentre as modalidades PB1 e B1a, que compreende adicionalmente: detectar que o ouvinte se moveu para fora da região espacial; derivar a representação exterior do elemento de áudio; e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[00131] PB2a. O método da modalidade PB2, em que a derivação da representação exterior do elemento de áudio é baseada nas informações que indicam como a representação exterior deve ser derivada.
[00132] PB3. O método de qualquer uma dentre as modalidades PB1- PB2a, que compreende adicionalmente: determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, executar desvanecimento cruzado a partir da representação exterior para a representação interior com base na primeira distância.
[00133] PB4. O método de qualquer uma dentre as modalidades PB1- PB3, em que as informações que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada da representação interior.
[00134] PB5. O método de qualquer uma dentre as modalidades PB1- PB4, em que as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução.
[00135] PB6. O método de qualquer uma dentre as modalidades PB1- PB3, em que as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior.
[00136] PB7. O método de qualquer uma dentre as modalidades PB1- PB6, em que a representação interior é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma
40 / 44 representação de cena de áudio ambissônico de ordem superior (HOA).
[00137] PB8. O método de qualquer uma dentre as modalidades PB1- PB7, em que para pontos próximos a um contorno da região espacial, uma diferença entre a representação interna e a representação externa é pequena, de modo que haja uma transição suave entre a representação interna e a representação externa.
[00138] PB9. O método de qualquer uma dentre as modalidades PB2- PB8, em que derivar a representação exterior do elemento de áudio é adicionalmente baseado em um ou mais de uma posição e uma orientação do ouvinte.
[00139] PC1. Método para renderizar um elemento de áudio contornado espacialmente, sendo que o método compreende: receber um elemento de áudio, em que o elemento de áudio compreende: (i) uma representação interior de modo que a representação interior seja válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; e (ii) informações que indicam a região espacial; determinar que um ouvinte está fora da região espacial; derivar uma representação exterior do elemento de áudio; e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[00140] PC1a. O método da modalidade PC1, em que a representação exterior do elemento de áudio é derivada da representação interior.
[00141] PC1b. O método da modalidade PC1, em que o elemento de áudio compreende adicionalmente (iii) informações que indicam como a representação exterior deve ser derivada, de modo que a representação exterior seja válida fora da região espacial; e em que a derivação da representação exterior do elemento de áudio é baseada nas informações que indicam como a representação exterior deve ser derivada.
[00142] PC2. O método de qualquer uma dentre as modalidades PC1, C1a e C1b, que compreende adicionalmente: detectar que o ouvinte se moveu
41 / 44 dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio.
[00143] PC3. O método de qualquer uma dentre as modalidades PC1- PC2, que compreende adicionalmente: determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, executar desvanecimento cruzado a partir da representação interior para a representação exterior com base na primeira distância.
[00144] PC4. O método de qualquer uma dentre as modalidades PC1b- PC3, em que as informações que indicam como uma representação exterior deve ser derivada indicam que a representação exterior deve ser derivada da representação interior.
[00145] PC5. O método de qualquer uma dentre as modalidades PC1b- PC4, em que as informações que indicam como uma representação exterior deve ser derivada incluem uma matriz de mixagem de redução.
[00146] PC6. O método de qualquer uma dentre as modalidades PC1b- PC3, em que as informações que indicam como uma representação exterior deve ser derivada incluem um conjunto de sinais que representam a representação exterior.
[00147] PC7. O método de qualquer uma dentre as modalidades PC1- PC6, em que a representação interior é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico de ordem superior (HOA).
[00148] PC8. O método de qualquer uma dentre as modalidades PC1- PC7, em que para pontos próximos a um contorno da região espacial, uma diferença entre a representação interna e a representação externa é pequena, de modo que haja uma transição suave entre a representação interna e a representação externa.
42 / 44
[00149] PC9. O método de qualquer uma dentre as modalidades PC1- PC8, em que derivar a representação exterior do elemento de áudio é adicionalmente baseado em um ou mais dentre uma posição e uma orientação do ouvinte.
[00150] PD1. Um nó (por exemplo, um decodificador) para prover um elemento de áudio espacialmente contornado, sendo que o nó é adaptado para: prover, para um nó de renderização, um elemento de áudio, em que o elemento de áudio compreende: (i) uma representação interior de modo que a representação interior é válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; e (ii) informações que indicam a região espacial.
[00151] PE1. Um nó (por exemplo, um nó de renderização) para renderizar um elemento de áudio espacialmente contornado, sendo que o nó é adaptado para: receber um elemento de áudio, em que o elemento de áudio compreende: (i) uma representação interior de modo que a representação interior seja válida dentro de uma região, sendo que a representação interior está em um formato centrado no ouvinte; e (ii) informações que indicam a região espacial; determinar se um ouvinte está dentro da região espacial ou fora da região espacial; e se o ouvinte estiver dentro da região espacial: renderizar o elemento de áudio usando a representação interior do elemento de áudio; caso contrário, se o ouvinte estiver fora da região espacial: obter uma representação exterior do elemento de áudio; e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[00152] PF1. Um nó (por exemplo, um decodificador) para prover um elemento de áudio espacialmente contornado, sendo que o nó compreende: uma unidade de provimento configurada para prover, para um nó de renderização, um elemento de áudio, em que o elemento de áudio compreende: (i) uma representação interior de modo que a representação interior seja válida dentro de uma região espacial, sendo que a representação
43 / 44 interior está em um formato centrado no ouvinte; e (ii) informações que indicam a região espacial.
[00153] PG1. Um nó (por exemplo, um nó de renderização) para renderizar um elemento de áudio espacialmente contornado, sendo que o nó compreende: uma unidade de recebimento configurada para receber um elemento de áudio, em que o elemento de áudio compreende: (i) uma representação interior de modo que a representação interior seja válida dentro de uma região espacial, sendo que a representação interior está em um formato centrado no ouvinte; e (ii) informações que indicam a região espacial de uma unidade de determinação configurada para determinar se um ouvinte está dentro da região espacial ou fora da região espacial; e uma unidade de renderização e uma unidade de derivação; em que se a unidade de determinação determinar que o ouvinte está dentro da região espacial: a unidade de renderização é configurada para renderizar o elemento de áudio usando a representação interior do elemento de áudio; e, caso contrário, se a unidade de determinação determinar que o ouvinte está fora da região espacial: a unidade de derivação é configurada para derivar uma representação exterior do elemento de áudio; e a unidade de renderização é configurada para renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
[00154] PH1. Um programa de computador que compreende instruções que, quando executadas por circuitos de processamento de um nó, fazem com que o nó realize o método de qualquer uma dentre A1-A6, B1-B9 e C1-C9.
[00155] PH2. Uma portadora que contém o programa de computador da modalidade PH1, em que a portadora é um dentre um sinal eletrônico, um sinal óptico, um sinal de rádio e uma mídia de armazenamento legível por computador.
[00156] Embora diversas modalidades da presente divulgação sejam descritas aqui, deve ser entendido que elas foram apresentadas a título de
44 / 44 exemplo apenas, e não como limitação. Portanto, a amplitude e o escopo da presente descrição não devem ser limitados por qualquer uma dentre as modalidades exemplificativas descritas acima. Ademais, qualquer combinação dos elementos acima descritos em todas as variações possíveis dos mesmos é abrangida pela descrição, a menos que indicado de outra forma aqui ou de outra forma claramente contradito pelo contexto.
[00157] Adicionalmente, embora os processos descritos acima e ilustrados nos desenhos sejam mostrados como uma sequência de etapas, isso foi feito apenas para fins de ilustração. Consequentemente, é contemplado que algumas etapas podem ser adicionadas, algumas etapas podem ser omitidas, a ordem das etapas pode ser rearranjada e algumas etapas podem ser realizadas em paralelo.

Claims (24)

REIVINDICAÇÕES
1. Método (700) para renderizar áudio, sendo que o método é caracterizado pelo fato de que compreende: receber (702) um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial; determinar (704) que um ouvinte está fora da região espacial; derivar (706) uma representação exterior do elemento de áudio; e renderizar (708) o elemento de áudio usando a representação exterior do elemento de áudio.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a representação exterior do elemento de áudio é derivada a partir da representação interior do elemento de áudio.
3. Método de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o elemento de áudio compreende adicionalmente informações que indicam como a representação exterior do elemento de áudio deve ser derivada de modo que a representação exterior do elemento de áudio seja válida fora da região espacial, e derivar a representação exterior do elemento de áudio compreende derivar a representação exterior do elemento de áudio com base nas informações que indicam como a representação exterior do elemento de áudio deve ser derivada.
4. Método de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que compreende adicionalmente: detectar que o ouvinte se moveu dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio.
5. Método de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que compreende adicionalmente: determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, transicionar gradualmente entre a representação interior do elemento de áudio e a representação exterior do elemento de áudio com base na primeira distância.
6. Método de acordo com qualquer uma das reivindicações 3 a 5, caracterizado pelo fato de que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada indicam que a representação exterior do elemento de áudio deve ser derivada da representação interior.
7. Método de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que a representação interior do elemento de áudio é representada por uma ou mais dentre (i) uma representação de cena de áudio com base em canal e (ii) uma representação de cena de áudio ambissônico.
8. Método (500), sendo que o método é caracterizado pelo fato de que compreende: prover (502), para um nó de renderização, um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial, em que o elemento de áudio compreende adicionalmente informações que indicam como uma representação exterior do elemento de áudio deve ser derivada de modo que a representação exterior do elemento de áudio seja válida fora da região espacial.
9. Método de acordo com a reivindicação 8, caracterizado pelo fato de que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada indicam que a representação exterior do elemento de áudio deve ser derivada da representação interior do elemento de áudio.
10. Método de acordo com a reivindicação 8 ou 9, caracterizado pelo fato de que a representação interior do elemento de áudio é representada por uma ou mais dentre: i) uma representação de cena de áudio com base em canal e ii) uma representação de cena de áudio ambissônico.
11. Método de acordo com qualquer uma das reivindicações 8 a 10, caracterizado pelo fato de que para pontos próximos a um contorno da região espacial, há uma transição gradual entre a representação interna do elemento de áudio e a representação externa do elemento de áudio.
12. Método (600) para renderizar áudio, sendo que o método é caracterizado pelo fato de que compreende: receber (602) um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial; determinar (604) que um ouvinte está dentro da região espacial; e renderizar (606) o elemento de áudio usando a representação interior do elemento de áudio, em que o elemento de áudio compreende adicionalmente informações que indicam como uma representação exterior do elemento de áudio deve ser derivada de modo que a representação exterior do elemento de áudio seja válida fora da região espacial.
13. Método de acordo com a reivindicação 12, caracterizado pelo fato de que compreende adicionalmente: detectar que o ouvinte se moveu para fora da região espacial; derivar a representação exterior do elemento de áudio; e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
14. Método de acordo com a reivindicação 13, caracterizado pelo fato de que derivar a representação exterior do elemento de áudio é baseado nas informações que indicam como a representação exterior do elemento de áudio deve ser derivada.
15. Método de acordo com a reivindicação 13 ou 14, caracterizado pelo fato de que derivar a representação exterior do elemento de áudio é baseado adicionalmente em uma ou mais dentre uma posição ou orientação do ouvinte.
16. Método de acordo com qualquer uma das reivindicações 12 a 15, caracterizado pelo fato de que compreende adicionalmente: determinar que o ouvinte está dentro de uma primeira distância da região espacial; determinar que a primeira distância é menor que um valor de limite de transição; e como resultado da determinação de que a primeira distância é menor do que um valor de limite de transição, transicionar gradualmente entre a representação exterior do elemento de áudio e a representação interior do elemento de áudio com base na primeira distância.
17. Método de acordo com qualquer uma das reivindicações 12 a 16, caracterizado pelo fato de que as informações que indicam como a representação exterior do elemento de áudio deve ser derivada indicam que a representação exterior do elemento de áudio deve ser derivada a partir da representação interior do elemento de áudio.
18. Método de acordo com qualquer uma das reivindicações 12 a 17, caracterizado pelo fato de que a representação interior do elemento de áudio é representada por uma ou mais dentre: i) uma representação de cena de áudio com base em canal e ii) uma representação de cena de áudio ambissônico.
19. Método de acordo com qualquer uma das reivindicações 12 a 18, caracterizado pelo fato de que, para pontos próximos a um contorno da região espacial, há uma transição gradual entre a representação interna do elemento de áudio e a representação externa do elemento de áudio.
20. Portadora, caracterizada pelo fato de que compreende instruções (944) que, quando executadas por circuitos de processamento (902), fazem com que os circuitos de processamento (902) realizem o método como definido em qualquer uma das reivindicações 1 a 19.
21. Portadora de acordo com a reivindicação 20 caracterizada pelo fato de que a portadora é uma dentre um sinal eletrônico, um sinal óptico, um sinal de rádio e uma mídia de armazenamento legível por computador (942).
22. Nó (900) para renderizar áudio, sendo que o nó é caracterizado pelo fato de que compreende: uma mídia de armazenamento legível por computador (942); e circuito de processamento (902) acoplado à mídia de armazenamento legível por computador, em que o circuito de processamento é configurado para fazer o nó: receber um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial;
determinar que um ouvinte está fora da região espacial; derivar uma representação exterior do elemento de áudio; e renderizar o elemento de áudio usando a representação exterior do elemento de áudio.
23. Nó (900), sendo que o nó é caracterizado pelo fato de que compreende: uma mídia de armazenamento legível por computador (942); e circuito de processamento (902) acoplado à mídia de armazenamento legível por computador, em que o circuito de processamento é configurado para fazer o nó: prover, para um nó de renderização, um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial, em que o elemento de áudio compreende adicionalmente informações que indicam como uma representação exterior do elemento de áudio deve ser derivada de modo que a representação exterior do elemento de áudio seja válida fora da região espacial.
24. Nó (900) para renderizar áudio, sendo que o nó é caracterizado pelo fato de que compreende: uma mídia de armazenamento legível por computador (942); e circuito de processamento (902) acoplado à mídia de armazenamento legível por computador, em que o circuito de processamento é configurado para fazer o nó: receber um elemento de áudio, em que o elemento de áudio compreende: i) uma representação interior que é válida dentro de uma região espacial, sendo que a representação interior do elemento de áudio está em um formato centrado no ouvinte e ii) informações que indicam a região espacial;
determinar que um ouvinte está dentro da região espacial; e renderizar o elemento de áudio usando a representação interior do elemento de áudio, em que o elemento de áudio compreende adicionalmente informações que indicam como uma representação exterior do elemento de áudio deve ser derivada de modo que a representação exterior do elemento de áudio seja válida fora da região espacial.
BR112021013289-9A 2019-01-08 2019-12-20 Método e nó para renderizar áudio, programa de computador, e, portadora BR112021013289A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962789790P 2019-01-08 2019-01-08
US62/789,790 2019-01-08
PCT/EP2019/086876 WO2020144061A1 (en) 2019-01-08 2019-12-20 Spatially-bounded audio elements with interior and exterior representations

Publications (1)

Publication Number Publication Date
BR112021013289A2 true BR112021013289A2 (pt) 2021-09-14

Family

ID=69105858

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021013289-9A BR112021013289A2 (pt) 2019-01-08 2019-12-20 Método e nó para renderizar áudio, programa de computador, e, portadora

Country Status (4)

Country Link
US (1) US11930351B2 (pt)
EP (1) EP3909264A1 (pt)
BR (1) BR112021013289A2 (pt)
WO (1) WO2020144061A1 (pt)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11750998B2 (en) * 2020-09-30 2023-09-05 Qualcomm Incorporated Controlling rendering of audio data
WO2022219100A1 (en) 2021-04-14 2022-10-20 Telefonaktiebolaget Lm Ericsson (Publ) Spatially-bounded audio elements with derived interior representation
CA3233947A1 (en) * 2021-10-11 2023-04-20 Chamran MORADI ASHOUR Spatial rendering of audio elements having an extent
GB202115533D0 (en) * 2021-10-28 2021-12-15 Nokia Technologies Oy A method and apparatus for audio transition between acoustic environments
WO2024012867A1 (en) 2022-07-13 2024-01-18 Telefonaktiebolaget Lm Ericsson (Publ) Rendering of occluded audio elements

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
WO2011101708A1 (en) * 2010-02-17 2011-08-25 Nokia Corporation Processing of multi-device audio capture
US9729993B2 (en) 2012-10-01 2017-08-08 Nokia Technologies Oy Apparatus and method for reproducing recorded audio with correct spatial directionality
WO2018045112A1 (en) * 2016-09-01 2018-03-08 Harman International Industries, Incorporated Dynamic augmentation of real-world sounds into a virtual reality sound mix
US10264380B2 (en) * 2017-05-09 2019-04-16 Microsoft Technology Licensing, Llc Spatial audio for three-dimensional data sets
EP3506082B1 (en) * 2017-12-27 2022-12-28 Nokia Technologies Oy Audio rendering for augmented reality

Also Published As

Publication number Publication date
US11930351B2 (en) 2024-03-12
WO2020144061A1 (en) 2020-07-16
US20220070606A1 (en) 2022-03-03
EP3909264A1 (en) 2021-11-17

Similar Documents

Publication Publication Date Title
BR112021013289A2 (pt) Método e nó para renderizar áudio, programa de computador, e, portadora
US9197979B2 (en) Object-based audio system using vector base amplitude panning
ES2606678T3 (es) Presentación de sonido reflejado para audio con base de objeto
ES2922639T3 (es) Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
JP4347422B2 (ja) 空間形成されたオーディオの再生
US9622014B2 (en) Rendering and playback of spatial audio using channel-based audio systems
US10785588B2 (en) Method and apparatus for acoustic scene playback
US11089425B2 (en) Audio playback method and audio playback apparatus in six degrees of freedom environment
Gorzel et al. Efficient encoding and decoding of binaural sound with resonance audio
US10674301B2 (en) Fast and memory efficient encoding of sound objects using spherical harmonic symmetries
CN105934955B (zh) 用于生成多个音频声道的装置和方法
CN106714074A (zh) 用于回放更高阶立体混响音频信号的方法和设备
BR112021011170A2 (pt) Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida
BRPI0315326B1 (pt) método para codificar e decodificar a largura de uma fonte de som em uma cena de áudio
US10757528B1 (en) Methods and systems for simulating spatially-varying acoustics of an extended reality world
US10721578B2 (en) Spatial audio warp compensator
ES2833424T3 (es) Aparato y método para panoramización de amplitud de atenuación de bordes
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
PT1568251E (pt) Método para descrever a composição de sinais áudio
BR112020019890A2 (pt) Métodos, aparelho e sistemas para sinal pré-renderizado para renderização de áudio
KR102643841B1 (ko) 정보 처리 장치 및 방법, 그리고 프로그램
TW202332290A (zh) 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流
KR20210120063A (ko) 오디오 신호 처리 방법 및 장치