BR112021011170A2 - Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida - Google Patents

Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida Download PDF

Info

Publication number
BR112021011170A2
BR112021011170A2 BR112021011170-0A BR112021011170A BR112021011170A2 BR 112021011170 A2 BR112021011170 A2 BR 112021011170A2 BR 112021011170 A BR112021011170 A BR 112021011170A BR 112021011170 A2 BR112021011170 A2 BR 112021011170A2
Authority
BR
Brazil
Prior art keywords
sound source
spatially extended
sound
information
geometry
Prior art date
Application number
BR112021011170-0A
Other languages
English (en)
Inventor
Jürgen Herre
Emanuel Habets
Sebastian SCHLECHT
Alexander ADAMI
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Publication of BR112021011170A2 publication Critical patent/BR112021011170A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

Trata-se de um aparelho para reproduzir uma fonte sonora espacialmente estendida que tem uma posição e geometria definidas em um espaço, sendo que o aparelho compreende uma interface (100) para receber uma posição de ouvinte; um projetor (120) para calcular uma projeção de uma carcaça bidimensional ou tridimensional associada à fonte sonora espacialmente estendida em um plano de projeção usando a posição de ouvinte, informações sobre a geometria da fonte sonora espacialmente estendida e informações sobre a posição da fonte sonora espacialmente estendida; uma calculadora de posição de som (140) para calcular posições de pelo menos duas fontes sonoras para a fonte sonora espacialmente estendida usando o plano de projeção; e um renderizador (160) para renderizar as pelo menos duas fontes sonoras nas posições, para obter uma reprodução da fonte sonora espacialmente estendida que tem dois ou mais sinais de saída, em que o renderizador (160) é configurado para usar diferentes sinais sonoros para as diferentes posições, em que os diferentes sinais sonoros estão associados à fonte sonora espacialmente estendida

Description

“APARELHO E MÉTODO PARA REPRODUZIR UMA FONTE SONORA ESPACIALMENTE ESTENDIDA OU APARELHO E MÉTODO PARA GERAR UM FLUXO DE BITS A PARTIR DE UMA FONTE SONORA ESPACIALMENTE ESTENDIDA” RELATÓRIO DESCRITIVO
[0001] A presente invenção refere-se ao processamento de sinal de áudio e, particularmente, à codificação ou decodificação ou reprodução de uma fonte sonora espacialmente estendida.
[0002] A reprodução de fontes sonoras em vários alto-falantes ou fones de ouvido tem sido investigada há muito tempo. A maneira mais simples de reproduzir fontes sonoras nessas configurações é renderizá-las como fontes pontuais, isto é, fontes sonoras muito (idealmente: infinitamente) pequenas. Este conceito teórico, no entanto, dificilmente é capaz de modelar as fontes sonoras físicas existentes de uma forma realista. Por exemplo, um piano de cauda tem um grande fechamento de madeira vibrante com muitas cordas distribuídas espacialmente dentro e, portanto, parece muito maior na percepção auditiva do que uma fonte pontual (especialmente quando o ouvinte (e os microfones) estão perto do piano de cauda. Muitas fontes sonoras do mundo real têm um tamanho considerável ("extensão espacial"), como instrumentos musicais, máquinas, uma orquestra ou coro ou sons ambientais (som de uma cachoeira).
[0003] A reprodução correta/realista de tais fontes sonoras tornou-se o alvo de muitos métodos de reprodução de som, seja binaural (isto é, usando as chamadas Funções de transferência relacionadas à cabeça HRTFs ou Respostas ao Impulso da Sala Binaural BRIRs) usando fones de ouvido ou de forma convencional usando configurações de alto-falantes que variam a partir de 2 alto-falantes ("estéreo") para muitos alto-falantes dispostos em um plano horizontal ("Som Surround") e muitos alto-falantes ao redor do ouvinte em todas as três dimensões ("Áudio 3D").
[0004] É um objetivo da presente invenção fornecer um conceito para codificar ou reproduzir Fontes Sonoras Espacialmente Estendidas com um formato geométrico possivelmente complexo.
LARGURA DE FONTE 2D
[0005] Esta seção descreve métodos que pertencem à renderização de fontes sonoras estendidas em uma superfície 2D a partir do ponto de vista de um ouvinte, por exemplo, em uma certa faixa de azimute em zero graus de elevação (como é o caso no som estéreo/surround convencional) ou certas faixas de azimute e elevação (como é o caso em Áudio 3D ou realidade virtual com 3 graus de liberdade ["3DoF"] do movimento do usuário, ou seja, rotação da cabeça em eixos de inclinação/guinada/rotação).
[0006] Aumentar a largura aparente de um objeto de áudio que é movido de modo panorâmico entre dois ou mais alto-falantes (gerando uma chamada imagem fantasma ou fonte fantasma) pode ser alcançado diminuindo a correlação dos sinais de canal participantes (Blauert, 2001, S. 241-257).
Com a correlação decrescente, a propagação da fonte fantasma aumenta até que, para valores de correlação próximos de zero (e ângulos de abertura não muito amplos), cobre toda a faixa entre os alto-falantes.
[0007] Versões descorrelacionadas de um sinal de origem são obtidas derivando-se e aplicando-se filtros de descorrelação adequados. Lauridsen (Lauridsen, 1954) propôs adicionar/subtrair uma versão com atraso e escala do sinal de origem para si mesmo, a fim de obter duas versões descorrelacionadas do sinal. Abordagens mais complexas foram, por exemplo, propostas por Kendall (Kendall, 1995).
Ele derivou iterativamente filtros passa-tudo de descorrelação emparelhada com base em combinações de sequências de números aleatórios. Faller et al. propõem filtros de descorrelação adequados ("difusores") em (Baumgarte & Faller, 2003) (Faller & Baumgarte, 2003).
Zotter et al. também derivaram pares de filtros nos quais as diferenças de fase ou amplitude dependentes da frequência foram usadas para alcançar o alargamento de uma fonte fantasma (Zotter & Frank, 2013). Além disso, (Alary, Politis, & Välimäki, 2017) propuseram filtros de descorrelação com base em ruído de veludo que foram otimizados ainda mais por (Schlecht, Alary, Välimäki, & Habets, 2018).
[0008] Além de reduzir a correlação dos sinais de canal correspondentes da fonte fantasma, a largura da fonte também pode ser aumentada aumentando-se o número de fontes fantasmas atribuídas a um objeto de áudio. Em (Pulkki,
1999), a largura da fonte é controlada movendo-se de modo panorâmico o mesmo sinal de fonte para direções (ligeiramente) diferentes. O método foi originalmente proposto para estabilizar a propagação de fonte fantasma percebida de sinais de fonte panorâmica VBAP (Pulkki, 1997) quando eles são movidos na cena de som. Isso é vantajoso, por depender da direção de uma fonte, uma fonte renderizada é reproduzida por dois ou mais alto-falantes, o que pode resultar em alterações indesejadas da largura da fonte percebida.
[0009] Mundo virtual DirAC (Pulkki, Laitinen, & Erkut, 2009) é uma extensão da abordagem tradicional de Codificação de Áudio Direcional (DirAC) (Pulkki, 2007) para síntese de som em mundos virtuais. Para renderizar a extensão espacial, os componentes de som direcionais de uma fonte são movidos de modo panorâmico aleatoriamente dentro de uma determinada faixa em torno da direção original da fonte, onde as direções panorâmicas variam com o tempo e a frequência.
[0010] Uma abordagem semelhante é buscada em (Pihlajamäki, Santala, & Pulkki, 2014), em que a extensão espacial é alcançada distribuindo-se de modo aleatório bandas de frequência de um sinal de origem em diferentes direções espaciais. Este é um método que visa produzir um som espacialmente distribuído e envolvente, que vem igualmente a partir de todas as direções, em vez de controlar um grau exato de extensão.
[0011] Verron et al. alcançaram a extensão espacial de uma fonte não usando sinais correlacionados com movimento panorâmico, mas sintetizando-se várias versões incoerentes do sinal de origem, distribuindo-os uniformemente em um círculo ao redor do ouvinte e misturando-se entre eles (Verron, Aramaki, Kronland- Martinet, & Pallone, 2010). O número e o ganho de fontes simultaneamente ativas determinam a intensidade do efeito de alargamento. Este método foi implementado como uma extensão espacial para um sintetizador de sons ambientais.
LARGURA DE FONTE 3D
[0012] Esta seção descreve métodos que pertencem à renderização de fontes sonoras estendidas no espaço 3D, isto é, em uma forma volumétrica, pois é exigido para realidade virtual com 6 graus de liberdade (“6DoF”). Isso significa 6 graus de liberdade de movimento do usuário, isto é, rotação da cabeça em eixos de inclinação/guinada/rotação) mais 3 direções de movimento de translação x/y/z.
[0013] Potard et al. estenderam a noção de extensão da fonte como um parâmetro unidimensional da fonte (isto é, sua largura entre dois alto-falantes) estudando-se a percepção dos formatos da fonte (Potard, 2003). Eles geraram múltiplas fontes de pontos incoerentes, aplicando- se técnicas de descorrelação (variáveis no tempo) ao sinal da fonte original e, em seguida, colocando-se as fontes incoerentes em diferentes localizações espaciais e, assim, dando-lhes extensão tridimensional (Potard & Burnett, 2004).
[0014] Em MPEG-4 Advanced AudioBIFS (Schmidt & Schröder, 2004), objetos/formatos volumétricos (casca, caixa, elipsoide e cilindro) podem ser preenchidos com várias fontes sonoras igualmente distribuídas e descorrelacionadas para evocar a extensão da fonte tridimensional.
[0015] A fim de aumentar e controlar a extensão da fonte usando Ambisonics, Schmele et al. (Schmele & Sayin, 2018) propuseram uma mistura de reduzir a ordem Ambisonics de um sinal de entrada, o que inerentemente aumenta a largura aparente da fonte e distribuir cópias descorrelacionadas do sinal de origem ao redor do espaço de escuta.
[0016] Outra abordagem foi introduzida por Zotter et al., em que eles adotaram o princípio proposto em (Zotter & Frank, 2013) (isto é, que deriva pares de filtros que introduzem fases dependentes da frequência e diferenças de magnitude para alcançar a extensão da fonte em configurações de reprodução estéreo) para Ambisonics (Zotter F., Frank, Kronlachner, & Choi, 2014).
[0017] Uma desvantagem comum das abordagens baseadas em movimento panorâmico (por exemplo, (Pulkki, 1997) (Pulkki, 1999) (Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009)) é sua dependência da posição de ouvinte.
Mesmo um pequeno desvio do ponto ideal causa o colapso da imagem espacial no alto-falante mais próximo do ouvinte.
Isso limita drasticamente sua aplicação no contexto de realidade virtual e realidade aumentada com 6 graus de liberdade (6DoF), onde o ouvinte deve se mover livremente.
Além disso, distribuir binários de frequência de tempo em abordagens baseadas em DirAC (por exemplo, (Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009)) nem sempre garante a renderização adequada da extensão espacial de fontes fantasmas. Além disso, normalmente degrada significativamente o timbre do sinal de origem.
[0018] A descorrelação dos sinais de origem é obtida, em geral, por um dos seguintes métodos: i) derivar pares de filtros com magnitude complementar (por exemplo, (Lauridsen, 1954)), ii) usar filtros passa-tudo com magnitude constante, mas (aleatoriamente) fase embaralhada (por exemplo, (Kendall, 1995) (Potard & Burnett, 2004)), ou iii) distribuir espacialmente de modo aleatório binários de tempo-frequência do sinal de origem (por exemplo, (Pihlajamäki, Santala, & Pulkki, 2014)).
[0019] Todas as abordagens têm suas próprias implicações: A filtragem complementar de um sinal de origem de acordo com i) normalmente leva a um timbre percebido alterado dos sinais descorrelacionados. Enquanto a filtragem passa-tudo como em ii) preserva o timbre do sinal de origem, a fase embaralhada interrompe as relações de fase originais e, especialmente para sinais transitórios, causa dispersão temporal severa e manchando artefatos. A distribuição espacial de binários de tempo-frequência provou ser eficaz para alguns sinais, mas também altera o timbre percebido do sinal. Além disso, mostrou ser altamente dependente do sinal e introduz artefatos severos para sinais impulsivos.
[0020] Povoar formatos volumétricos com múltiplas versões descorrelacionados de um sinal de origem, conforme proposto em Advanced AudioBIFS ((Schmidt & Schröder, 2004) (Potard, 2003) (Potard & Burnett, 2004))pressupõe a disponibilidade de um grande número de filtros que produzem sinais de saída descorrelacionados mutuamente (normalmente, são usadas mais de dez fontes de pontos por forma volumétrica). No entanto, encontrar esses filtros não é uma tarefa trivial e se torna mais difícil quanto mais esses filtros são necessários. Além disso, se os sinais de origem não forem totalmente descorrelacionados e um ouvinte se mover em torno de tal formato, por exemplo, em um cenário (de realidade virtual), as distâncias individuais da fonte até o ouvinte correspondem a diferentes atrasos dos sinais da fonte e sua sobreposição nos ouvidos do ouvinte, resultam em uma filtragem combinado dependente da posição, potencialmente introduzindo uma coloração instável irritante do sinal da fonte.
[0021] O controle da largura da fonte com a técnica baseada em (Schmele & Sayin, 2018) diminuindo-se a ordem Ambisonics mostrou ter um efeito audível apenas para transições a partir de 2ª para 1ª ordem ou para ordem 0.
Além disso, essas transições não são apenas percebidas como um alargamento da fonte, mas também frequentemente como um movimento da fonte fantasma. Embora a adição de versões descorrelacionadas do sinal da fonte possa ajudar a estabilizar a percepção da largura aparente da fonte,
também introduz efeitos de filtro combinado que alteram o timbre da fonte fantasma.
[0022] É um objetivo da presente invenção fornecer um conceito melhorado de reprodução de uma fonte sonora espacialmente estendida ou gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida.
[0023] Este objetivo é alcançado por meio de um aparelho para reproduzir uma fonte sonora espacialmente estendida, de acordo com a reivindicação 1, um aparelho para gerar um fluxo de bits, de acordo com a reivindicação 27, um método para reproduzir uma fonte sonora espacialmente estendida, de acordo com a reivindicação 35, um método para gerar um fluxo de bits, de acordo com a reivindicação 36, um fluxo de bits, de acordo com a reivindicação 41 ou um programa de computador, de acordo com a reivindicação 47.
[0024] A presente invenção é com base na constatação de que uma reprodução de uma fonte sonora espacialmente estendida pode ser alcançada e, particularmente, até mesmo tornada possível por meio do cálculo de uma projeção de uma carcaça bidimensional ou tridimensional, associada a uma fonte sonora espacialmente estendida em um plano de projeção que usa uma posição de ouvinte. Esta projeção é usada para calcular as posições de pelo menos duas fontes sonoras para a fonte sonora espacialmente estendida e, as pelo menos duas fontes sonoras são renderizadas nas posições para obter uma reprodução da fonte sonora espacialmente estendida, em que a renderização resulta em duas ou mais sinais de saída e em que diferentes sinais sonoros para as diferentes posições são usados, mas os diferentes sinais sonoros estão todos associados a uma mesma fonte sonora espacialmente estendida.
[0025] Uma reprodução de áudio bidimensional ou tridimensional de alta qualidade é obtida, uma vez que, por um lado, uma posição relativa variável no tempo entre a fonte sonora espacialmente estendida e a posição de ouvinte (virtual) é considerada. Por outro lado, a fonte sonora espacialmente estendida é eficientemente representada por informações de geometria na extensão da fonte sonora percebida e por uma série de pelo menos duas fontes sonoras, como fontes de ponto periféricas que podem ser facilmente processadas por renderizadores bem conhecidos na técnica. Particularmente, renderizadores simples na técnica estão sempre em posição de renderizar fontes sonoras em certas posições com relação a um determinado formatação de saída ou configuração de alto-falante. Por exemplo, duas fontes sonoras calculadas pela calculadora de posição sonora em certas posições, podem ser renderizadas nessas posições por panorâmica de amplitude, por exemplo.
[0026] Quando, por exemplo, as posições sonoras estão entre o surround esquerdo e esquerdo em uma formatação de saída 5.1, e quando as outras fontes sonoras estão entre o surround direito e direito na formatação de saída, o procedimento de panorâmica de amplitude realizado pelo renderizador resultaria em sinais bem semelhantes para o canal surround esquerdo e esquerdo para uma fonte sonora e em sinais correspondentemente bem semelhantes para surround direito e direito para a outra fonte sonora, de modo que o usuário perceba as fontes sonoras como vindo das posições calculadas pela calculadora de posição sonora. No entanto, devido ao fato de que todos os quatro sinais são, no final, associados e relacionados à fonte sonora espacialmente estendida, o usuário não percebe simplesmente duas fontes fantasmas associadas às posições calculadas pela calculadora de posição sonora, mas o ouvinte percebe uma única fonte sonora espacialmente estendida.
[0027] Um aparelho para reproduzir uma fonte sonora espacialmente estendida que tem uma posição definida na geometria em um espaço que compreende uma interface, um projetor, uma calculadora de posição sonora e um renderizador. A presente invenção permite levar em conta uma situação sonora aprimorada que ocorre, por exemplo, dentro de um piano. Um piano é um dispositivo grande e, até agora, o som do piano pode ter sido renderizado como vindo de uma única fonte pontual. Isso, no entanto, não representa totalmente as verdadeiras características sonoras do piano. De acordo com a presente invenção, o piano como um exemplo para uma fonte sonora espacialmente estendida é refletido por pelo menos dois sinais sonoros, em que um sinal sonoro poderia ser gravado por um microfone posicionado próximo à parte esquerda do piano, isto é, próximo às cordas graves, enquanto a outra fonte sonora poderia ser gravada por um segundo microfone diferente,
posicionado próximo à parte direita do piano, isto é, próximo às cordas agudas gerando tons altos. Naturalmente, ambos os microfones gravarão sons diferentes um do outro devido à situação de reflexão dentro do piano e, claro, também devido ao fato de uma corda de som grave estar mais próxima do microfone esquerdo do que do microfone direito e vice-versa. Por outro lado, no entanto, ambos os sinais de microfone terão uma quantidade considerável de componentes sonoros semelhantes que, no final, compõem o som singular de um piano.
[0028] De acordo com a presente invenção, um fluxo de bits que representa a fonte sonora espacialmente estendida, tal como o piano, é gerado gravando-se os sinais, gravando-se também as informações de geometria da fonte sonora espacialmente estendida e, opcionalmente, também gravando-se informações de localização relacionadas a diferentes posições do microfone (ou, geralmente, para as duas posições diferentes associadas às duas fontes sonoras diferentes) ou fornecendo-se uma descrição do formato geométrico percebido do som (do piano). A fim de refletir uma posição de ouvinte em relação às fontes sonoras, isto é, que o ouvinte pode "andar por aí" em uma realidade virtual ou uma realidade aumentada ou qualquer outra cena sonora, uma projeção de uma carcaça associada à fonte sonora espacialmente estendida, tal como o piano é calculado usando a posição de ouvinte e, as posições das pelo menos duas fontes sonoras são calculadas usando o plano de projeção, em que particularmente, as modalidades preferenciais se referem ao posicionamento das fontes sonoras em pontos periféricos do plano de projeção.
[0029] É possível com a sobrecarga de cálculo reduzida e sobrecarga de renderização reduzida para realmente representar o som de piano exemplificativo em uma situação bidimensional ou tridimensional de modo que, quando o ouvinte, por exemplo, está mais próximo da parte esquerda da fonte sonora, tal como o piano, o som que o ouvinte perceba seja diferente do som que ocorre quando o usuário está localizado próximo à parte direita da fonte sonora, como o piano, ou mesmo atrás da fonte sonora, como o piano.
[0030] Em vista do acima exposto, o conceito inventivo é singular em que, é fornecida na lateral do codificador, uma maneira de caracterizar uma fonte sonora espacialmente estendida que permite o uso da fonte sonora espacialmente estendida dentro de uma situação de reprodução sonora para uma verdadeira configuração dimensional ou tridimensional. Além disso, a utilização da posição de ouvinte dentro da descrição altamente flexível da fonte sonora espacialmente estendida é possível de uma maneira eficiente, calculando-se uma projeção de uma carcaça bidimensional ou tridimensional em um plano de projeção com o uso da posição de ouvinte. As posições sonoras de pelo menos duas fontes sonoras para a fonte sonora espacialmente estendida são calculadas usando o plano de projeção e as pelo menos duas fontes sonoras são renderizadas nas posições calculadas pela calculadora de posição sonora para obter uma reprodução da fonte sonora espacialmente estendida com dois ou mais sinais de saída para um fone de ouvido ou sinais de saída multicanal para dois ou mais canais em uma configuração de reprodução estéreo ou uma configuração de reprodução com mais de dois canais, como cinco, sete ou até mais canais.
[0031] Em comparação com o método da técnica anterior de preencher um volume 3D com som, colocando-se muitas fontes pontuais diferentes em todas as partes do volume a ser preenchido, a projeção evita ter que modelar muitas fontes sonoras e reduz o número de fontes pontuais empregadas drasticamente, exigindo-se preencher apenas a projeção da carcaça, isto é, um espaço 2D. Além disso, o número de fontes pontuais necessárias é reduzido ainda mais modelando preferencialmente apenas fontes na carcaça da projeção que poderiam - em casos extremos - ser simplesmente uma fonte sonora na borda esquerda da fonte sonora espacialmente estendida e uma fonte sonora na borda direita da fonte sonora espacialmente estendida. Ambas as etapas de redução são baseadas em duas observações psicoacústicas:
1. Em contraste com o azimute (e elevação) de uma fonte sonora, sua distância não pode ser percebida de maneira muito confiável. Assim, uma projeção do volume original em um plano perpendicular ao ouvinte não altera a percepção significativamente (mas pode ajudar a reduzir o número de fontes pontuais necessárias para a renderização).
2. Dois sons descorrelacionados que são distribuídos como fontes pontuais à esquerda e à direita, respectivamente, tendem a preencher perceptivamente o espaço entre eles com som.
[0032] Além disso, a lateral do codificador não só permite a caracterização de uma única fonte sonora espacialmente estendida, mas é flexível em que o fluxo de bits gerado como a representação pode incluir todos os dados para duas ou mais fontes sonoras espacialmente estendidas que estão preferencialmente relacionadas, em relação às suas informações de geometria e localização para um único sistema de coordenadas. Na lateral do decodificador, a reprodução não pode ser feita apenas para uma única fonte sonora espacialmente estendida, mas pode ser feita para várias fontes sonoras espacialmente estendida, em que o projetor calcula uma projeção para cada fonte sonora usando a posição de ouvinte (virtual). Além disso, a calculadora da posição sonora calcula as posições das pelo menos duas fontes sonoras para cada fonte sonora espacialmente estendida, e o renderizador renderiza todas as fontes sonoras calculadas para cada fonte sonora espacialmente estendida, por exemplo, adicionando-se os dois ou mais sinais de saída de cada fonte sonora espacialmente estendida em um modo sinal a sinal ou canal a canal e fornecendo-se os canais adicionados aos fones de ouvido correspondentes para uma reprodução binaural ou ao alto-falantes correspondentes em uma configuração de reprodução relacionada a alto-falantes ou, alternativamente, a um armazenamento para armazenar os
(combinados) dois ou mais sinais de saída para uso ou transmissão posterior.
[0033] No gerador - ou na lateral do codificador, um fluxo de bits é gerado usando um aparelho para gerar o fluxo de bits que representa uma descrição compactada para uma fonte sonora espacialmente estendida, em que o aparelho compreende um provedor de som para fornecer um ou mais sinais sonoros diferentes para a fonte sonora espacialmente estendida, e um formador de dados de saída gera o fluxo de bits que representa a cena de som compactada, em que o fluxo de bits compreende um ou mais sinais sonoros diferentes, de preferência de uma forma compactada, como compactado por um codificador de compressão de taxa de bits, por exemplo, um MP3, um AAC, um USAC ou um codificador MPEG-H. O formador de dados de saída é, além disso, configurado para introduzir no fluxo de bits, no caso de dois ou mais sinais sonoros diferentes, informações de localização individuais opcionais para cada sinal sonoro dos dois ou mais sinais sonoros diferentes que indicam uma localização do sinal sonoro correspondente, de preferência com relação às informações sobre a geometria da fonte sonora espacialmente estendida, isto é, que o primeiro sinal é o sinal gravado na parte esquerda de um piano no exemplo acima e um sinal gravado no lado direito do piano.
[0034] No entanto, alternativamente, as informações de localização não têm necessariamente que estar relacionada à geometria da fonte sonora espacialmente estendida, mas também pode estar relacionada a uma origem de coordenada geral, embora a relação com a geometria da fonte sonora espacialmente estendida seja preferencial.
[0035] Além disso, o aparelho para gerar o fluxo de bits compactado também compreende um provedor de geometria para calcular informações sobre a geometria da fonte sonora espacialmente estendida e o formador de dados de saída é configurado para introduzir, no fluxo de bits, as informações sobre a geometria, as informações sobre as informações de localização individuais para cada sinal sonoro, além dos pelo menos dois sinais sonoros, como os sinais sonoros gravados por microfones. No entanto, o provedor de som não precisa necessariamente captar os sinais do microfone, mas os sinais sonoros também podem ser gerados, na lateral do codificador, usando o processamento de descorrelação conforme o caso. Ao mesmo tempo, apenas um pequeno número de sinais sonoros ou mesmo um único sinal sonoro pode ser transmitido para o sinal sonoro espacialmente estendido e os sinais sonoros restantes são gerados no lado da reprodução usando processamento de descorrelação. Isso é preferencialmente sinalizado por um elemento de fluxo de bits no fluxo de bits para que o reprodutor sonoro sempre saiba quantos sinais sonoros estão incluídos por fonte sonora espacialmente estendida para que o reprodutor possa decidir, particularmente dentro da calculadora de posição sonora, quantos sinais sonoros estão disponíveis e quantos sinais sonoros devem ser derivados na lateral do decodificador, como por síntese de sinal ou processamento de correlação.
[0036] Nesta modalidade, o regenerador escreve um elemento de fluxo de bits no fluxo de bits que indica o número de sinais sonoros incluídos para uma fonte sonora espacialmente estendida e, no lateral do decodificador, o reprodutor sonoro conduz o elemento de fluxo de bits a partir do fluxo de bits, lê o elemento de fluxo de bits e decide, com base no elemento de fluxo de bits, quantos sinais para as fontes de ponto preferencialmente periféricas ou as fontes auxiliares colocadas entre as fontes sonoras periféricas têm que ser calculados com base em pelo menos um sinal sonoro recebido no fluxo de bits.
[0037] Modalidades preferenciais da presente invenção são abordadas de modo subsequente em relação aos desenhos anexos, nos quais: A Figura 1 é uma visão geral de um diagrama de blocos de uma modalidade preferencial da lateral de reprodução; A Figura 2 ilustra uma fonte sonora espacialmente estendida esférica com um número diferente de fontes de ponto periféricos; A Figura 3 ilustra uma fonte sonora espacialmente estendida elipsoidal com várias fontes de ponto periféricos; A Figura 4 ilustra uma linha de fonte sonora espacialmente estendida com diferentes métodos para distribuir a localização das fontes de ponto periféricos; A Figura 5 ilustra uma fonte sonora espacialmente estendida cuboide com diferentes procedimentos para distribuir as fontes de ponto periféricos; A Figura 6 ilustra uma fonte sonora espacialmente estendida esférica em diferentes distâncias; A Figura 7 ilustra uma fonte sonora espacialmente estendida em formato de piano dentro de um formato elipsoidal paramétrico; A Figura 8 ilustra uma fonte sonora espacialmente estendida em formato de piano com três fontes de ponto periférico distribuídos em pontos extremos da carcaça convexa projetada; A Figura 9 ilustra uma implementação preferencial do aparelho ou método para reproduzir uma fonte sonora espacialmente estendida; A Figura 10 ilustra uma implementação preferencial do aparelho ou método para gerar um fluxo de bits que representa uma descrição compactada para uma fonte sonora espacialmente estendida; e A Figura 11 ilustra uma implementação preferencial do fluxo de bits gerado pelo aparelho ou método ilustrado na Figura
10.
[0038] A Figura 9 ilustra uma implementação preferencial de um aparelho para reproduzir uma fonte sonora espacialmente estendida com uma posição definida e geometria em um espaço. O aparelho compreende uma interface 100, um projetor 120, uma calculadora de posição sonora 140 e um renderizador 160. A interface está configurada para receber uma posição de ouvinte. Além disso, o projetor 120 está configurado para calcular uma projeção de uma carcaça bidimensional ou tridimensional associada à fonte sonora espacialmente estendida em um plano de projeção que usa a posição de ouvinte como recebida pela interface 100 e que usa, adicionalmente, informações sobre a geometria da fonte sonora espacialmente estendida e, adicionalmente, que usa informações sobre a posição da fonte sonora espacialmente estendida no espaço.
De preferência, a posição definida da fonte sonora espacialmente estendida no espaço e adicionalmente, a geometria da fonte sonora espacialmente estendida no espaço é recebida para reproduzir uma fonte sonora espacialmente estendida por meio de um fluxo de bits que chega a um demultiplexador de fluxo de bits ou analisador de cena 180. O demultiplexador de fluxo de bits
180 extrai, a partir do fluxo de bits, as informações da geometria da fonte sonora espacialmente estendida e fornece estas informações ao projetor.
Além disso, o demultiplexador de fluxo de bits também extrai a posição da fonte sonora espacialmente estendida do fluxo de bits e encaminha essas informações para o projetor.
De preferência, o fluxo de bits também compreende informações de localização para as pelo menos duas fontes sonora diferentes e, de preferência, o demultiplexador de fluxo de bits também extrai, a partir do fluxo de bits, uma representação compactada de pelo menos duas fontes sonoras e as pelo menos duas fontes sonoras são descompactadas/decodificadas por um decodificador como um decodificador de áudio 190. As pelo menos duas fontes sonoras decodificadas são finalmente encaminhadas para o renderizador 160 e o renderizador renderiza as pelo menos duas fontes sonoras nas posições fornecidas pela calculadora de posição sonora 140 para o renderizador 160.
[0039] Embora a Figura 9 ilustre um aparelho de reprodução relacionado ao fluxo de bits com um demultiplexador de fluxo de bits 180 e um decodificador de áudio 190, a reprodução também pode ocorrer em uma situação diferente de um cenário de codificador/decodificador. Por exemplo, a posição definida e a geometria no espaço já podem existir no aparelho de reprodução, como em uma cena de realidade virtual ou realidade aumentada, em que os dados são gerados no local e são consumidos no mesmo local.
O demultiplexador de fluxo de bits 180 e o decodificador de áudio 190 não são realmente necessários, e as informações da geometria da fonte sonora espacialmente estendida e a posição da fonte sonora espacialmente estendida estão disponíveis sem qualquer extração de um fluxo de bits. Além disso, as informações de localização relacionadas à localização das pelo menos duas fontes sonoras com as informações de geometria da fonte sonora espacialmente estendida, também podem ser negociadas fixamente com antecedência e, portanto, não precisam ser transmitidas de um codificador para um decodificador ou, alternativamente, esses dados são gerados, novamente, no local.
[0040] Portanto, deve-se notar que as informações de localização são fornecidas apenas em modalidades e não há necessidade de transmitir essas informações, mesmo no caso de dois ou mais sinais de fonte sonoras. O decodificador ou reprodutor, por exemplo, pode sempre tomar o primeiro sinal de fonte sonora no fluxo de bits como uma fonte sonora na projeção que é colocada mais à esquerda. De forma similar, o segundo sinal de fonte sonora no fluxo de bits pode ser tomado como uma fonte sonora na projeção que é colocada mais à direita.
[0041] Além disso, embora a calculadora de posição sonora calcule as posições de pelo menos duas fontes sonoras para a fonte sonora espacialmente estendida, que usa o plano de projeção, as pelo menos duas fontes sonoras não precisam necessariamente serem recebidas de um fluxo de bits. Em vez disso, apenas uma única fonte sonora das pelo menos duas fontes sonoras pode ser recebida através do fluxo de bits e a outra fonte sonora e, portanto, também a outra posição ou informações de localização, pode ser gerada no lado da reprodução apenas sem a necessidade de transmitir tais informações de um gerador de fluxo de bits para o reprodutor. No entanto, em outras modalidades, todas essas informações podem ser transmitidas e adicionalmente, um número maior do que um ou dois sinais sonoros podem ser transmitidos no fluxo de bits, quando os requisitos de taxa de bits não são apertados e, o decodificador de áudio 190 decodificará dois, três ou até mais sinais sonoros que representam as pelo menos duas fontes sonoras cujas posições são calculadas pela calculadora de posição sonora
140.
[0042] A Figura 10 ilustra a lateral do codificador deste cenário, quando a reprodução é aplicada dentro de um aplicativo de codificador/decodificador. A Figura 10 ilustra um aparelho para gerar um fluxo de bits que representa uma descrição compactada para uma fonte sonora espacialmente estendida. Particularmente, são fornecidos um provedor de som 200 e um formador de dados de saída 240. Nesta implementação, a fonte sonora espacialmente estendida é representada por uma descrição compactada com um ou mais sinais sonoros diferentes e o formador de dados de saída gera o fluxo de bits que representa a cena sonora compactada, em que o fluxo de bits compreende pelo menos um ou mais sinais sonoros diferentes e informações de geometria relacionadas à fonte sonora espacialmente estendida. Isto representa a situação ilustrada em relação à Figura 9, em que todas as outras informações, como a posição da fonte sonora espacialmente estendida (consultar a seta pontilhada no bloco 120 da Figura 9) são livremente selecionáveis por um usuário no lado da reprodução. Assim, é fornecida uma descrição singular da fonte sonora espacialmente estendida com pelo menos um ou mais sinais sonoros diferentes para esta fonte sonora espacialmente estendida, em que esses sinais sonoros são meramente sinais de fonte pontual.
[0043] O aparelho para gerar, adicionalmente, compreende o provedor de geometria 220 para fornecer informações sobre a geometria para a fonte sonora espacialmente estendida. Outras maneiras de fornecer as informações de geometria diferentes a partir do cálculo, compreendem o recebimento de uma entrada de usuário, como uma figura elaborada manualmente pelo usuário ou quaisquer outras informações fornecidas pelo usuário, por exemplo,
por meio de discurso, tons, gestos ou qualquer outra ação do usuário. Além de um ou mais sinais sonoros diferentes, também as informações sobre a geometria são introduzidas no fluxo de bits.
[0044] Opcionalmente, as informações sobre as informações de localização individuais para cada sinal sonoro de um ou mais sinais sonoros diferentes, também são introduzidas no fluxo de bits e/ou as informações de posição para a fonte sonora espacialmente estendida também são introduzidas no fluxo de bits. As informações de posição para a fonte sonora podem ser separadas das informações de geometria ou podem ser incluídas nas informações de geometria. No primeiro caso, as informações de geometria podem ser fornecidas em relação às informações de posição. No segundo caso, as informações de geometria podem compreender, por exemplo para uma esfera, o ponto central em coordenadas e o raio ou diâmetro. Para uma fonte sonora espacialmente estendida semelhante a uma caixa, os oito ou pelo menos um dos pontos de aresta podem ser dados em coordenadas absolutas.
[0045] As informações de localização para cada um dos um ou mais sinais sonoros diferentes estão de preferência relacionadas com as informações de geometria da fonte sonora espacialmente estendida. Alternativamente, no entanto, as informações de localização absoluta relacionadas ao mesmo sistema de coordenadas, em que a posição ou as informações de geometria da fonte sonora espacialmente estendida são fornecidas também são úteis e alternativamente, as informações de geometria também podem ser fornecidas dentro de um sistema de coordenadas absolutas com dados absolutos coordenadas ao invés de uma forma relativa. No entanto, fornecer esses dados de uma maneira relativa não relacionada a um sistema de coordenadas geral permite que o usuário posicione a fonte sonora espacialmente estendida na configuração de reprodução como indicado pela linha pontilhada direcionada para o projetor 120 da Figura 9.
[0046] Em uma outra modalidade, o provedor de som 200 da Figura 10 é configurado para fornecer pelo menos dois sinais sonoros diferentes para a fonte sonora espacialmente estendida e o formador de dados de saída é configurado para gerar o fluxo de bits de modo que o fluxo de bits compreenda pelo menos dois sinais sonoros diferentes, de preferência em um formato codificado e opcionalmente, as informações de localização individual para cada sinal sonoro dos pelo menos dois sinais sonoros diferentes, seja em coordenadas absolutas ou em relação à geometria da fonte sonora espacialmente estendida.
[0047] Em uma modalidade, o provedor de som é configurado para realizar uma gravação de uma fonte sonora natural nas múltiplas posições ou orientações de microfone individuais ou para realizar para derivar um sinal sonoro a partir de um único sinal de base ou vários sinais de base por um ou mais filtros de descorrelação como, por exemplo, discutido em relação à Figura 1, item 164 e 166. Os sinais básicos usados no gerador podem ser iguais ou diferentes dos sinais básicos fornecidos no local de reprodução ou transmitidos do gerador para o reprodutor.
[0048] Em uma outra modalidade, o provedor de geometria 220 é configurado para derivar, a partir da geometria da fonte sonora espacialmente estendida, uma descrição paramétrica ou uma descrição poligonal e o formador de dados de saída é configurado para introduzir, no fluxo de bits, esta descrição paramétrica ou descrição poligonal.
[0049] Além disso, o formador de dados de saída é configurado para introduzir, no fluxo de bits, um elemento de fluxo de bits, em uma modalidade preferencial, em que este elemento de fluxo de bits indica um número de pelo menos um sinal sonoro diferente para a fonte sonora espacialmente estendida incluída no fluxo de bits ou incluído em um sinal de áudio codificado associado ao fluxo de bits, em que o número é 1 ou maior que 1. O fluxo de bits gerado pelo formador de dados de saída não precisa necessariamente ser um fluxo de bits completo com dados de forma de onda de áudio por um lado e metadados por outro.
Em vez disso, o fluxo de bits também pode ser apenas um fluxo de bits de metadados separado que compreende, por exemplo, o campo de fluxo de bits para o número de sinais sonoros para cada fonte sonora espacialmente estendida, as informações de geometria para a fonte sonora espacialmente estendida e, em uma modalidade, também as informações de posição para a fonte sonora espacialmente estendida e, opcionalmente, as informações de localização para cada sinal sonoro e para cada fonte sonora espacialmente estendida, as informações de geometria para a fonte sonora espacialmente estendida e, em uma modalidade, também as informações de posição para a fonte sonora espacialmente estendida. Os sinais de áudio de forma de onda normalmente disponíveis em uma forma compactada são transmitidos por um fluxo de dados separado ou um canal de transmissão separado para o reprodutor de modo que o reprodutor receba, de uma fonte, os metadados codificados e de uma fonte diferente os sinais de forma de onda (codificados).
[0050] Além disso, uma modalidade do gerador de fluxo de bits compreende um controlador 250. O controlador 250 está configurado para controlar o provedor de som 200 em relação ao número de sinais sonoros a serem fornecidos pelo provedor de som. Em linha com este procedimento, o controlador 250 também fornece as informações do elemento de fluxo de bits para o formador de dados de saída 240 indicado pela linha tracejada que significa um recurso opcional. O formador de dados de saída introduz, no elemento de fluxo de bits, as informações específicas sobre o número de sinais sonoros como controlador controlado 250 e fornecido pelo provedor de som 200. De preferência, o número de sinais sonoros é controlado de modo que o fluxo de bits de saída que compreende os sinais sonoros de áudio codificados cumpra os requisitos de taxa de bits externa.
Quando uma taxa de bits permitida é alta, o provedor de som fornecerá mais sinais sonoros em comparação com uma situação, quando a taxa de bits permitida é pequena. Em um caso extremo, o provedor de som fornecerá apenas o único sinal sonoro para uma fonte sonora espacialmente estendida quando os requisitos de taxa de bits forem restritos.
[0051] O reprodutor lerá o elemento de fluxo de bits definido correspondentemente e continuará, dentro do renderizador 160, para sintetizar, na lateral do decodificador e que usa o sinal sonoro transmitido, um número correspondente de outros sinais sonoros de modo que, no final, um número necessário de fontes de ponto periféricos e, opcionalmente, fontes auxiliares sejam geradas.
[0052] Quando, no entanto, os requisitos de taxa de bits não são tão rígidos, o controlador 250 controlará o provedor de som para fornecer um grande número de sinais sonoros diferentes, por exemplo, gravados por um número correspondente de microfones ou orientações de microfone.
Então, no lado da reprodução, qualquer processamento de descorrelação não é necessário ou só é necessário em pequeno grau para que, no final, uma melhor qualidade de reprodução seja obtida pelo reprodutor devido ao processamento de descorrelação reduzido ou não exigido no lado da reprodução. Uma compensação entre a taxa de bits por um lado e a qualidade por outro, é preferencialmente obtida através da funcionalidade do elemento de fluxo de bits que indica o número de sinais sonoros por fonte sonora espacialmente estendida.
[0053] A Figura 11 ilustra uma modalidade preferencial do fluxo de bits gerado pelo aparelho de geração de fluxo de bits ilustrado na Figura 10. O fluxo de bits compreende, por exemplo, uma segunda fonte sonora espacialmente estendida 401 indicada como FSEE2 com os dados correspondentes.
[0054] Além disso, a Figura 11 ilustra dados detalhados para cada fonte sonora espacialmente estendida em relação à fonte sonora espacialmente estendida número 1.
No exemplo da Figura 11, dois sinais sonoros estão lá para a fonte sonora espacialmente estendida que foi gerada no gerador de fluxo de bits a partir de, por exemplo, dados de saída de microfone captados de microfones colocados em dois lugares diferentes de uma fonte sonora espacialmente estendida. O primeiro sinal sonoro é o sinal sonoro 1 que indicado em 301 e o segundo sinal sonoro é o sinal sonoro 2 indicado em 302, e ambos os sinais sonoros são preferencialmente codificados por meio de um codificador de áudio para compactação de taxa de bits. Além disso, o item 311 representa o elemento de fluxo de bits que indica o número de sinais sonoros para a fonte sonora espacialmente estendida 1 como, por exemplo, controlado pelo controlador 250 da Figura 10.
[0055] Informações de geometria para a fonte sonora espacialmente estendida são introduzidas como mostrado no bloco 331. O item 301 indica as informações de localização opcionais para os sinais sonoros, de preferência em relação às informações de geometria, como, em relação ao exemplo do piano, indicar "perto das cordas graves" para o sinal sonoro 1 e "perto das cordas agudas"
para o som sinal 2 indicado em 302. As informações de geometria podem, por exemplo, ser uma representação paramétrica ou uma representação poligonal de um modelo de piano e este modelo de piano seria diferente para um piano de cauda ou um piano (pequeno), por exemplo. O item 341 ilustra adicionalmente os dados opcionais sobre as informações de posição para a fonte sonora espacialmente estendida dentro do espaço. Conforme declarado, estas informações de posição 341 não são necessárias, quando o usuário fornece as informações de posição conforme indicado pela linha pontilhada na Figura 9 direcionada para o projetor. No entanto, mesmo quando as informações de posição 341 estão incluídas no fluxo de bits, o usuário pode, no entanto, substituir ou modificar as informações de posição por meio de uma interação do usuário.
[0056] De modo subsequente, as modalidades preferenciais da presente invenção são discutidas. As modalidades estão relacionadas à renderização de fontes sonoras espacialmente estendidas em 6DoF RV/RA (realidade virtual/realidade aumentada).
[0057] As modalidades preferenciais da invenção são direcionadas a um método, aparelho ou programa de computador que são projetados para melhorar a reprodução de Fontes Sonoras Espacialmente Estendidas (FSEE). Em particular, as modalidades do método ou aparelho inventivo consideram a posição relativa variável no tempo entre a fonte sonora espacialmente estendida e a posição de ouvinte virtual. Em outras palavras, as modalidades do método ou aparelho inventivo permitem que a largura da fonte auditiva corresponda à extensão espacial do objeto de som representado em qualquer posição relativa ao ouvinte. Como tal, uma modalidade do método ou aparelho inventivo se aplica, em particular, a aplicações de realidade virtual, mista e aumentada de 6 graus de liberdade (6DoF), em que a fonte sonora espacialmente estendida complementa as fontes pontuais tradicionalmente empregadas.
[0058] A modalidade do método ou aparelho inventivo renderiza uma fonte sonora espacialmente estendida usando-se várias fontes de ponto periférico que são alimentadas com (de preferência significativamente) sinais descorrelacionados. Em contraste com outros métodos, as localizações dessas fontes de ponto periféricos dependem da posição de ouvinte em relação à fonte sonora espacialmente estendida. A Figura 1 retrata o diagrama de blocos de visão geral de um processador de fonte sonora espacialmente estendida, de acordo com a modalidade do método ou aparelho inventivo.
[0059] Os principais componentes do diagrama de blocos são:
1. Posição de ouvinte: Este bloco fornece a posição momentânea de ouvinte, como por exemplo medido por meio de um sistema de rastreamento de realidade virtual. O bloco pode ser implementado como um detector 100 para detectar ou uma interface 100 para receber a posição de ouvinte.
2. Posição e geometria da fonte sonora espacialmente estendida: Este bloco fornece os dados de posição e geometria da fonte sonora espacialmente estendida a serem renderizados, por exemplo, como parte da representação de cena de realidade virtual.
3. Projeção e computação de carcaça convexa: Esse bloco 120 computa a carcaça convexa da geometria da fonte sonora espacialmente estendida e, em seguida, projeta-o em direção à posição de ouvinte (por exemplo, "plano de imagem", consultar abaixo). Alternativamente, a mesma função pode ser alcançada projetando-se primeiro a geometria em direção à posição de ouvinte e, em seguida, computando sua carcaça convexa.
4. Localização de fontes de ponto periférico: Este bloco 140 computa as localizações das fontes de ponto periférico usados a partir dos dados de projeção da carcaça convexa calculados pelo bloco anterior. Nesta computação, ele também pode considerar a posição de ouvinte e, portanto, a proximidade/distância do ouvinte (consultar abaixo). As saídas são locais de fontes de ponto periférico n.
5. Núcleo do renderizador: O núcleo do renderizador 162 auraliza as fontes de ponto periférico n, posicionando-as nos locais de destino especificados. Isso pode ser, por exemplo renderizadores binaurais que usam funções de transferência relacionadas à cabeça ou renderizadores para reprodução de alto-falantes (por exemplo, panorâmica de amplitude baseada em vetor). O núcleo do renderizador produz sinais de saída de alto-falante l ou fone de ouvido a partir de sinais de base de áudio de entrada k (por exemplo, sinais descorrelacionados de uma gravação de instrumento) e m ≥ (n-k) sinais de áudio descorrelacionados adicionais.
6. Sinais de Base de Fonte: Este bloco 164 é a entrada para sinais de áudio de base k que são (suficientemente) descorrelacionados uns dos outros e representam a fonte sonora a ser renderizada (por exemplo, uma gravação mono - k = 1 - ou estéreo - k = 2 - de um instrumento musical). Os sinais de áudio de base k são, por exemplo, retirados do fluxo de bits (consultar, por exemplo, os elementos 301, 302 da Figura 11) conforme recebidos a partir de um gerador lateral do decodificador ou podem ser fornecidos no local de reprodução a partir de uma fonte externa.
7. Descorrelacionados: Este bloco opcional 166 gera sinais de áudio descorrelacionados adicionais, conforme necessário para renderizar fontes de ponto periférico n.
8. Saída de sinal: O renderizador fornece sinais de saída para alto-falante l (por exemplo, n = 5,1) ou renderização binaural (normalmente n = 2).
[0060] A Figura 1 ilustra uma visão geral do diagrama de blocos de uma modalidade do método ou aparelho inventivo. As linhas tracejadas indicam a transmissão de metadados, como geometria e posições. As linhas sólidas indicam a transmissão de áudio, em que k, l e m indicam a multiplicidade de canais de áudio. O núcleo do renderizador 162 recebe possivelmente sinais de áudio k + m e dados de posição n (<= k + m). Os blocos 162, 164, 166 juntos formam uma modalidade do renderizador geral 160.
[0061] As localizações das fontes de ponto periféricos dependem da geometria, em particular da extensão espacial, da fonte sonora espacialmente estendida e da posição relativa do ouvinte em relação à fonte sonora espacialmente estendida. Em particular, as fontes de ponto periféricos podem estar localizadas na projeção da carcaça convexa da fonte sonora espacialmente estendida em um plano de projeção. O plano de projeção pode ser um plano de figuração, isto é, um plano perpendicular à linha de visão do ouvinte para a fonte sonora espacialmente estendida ou uma superfície esférica em torno da cabeça do ouvinte. O plano de projeção está localizado a uma pequena distância arbitrária do centro da cabeça do ouvinte.
Alternativamente, a carcaça convexa de projeção da fonte sonora espacialmente estendida pode ser computada a partir dos ângulos de azimute e elevação que são um subconjunto das coordenadas esféricas em relação à perspectiva da cabeça do ouvinte. Nos exemplos ilustrativos abaixo, o plano de projeção é preferencial devido ao seu caráter mais intuitivo. Na implementação da computação da carcaça convexa projetada, a representação angular é preferencial devido à formalização mais simples e menor complexidade computacional. Observe que a projeção da carcaça convexa da fonte sonora espacialmente estendida é idêntica à carcaça convexa da geometria da fonte sonora espacialmente estendida projetada, isto é, a computação da carcaça convexa e a projeção em um plano de figuração podem ser usados em qualquer ordem.
[0062] Os locais de fonte de ponto periférico podem ser distribuídos na projeção da carcaça convexa da fonte sonora espacialmente estendida de várias maneiras, que inclui: ● Eles podem ser distribuídos uniformemente em torno da projeção da carcaça ● Eles podem ser distribuídos em pontos extremos da projeção da carcaça ● Eles podem estar localizados nos pontos extremos horizontais e/ou verticais da projeção da carcaça (consultar as Figuras na Seção de Exemplos Práticos).
[0063] Além de fontes de ponto periféricos, também outras fontes pontuais auxiliares podem ser usadas para produzir uma sensação aprimorada de preenchimento acústico às custas de complexidade computacional adicional. Além disso, a carcaça convexa projetada pode ser modificada antes de posicionar as fontes de ponto periféricos. Por exemplo, a carcaça convexa projetada pode ser reduzida em direção ao centro de gravidade da carcaça convexa projetada. Tal carcaça convexa projetada encolhida pode ser responsável pela propagação espacial adicional das fontes de ponto periféricos individuais introduzidas pelo método de renderização. A modificação da carcaça convexa pode diferenciar ainda mais entre a escala das direções horizontal e vertical.
[0064] Quando a posição de ouvinte em relação à fonte sonora espacialmente estendida se altera, consequentemente a projeção da fonte sonora espacialmente estendida no plano de projeção se altera. Por sua vez,
consequentemente as localizações das fontes de ponto periférico se alteram. Os locais da fonte do ponto periférico devem ser preferencialmente escolhidos de modo que mudem suavemente para o movimento contínuo da fonte sonora espacialmente estendida e do ouvinte. Além disso, a carcaça convexa projetada é alterada quando a geometria da fonte sonora espacialmente estendida é alterada. Isso inclui a rotação da geometria da fonte sonora espacialmente estendida no espaço 3D que altera a carcaça convexa projetada. A rotação da geometria é igual a um deslocamento angular da posição de ouvinte em relação à fonte sonora espacialmente estendida e é citada de uma maneira inclusiva como a posição relativa do ouvinte e a fonte sonora espacialmente estendida. Por exemplo, um movimento circular do ouvinte em torno de uma fonte sonora espacialmente estendida esférica é representado rotando-se as fontes de ponto periféricos em torno do centro de gravidade. Da mesma forma, a rotação da fonte sonora espacialmente estendida com um ouvinte estacionário resulta na mesma mudança dos locais da fonte de ponto periférico.
[0065] A extensão espacial conforme é gerada pela modalidade do método ou aparelho inventivo, é inerentemente reproduzida corretamente para qualquer distância entre a fonte sonora espacialmente estendida e o ouvinte.
Naturalmente, quando o usuário se aproxima da fonte sonora espacialmente estendida, o ângulo de abertura entre a fonte do ponto periférico aumenta, pois é apropriado para modelar a realidade física.
[0066] Considerando-se que a colocação angular das fontes de ponto periféricos é determinada exclusivamente pela localização na carcaça convexa projetada no plano de projeção, as distâncias das fontes de ponto periféricos podem ser escolhidas de várias maneiras, que incluem ● Todas as fontes de ponto periférico têm a mesma distância igual à distância de toda a fonte sonora espacialmente estendida, por exemplo, definida através do centro de gravidade da fonte sonora espacialmente estendida em relação à cabeça do ouvinte.
● A distância de cada fonte de ponto periférico é determinada pela projeção posterior dos locais na carcaça convexa projetada na geometria da fonte sonora espacialmente estendida, como a projeção de fontes de ponto periférico no plano de projeção resulta no mesmo ponto. A projeção posterior das fontes de ponto periféricos da carcaça convexa projetada para a fonte sonora espacialmente estendida nem sempre pode ser determinada exclusivamente de modo que regras de projeção adicionais tenham que ser aplicadas (consultar a Seção Exemplos Práticos).
● A distância das fontes de ponto periféricos pode não ser determinada de forma alguma se a renderização das fontes de ponto periféricos não exigir a propriedade de distância, mas apenas a colocação angular relativa em azimute e elevação.
[0067] Para especificar o formato geométrica/carcaça convexa da fonte sonora espacialmente estendida, uma aproximação é usada (e, possivelmente,
transmitida para o renderizador ou núcleo do renderizador) que inclui um 1D simplificado, por exemplo, linha, curva; 2D, por exemplo, elipse, retângulo, polígonos; ou formato 3D, por exemplo, elipsoidal, cuboide e poliédrico. A geometria da fonte sonora espacialmente estendida ou o formato aproximado correspondente, respectivamente, podem ser descritos de várias maneiras, que incluem: ● Descrição paramétrica, isto é, uma formalização da geometria por meio de uma expressão matemática que aceita parâmetros adicionais. Por exemplo, um formato elipsoidal em 3D pode ser descrito por uma função implícita no sistema de coordenadas cartesianas e os parâmetros adicionais são a extensão dos eixos principais em todas as três direções.
Outros parâmetros podem incluir rotação 3D, funções de deformação da superfície do elipsoide.
● Descrição poligonal, isto é, uma coleção de formatos geométricos primitivos, como linhas, triângulos, quadrado, tetraedro e cuboides. Os polígonos primatas e poliédricos podem ser concatenados a geometrias maiores e mais complexas.
[0068] Os sinais da fonte de ponto periférico são derivados dos sinais básicos da fonte sonoras espacialmente estendidas. Os sinais básicos podem ser adquiridos de várias maneiras, como: 1) Gravação de uma fonte sonora natural em uma única ou múltiplas posições e orientações de microfone (Exemplo: gravação de um som de piano como visto nos exemplos práticos); 2) Síntese de uma fonte sonora artificial (Exemplo: síntese de som com parâmetros variáveis); 3) Combinação de quaisquer sinais de áudio (exemplo: vários sons mecânicos de um carro, como motor, pneus, porta, etc.). Além disso, sinais de fonte de ponto periférico adicionais podem ser gerados artificialmente a partir dos sinais de base por vários filtros de descorrelação (consultar a seção anterior).
[0069] Em certos cenários de aplicação, o foco está no armazenamento/transmissão compacto e interoperável de conteúdo 6DoF RV/RA. Neste caso, toda a cadeia consiste em três etapas:
1. Autoria/codificação das fontes sonoras espacialmente estendidas desejadas em um fluxo de bits
2. Transmissão/armazenamento do fluxo de bits gerado. De acordo com a invenção apresentada, o fluxo de bits contém, além de outros elementos, a descrição das geometrias de fonte sonora espacialmente estendida (paramétricas ou polígonos) e o sinal (ou sinais) de base de fonte associado, como uma gravação monofônica ou estereofônica de piano. As formas de onda podem ser compactadas (consultar o item 260 na Figura 10) que usam algoritmos de codificação de áudio perceptual, como mp3 ou MPEG-2/4 Codificação de Áudio Avançada (Advanced Audio Coding - AAC).
3. Decodificação/renderização das fontes sonoras espacialmente estendidas com base no fluxo de bits transmitido, conforme descrito anteriormente.
[0070] Além do método principal descrito anteriormente, existem várias opções para processamento posterior:
Opção 1 - Escolha Dinâmica do Número e Localização da fonte do ponto periférico
[0071] Dependendo da distância do ouvinte à fonte sonora espacialmente estendida, o número de fontes de ponto periféricos pode ser variado. Por exemplo, quando a fonte sonora espacialmente estendida e o ouvinte estão distantes um do outro, o ângulo de abertura (orifício) da carcaça convexa projetada torna-se pequeno e, portanto, menos fontes de ponto periféricos podem ser escolhidas com vantagem, economizando, assim, em computação e complexidade de memória. No caso extremo, todas as fontes de ponto periféricas são reduzidas em uma única fonte de ponto restante. Técnicas de mixagem de redução apropriadas podem ser aplicadas para garantir que a interferência entre os sinais básicos e derivados não degradem a qualidade de áudio dos sinais de fonte de ponto periférico resultantes.
Técnicas semelhantes podem ser aplicadas também em distâncias próximas da fonte sonora espacialmente estendida para a posição de ouvinte se a geometria da fonte sonora espacialmente estendida for altamente irregular, dependendo do ponto de vista relativo do ouvinte. Por exemplo, uma geometria de fonte sonora espacialmente estendida que é uma linha de comprimentos finitos pode degenerar no plano de projeção em direção a um único ponto. Em geral, se a extensão angular das fontes de ponto periféricos na carcaça convexa projetada for baixa, a fonte sonora espacialmente estendida pode ser representada por menos fontes de ponto periféricos. No caso extremo, todas as fontes de ponto periféricas são reduzidas em uma única fonte de ponto restante.
[0072] Opção 2 - Compensação de Propagação
[0073] Uma vez que cada fonte de ponto periférico também exibe uma propagação espacial em direção ao exterior da projeção da carcaça convexa, a largura da imagem auditiva percebida da fonte sonora espacialmente estendida renderizada é um pouco maior do que a carcaça convexa usada para renderização. Para alinhá-lo com uma geometria alvo desejada, existem duas possibilidades:
1. Compensação durante a autoria: A propagação adicional do procedimento de renderização é considerada durante a autoria do conteúdo. Especificamente, uma geometria de fonte sonora espacialmente estendida um pouco menor é escolhida durante a autoria do conteúdo, de modo que o tamanho realmente renderizado seja o desejado. Isso pode ser verificado monitorando o efeito do renderizador ou núcleo do renderizador no ambiente de autoria (por exemplo, um estúdio de produção). Neste caso, o fluxo de bits transmitido e o renderizador ou núcleo do renderizador usam uma geometria alvo reduzida em comparação com o tamanho alvo.
2. Compensação durante a renderização: O renderizador de fonte sonora espacialmente estendida ou núcleo de renderizador pode ser informado da propagação perceptual adicional pelo procedimento de renderização e, portanto, pode ser habilitado para compensar este efeito. Como um exemplo simples, a geometria usada para renderização poderia ser ○ reduzido por um fator constante a < 1,0 (por exemplo, a = 0,9), ou ○ reduzido por um ângulo de abertura constante alfa = 5 graus antes de ser aplicado para colocar fontes de ponto periférico. Neste caso, o fluxo de bits transmitido contém o eventual tamanho de destino da geometria da fonte sonora espacialmente estendida.
[0074] Além disso, uma combinação dessas abordagens é viável.
[0075] Opção 3 – Geração de Formas de Onda de fonte pontuais periféricas
[0076] Além disso, os sinais reais para alimentar as fontes de ponto periféricos podem ser gerados a partir de sinais de áudio gravados, considerando-se a posição do usuário em relação à fonte sonora espacialmente estendida, a fim de modelar fontes sonoras espacialmente estendidas com contribuições de som dependentes de geometria, como um piano com sons de notas baixas no lado esquerdo e vice- versa.
[0077] Exemplo: O som de um piano vertical é caracterizado por seu comportamento acústico. Isso é modelado por (pelo menos) dois sinais de base de áudio, um próximo à extremidade inferior do teclado do piano ("notas baixas") e um próximo à extremidade superior do teclado ("notas altas"). Esses sinais básicos podem ser obtidos pelo uso apropriado do microfone ao gravar o som do piano e transmitidos ao renderizador 6DoF ou núcleo do renderizador, que garante que haja descorrelação suficiente entre eles.
[0078] Os sinais da fonte pontuais periféricos são então derivados desses sinais básicos, considerando-se a posição do usuário em relação à fonte sonora espacialmente estendida: ● Quando o usuário fica de frente para o piano pelo lado frontal (teclado), as duas fontes de ponto periférico estão afastadas uma da outra perto da extremidade esquerda e direita do teclado do piano, respectivamente. Neste caso, o sinal de base para as teclas baixas pode ser alimentado diretamente na fonte de ponto periférico esquerdo e o sinal de base para as teclas altas pode ser usado diretamente para conduzir a fonte de ponto periférico direito.
● À medida que o ouvinte caminha ao redor do piano em cerca de 90 graus para a direita, as duas fontes de ponto periférico são deslocadas muito próximas uma da outra, uma vez que a projeção do modelo de volume do piano (por exemplo, uma elipse) é pequena quando vista lateralmente.
Se os sinais básicos continuassem a ser usados para acionar diretamente os sinais de fonte de ponto periférico, uma das fontes de ponto periféricos conteria predominantemente notas altas, enquanto a outra carregaria principalmente notas baixas. Como isso é indesejado a partir do ponto de vista físico, a renderização pode ser melhorada rotando-se os dois sinais básicos para formar os sinais de fonte do ponto periférico por uma rotação de Givens no mesmo ângulo que o movimento do usuário em relação ao centro de gravidade do piano. Desta forma, ambos os sinais contêm sinais de conteúdo espectral semelhante, embora ainda sejam descorrelacionados (assumindo que os sinais básicos foram descorrelacionados).
[0079] Opção 4 - Pós-processamento de fonte sonora espacialmente estendida Renderizada
[0080] Os sinais reais podem ser pré ou pós- processados para contabilizar o efeito dependente da posição e da direção, por exemplo, padrão de diretividade da fonte sonora espacialmente estendida. Em outras palavras, todo o som emitido a partir da fonte sonora espacialmente estendida, como descrito anteriormente, pode ser modificado para exibir, por exemplo, um padrão de radiação de som dependente da direção. No caso do sinal de piano, isso pode significar que a radiação na parte posterior do piano tem menos conteúdo de alta frequência do que na parte frontal. Além disso, o pré e pós-processamento dos sinais de fonte de ponto periférico podem ser ajustados individualmente para cada uma das fontes de ponto periférico. Por exemplo, o padrão de diretividade pode ser escolhido de forma diferente para cada uma das fontes de ponto periférico. No exemplo dado de uma fonte sonora espacialmente estendida que representa um piano, os padrões de diretividade da faixa de tons baixos e altos podem ser semelhantes aos descritos acima, no entanto, sinais adicionais, como ruídos de pedalada, têm um padrão de diretividade mais omnidirecional.
[0081] De modo subsequente, várias vantagens das modalidades preferenciais são resumidas
[0082] Complexidade computacional inferior em comparação com um preenchimento completo do interior da fonte sonora espacialmente estendida com fontes de ponto (por exemplo, como usado em Advanced AudioBIFS)
[0083] ● Menor potencial de interferência destrutiva entre sinais de fonte de ponto
[0084] ● Tamanho compacto de informações de fluxo de bits (aproximações de formato geométrico, uma ou mais formas de onda)
[0085] ● Permite o uso de gravações antigas (por exemplo, gravação estéreo de piano) que foram produzidas para consumo de música para fins de renderização RV/RA
[0086] De forma subsequente, vários exemplos de implementação prática são apresentados:
[0087] ● Fonte sonora espacialmente estendida esférica
[0088] ● Fonte sonora espacialmente estendida de elipsóide
[0089] ● Fonte sonora espacialmente estendida de linha
[0090] ● Fonte sonora espacialmente estendida cuboide
[0091] ● Fontes de ponto periférico dependentes da distância
[0092] ● Fonte sonora espacialmente estendida em formato de piano
[0093] Conforme descrito nas modalidades do método ou aparelho inventivo acima, vários métodos para determinar a localização das fontes de ponto periférico podem ser aplicados. Os exemplos práticos a seguir demonstram alguns métodos isolados em casos específicos. Em uma implementação completa da modalidade do método ou aparelho inventivo, os vários métodos podem ser combinados conforme apropriado considerando a complexidade computacional, a finalidade da aplicação, a qualidade do áudio e a facilidade de implementação.
[0094] A geometria da fonte sonora espacialmente estendida é indicada como uma malha de superfície verde.
Observe que a visualização da malha não implica que a geometria da fonte sonora espacialmente estendida seja descrita por um método poligonal, pois de fato a geometria da fonte sonora espacialmente estendida pode ser gerada a partir de uma especificação paramétrica. A posição de ouvinte é indicada por um triângulo azul. Nos exemplos a seguir, o plano de figuração é escolhido como o plano de projeção e retratado como um plano cinza transparente que indica um subconjunto finito do plano de projeção. A geometria projetada da fonte sonora espacialmente estendida no plano de projeção é retratada com a mesma malha de superfície em verde. As fontes de ponto periférico na carcaça convexa projetada são retratadas como cruzes vermelhas no plano de projeção. As fontes de ponto periférico posteriores projetadas na geometria da fonte sonora espacialmente estendida são retratadas como pontos vermelhos. As fontes de ponto periférico correspondentes na carcaça convexa projetada e as fontes de ponto periférico posteriores projetadas na geometria da fonte sonora espacialmente estendida são conectadas por linhas vermelhas para ajudar a identificar a correspondência visual. As posições de todos os objetos envolvidos são retratadas em um sistema de coordenadas cartesianas com unidades em metros. A escolha do sistema de coordenadas retratado não implica que as computações envolvidas sejam realizadas com coordenadas Cartesianas.
[0095] O primeiro exemplo na Figura 2 considera uma fonte sonora espacialmente estendida esférica. A fonte sonora espacialmente estendida esférica tem um tamanho fixo e uma posição fixa em relação ao ouvinte. Três conjuntos diferentes de três, cinco e oito fontes de ponto periférico são escolhidos na carcaça convexa projetada. Todos os três conjuntos de fontes de ponto periférico são escolhidos com distância uniforme na curva da carcaça convexa. As posições de deslocamento das fontes de ponto periférico na curva da carcaça convexa são deliberadamente escolhidas de modo que a extensão horizontal da geometria da fonte sonora espacialmente estendida seja bem representada.
[0096] A Figura 2 ilustra a fonte sonora espacialmente estendida esférica com diferentes números (isto é, 3 (superior), 5 (médio) e 8 (inferior)) de fontes de ponto periférico uniformemente distribuídas na carcaça convexa.
[0097] O próximo exemplo na Figura 3 considera uma fonte sonora espacialmente estendida elipsoidal. A fonte sonora espacialmente estendida elipsoidal tem um formato, posição e rotação fixas no espaço 3D. Quatro fontes de ponto periférico são escolhidos neste exemplo. Três métodos diferentes de determinação da localização das fontes de ponto periférico são exemplificados: a) duas fontes de ponto periférico são colocadas nos dois pontos extremos horizontais e duas fontes de ponto periférico são colocadas nos dois pontos extremos verticais. Considerando que, o posicionamento do ponto extremo é simples e muitas vezes apropriado. Este exemplo mostra que este método pode produzir locais de fonte de ponto periférico que são relativamente próximos uns dos outros.
b) Todas as quatro fontes de ponto periférico são distribuídas uniformemente na carcaça convexa projetada. O deslocamento da localização das fontes de ponto periférico é escolhido de modo que a localização da fonte de ponto periférico superior coincida com a localização da fonte do ponto periférico superior em a). Pode-se ver que a escolha do deslocamento da fonte de ponto periférico tem uma influência considerável na representação do formato geométrico através das fontes do ponto periférico.
c) Todas as quatro fontes de ponto periférico são distribuídas uniformemente em uma carcaça convexa projetada encolhida. A localização de deslocamento dos locais de fonte do ponto periférico é igual ao local de deslocamento escolhido em b). A operação de retração da carcaça convexa projetado é realizada em direção ao centro de gravidade do carcaça convexa projetada com um fator de alongamento independente da direção.
[0098] A Figura 3 ilustra uma fonte sonora espacialmente estendida elipsoidal com quatro fontes de ponto periférico sob três métodos diferentes de determinação da localização das fontes de ponto periférico: a/superior) pontos extremos horizontais e verticais, b/média) pontos uniformemente distribuídos no carcaça convexo, c/inferior) pontos uniformemente distribuídos em um carcaça convexo encolhido.
[0099] O próximo exemplo na Figura 4 considera uma fonte sonora de linha espacialmente estendida. Considerando que os exemplos anteriores consideraram geometria de fonte sonora espacialmente estendida volumétrica, este exemplo demonstra que a geometria de fonte sonora espacialmente estendida pode muito bem ser escolhida como um objeto unidimensional dentro do espaço 3D. A subfigura a) retrata duas fontes de ponto periférico colocadas nos pontos extremos da geometria da fonte sonora espacialmente estendida de linha finita. b) Duas fontes de ponto periférico são colocadas nos pontos extremos da geometria da fonte sonora espacialmente estendida de linha finita e uma fonte de ponto adicional é colocada no meio da linha.
Conforme descrito nas modalidades do método ou aparelho inventivo, a colocação de fontes de ponto adicionais dentro da geometria da fonte sonora espacialmente estendida, pode ajudar a preencher grandes lacunas em grandes geometrias de fonte sonora espacialmente estendida. c) A mesma geometria da fonte sonora espacialmente estendida de linha como em a) e b) é considerada, no entanto, o ângulo relativo em relação ao ouvinte alterado de modo que o comprimento projetado da geometria da linha seja consideravelmente menor. Conforme descrito nas modalidades do método ou aparelho inventivo acima, o tamanho reduzido da carcaça convexa projetada pode ser representado por um número reduzido de fontes de ponto periférico, neste exemplo particular, por uma única fonte pontual periférica localizada no centro da linha geometria.
[0100] A Figura 4 ilustra uma fonte sonora espacialmente estendida em linha com três métodos diferentes para distribuir a localização das fontes de ponto periférico: a/superior) dois pontos extremos no carcaça convexo projetado; b/médio) dois pontos extremos no carcaça convexo projetado com uma fonte de ponto adicional no centro da linha; c/inferior) fontes de um ponto periférico no centro do convexo, pois o carcaça convexo projetado da linha girada é muito pequeno para permitir mais de uma fonte de ponto periférico.
[0101] O próximo exemplo na Figura 5 considera uma fonte sonora cuboide espacialmente estendida. A fonte sonora espacialmente estendida cuboide tem tamanho e localização fixos, no entanto, a posição relativa do ouvinte se altera. As subfiguras a) e b) retratam métodos diferentes de colocação de quatro fontes de ponto periférico na carcaça convexa projetada. Os locais de fonte de ponto periférico projetado posteriores são exclusivamente determinados pela escolha na carcaça convexa projetada. c) retrata quatro fontes de ponto periférico que não têm locais de projeção posterior bem separados. Em vez disso, as distâncias dos locais da fonte de ponto periférico são escolhidas iguais à distância do centro de gravidade da geometria da fonte sonora espacialmente estendida.
[0102] A Figura 5 ilustra uma fonte sonora espacialmente estendida cuboide com três métodos diferentes para distribuir as fontes de ponto periférico: a/superior) duas fontes de ponto periférico no eixo geométrico horizontal e duas fontes de ponto periférico no eixo geométrico vertical; b/médio) duas fontes de ponto periférico nos pontos extremos horizontais do carcaça convexo projetado e duas fontes de ponto periférico nos pontos extremos verticais do carcaça convexo projetado; c/inferior) as distâncias da fonte de ponto periférico projetadas posteriores são escolhidas para serem iguais à distância do centro de gravidade da geometria da fonte sonora espacialmente estendida.
[0103] O próximo exemplo na Figura 6 considera uma fonte sonora esférica espacialmente estendida de tamanho e formato fixos, mas em três distâncias diferentes em relação à posição de ouvinte. As fontes de ponto periférico são distribuídas uniformemente na curva da carcaça convexa. O número de fontes de ponto periférico é determinado dinamicamente a partir do comprimento da curva do carcaça convexa e a distância mínima entre as possíveis localizações de fontes de ponto periférico. a) A fonte sonora espacialmente estendida esférica está a uma distância próxima, de modo que quatro fontes de ponto periférico são escolhidas no carcaça convexa projetada. b) A fonte sonora espacialmente estendida esférica está a uma distância intermediária, de modo que três fontes de ponto periférico são escolhidas na carcaça convexa projetada. a) A fonte sonora espacialmente estendida esférica está a uma longa distância, de modo que apenas duas fontes pontuais periféricas sejam escolhidas na carcaça convexa projetada.
Conforme descrito nas modalidades do método ou aparelho inventivo acima, o número de fontes de ponto periférico também pode ser determinado a partir da extensão representada em coordenadas angulares esféricas.
[0104] A Figura 6 ilustra uma fonte sonora espacialmente estendida esférica de tamanho igual, mas em distâncias diferentes: a/superior) distância próxima com quatro fontes de ponto periféricas distribuídas uniformemente na carcaça convexa projetada; b/média) distância média com três fontes de ponto periféricas distribuídas uniformemente na carcaça convexa projetada; c/inferior) longa distância com duas fontes de ponto periféricas distribuídas uniformemente na carcaça convexa projetada.
[0105] O último exemplo nas Figuras 7 e 8 considera uma fonte sonora espacialmente estendida em formato de piano colocada dentro de um mundo virtual. O usuário usa uns óculos de realidade virtual do tipo head- mounted display (HMD) e fones de ouvido. Uma cena de realidade virtual é apresentada ao usuário que consiste em uma tela de mundo aberto e um modelo de piano vertical 3D de pé no chão dentro da área de movimento livre (consultar a Figura 7). A tela de mundo aberto é uma imagem estática esférica projetada em uma esfera ao redor do usuário. Neste caso particular, a tela de mundo aberto retrata um céu azul com nuvens brancas. O usuário pode andar por aí, assistir e ouvir piano a partir de vários ângulos. Nesta cena, o piano é renderizado como uma fonte de ponto única colocada no centro de gravidade ou como uma fonte sonora espacialmente estendida com três fontes de ponto periférico na carcaça convexa projetada (consultar a Figura 8). Os experimentos de renderização mostram o realismo amplamente superior do método de renderização de fonte de ponto periférico em relação a uma renderização como uma fonte de ponto único.
[0106] Para simplificar a computação dos locais de fonte de ponto periférico, a geometria do piano é abstraída para um formato elipsoidal com dimensões semelhantes, consultar a Figura 7. Além disso, duas fontes de ponto substituto são colocadas nos pontos extremos esquerdo e direito na linha equatorial, enquanto o terceiro ponto substituto permanece no polo norte, consultar a Figura 8.
Esta disposição garante a largura de fonte horizontal apropriada de todos os ângulos a um custo computacional altamente reduzido.
[0107] A Figura 7 ilustra uma fonte sonora espacialmente estendida em formato de piano (retratada em verde) com um formato elipsoidal paramétrico aproximado (indicada como uma malha vermelha).
[0108] A Figura 8 ilustra uma fonte sonora espacialmente estendida em formato de piano com três fontes de ponto periférico distribuídas nos pontos extremos verticais da carcaça convexa projetada e a posição vertical superior do carcaça convexa projetada. Observe que, para uma melhor visualização, as fontes pontuais periféricas são colocadas em uma carcaça convexa projetada alongada.
[0109] De modo subsequente, são fornecidos os recursos específicos das modalidades da invenção. As características das modalidades apresentadas são as seguintes: ● Para preencher o espaço acústico percebido da fonte sonora estendida espacialmente, de preferência, não todo o seu interior é preenchido com fontes de ponto descorrelacionadas (fontes de ponto periférico), mas apenas sua periferia quando está de frente para o ouvinte (por exemplo, "a projeção da carcaça convexa da fonte sonora espacialmente estendida em direção ao ouvinte”).
Especificamente, isso significa que os locais da fonte de ponto periférico não estão ligados à geometria da fonte sonora espacialmente estendida, mas são calculados dinamicamente levando em consideração a posição relativa da fonte sonora espacialmente estendida em relação à posição de ouvinte.
○ Computação dinâmica de fontes de ponto periférico (número e localização) ● Uma aproximação do formato de fonte sonora espacialmente estendida é usada (para um cenário que usa uma representação compactada: transmitida como parte do fluxo de bits).
[0110] A aplicação da tecnologia descrita pode ser como parte de um padrão Audio 6DoF RV/RA. Neste contexto, temos o cenário clássico de codificação/fluxo de bits/decodificador (+ renderizador): ● No codificador, o formato da fonte sonora espacialmente estendida seria codificador como informações externas juntamente com as formas de onda de "base" da fonte sonora espacialmente estendida, que podem ser qualquer ○ um sinal mono, ou ○ um sinal estéreo (de preferência suficientemente descorrelacionado), ou ○ ainda mais sinais gravados (também de preferência suficientemente descorrelacionados) que caracterizam a fonte sonora espacialmente estendida.
Essas formas de onda podem ser codificadas com baixa taxa de bits.
● No decodificador/renderizador, o formato da fonte sonora espacialmente estendida e as formas de onda correspondentes são recuperadas a partir do fluxo de bits e usadas para renderizar a fonte sonora espacialmente estendida, conforme descrito anteriormente.
[0111] Dependendo das modalidades usadas e como alternativas às modalidades descritas, deve-se notar que a interface pode ser implementada como um rastreador ou detector real para detectar uma posição de ouvinte. No entanto, a posição de escuta será tipicamente recebida de um dispositivo rastreador externo e alimentada no aparelho de reprodução através da interface. No entanto, a interface pode representar apenas uma entrada de dados para dados de saída de um rastreador externo ou também pode representar o próprio rastreador.
[0112] Além disso, conforme descrito, fontes de áudio auxiliares adicionais entre a fonte sonora periférica podem ser necessárias.
[0113] Além disso, verificou-se que as fontes periféricas esquerda/direita e, opcionalmente, fontes auxiliares espaçadas horizontalmente (em relação ao ouvinte) são mais importantes para a impressão perceptual do que fontes sonoras periféricas espaçadas verticalmente, isto é, fonte sonora periférica na parte superior e na parte inferior da fonte sonora espacialmente estendida.
Quando, por exemplo, os recursos são escassos, é preferencial usar fontes sonoras periféricas espaçadas horizontalmente (e opcionalmente auxiliares), enquanto as fontes sonoras periféricas espaçadas verticalmente podem ser omitidas no interesse de economizar recursos de processamento.
[0114] Além disso, conforme descrito, o gerador de fluxo de bits pode ser implementado para gerar um fluxo de bits com apenas um sinal sonoro para a fonte sonora espacialmente estendida e os sinais sonoros restantes são gerados no lado do decodificador ou lado da reprodução por meio de descorrelação. Quando existe apenas um único sinal e quando todo o espaço deve ser preenchido igualmente com este único sinal, quaisquer informações de localização não são necessárias. No entanto, pode ser útil ter, em tal situação, pelo menos informações adicionais sobre uma geometria da fonte sonora espacialmente estendida calculada por uma calculadora de informações de geometria, como a ilustrada em 220 na Figura 10.
[0115] Deve ser mencionado aqui que todas as alternativas ou aspectos conforme discutidos anteriormente e todos os aspectos conforme definidos por reivindicações independentes nas seguintes reivindicações, podem ser usados individualmente, isto é, sem qualquer outra alternativa ou objetivo além da alternativa contemplada, objetivo ou reivindicação independente. No entanto, em outras modalidades, duas ou mais das alternativas ou os aspectos ou as reivindicações independentes podem ser combinados entre si e, em outras modalidades, todos os aspectos ou alternativas e todas as reivindicações independentes podem ser combinados entre si.
[0116] Uma descrição de campo de som codificado inventivo pode ser armazenada em uma mídia de armazenamento digital ou uma mídia de armazenamento não transitória ou pode ser transmitida em uma mídia de transmissão, como uma mídia de transmissão sem fio ou uma mídia de transmissão com fio, como a Internet.
[0117] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa de método ou um recurso de uma etapa de método.
De modo análogo, aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco correspondente ou item ou recurso de um aparelho correspondente.
[0118] Dependendo de certas exigências de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada com o uso de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória Flash, que tem sinais de controle eletronicamente legíveis armazenados na mesma, que cooperam (ou têm capacidade para cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.
[0119] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que têm capacidade para cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja realizado.
[0120] Em geral, modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operativo para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode ser, por exemplo, armazenado em uma portadora legível em máquina.
[0121] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento, armazenado em uma portadora legível por máquina ou uma mídia de armazenamento não transitória.
[0122] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos descritos no presente documento, quando o programa de computador for executado em um computador.
[0123] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, gravado na mesma, o programa de computador para realizar um dos métodos descritos no presente documento.
[0124] Uma modalidade adicionalmente do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
[0125] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador, um dispositivo de lógica programável, configurado ou adaptado para realizar um dos métodos descritos no presente documento.
[0126] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para realizar um dos métodos descritos no presente documento.
[0127] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, um arranjo de porta programável de campo) pode ser usado para realizar parte ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta programável de campo pode cooperar com um microprocessador de modo a realizar um dos métodos descritos no presente documento. Em geral, os métodos são de preferência realizados por qualquer aparelho de hardware.
[0128] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos no presente documento serão evidentes a outros elementos versados na técnica.
Portando, há a intenção de se limitar somente pelo escopo das reivindicações de patente iminente e não pelos detalhes específicos apresentados por meio de descrição e explicação das modalidades no presente documento.
REFERÊNCIAS BIBLIOGRÁFICAS
[0129] Alary, B., Politis, A., & Välimäki, V.
(2017). Velvet Noise Decorrelator.
[0130] Baumgarte, F., & Faller, C. (2003).
Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 509–519.
[0131] Blauert, J. (2001). Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press.
[0132] Faller, C., & Baumgarte, F. (2003).
Binaural Cue Coding-Part II: Schemes and Applications.
Speech and Audio Processing, IEEE Transactions on, 11(6), S. 520-531.
[0133] Kendall, G. S. (1995). The Decorrelation of Audio Signals and Its Impact on Spatial Imagery. Computer Music Journal, 19(4), S. p 71-87.
[0134] Lauridsen, H. (1954). Experiments Concerning Different Kinds of Room-Acoustics Recording.
Ingenioren, 47.
[0135] Pihlajamäki, T., Santala, O., & Pulkki, V.
(2014). Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals. Journal of the Audio Engineering Society, 62(7/8), S. 467–484.
[0136] Potard, G. (2003). A study on sound source apparent shape and wideness.
[0137] Potard, G., & Burnett, I. (2004).
Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays.
[0138] Pulkki, V. (1997). Virtual Sound Source Positioning Using Vector Base Amplitude Panning. Journal of the Audio Engineering Society, 45(6), S. 456–466.
[0139] Pulkki, V. (1999). Uniform spreading of amplitude panned virtual sources.
[0140] Pulkki, V. (2007). Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng.
Soc, 55(6), S. 503–516.
[0141] Pulkki, V., Laitinen, M.-V., & Erkut, C.
(2009). Efficient Spatial Sound Synthesis for Virtual Worlds.
[0142] Schlecht, S. J., Alary, B., Välimäki, V., & Habets, E. A. (2018). Optimized Velvet-Noise Decorrelator.
[0143] Schmele, T., & Sayin, U. (2018).
Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters.
[0144] Schmidt, J., & Schröder, E. F. (2004). New and Advanced Features for Audio Presentation in the MPEG-4 Standard.
[0145] Verron, C., Aramaki, M., Kronland-Martinet, R., & Pallone, G. (2010). A 3-D Immersive Synthesizer for Environmental Sounds. Audio, Speech, and Language Processing, IEEE Transactions on, title=A Backward- Compatible Multichannel Audio Codec, 18(6), S. 1550–1561.
[0146] Zotter, F., & Frank, M. (2013). Efficient Phantom Source Widening. Archives of Acoustics, 38(1), S.
27–37.
[0147] Zotter, F., Frank, M., Kronlachner, M., & Choi, J.-W. (2014). Efficient Phantom Source Widening and Diffuseness in Ambisonics.

Claims (47)

REIVINDICAÇÕES
1. Aparelho para reproduzir uma fonte sonora espacialmente estendida que tem uma posição e geometria definidas em um espaço, sendo que o aparelho é caracterizado por compreender: uma interface (100) para receber uma posição de ouvinte; um projetor para calcular uma projeção de uma carcaça bidimensional ou tridimensional associada à fonte sonora espacialmente estendida em um plano de projeção que usa a posição de ouvinte, informações sobre a geometria da fonte sonora espacialmente estendida e informações sobre a posição da fonte sonora espacialmente estendida; uma calculadora de posição de som para calcular posições de pelo menos duas fontes sonoras para a fonte sonora espacialmente estendida que usa o plano de projeção; e um renderizador para renderizar as pelo menos duas fontes sonoras nas posições para obter uma reprodução da fonte sonora espacialmente estendida com dois ou mais sinais de saída, em que o renderizador é configurado para usar diferentes sinais sonoros para as diferentes posições, em que os diferentes sinais sonoros estão associados à fonte sonora espacialmente estendida.
2. Aparelho, de acordo com a reivindicação 1, caracterizado pelo detector ser configurado para detectar uma posição momentânea de ouvinte no espaço usando um sistema de rastreamento ou em que a interface (100) é configurada para usar a entrada de dados de posição através da interface.
3. Aparelho, de acordo com a reivindicação 1 ou 2, configurado para receber uma descrição de cena, sendo que a descrição de cena compreende as informações sobre a posição definida e as informações sobre a geometria definida da fonte sonora espacialmente estendida e pelo menos um sinal sonoro associado à fonte sonora espacialmente estendida, em que o aparelho é caracterizado por compreender ainda um analisador de descrição de cena (180) para analisar a descrição de cena para recuperar as informações sobre a posição definida (341), as informações sobre a geometria definida (331) e o pelo menos um sinal de fonte sonora (301, 302), ou em que a descrição de cena compreende, para a fonte sonora espacialmente estendida, pelo menos dois sinais básicos sonoros (301, 302) e informações de localização (321) para cada sinal básico sonoro em relação às informações sobre a geometria (331) da fonte sonora espacialmente estendida, e em que a calculadora de posição de som (140) é configurada para usar as informações de localização para os pelo menos dois sinais de base ao calcula as posições das pelo menos duas fontes sonoras usando o plano de projeção.
4. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo projetor (120) ser configurado para computar a carcaça da fonte sonora espacialmente estendida usando as informações sobre a geometria (331) da fonte sonora espacialmente estendida e para projetar a carcaça em uma direção rumo ao ouvinte usando a posição de ouvinte para obter a projeção da carcaça bidimensional ou tridimensional no plano de projeção, ou em que o projetor (120) está configurado para projetar uma geometria da fonte sonora espacialmente estendida, conforme definido pelas informações sobre a geometria (331) da fonte sonora espacialmente estendida em uma direção rumo à posição de ouvinte e para calcular a carcaça de uma geometria projetada para obter a projeção da carcaça bidimensional ou tridimensional no plano de projeção.
5. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela calculadora de posição de som (140) ser configurada para calcular as posições da fonte sonora no espaço a partir dos dados de projeção da carcaça e a posição de ouvinte.
6. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela calculadora de posição de som (140) ser configurada para calcular a posição de modo que as pelo menos duas fontes sonoras sejam fontes sonoras periféricas e estejam localizadas no plano de projeção, ou em que a calculadora de posição de som (140) é configurada para calcular de modo que uma posição de uma fonte sonora periférica das fontes sonoras periféricas esteja localizada à direita do plano de projeção em relação ao ouvinte e/ou à esquerda do plano de projeção em relação ao ouvinte e/ou na parte superior do plano de projeção em relação ao ouvinte e/ou na parte inferior do plano de projeção em relação ao ouvinte.
7. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo renderizador (160) ser configurado para renderizar as pelo menos duas fontes sonoras com o uso de operações panorâmicas dependendo das posições das fontes sonoras para obter sinais de alto- falante para uma configuração de alto-falante predefinida, ou operações de renderização binaural usando funções de transferência relacionadas à cabeça, dependendo das posições das fontes para obter sinais de fone de ouvido.
8. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo primeiro número de sinais de fonte relacionados ser associado à fonte sonora espacialmente estendida, sendo que o primeiro número é um ou maior que um, em que os sinais de fonte relacionados estão relacionados à mesma fonte sonora espacialmente estendida, em que a calculadora de posição de som (140) determina um segundo número de fontes sonoras usadas para a renderização da fonte sonora espacialmente estendida, sendo que o segundo número é maior do que um, e em que o renderizador (160) compreende um ou mais descorrelacionadores (166) para gerar um sinal descorrelacionado de um ou mais sinais de fonte (164) do primeiro número, quando o segundo número é maior que o primeiro número.
9. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela interface (100) ser configurada para receber uma posição variável no tempo do ouvinte no espaço, em que o projetor (120) é configurado para calcular uma projeção variável no tempo no espaço, em que a calculadora de posição de som (140) é configurada para calcular um número variável no tempo ou fontes sonoras ou posições variáveis no tempo das fontes sonoras no espaço, e em que o renderizador (160) é configurado para renderizar o número variável no tempo de fontes sonoras ou as pelo menos duas fontes sonoras nas posições variáveis no espaço.
10. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela interface (100) ser configurada para receber a posição de ouvinte em seis graus de liberdade, e em que o projetor (120) é configurado para calcular a projeção dependendo dos seis graus de liberdade.
11. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo projetor (120) ser configurado para calcular a projeção como um plano de figuração, como um plano perpendicular à linha de visão do ouvinte, ou calcular a projeção como uma superfície esférica em torno da cabeça do ouvinte, ou calcular a projeção como um plano de projeção que é localizado a uma distância predeterminada de um centro da cabeça do ouvinte, ou calcular a projeção de uma carcaça convexa de uma fonte sonora espacialmente estendida a partir de um ângulo de azimute e um ângulo de elevação derivados de coordenadas esféricas em relação à perspectiva da cabeça de um ouvinte.
12. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela calculadora de posição de som (140) ser configurada para calcular as posições de modo que as posições sejam uniformemente distribuídas em torno da projeção da carcaça, ou de modo que as posições sejam colocadas em pontos extremos ou periféricos da projeção da carcaça ou de modo que as posições estejam localizadas em pontos extremos ou periféricos horizontais ou verticais da projeção da carcaça.
13. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela calculadora de posição de som (140) ser configurada para determinar, além das posições para fontes sonoras periféricas, posições para fontes sonoras auxiliares localizadas em ou antes ou atrás ou dentro da projeção da carcaça em relação ao ouvinte.
14. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo projetor (120) ser configurado para encolher adicionalmente a projeção da carcaça, tal como rumo a um centro de gravidade da carcaça, ou a projeção por uma quantidade variável ou predeterminada ou por diferentes variáveis ou quantidades predeterminadas em diferentes direções, como uma direção horizontal e uma direção vertical.
15. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela calculadora de posição de som (140) ser configurada para calcular de modo que pelo menos uma fonte sonora auxiliar adicional esteja localizada no plano de projeção entre uma fonte sonora periférica esquerda e uma fonte sonora periférica direita em relação à posição de ouvinte, ou em que a calculadora de posição de som
(140) é configurada para calcular de modo que pelo menos uma fonte sonora auxiliar adicional esteja localizada no plano de projeção entre uma fonte sonora periférica esquerda e uma fonte sonora periférica direita em relação à posição de ouvinte, em que uma única fonte auxiliar adicional é colocada no meio entre a fonte sonora periférica esquerda e a fonte sonora periférica direita, ou duas ou mais fontes auxiliares adicionais são colocadas equidistantemente entre a fonte sonora periférica esquerda e a fonte sonora periférica direita.
16. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela calculadora de posição de som (140) ser configurada para realizar uma rotação das posições de som da fonte sonora espacialmente estendida, de preferência em torno de um centro de gravidade da projeção no caso de um recebimento de um movimento circular do ouvinte em torno da fonte sonora espacialmente estendida através da interface, ou no caso de um recebimento de uma rotação da fonte sonora espacialmente estendida em relação a um ouvinte estacionário através da interface.
17. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo renderizador (160) ser configurado para receber, para cada fonte sonora, um ângulo de abertura dependendo da distância entre o ouvinte e a fonte sonora e para renderizar a fonte sonora dependendo do ângulo de abertura.
18. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo renderizador (160) ser configurado para receber informações de distância para cada fonte sonora, e em que o renderizador (160) é configurado para renderizar a fonte sonora dependendo da distância, de modo que uma fonte sonora que é colocada mais distante do ouvinte seja renderizada com mais volume em comparação com uma fonte sonora que é colocada menos distante do ouvinte e com o mesmo volume.
19. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela calculadora de posição de som (140) ser configurada para determinar, para cada fonte sonora, uma distância igual à distância da fonte sonora espacialmente estendida em relação ao ouvinte, ou determinar uma distância de cada fonte sonora por uma projeção posterior de uma localização da fonte sonora na projeção sobre a geometria da fonte sonora espacialmente estendida, e em que o renderizador (160) é configurado para gerar as fontes sonoras usando as informações sobre a distância.
20. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelas informações sobre a geometria (331) serem definidas como uma linha ou curva unidimensional, uma área bidimensional, como uma elipse, um retângulo ou um polígono, ou um grupo de polígonos, ou um corpo tridimensional, como um elipsoidal, um cuboide ou um poliédrico, e/ou em que as informações são definidas como uma descrição paramétrica ou uma descrição poligonal ou uma representação paramétrica da descrição poligonal.
21. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela calculadora de posição de som (140) ser configurada para determinar um número de fontes sonoras dependendo de uma distância do ouvinte para a fonte sonora espacialmente estendida, em que um número de fontes sonoras é maior para uma distância menor em comparação com um número menor para uma maior distância entre o ouvinte e a fonte sonora espacialmente estendida.
22. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado por ser configurado para receber informações sobre uma propagação introduzida pela fonte sonora espacialmente estendida, e em que o projetor (120) é configurado para aplicar uma operação de encolhimento à carcaça ou à projeção usando as informações sobre a propagação para, pelo menos parcialmente, compensar a propagação.
23. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo renderizador (160) ser configurado para renderizar, no caso de as posições das fontes sonoras serem idênticas entre si dentro de uma faixa de tolerância definida, as fontes sonoras combinando-se sinais básicos associados à fonte sonora espacialmente estendida, por exemplo, usando uma rotação Givens para obter sinais de base rotacionados e renderizar os sinais de base rotacionados nas posições.
24. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo renderizador (160) ser configurado para realizar um pré-processamento ou pós- processamento, ao gerar as pelo menos duas fontes sonoras de acordo com uma característica dependente de posição ou direção.
25. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela fonte sonora espacialmente estendida ter, como as informações sobre a geometria (331), informações de que a fonte sonora espacialmente estendida é uma fonte sonora espacialmente estendida esférica e elipsoidal, uma linha, um cuboide ou em formato de piano.
26. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado por ser configurado para receber um fluxo de bits que representa uma descrição compactada para a fonte sonora espacialmente estendida, sendo que o fluxo de bits compreende um elemento de fluxo de bits (311) que indica um primeiro número de sinais sonoros diferentes para a fonte sonora espacialmente estendida incluída no fluxo de bits ou um sinal de áudio codificado recebido pelo aparelho, em que o número é um ou maior que um, ler o elemento de fluxo de bits (311) e recuperar o primeiro número de sinais sonoros diferentes para a fonte sonora espacialmente estendida incluída no fluxo de bits ou no sinal de áudio codificado, e em que a calculadora de posição de som (140) determina um segundo número de fontes sonoras usadas para a renderização da fonte sonora espacialmente estendida, sendo que o segundo número é maior do que um, e em que o renderizador (160) é configurado para gerar (164, 166), dependendo do primeiro número extraído do fluxo de bits, um terceiro número de um ou mais sinais descorrelacionados, em que o terceiro número é derivado de uma diferença entre o segundo número e o terceiro número.
27. Aparelho para gerar um fluxo de bits que representa uma descrição compactada para uma fonte sonora espacialmente estendida, sendo que o aparelho é caracterizado por compreender: um provedor de som (200) para fornecer um ou mais sinais sonoros diferentes para a fonte sonora espacialmente estendida; um provedor de geometria (220) para calcular informações (331, 341) em uma geometria para a fonte sonora espacialmente estendida; e um formador de dados de saída (240) para gerar o fluxo de bits que representa a cena de som compactada, sendo que o fluxo de bits compreende o um ou mais sinais sonoros diferentes e as informações (331, 341) sobre a geometria.
28. Aparelho, de acordo com a reivindicação 27, caracterizado pelas informações (331, 341) sobre a geometria compreenderem informações de posição (341) que indicam uma posição da fonte sonora espacialmente estendida em um espaço.
29. Aparelho, de acordo com a reivindicação 27 ou 28, caracterizado por compreender: o formador de dados de saída (240) que é configurado para introduzir, no fluxo de bits, informações (321) no local individual para cada sinal sonoro do um ou mais sinais sonoros diferentes, de modo que as informações (321) no local individual indique a localização do sinal sonoro correspondente.
30. Aparelho, de acordo com a reivindicação 27, 28 ou 29, caracterizado pelo provedor de som (200) ser configurado para fornecer pelo menos dois sinais sonoros diferentes para a fonte sonora espacialmente estendida, e em que o formador de dados de saída (240) é configurado para gerar o fluxo de bits de modo que o fluxo de bits compreenda os pelo menos dois sinais sonoros diferentes (301, 302) e as informações de localização individuais (321) para cada sinal sonoro dos pelo menos dois sinais sonoros diferentes com relação às informações sobre a geometria (331) da fonte sonora espacialmente estendida.
31. Aparelho, de acordo com qualquer uma das reivindicações 27 a 30, caracterizado pelo provedor de som (200) ser configurado para realizar uma gravação de uma fonte sonora natural em uma ou várias posições ou orientações de microfone, ou para derivar um sinal sonoro de um único ou vários sinais básicos por meio de um ou mais filtros de descorrelação.
32. Aparelho, de acordo com qualquer uma das reivindicações 27 a 31, caracterizado pelo provedor de som (200) ser configurado para compactar a taxa de bits um ou mais sinais sonoros usando um codificador de sinal de áudio (260), e em que o formador de dados de saída (240) é configurado para usar a taxa de bits compactada de um ou mais sinais sonoros (301, 302) para a fonte sonora espacialmente estendida.
33. Aparelho, de acordo com qualquer uma das reivindicações 27 a 32, caracterizado pelo provedor de geometria (220) ser configurado para derivar, a partir de uma geometria da fonte sonora espacialmente estendida, uma descrição paramétrica ou uma descrição poligonal ou uma representação paramétrica da descrição poligonal e em que o formador de dados de saída (240) é configurado para introduzir, no fluxo de bits, a descrição paramétrica ou a descrição poligonal ou a representação paramétrica da descrição poligonal como as informações (331, 341) sobre a geometria.
34. Aparelho, de acordo com qualquer uma das reivindicações 27 a 33, caracterizado pelo formador de dados de saída (240) ser configurado para introduzir, no fluxo de bits, um elemento de fluxo de bits (311) que indica um número de um ou mais sinais sonoros diferentes para a fonte sonora espacialmente estendida incluída no fluxo de bits ou incluída em um sinal de áudio codificado associado ao fluxo de bits, em que o número é um ou maior que um.
35. Método para reproduzir uma fonte sonora espacialmente estendida com uma posição e geometria definidas em um espaço, sendo que o método é caracterizado por compreender: receber uma posição de ouvinte; calcular uma projeção de uma carcaça bidimensional ou tridimensional associada à fonte sonora espacialmente estendida em um plano de projeção com o uso da posição de ouvinte, informações sobre a geometria (331) da fonte sonora espacialmente estendida e informações sobre a posição (341) da fonte sonora espacialmente estendida; calcular posições de pelo menos duas fontes sonoras para a fonte sonora espacialmente estendida que usa o plano de projeção; e renderizar as pelo menos duas fontes sonoras nas posições para obter uma reprodução da fonte sonora espacialmente estendida com dois ou mais sinais de saída, em que a renderização compreende o uso de diferentes sinais sonoros para as diferentes posições, em que os diferentes sinais sonoros estão associados à fonte sonora espacialmente estendida.
36. Método de geração de um fluxo de bits que representa uma descrição compactada para uma fonte sonora espacialmente estendida, sendo que o método é caracterizado por compreender: fornecer um ou mais sinais sonoros diferentes para a fonte sonora espacialmente estendida; fornecer informações (331, 341) sobre uma geometria para a fonte sonora espacialmente estendida; e gerar o fluxo de bits que representa a cena de som compactada, sendo que o fluxo de bits compreende um ou mais sinais sonoros diferentes (301, 302) e as informações (331, 341) sobre a geometria para a fonte sonora espacialmente estendida.
37. Método, de acordo com a reivindicação 36, caracterizado pelas informações (331, 341) sobre a geometria para a fonte sonora espacialmente estendida compreenderem informações de posição (341) da fonte sonora espacialmente estendida em um espaço.
38. Método, de acordo com a reivindicação 36 ou 37, caracterizado pela geração do fluxo de bits compreender a introdução, no fluxo de bits, de informações (321) na localização individual para cada sinal sonoro de um ou mais sinais sonoros diferentes (301, 302).
39. Método, de acordo com a reivindicação 36, 37 ou 38, caracterizado pelo fornecimento compreender o fornecimento de pelo menos dois sinais sonoros diferentes para a fonte sonora espacialmente estendida e em que a geração do fluxo de bits é realizada de modo que o fluxo de bits compreenda os pelo menos dois sinais sonoros diferentes (301, 302) e as informações de localização individuais (321) para cada sinal sonoro dos pelo menos dois sinais sonoros diferentes, de modo que as informações indiquem a localização do sinal sonoro correspondente com relação às informações sobre a geometria (331, 341) da fonte sonora espacialmente estendida.
40. Método, de acordo com qualquer uma das reivindicações 36 a 39, caracterizado pela geração do fluxo de bits compreender a introdução, no fluxo de bits, de um elemento de fluxo de bits (311) que indica um número de um ou mais sinais sonoros diferentes (301, 302) para a fonte sonora espacialmente estendida incluída no fluxo de bits ou incluída em um sinal de áudio codificado associado ao fluxo de bits, em que o número é um ou maior que um.
41. Fluxo de bits que representa uma descrição compactada para uma fonte sonora espacialmente estendida caracterizado por compreender: um ou mais sinais sonoros diferentes (301, 302) para a fonte sonora espacialmente estendida; e informações sobre uma geometria (331, 341) para a fonte sonora espacialmente estendida.
42. Fluxo de bits, de acordo com a reivindicação 41, caracterizado por compreender ainda: no caso de dois ou mais sinais sonoros diferentes, informações de localização individual (301, 302) para cada sinal sonoro dos dois ou mais sinais sonoros diferentes que indicam uma localização do sinal sonoro correspondente.
43. Fluxo de bits, de acordo com a reivindicação 41 ou 42, caracterizado por compreender ainda: informações na localização individual (321) para cada sinal sonoro de um ou mais sinais sonoros diferentes, em que as informações na localização individual (321) indicam a localização do sinal sonoro correspondente em relação às informações (331, 341) sobre a geometria da fonte sonora espacialmente estendida.
44. Fluxo de bits, de acordo com a reivindicação 41, 42 ou 43, caracterizado pelas informações sobre a geometria (331, 341) da fonte sonora espacialmente estendida compreenderem informações de posição (341) da fonte sonora espacialmente estendida.
45. Fluxo de bits, de acordo com qualquer uma das reivindicações 41 a 44, caracterizado por compreender: primeiras informações de localização (321) para um primeiro sinal sonoro (301) que indica uma primeira localização do sinal sonoro correspondente em relação às informações sobre a geometria (331, 341) da fonte sonora espacialmente estendida; e segundas informações de localização (321) para um segundo sinal sonoro (302) que indica uma segunda localização do sinal sonoro correspondente com relação às informações sobre a geometria (331 341) da fonte sonora espacialmente estendida, sendo que as segundas informações de localização são diferentes das primeiras informações de localização.
46. Fluxo de bits, de acordo com qualquer uma das reivindicações 40 a 45, caracterizado por compreender ainda um elemento de fluxo de bits (311) que indica um número de pelo menos um sinal sonoro diferente para a fonte sonora espacialmente estendida incluída no fluxo de bits ou incluída em um sinal de áudio codificado associado ao fluxo de bits, sendo que o número é um ou maior que um.
47. Programa de computador caracterizado por realizar, quando executado em um computador ou um processador, o método, conforme definido em qualquer uma das reivindicações 35 a 40.
BR112021011170-0A 2018-12-19 2019-12-17 Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida BR112021011170A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18214182.0 2018-12-19
EP18214182 2018-12-19
PCT/EP2019/085733 WO2020127329A1 (en) 2018-12-19 2019-12-17 Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source

Publications (1)

Publication Number Publication Date
BR112021011170A2 true BR112021011170A2 (pt) 2021-08-24

Family

ID=65010413

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021011170-0A BR112021011170A2 (pt) 2018-12-19 2019-12-17 Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida

Country Status (13)

Country Link
US (2) US11937068B2 (pt)
EP (1) EP3900401A1 (pt)
JP (2) JP2022515998A (pt)
KR (2) KR20240005112A (pt)
CN (1) CN113316943B (pt)
AU (1) AU2019409705B2 (pt)
BR (1) BR112021011170A2 (pt)
CA (2) CA3199318A1 (pt)
MX (1) MX2021007337A (pt)
SG (1) SG11202106482QA (pt)
TW (1) TWI786356B (pt)
WO (1) WO2020127329A1 (pt)
ZA (1) ZA202105016B (pt)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115280800A (zh) * 2020-01-14 2022-11-01 弗劳恩霍夫应用研究促进协会 再现空间扩展声源的装置和方法或使用锚定信息生成空间扩展声源的描述的装置和方法
CN117714967A (zh) * 2020-03-02 2024-03-15 奇跃公司 沉浸式音频平台
CN114067810A (zh) * 2020-07-31 2022-02-18 华为技术有限公司 音频信号渲染方法和装置
KR102658471B1 (ko) * 2020-12-29 2024-04-18 한국전자통신연구원 익스텐트 음원에 기초한 오디오 신호의 처리 방법 및 장치
AU2022258764A1 (en) * 2021-04-14 2023-10-12 Telefonaktiebolaget Lm Ericsson (Publ) Spatially-bounded audio elements with derived interior representation
KR20240004337A (ko) * 2021-04-29 2024-01-11 돌비 인터네셔널 에이비 범위를 갖는 오디오 객체를 모델링하기 위한 방법, 장치 및 시스템
WO2023061965A2 (en) * 2021-10-11 2023-04-20 Telefonaktiebolaget Lm Ericsson (Publ) Configuring virtual loudspeakers
TW202332290A (zh) * 2021-11-09 2023-08-01 弗勞恩霍夫爾協會 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流
KR20240096683A (ko) * 2021-11-09 2024-06-26 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 잠재적 수정 객체에 대한 수정 데이터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 또는 컴퓨터 프로그램
WO2023242145A1 (en) * 2022-06-15 2023-12-21 Dolby International Ab Methods, systems and apparatus for acoustic 3d extent modeling for voxel-based geometry representations
CN115408442B (zh) * 2022-08-15 2023-03-10 云南大学 基于扩展空间同位模式的土地覆盖分布关系挖掘方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3528284B2 (ja) * 1994-11-18 2004-05-17 ヤマハ株式会社 3次元サウンドシステム
WO2001067749A2 (en) * 2000-03-07 2001-09-13 Sarnoff Corporation Camera pose estimation
BRPI0315326B1 (pt) * 2002-10-14 2017-02-14 Thomson Licensing Sa método para codificar e decodificar a largura de uma fonte de som em uma cena de áudio
EP1552724A4 (en) * 2002-10-15 2010-10-20 Korea Electronics Telecomm METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE
JP2007003989A (ja) * 2005-06-27 2007-01-11 Asahi Kasei Homes Kk 音環境解析シミュレーションシステム
KR101354430B1 (ko) 2008-07-31 2014-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 바이노럴 신호를 위한 신호생성
JP2013529004A (ja) 2010-04-26 2013-07-11 ケンブリッジ メカトロニクス リミテッド 位置追跡を備えるスピーカ
WO2013108200A1 (en) 2012-01-19 2013-07-25 Koninklijke Philips N.V. Spatial audio rendering and encoding
ES2606678T3 (es) * 2012-08-31 2017-03-27 Dolby Laboratories Licensing Corporation Presentación de sonido reflejado para audio con base de objeto
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
US9495968B2 (en) * 2013-05-29 2016-11-15 Qualcomm Incorporated Identifying sources from which higher order ambisonic audio data is generated
US10262462B2 (en) * 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
EP3275213B1 (en) * 2015-05-13 2019-12-04 Huawei Technologies Co., Ltd. Method and apparatus for driving an array of loudspeakers with drive signals
JP6786834B2 (ja) * 2016-03-23 2020-11-18 ヤマハ株式会社 音響処理装置、プログラムおよび音響処理方法
KR20170125660A (ko) * 2016-05-04 2017-11-15 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
KR102483042B1 (ko) 2016-06-17 2022-12-29 디티에스, 인코포레이티드 근거리/원거리 렌더링을 사용한 거리 패닝
US11096004B2 (en) * 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension

Also Published As

Publication number Publication date
MX2021007337A (es) 2021-07-15
US20210289309A1 (en) 2021-09-16
AU2019409705B2 (en) 2023-04-06
KR20240005112A (ko) 2024-01-11
EP3900401A1 (en) 2021-10-27
SG11202106482QA (en) 2021-07-29
TWI786356B (zh) 2022-12-11
WO2020127329A1 (en) 2020-06-25
CN113316943B (zh) 2023-06-06
KR102659722B1 (ko) 2024-04-23
US20240179486A1 (en) 2024-05-30
CN113316943A (zh) 2021-08-27
ZA202105016B (en) 2022-04-28
AU2019409705A1 (en) 2021-08-12
US11937068B2 (en) 2024-03-19
CA3123982A1 (en) 2020-06-25
JP2024020307A (ja) 2024-02-14
KR20210101316A (ko) 2021-08-18
JP2022515998A (ja) 2022-02-24
CA3123982C (en) 2024-03-12
CA3199318A1 (en) 2020-06-25
TW202027065A (zh) 2020-07-16

Similar Documents

Publication Publication Date Title
BR112021011170A2 (pt) Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida
TWI686794B (zh) 以保真立體音響格式所編碼聲訊訊號為l個揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體
CN109891503B (zh) 声学场景回放方法和装置
US20220417694A1 (en) Apparatus and Method for Synthesizing a Spatially Extended Sound Source Using Cue Information Items
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
JPWO2020127329A5 (pt)
CA3237593A1 (en) Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
RU2808102C1 (ru) Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
TW202337236A (zh) 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式