BR112015000247B1

BR112015000247B1 - Decodificador, método de decodificação, codificador, método de codificação, e sistema de codificação e decodificação.

Info

Publication number: BR112015000247B1
Application number: BR112015000247-1A
Authority: BR
Inventors: Arnoldus Werner Johannes Oomen; Jeroen Gerardus Henricus Koppens; Erik Gosuinus Petrus Schuijers
Original assignee: Koninklijke Philips N.V.
Priority date: 2012-07-09
Filing date: 2013-07-09
Publication date: 2021-08-03
Also published as: RU2015104074A; WO2014009878A2; MX2015000113A; EP2870603B1; EP2870603A2; EP3748632A1; WO2014009878A3; US20150142453A1; JP2015527609A; RU2643644C2; MX342150B; JP6231093B2; US9478228B2; CN104428835A; CN104428835B; BR112015000247A2; ZA201500888B

Abstract

decodificador, método de decodificação, codificador, método de codificação, sistema de codificação e decodificação, e, produto de programa de computador. um codificador (1201) para codificar uma pluralidade de sinais de áudio compreende um seletor (1303) que seleciona um subconjunto de recortes de frequência e tempo a serem downmixados e um subconjunto de recortes a não serem downmixados. uma indicação de downmix é gerada, que indica se os recortes são codificados como recortes codificados downmixados ou como recortes sem downmix. um sinal codificado compreendendo os recortes codificados e a indicação de downmix é alimentada em um decodificador (1203) que inclui um receptor (1401) para receber o sinal. um gerador (1403) gera sinais de saída dos recortes de frequência e tempo codificados em que a geração dos sinais de saída inclui uma upmixagem para recortes que são indicados pela indicação de downmix a ser codificada como recortes downmixados. a invenção pode prover codificação/decodificação mais flexível e/ou aprimorada e pode, especificamente, prover escalabilidade aprimorada, especialmente, em taxas de dados maiores.

Description

CAMPO DA INVENÇÃO

[001] A presente invenção se refere à codificação e/ou decodificação de uma pluralidade de sinais de áudio e, em particular, mas não exclusivamente, à codificação e decodificação de uma pluralidade de objetos de áudio.

HISTÓRICO DA INVENÇÃO

[002] A codificação digital de diversos sinais de origem tem se tornado altamente importante ao longo das últimas décadas, uma vez que a representação e comunicação de sinal digitais tem substituído crescentemente a representação e comunicação análogas. Por exemplo, conteúdo de áudio, como fala e música, crescentemente, tem base em codificação de conteúdo digital.

[003] Os formatos de codificação de áudio foram desenvolvidos para prover serviços de áudio crescentemente capazes, variados e flexíveis e, em particular, formatos de codificação de áudio que suportam serviços de áudio espaciais foram desenvolvidos.

[004] Tecnologias de codificação de áudio espacial bem conhecidas, como DTS e Dolby Digital, produzem um sinal de áudio de múltiplos canais codificado que representa a imagem espacial como diversos canais que são colocados ao redor do ouvinte em posições fixas. Para uma configuração de alto-falante que é diferente da configuração que corresponde ao sinal de múltiplos canais, a imagem espacial será sub-ideal. Também, esses sistemas de codificação de áudio com base em canal tipicamente não são capazes de lidar com um número diferente de alto-falantes.

[005] A abordagem dessas abordagens convencionais é ilustrada na FIGURA 1 (onde a letra c se refere ao canal de áudio). Os canais de entrada (por exemplo, 5.1 canais) são providos a um codificador que realiza matrização para explorar relações inter-canais, seguida pela codificação do sinal matrizado em um fluxo de bits. Além disso, informações de matrização também podem ser transmitidas ao decodificador como parte do fluxo de bits. No lado do decodificador esse processo é revertido.

[006] MPEG Surround provê uma ferramenta de codificação de áudio de múltiplos canais que permite que codificadores com base em mono ou estéreo existentes sejam estendidos a aplicações de áudio de múltiplos canais. A FIGURA 2 ilustra um exemplo de elementos de um sistema MPEG Surround. Utilizando parâmetros espaciais obtidos pela análise da entrada de múltiplos canais original, um decodificador MPEG Surround pode recriar a imagem especial por um upmix controlado do sinal mono ou estéreo para obter um sinal de saída de múltiplos canais.

[007] Uma vez que a imagem espacial do sinal de entrada de múltiplos canais é parametrizada, MPEG Surround permite a decodificação do mesmo fluxo de bits de múltiplos canais ao interpretar dispositivos que não utilizam uma configuração de alto-falante de múltiplos canais. Um exemplo é a reprodução surround virtual em fones de ouvido, que é mencionada como o processo de decodificação biauricular de MPEG Surround. Nesse modo, uma experiência surround realística pode ser provida, enquanto utiliza fones de ouvido regulares. Outro exemplo é a transformação de saídas de múltiplos canais de ordem maior, por exemplo, 7.1 canais, para configurações de ordem menor, por exemplo, 5.1 canais.

[008] A abordagem de MPEG Surround (e abordagens de codificação de múltiplos canais paramétrica semelhantes, como Codificação de Indicação Biauricular ou Estéreo Paramétrico) é ilustrada na FIGURA 3. Ao contrário da abordagem de codificação diferente ou de forma de onda, os canais de entrada são downmixados (por exemplo, uma mixagem estéreo). Esse downmix é codificado subsequentemente utilizando técnicas de codificação tradicionais, como a família AAC de codecs. Além do downmix codificado, uma representação da imagem espacial também é transmitida no fluxo de bits. O decodificador reverte o processo.

[009] A fim de prover uma representação mais flexível de áudio, MPEG padronizou um formato conhecido como ‘Codificação de Objeto de Áudio Espacial’ (MPEG-D SAOC). Ao contrário de sistemas de codificação de áudio de múltiplos canais, como DTS, Dolby Digital e MPEG Surround, SAOC provê codificação eficiente de objetos de áudio individuais ao invés de canais de áudio. Enquanto, em MPEG Surround, cada canal e alto-falante pode ser considerado por se originar de uma mixagem diferente de objetos de som, SAOC torna objetos de som individuais disponíveis no lado do decodificador para manipulação interativa, conforme ilustrado na FIGURA 4. Em SAOC, múltiplos objetos de som são codificados em um downmix mono ou estéreo junto a dados paramétricos, permitindo que os objetos de som sejam extraídos no lado de interpretação, permitindo, com isso, que os objetos de áudio individuais sejam disponíveis para manipulação, por exemplo, pelo usuário final.

[010] De fato, de maneira semelhante ao MPEG Surround, SAOC também cria um downmix mono ou estéreo. Além disso, parâmetros de objeto são calculados e incluídos. No lado do decodificador, o usuário pode manipular esses parâmetros para controlar diversos aspectos dos objetos individuais, como posição, nível, equalização, ou até para aplicar efeitos, como reverberação. A FIGURA 5 ilustra uma interface interativa que permite que o usuário controle os objetos individuais contidos no fluxo de bits SAOC. Por meio de uma matriz de interpretação, objetos de som individuais são mapeados em canais de alto-falante.

[011] A FIGURA 6 provê um diagrama de blocos de alto nível de uma abordagem paramétrica de SAOC (ou sistemas de codificação de objeto semelhantes). Os sinais de objeto (o) são downmixados e o downmix resultante é codificado. Além disso, dados de objeto paramétricos são transmitidos no fluxo de bits referentes aos objetos individuais para o downmix. No lado do decodificador, os objetos são decodificados e interpretados a canais, de acordo com a configuração de alto- falante. Tipicamente, dessa abordagem, é mais eficiente combinar a decodificação dos objetos e a interpretação de alto-falante.

[012] A variação e flexibilidade nas configurações de interpretação utilizadas para interpretar som espacial aumentou significativamente nos últimos anos com mais e mais formatos de reprodução se tornando disponíveis ao consumidos do fluxo principal. Isso precisa de representação flexível de áudio. Etapas importantes têm sido consideradas com a introdução do codec MPEG Surround. Não obstante, o áudio ainda é produzido e transmitido para uma configuração de alto-falante específica. A reprodução por diferentes configurações e por configurações de alto-falante não padrão (isto é, flexíveis ou definidas por usuário) não é especificada.

[013] Esse problema pode ser solucionado parcialmente por SAOC, que transmite objetos de áudio ao invés de canais de reprodução. Isso permite que o lado do decodificador coloque os objetos de áudio em posições arbitrárias no espaço, contanto que o espaço seja adequadamente abrangido por alto-falantes. Dessa forma, não há relação entre o áudio transmitido e a configuração de reprodução, com isso, configurações de alto-falantes arbitrárias podem ser utilizadas. Isso é vantajoso, por exemplo, para configurações de home theater, em uma sala de estar típica, onde os alto-falantes quase nunca estão nas posições pretendidas, devido ao layout da sala de estar. Em SAOC, é decidido no lado do decodificador onde os objetos são colocados no cenário do som. Isso não é geralmente desejado de um ponto de vista artístico e, portanto, o padrão SAOC provê maneiras de transmitir uma matriz de interpretação padrão no fluxo de bits, eliminando a responsabilidade do decodificador. Essas matrizes de interpretação são, novamente, vinculadas a configurações de alto-falante específicas.

[014] Em SAOC, como um resultado da downmixagem, a extração de objeto somente funciona dentro de determinados limites. Tipicamente, não é possível extrair um único objeto com separação suficiente de outros objetos para a reprodução sem os outros objetos, por exemplo, em um caso de uso de Karaokê. Além disso, devido à parametrização, a tecnologia SAOC não escala bem com taxa de bits. Em particular, a abordagem de downmixagem e extração (upmixagem) de objetos de áudio resulta em alguma perda de informações inerentes que não são completamente compensadas mesmo em taxas de bits muitos altas. Assim, mesmo se a taxa de bits for aumentada, a qualidade de áudio resultante é tipicamente degradada e impede que as operações de codificação/decodificação sejam completamente transparentes.

[015] A fim de tratar isso, SAOC suporta a denominada codificação residual que pode ser aplicada para um conjunto limitado de objetos (até e incluindo 4, que tem sido uma escolha de projeto). A codificação residual transmite basicamente componentes de fluxo de bits adicionais que codificam sinais de erro (incluindo a interferência dos outros objetos naquele objeto), de modo que um número limitado de objetos possa ser extraído com um alto grau de separação de objeto. Componentes de forma de onda residuais podem ser fornecidos até uma frequência específica, de modo que a qualidade possa ser aumentada gradualmente. O objeto resultante é, portanto, uma combinação de um componente paramétrico e um componente de forma de onda.

[016] Outra especificação para um formato de áudio 3D está sendo desenvolvida pela 3D Audio Alliance (3DAA) que é uma aliança de indústria por SRS (Sistema de Recuperação de Som) Labs. 3DAA é dedicada a desenvolver a transmissão de áudio 3D, que “facilitará a transição do paradigma de alimentação de alto-falante atual em uma abordagem com base em objeto flexível”. Em 3DAA, um formato de fluxo de bits deve ser definido, que permita a transmissão de um downmix de múltiplos canais de legado junto a objetos de som individuais. Além disso, dados de posicionamento de objeto são incluídos. O princípio de geração de um fluxo de áudio 3DAA é ilustrado na FIGURA 7.

[017] Na abordagem 3DAA, os objetos de som são recebidos separadamente no fluxo de extensão e eles podem ser extraídos do downmix. O downmix de múltiplos canais resultante é interpretado junto a objetos individualmente disponíveis.

[018] Em 3DAA, uma mixagem de referência de múltiplos canais pode ser transmitida com uma seleção de objetos de áudio. 3DAA transmite os dados posicionais 3D para cada objeto. Os objetos podem ser, então, extraídos utilizando os dados posicionais 3D. De maneira alternativa, a matriz de mixagem inversa pode ser transmitida, descrevendo a relação entre os objetos e a mixagem de referência. A ilustração da FIGURA 6 pode ser considerada para também corresponder à abordagem de 3DAA.

[019] Ambas as abordagens, SAOC e 3DAA, incorporam a transmissão de objetos de áudio individuais que podem ser manipulados individualmente no lado do decodificador. Uma diferença entre as duas abordagens é que SAOC provê informações sobre os objetos de áudio ao prover parâmetros que caracterizam objetos relativos ao downmix (isto é, de modo que os objetos de áudio sejam gerados do downmix no lado do decodificador), enquanto 3DAA provê objetos de áudio como objetos de áudio completos e separados (isto é, que podem ser gerados independentemente do downmix no lado do decodificador).

[020] Em MPEG, um novo item funcional no Áudio 3D está em construção. Isso é mencionado como Áudio MPEG-3D e é destinado a se tornar parte do suite MPEG-H junto à codificação de vídeo HEVC e sistemas DASH. A FIGURA 8 ilustra o diagrama de blocos de alto nível atual do sistema de Áudio MPEG 3D pretendido.

[021] Além do formato com base em canal tradicional, a abordagem é destinada a também suportar formatos com base em objeto e com base em cenário. Um aspecto importante do sistema é que sua qualidade deve escalar para transparência para aumentar a taxa de bits, isto é, que conforme a taxa de dados aumenta, a degradação causada pela codificação e decodificação deve continuar a reduzir até ser insignificante. Entretanto, esse requisito tende a ser problemático para técnicas de codificação paramétricas que têm sido utilizadas de maneira bastante forte no passado (vide HE-AAC v2, MPEG Surround, SAOC, USAC). Em particular, a compensação de perda de informações para os sinais individuais tende a não ser completamente compensada pelos dados paramétricos, mesmo em taxas de bits muito altas. De fato, a qualidade será limitada pela intrínseca do modelo paramétrico.

[022] Áudio MPEG-3D, além disso, visa prover um fluxo de bits resultante que é independente da configuração de reprodução. As possibilidades de reprodução previstas incluem configurações de alto-falantes até 22.2 canais, assim como surround virtual por fones de ouvido e alto-falantes espaçados de maneira próxima.

[023] Outra abordagem é conhecida como DirAC - Codificação de Áudio Direcional (DirAC) que é semelhante a MPEG Surround e SAOC no sentido de que um downmix é transmitido junto a parâmetros que permitem uma reprodução de uma imagem espacial no lado de síntese. Em DirAC, esses parâmetros representam resultados da análise de direção e difusão (azimute, elevação e difusão W(t/f)). Durante a síntese, o downmix é dividido dinamicamente em dois fluxos, um que corresponde ao som não difuso (ponderação 1--T ) , e outro que corresponde ao som difuso (ponderação VT) . O fluxo de som não difuso é reproduzido com uma técnica que visa fontes de som do tipo ponto, e o fluxo de som difuso com uma técnica que visa à percepção de direção proeminente de vazamento de som. A abordagem de DirAC é ilustrada na FIGURA 9.

[024] DirAC pode ser considerada como um sistema de codificação/decodificação com base em gravação, de acordo com a abordagem da FIGURA 10. No sistema, os sinais de microfone (m) são codificados. Isso pode, por exemplo, ser realizado de maneira semelhante à abordagem paramétrica que utiliza downmixagem e codificação de informações espaciais. No decodificador, os sinais de microfone podem ser reconstruídos e, com base em uma configuração de alto-falante provida, os sinais de microfone podem ser interpretados a canais. É observado que, por motivos de eficiência, o processo de decodificação e interpretação pode ser integrado em uma única etapa.

[025] Em “The continuity illusion revisited: coding of multiple concurrent sound sources”, M. Kelly et.al. Proc.MPCA-2002, Louvain, Belgium, November 15, 2002, sugere- se não utilizar codificação e downmixagem paramétrica, mas, ao contrário, codificar os objetos de áudio individuais utilizando individualmente a codificação discreta/de forma de onda. A abordagem é ilustrada na FIGURA 11. Conforme ilustrado, todos os objetos são codificados simultaneamente e transmitidos ao decodificador. No lado do decodificador, os objetos são decodificados e interpretados de acordo com uma configuração de alto-falante para canais. A abordagem pode prover qualidade de áudio aprimorada e, em particular, tem o potencial de escalar para transparência. Entretanto, o sistema não provê eficiência de codificação significativa e precisa de taxas de dados relativa altas para qualidade de áudio menor.

[026] Assim, há diversas abordagens diferentes que visam prover codificação de áudio eficiente.

[027] Conteúdo de áudio é, hoje em dia, compartilhado entre um número crescente de diferentes dispositivos de reprodução. Por exemplo, o áudio pode ser apresentado por fones de ouvido, pequenos alto-falantes, por meio de uma estação de ancoragem e/ou utilizando diversas configurações de múltiplos canais. Para configurações de múltiplos canais, a configuração de alto-falante 5.1 recomendada por ITU, que foi assumida convencionalmente como a configuração de alto-falante nominal, geralmente não é mais aproximadamente aplicada ao interpretar o conteúdo de áudio. Por exemplo, um posicionamento preciso de cinco alto-falantes espaciais, de acordo com a configuração, é raramente encontrado em salas de estar típicas. Alto-falantes são colocados em localizações convenientes ao invés de nos ângulos e distâncias recomendados. Além disso, configurações alternativas, como configurações 4.1, 6.1, 7.1 ou mesmo 22.2 podem ser utilizadas. A fim de prover a melhor experiência em todos esses esquemas de reprodução, uma tendência em relação à codificação de objeto ou codificação de cenário pode ser observada. Essas abordagens são crescentemente introduzidas (hoje em dia, principalmente, para aplicações de cinema, mas uso doméstico é esperado para se tornar mais comum) para substituir a abordagem de canal de áudio convencional, onde cada canal de áudio é associado a uma posição nominal.

[028] Quando o número de canais de reprodução (isto é, alto-falantes) e suas localizações forem desconhecidos, um cenário de áudio pode ser mais bem representado pelos objetos de áudio individuais no cenário. No lado do decodificador, os objetos podem ser, então, interpretados separadamente nos canais de reprodução, de modo que a percepção espacial seja mais próxima à percepção pretendida.

[029] A codificação dos objetos como sinais/fluxos de áudio separados precisa de uma taxa de bits relativamente alta. As soluções disponíveis (a saber, SAOC, DirAC, 3DAA, etc.) transmitem sinais de objeto downmixados e meios para reconstruir os sinais de objeto desse downmix. Isso resulta em uma redução de taxa de bits significativa.

[030] SAOC provê áudio independente de alto-falante por codificação de objeto eficiente em um downmix com parâmetros de extração de objeto, 3DAA define um formato no qual o cenário é descrito em termos de posições de objeto. DirAC tenta uma codificação eficiente de objetos de áudio ao utilizar um downmix de formato B.

[031] Assim, esses sistemas são adequados para codificação e interpretação eficiente e flexível de conteúdo de áudio. Reduções de taxa de dados significativas podem ser alcançadas e, da mesma forma, implementações de taxa de dados relativamente baixa podem ainda prover qualidade de áudio razoável ou boa. Entretanto, uma questão com esses sistemas é que a qualidade de áudio é inerentemente limitada pela codificação e downmixagem paramétrica. Mesmo quando a taxa de dados disponível for aumentada, não é possível alcançar transparência completa quando o impacto das operações de codificação/decodificação não puder ser detectado. Em particular, objetos não podem ser reconstruídos sem interferência de outros objetos mesmo em altas taxas de dados. Isso resulta em uma redução da qualidade de áudio e percepção espacial quando os objetos forem separados na reprodução espacial (isto é, interpretados em diferentes posições). Uma desvantagem adicional é que a coerência inter- objetos não é, na maioria dos casos, reconstruída adequadamente, o que é uma característica importante para a criação de percepção espacial. Tentativas de reconstruir a coerência têm base no uso de descorrelacionadores e tendem a resultar em qualidade de áudio sub-ideal.

[032] Uma abordagem alternativa de codificação de forma de onda individual de objetos de áudio pode permitir alta qualidade em altas taxas de dados e pode, em particular, prover escalabilidade completa incluindo uma codificação/decodificação transparente completa. Entretanto, essas abordagens são inadequadas para baixas taxas de dados, em que não provêm uma codificação eficiente.

[033] Assim, codificações com base em downmix paramétrico são adequadas para baixas taxas de dados e escalabilidade em direção a taxas de dados menores, enquanto as codificações de objeto de forma de onda são adequadas para altas taxas de dados e escalabilidade em direção a altas taxas de dados.

[034] Escalabilidade é um critério muito importante para sistemas de áudio futuros e, portanto, é altamente desejável ter escalabilidade eficiente que estende tanto taxas de dados muito baixas como taxas de dados muito altas e, em particular, para transparência completa. Além disso, é desejável que essa escalabilidade tenha uma baixa granularidade da escalabilidade.

[035] Com isso, uma abordagem de codificação/decodificação de áudio aprimorada seria vantajosa e, em particular, um sistema que permite flexibilidade aumentada, complexidade reduzida, escalabilidade aprimorada e/ou desempenho aprimorado seria vantajosa.

SUMÁRIO DA INVENÇÃO

[036] De acordo, a Invenção visa, preferencialmente, diminuir, aliviar ou eliminar uma ou mais das desvantagens acima isoladamente ou em qualquer combinação.

[037] De acordo com um aspecto da invenção, é provido um decodificador compreendendo: um receptor para receber um sinal de dados codificado que representa uma pluralidade de sinais de áudio, o sinal de dados codificado compreendendo recortes de frequência e tempo codificados para a pluralidade de sinais de áudio, os recortes de frequência e tempo codificados compreendendo recortes de frequência e tempo sem downmix e recortes de frequência e tempo com downmix, cada recorte de frequência e tempo com downmix sendo um downmix de pelo menos dois recortes de frequência e tempo da pluralidade de sinais de áudio e cada recorte de frequência e tempo sem downmix representando somente um recorte de frequência e tempo da pluralidade de sinais de áudio, e a alocação dos recortes de frequência e tempo codificados como recortes de frequência e tempo sem downmix ou recortes sem frequência de tempo refletindo características espaciais do recortes de frequência e tempo, o sinal de dados codificado ainda compreendendo uma indicação de downmix para recortes de frequência e tempo da pluralidade de sinais de áudio, a indicação de downmix indicando se recortes de frequência e tempo da pluralidade de sinais de áudio são codificados como recortes de frequência e tempo com downmix ou recortes de frequência e tempo sem downmix; um gerador para gerar um conjunto de sinais de saída dos recortes de frequência e tempo codificados, a geração dos sinais de saída compreendendo uma upmixagem para recortes de frequência e tempo codificados que são indicados pela indicação de downmix por serem recortes de frequência e tempo com downmix; em que pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de diferentes conjuntos de sinais de áudio da pluralidade de sinais de áudio; e pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio sendo associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

[038] A invenção pode permitir decodificação de áudio aprimorada e, em particular, pode, em muitas realizações, permitir uma escalabilidade aprimorada. Em particular, a invenção pode, em muitas realizações, permitir escalabilidade de taxa de dados para transparência. Em particular, artefatos de codificação conhecidos para codificação paramétrica em taxas de dados maiores podem ser evitados ou diminuídos em muitos cenários.

[039] A abordagem pode ainda prover codificação eficiente e, em particular, pode prover codificação eficiente em taxas de dados menores. Um alto grau de escalabilidade pode ser alcançado e, em particular, escalabilidade para codificação eficiente em taxas de dados menores e qualidade muito alta (e, especificamente, transparência) em altas taxas de dados pode ser alcançada.

[040] A invenção pode prover um sistema mais flexível com um alto grau de adaptação e otimização sendo possível. A operação de codificação e decodificação pode ser adaptada não somente às características gerais dos sinais de áudio, mas também a características de recortes de frequência e tempo individuais. Da mesma forma, uma codificação altamente eficiente pode ser alcançada.

[041] A upmixagem de um recorte de frequência e tempo com downmix pode ser uma operação separada ou pode ser integrada a outras operações. Por exemplo, a upmixagem pode ser uma parte de uma operação de matriz (vetor) que multiplica os valores de sinal para o recorte de frequência e tempo com coeficientes de matriz (vetor), em que os coeficientes de matriz (vetor) refletem uma operação de upmix, mas pode ainda refletir outras operações, como um mapeamento em canais de interpretação de saída. A upmixagem não precisa ser uma upmixagem de todos os componentes de um downmix. Por exemplo, o upmix pode ser um upmix parcial para gerar somente um dos recortes de frequência e tempo compreendidos no downmix.

[042] Um recorte de frequência e tempo é um intervalo de frequência e tempo. Um recorte de frequência e tempo dos sinais de saída pode ser gerado de recortes de frequência e tempo codificados que abrangem o mesmo intervalo de tempo e intervalo de frequência. De maneira semelhante, cada recorte de frequência e tempo com downmix pode ser um downmix de recortes de frequência e tempo dos sinais de áudio que abrangem os mesmo intervalo de tempo e intervalo de frequência. Os intervalo de frequência e tempo podem ser em uma rede uniforme ou podem, por exemplo, ser em uma rede não uniforme, em particular, para a dimensão de frequência. Essa rede uniforme pode, por exemplo, ser utilizado para explorar e refletir a sensibilidade logarítmica da audição humana.

[043] Para recortes de frequência e tempo codificados que não são indicados por serem recortes de frequência e tempo com downmix, a geração dos sinais de saída (não) precisam incluir upmixagem.

[044] Alguns recortes de frequência e tempo da pluralidade de sinais de áudio pode não ser representados nos recortes de frequência e tempo codificados. Recortes de frequência e tempo da pluralidade de sinais de áudio podem não ser representados em um recorte de frequência e tempo com downmix codificado ou um recorte de frequência e tempo sem downmix.

[045] Em algumas realizações, a indicação de se recortes de frequência e tempo da pluralidade de sinais de áudio são codificados como recortes de frequência e tempo com downmix ou recortes de frequência e tempo sem downmix pode ser provida com referência aos recortes de frequência e tempo codificados. Em algumas realizações, um valor de indicação de downmix pode ser provido individualmente para recortes de frequência e tempo da pluralidade de sinais de áudio. De maneira equivalente, em algumas realizações, um valor de indicação de downmix pode ser provido para um grupo de recortes de frequência e tempo da pluralidade de sinais de áudio.

[046] Um recorte de frequência e tempo sem downmix representa dados para somente um recorte de frequência e tempo dos sinais de áudio enquanto um recorte de frequência e tempo com downmix representa dois ou mais recortes de frequência e tempo dos sinais de áudio. Os recortes de frequência e tempo com downmix e recortes de frequência e tempo sem downmix podem, em diferentes realizações, ser codificados em diferentes maneiras no sinal de dados codificado, incluindo, por exemplo, cada recorte sendo codificado separadamente, alguns ou todos sendo codificados unidamente etc.

[047] De acordo com um aspecto opcional da invenção, o sinal de dados codificado, além disso, compreende dados de upmix paramétricos, e em que o gerador é disposto para adaptar a operação de upmixagem em resposta aos dados paramétricos.

[048] Isso pode prover desempenho aprimorado e, em particular, pode prover uma qualidade de áudio aprimorada sobre a qualidade de áudio em taxas de dados menores. A invenção pode permitir uma adaptação e interfuncionalidade flexíveis, por exemplo, de codificação de forma de onda e paramétrica para prover um sistema bastante escalável e, em particular, um sistema capaz de prover qualidade de áudio bastante alta para taxas de dados altas, enquanto provê codificação eficiente em taxas de dados menores.

[049] O gerador pode gerar especificamente os sinais de saída em resposta aos dados de upmix paramétricos para recortes de frequência e tempo codificados que são indicados pela indicação de downmix por serem recortes de frequência e tempo com downmix (e não para recortes de frequência e tempo codificados que são indicados pela indicação de downmix para não serem recortes codificados de frequência e tempo com downmix).

[050] De acordo com um aspecto opcional da invenção, o gerador compreende uma unidade de interpretação disposta para mapear recortes de frequência e tempo para a pluralidade de sinais de áudio em sinais de saída correspondentes a uma configuração de fonte de som espacial.

[051] Isso pode prover geração eficiente de sinais de áudio adequados para interpretação por uma determinada configuração de fonte de som especial (tipicamente, alto- falante). A upmixagem e mapeamento de interpretação podem, em algumas realizações, ser realizados como uma única operação integrada, por exemplo, como uma única multiplicação de matriz.

[052] Em algumas realizações, o gerador é disposto para gerar os sinais de áudio decodificados de recortes de frequência e tempo codificados, e para gerar os sinais de áudio ao mapear espacialmente os sinais de áudio decodificados no conjunto de sinais de saída, o conjunto de sinais de saída correspondendo a uma configuração de fonte de som espacial.

[053] De acordo com um aspecto opcional da invenção, o gerador é disposto para gerar recortes de frequência e tempo para o conjunto de sinais de saída ao aplicar operações de matriz aos recortes de frequência e tempo codificados, coeficientes de operações de matriz incluindo componentes de upmix para recortes de frequência e tempo codificados para os quais a indicação de downmix indica que o recorte de frequência e tempo codificado é um recorte de frequência e tempo com downmix e não para recortes de frequência e tempo codificados para os quais a indicação de downmix indica que o recorte de frequência e tempo codificado é um recorte de frequência e tempo sem downmix.

[054] Isso pode prover uma operação particularmente eficiente. As operações de matriz podem ser aplicadas a amostras de sinal dos recortes de frequência e tempo codificados. As amostras de sinal podem ser geradas por uma operação de decodificação.

[055] De acordo com um aspecto opcional da invenção, pelo menos um sinal de áudio é representado no sinal decodificado por pelo menos um recorte de frequência e tempo sem downmix e pelo menos um recorte de frequência e tempo com downmix.

[056] Os sinais de áudio individuais podem ser representados por ambos os recortes de frequência e tempo com downmix e os recortes de frequência e tempo sem downmix. Cada recorte de frequência e tempo do sinal de áudio pode ser representado por um recorte de frequência e tempo com downmix ou um recorte de frequência e tempo sem downmix sem precisar que todos os recortes de frequência e tempo sejam representados da mesma forma. A abordagem pode permitir um alto grau de flexibilidade e otimização, e pode especificamente resultar em qualidade de áudio, eficiência de codificação e/ou escalabilidade aprimoradas.

[057] De acordo com um aspecto opcional da invenção, a indicação de downmix para pelo menos um recorte de frequência e tempo com downmix compreende uma ligação entre um recorte de frequência e tempo com downmix codificado e um recorte de frequência e tempo da pluralidade de sinais de áudio.

[058] Isso pode, em muitas realizações, permitir que a codificação seja flexivelmente otimizada em uma base de recorte de frequência e tempo. A abordagem pode permitir um alto grau de flexibilidade e otimização e pode, especificamente, resultar em qualidade de áudio, eficiência de codificação e/ou escalabilidade aprimoradas.

[059] Pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de conjunto diferente de sinais de áudio da pluralidade de sinais de áudio.

[060] Isso pode, em muitas realizações, permitir que a codificação seja flexivelmente otimizada em uma base de recorte de frequência e tempo. A abordagem pode permitir um alto grau de flexibilidade e otimização e pode, especificamente, resultar em qualidade de áudio, eficiência de codificação e/ou escalabilidade aprimoradas.

[061] De acordo com um aspecto opcional da invenção, pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por recortes de frequência e tempo codificados que incluem pelo menos um recorte de frequência e tempo codificado que não são um recorte de frequência e tempo sem downmix ou um recorte de frequência e tempo com downmix.

[062] Isso pode permitir eficiência de codificação aprimorada em algumas realizações. Os recortes de frequência e tempo codificados que não são recortes de frequência e tempo sem downmix ou recortes de frequência e tempo com downmix podem, por exemplo, ser codificados como recortes de frequência e tempo nulos (codificados como um recorte de frequência e tempo vazio sem dados de sinal), ou podem, por exemplo, ser codificados utilizando outras técnicas, como codificação média/lateral.

[063] Pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio que é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

[064] Isso pode prover flexibilidade aprimorada e/ou uma codificação mais aprimorada. Especificamente, os recortes de frequência e tempo com downmix podem incluir downmixes de recortes de frequência e tempo de objetos de áudio e canais de áudio.

[065] De acordo com um aspecto opcional da invenção, pelo menos alguns dos recortes de frequência e tempo sem downmix são codificados em forma de onda.

[066] Isso pode permitir codificação/decodificação eficiente e potencialmente de alta qualidade. Em muitos cenários, pode permitir escalabilidade aprimorada e, em particular, escalabilidade para transparência.

[067] De acordo com um aspecto opcional da invenção, pelo menos alguns dos recortes de frequência e tempo com downmix são codificados em forma de onda.

[068] Isso pode permitir codificação/decodificação eficiente e potencialmente de alta qualidade.

[069] De acordo com um aspecto opcional da invenção, o gerador (1403) é disposto para fazer upmix dos recortes de frequência de downmix para gerar recortes de frequência e tempo upmixados para pelo menos um da pluralidade de sinais de áudio de um recorte de frequência e tempo com downmix; e o gerador é disposto para gerar recortes de frequência e tempo para o conjunto de sinais de saída utilizando os recortes de frequência e tempo upmixados para recortes para os quais a indicação de downmix indicar que o recorte de frequência e tempo codificado é um recorte de frequência e tempo com downmix.

[070] Isso pode facilitar a implementação e/ou prover alto desempenho.

[071] De acordo com outro aspecto da invenção, método de decodificação de compreendendo: recepção de um sinal de dados codificado que representa uma pluralidade de sinais de áudio, o sinal de dados codificado compreendendo recortes de frequência e tempo codificados para a pluralidade de sinais de áudio, os recortes de frequência e tempo codificados compreendendo recortes de frequência e tempo sem downmix e recortes de frequência e tempo com downmix, cada recorte de frequência e tempo com downmix sendo um downmix de pelo menos dois recortes de frequência e tempo da pluralidade de sinais de áudio e cada recorte de frequência e tempo sem downmix que representa somente um recorte de frequência e tempo da pluralidade de sinais de áudio, e a alocação dos recortes de frequência e tempo codificados como recortes de frequência e tempo com downmix ou recortes frequência sem downmix e tempo refletindo características espaciais dos recortes de frequência e tempo, o sinal de dados codificado ainda compreendendo uma indicação de downmix para recortes de frequência e tempo da pluralidade de sinais de áudio, a indicação de downmix indicando se recortes de frequência e tempo da pluralidade de sinais de áudio são codificados como recortes de frequência e tempo com downmix ou recortes de frequência e tempo sem downmix; e geração de um conjunto de sinais de saída dos recortes de frequência e tempo codificados, a geração dos sinais de saída compreendendo uma upmixagem para recortes de frequência e tempo codificados que são indicados pela indicação de downmix por serem recortes de frequência e tempo com downmix; em que pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de diferentes conjuntos de sinais de áudio da pluralidade de sinais de áudio; e pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio que é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

[072] De acordo com outro aspecto da invenção, é provido um codificador compreendendo: um receptor para receber uma pluralidade de sinais de áudio, cada sinal de áudio compreendendo uma pluralidade de recortes de frequência e tempo; um seletor para selecionar um primeiro subconjunto da pluralidade de recortes de frequência e tempo a ser downmixado; um executor de downmix para fazer downmixagem recortes de frequência e tempo do primeiro subconjunto para gerar recortes de frequência e tempo dowmixados; um primeiro codificador para gerar recortes de frequência e tempo com downmix codificados ao codificar os recortes de frequência e tempo com downmix; um segundo codificador para gerar recortes de frequência e tempo sem downmix ao codificar um segundo subconjunto dos recortes de frequência e tempo dos sinais de áudio sem downmixagem de recortes de frequência e tempo do segundo subconjunto; uma unidade para gerar uma indicação de downmix indicando se recortes de frequência e tempo do primeiro subconjunto e do segundo subconjunto são codificados como recortes de frequência e tempo com downmix codificados ou como recortes de frequência e tempo sem downmix; uma saída para gerar um sinal de áudio codificado que representa a pluralidade de sinais de áudio, o sinal de áudio codificado compreendendo os recortes de frequência e tempo sem downmix, os recortes de frequência e tempo com downmix codificados, e a indicação de downmix; em que o seletor é disposto para selecionar recortes de frequência e tempo para o primeiro subconjunto em resposta a uma característica espacial dos recortes de frequência e tempo; pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de diferentes conjuntos sinais de áudio da pluralidade de sinais de áudio; e pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio que é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

[073] A invenção pode permitir codificação de áudio aprimorada e, em particular, pode, em muitas realizações, permitir uma escalabilidade aprimorada. Em particular, a invenção pode, em muitas realizações, permitir escalabilidade de taxa de dados para transparência. Em particular, artefatos de codificação conhecidos para codificação paramétrica em taxas de dados maiores podem ser evitados ou diminuídos em muitos cenários.

[074] A abordagem pode ainda prover codificação eficiente e, em particular, pode prover codificação eficiente em taxas de dados menores. Um alto grau de escalabilidade pode ser alcançado e, em particular, escalabilidade para codificação eficiente em taxas de dados menores e qualidade muito alta (e, especificamente, transparência) em taxas de dados altas pode ser alcançada.

[075] A invenção pode prover um sistema muito flexível com um alto grau de adaptação e otimização sendo possível. A operação de codificação e decodificação pode ser adaptada não somente às características gerais dos sinais de áudio, mas também às características de recortes de frequência e tempo individuais. Da mesma forma, uma codificação altamente eficiente pode ser alcançada.

[076] O executor de downmix pode ser ainda disposto para gerar dados paramétricos para restaurar recortes de frequência e tempo que são downmixados dos recortes de frequência e tempo dowmixados; e a saída pode ser disposta para incluir os dados paramétricos no sinal de áudio codificado.

[077] O primeiro e segundo codificadores podem ser implementados como um único codificador, por exemplo, codificando os downmixes sequencialmente e utilizando possivelmente o mesmo algoritmo de codificação.

[078] O processo de codificação pode levar em consideração um conjunto de recortes de frequência e tempo com downmix e recortes de frequência e tempo individuais para aprimorar a eficiência e qualidade.

[079] De acordo com um aspecto opcional da invenção, o seletor é disposto para selecionar recortes de frequência e tempo para o primeiro subconjunto em resposta a uma taxa de dados alvo para o sinal de áudio codificado.

[080] Isso pode prover desempenho aprimorado e pode, em particular, permitir uma escalação eficiente do sinal de áudio codificado.

[081] De acordo com um aspecto opcional da invenção, o seletor é disposto para selecionar recortes de frequência e tempo para o primeiro subconjunto em resposta a pelo menos uma dentre: uma energia dos recortes de frequência e tempo; uma característica espacial dos recortes de frequência e tempo; e uma característica de coerência entre pares dos recortes de frequência e tempo.

[082] Isso pode prover desempenho aprimorado em muitas realizações e para muitos sinais.

[083] De acordo com outro aspecto da invenção, método de codificação compreendendo: recepção de uma pluralidade de sinais de áudio, cada sinal de áudio compreendendo uma pluralidade de recortes de frequência e tempo; seleção de um primeiro subconjunto da pluralidade de recortes de frequência e tempo a ser downmixado; downmixagem recortes de frequência e tempo do primeiro subconjunto para gerar recortes de frequência e tempo dowmixados; geração de recortes de frequência e tempo com downmix codificados ao codificar os recortes de frequência e tempo dowmixados; geração de recortes de frequência e tempo sem downmix ao codificar um segundo subconjunto dos recortes de frequência e tempo dos sinais de áudio sem downmixagem de recortes de frequência e tempo do segundo subconjunto; geração de uma indicação de downmix indicando se recortes de frequência e tempo do primeiro subconjunto e do segundo subconjunto são codificados como recortes de frequência e tempo dowmixados codificados ou como recortes de frequência e tempo sem downmix; e geração de um sinal de áudio codificado que representa a pluralidade de sinais de áudio, o sinal de áudio codificado compreendendo os recortes de frequência e tempo sem downmix, os recortes de frequência e tempo com downmix codificados, e a indicação de downmix; e em que a seleção compreende selecionar recortes de frequência e tempo para o primeiro subconjunto em resposta a uma característica espacial dos recortes de frequência e tempo; pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de diferentes conjuntos sinais de áudio da pluralidade de sinais de áudio; e pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio que é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

[084] De acordo com outro aspecto da invenção, sistema de codificação e decodificação compreendendo o codificador e o decodificador descritos acima.

[085] Esses e outros aspectos, características e vantagens da invenção serão aparentes a partir e elucidados com referência à(s) realização(ões) descrita(s) doravante.

BREVE DESCRIÇÃO DOS DESENHOS

[086] As realizações da invenção serão descritas, somente a título de exemplo, com referência aos desenhos, nos quais

[087] A Figura 1 ilustra um exemplo do princípio de codificação de áudio de um sinal de múltiplos canais, de acordo com a técnica anterior;

[088] A Figura 2 ilustra um exemplo de elementos de um sistema MPEG Surround, de acordo com a técnica anterior;

[089] A Figura 3 ilustra um exemplo de elementos de um sistema MPEG Surround, de acordo com a técnica anterior;

[090] A Figura 4 ilustra um exemplo de elementos de um sistema SAOC, de acordo com a técnica anterior;

[091] A Figura 5 ilustra uma interface interativa que permite que o usuário controle os objetos individuais contidos em um fluxo de bits SAOC;

[092] A Figura 6 ilustra um exemplo de elementos de um sistema SAOC, de acordo com a técnica anterior;

[093] A Figura 7 ilustra um exemplo do princípio de codificação de áudio de 3DAA, de acordo com a técnica anterior;

[094] A Figura 8 ilustra um exemplo de elementos de um sistema de Áudio MPEG 3D, de acordo com a técnica anterior;

[095] A Figura 9 ilustra um exemplo de elementos de um sistema DirAC, de acordo com a técnica anterior;

[096] A Figura 10 ilustra um exemplo de elementos de um sistema DirAC, de acordo com a técnica anterior;

[097] A Figura 11 ilustra um exemplo de elementos de um sistema de áudio, de acordo com a técnica anterior;

[098] A Figura 12 ilustra um exemplo de elementos de um sistema de áudio, de acordo com algumas realizações da invenção;

[099] A Figura 13 ilustra um exemplo de elementos de um codificador, de acordo com algumas realizações da invenção;

[0100] A Figura 14 ilustra um exemplo de elementos de um decodificador, de acordo com algumas realizações da invenção;

[0101] A Figura 15 ilustra um exemplo de elementos de um decodificador de sistema de áudio, de acordo com algumas realizações da invenção;

[0102] A Figura 16 ilustra um exemplo de codificação de recorte de frequência e tempo de sinais de áudio como recortes de frequência e tempo downmix ou sem downmix, de acordo com algumas realizações da invenção; e

[0103] A Figura 17 ilustra um exemplo de elementos de um decodificador de sistema de áudio, de acordo com algumas realizações da invenção.

DESCRIÇÃO DETALHADA DE ALGUMAS REALIZAÇÕES DA INVENÇÃO

[0104] A FIGURA 12 ilustra um exemplo de um sistema de interpretação de áudio, de acordo com algumas realizações da invenção. O sistema compreende um codificador 1201 que recebe sinais de áudio a serem codificados. Os dados de áudio codificados são transmitidos a um decodificador 1203 por meio de um meio de comunicação adequado 1205.

[0105] Os sinais de áudio providos ao codificador 1201 podem ser providos em diferentes formas e gerados de diferentes maneiras. Por exemplo, os sinais de áudio podem ser áudio capturado de microfones e/ou podem ser áudio gerado de maneira sintética, como, por exemplo, para aplicações de jogos de computador. Os sinais de áudio podem incluir diversos componentes que podem ser codificados como objetos de áudio individuais, como, por exemplo, objetos de áudio específicos, gerados de maneira sintética ou microfones dispostos para capturar uma fonte de áudio específica, como, por exemplo, um único instrumento.

[0106] Cada objeto de áudio corresponde tipicamente uma única fonte de som. Assim, ao contrário de canais de áudio e, em particular, canais de áudio de um sinal de múltiplos canais espacial convencional, os objetos de áudio tipicamente não compreendem componentes de uma pluralidade de fontes de som que podem ter posições substancialmente diferentes. De maneira semelhante, cada objeto de áudio provê tipicamente uma representação completa da fonte de som. Cada objeto de áudio é, portanto, tipicamente associada a dados de posição espacial para somente uma única fonte de som. Especificamente, cada objeto de áudio pode ser tipicamente considerado uma representação única ou completa de uma fonte de som e pode ser associado a uma única posição espacial.

[0107] Objetos de áudio não são associados a qualquer configuração de interpretação específica e especificamente não são associados a qualquer configuração especial específica de transdutores de som/alto-falantes. Assim, ao contrário de canais de som que são associados a uma configuração de interpretação, como uma configuração de alto- falante especial específica (por exemplo, uma configuração de com surround), objetos de áudio não são definidos em relação a qualquer configuração de interpretação espacial específica.

[0108] Um objeto de áudio é, portanto, tipicamente uma única fonte de som ou combinada, tratada como um caso individual, por exemplo, um cantor, instrumento ou um coro. Tipicamente, o objeto de áudio tem informações de posição de espacial associadas que definem uma posição específica para o objeto de áudio e, especificamente, uma posição de origem de ponto para o objeto de áudio. Entretanto, essa posição é independente de uma configuração de interpretação específica. Um sinal de objeto (áudio) é o sinal que representa um objeto de áudio. Um sinal de objeto pode conter múltiplos objetos, por exemplo, não simultâneos no tempo.

[0109] Ao contrário, um canal de áudio é associado a uma posição de fonte de áudio nominal. Um canal de áudio, portanto, tipicamente, não tem dados de posição associados, mas é associado a uma posição nominal de um alto- falante em uma configuração de alto-falante associada nominal. Assim, embora uma canal de áudio seja tipicamente associado a uma posição de alto-falante em uma configuração associada, um objeto de áudio não é associado a qualquer configuração de alto-falante. O canal de áudio, portanto, representa o áudio combinado que deve ser interpretado de uma determinada posição nominal quando a interpretação for realizada utilizando a configuração de alto-falante nominal. O canal de áudio, portanto, representa todas as fontes de áudio do cenário de áudio que precisa que um componente de som seja interpretado da posição nominal associada ao canal, a fim de, para a configuração de alto-falante nominal, interpretar espacialmente a fonte de áudio. Um objeto de áudio ao contrário tipicamente não é associado a qualquer configuração de interpretação específica e, ao contrário, provê o áudio que deve ser interpretado de uma posição de fonte de som, a fim de que o componente de som associado seja percebido por originar daquela posição.

[0110] O dispositivo de codificação de áudio espacial 1201 é disposto para gerar um sinal codificado que contém dados codificados que representa os sinais de áudio (especificamente, objetos de áudio e/ou canais de áudio) providos ao dispositivo de codificação de áudio espacial 1201.

[0111] O fluxo de áudio codificado pode ser comunicado por meio de qualquer meio de comunicação adequado incluindo comunicação direta ou ligações de difusão. Por exemplo, a comunicação pode ser por meio da Internet, redes de dados, difusores de rádio etc. O meio de comunicação pode ser, de maneira adicional ou alternativa, por meio de um meio de armazenamento físico, como um CD, disco Blu-RayTM, cartão de memória etc.

[0112] A descrição a seguir focalizará na codificação de objetos de áudio, mas será apreciado que os princípios descritos também podem ser aplicados, por exemplo, a sinais de canal de áudio.

[0113] A FIGURA 13 ilustra elementos do codificador 1201 em mais detalhes. No exemplo, o codificador 1201 recebe uma pluralidade de sinais de áudio que, no exemplo específico, são objetos de áudio (no exemplo específico, quatro objetos de áudio O1 a O4 são apresentados, mas será apreciado que eles meramente representam qualquer pluralidade de objetos de áudio).

[0114] Os objetos de áudio são recebidos por um receptor de codificação 1301 que provê recortes de frequência e tempo para os objetos de áudio às partes restantes do codificador 1201. Conforme será conhecido ao técnico no assunto, um recorte de frequência e tempo para um sinal corresponde ao sinal em um determinado intervalo de tempo e um determinado intervalo de frequência. Assim, a representação de um sinal em recortes de frequência e tempo significa que o sinal é representado em diversos recortes, em que cada recorte tem um intervalo de frequência associado e um intervalo de tempo associado. Cada recorte de frequência e tempo pode prover um único valor (tipicamente complexo) que reflete o valor de sinal no intervalo de tempo e intervalo de frequência associados. Entretanto, recortes de frequência e tempo também podem prover uma pluralidade de valores de sinal. Um sinal é geralmente dividido em recortes de frequência e tempo uniformes, isto é, o intervalo de tempo e/ou frequência é geralmente do mesmo tamanho para todos os recortes de frequência e tempo. Entretanto, em alguns cenários ou realizações, recortes de frequência e tempo não uniformes podem ser utilizados, por exemplo, ao utilizar recortes de frequência e tempo para os quais o tamanho do intervalo de frequência aumenta para aumentar frequências.

[0115] Em muitas realizações, os sinais de áudio já podem ser providos ao codificador como representações de recorte de frequência e tempo. Entretanto, em algumas realizações, o receptor de codificação 1301 pode gerar essas representações. Isso pode ser feito tipicamente ao segmentar os sinais em segmentos de tempo (por exemplo, de uma duração de 20 mseg.) e realizar uma transformação de tempo em frequência, como uma FFT, em cada segmento. Os valores de domínio de frequência resultantes podem, cada um, representar diretamente um recorte de frequência e tempo ou, em alguns casos, uma pluralidade de caixas de frequência adjacentes (adjacentes em tempo e/ou frequência) podem ser combinados em um recorte de frequência e tempo.

[0116] Resumindo, a descrição a seguir se referirá a recortes de frequência e tempo utilizando o termo abreviado “recortes”.

[0117] O receptor de codificação 1301 é acoplado a um seletor 1303 que recebe os recortes dos objetos de áudio. O seletor 1303 é, então, disposto para selecionar alguns recortes que serão codificados como recortes downmixados e alguns recortes que serão codificados como recortes não downmixados. Os recortes downmixados serão recortes que são gerados por downmixagem de pelo menos dois recortes tipicamente de pelo menos dois objetos de áudio, enquanto recortes sem downmix serão codificados sem qualquer downmixagem. Assim, os recortes sem downmix compreenderão dados de somente um recorte dos objetos/sinais de áudio que são codificados. Assim, um recorte sem downmix incluirá uma contribuição de somente um objeto de áudio enquanto recortes de downmix incluirão componentes/contribuição de pelo menos dois recortes e tipicamente pelo menos dois objetos de áudio. Um recorte sem downmix é especificamente um recorte que não é um downmix de dois ou mais recortes.

[0118] O seletor 1303 é acoplado ao executor de downmix 1305 que é alimentado dos recortes selecionados pelo seletor 1303. Então, procede para gerar um recorte de downmix desses recortes. Por exemplo, dois recortes correspondentes (mesmo intervalo de frequência e intervalo de tempo) de diferentes objetos de áudio que são destinados a serem downmixados são, pelo executor de downmix 1305, downmixados para gerar um único recorte downmixado. Essa abordagem é realizada para a pluralidade de recortes, gerando, com isso, um conjunto de recortes downmixados, onde cada recorte de downmix representa pelo menos dois recortes e tipicamente de pelo menos dois objetos de áudio.

[0119] Em muitas realizações, o executor de downmix 1305 ainda gera dados paramétricos (upmix) que podem ser utilizados para recriar os recortes de objeto de áudio originais ao realizar uma upmixagem dos recortes de downmix. Por exemplo, o executor de downmix 1305 pode gerar Diferença de nível Inter-objetos (ILD), Diferença de Tempo Inter- objetos (ITD), Diferenças de Fases Inter-objetos (IPD), e/ou Coeficientes de Coerência Inter-objetos (ICC), conforme será conhecido ao técnico no assunto.

[0120] Os recortes de downmix são alimentados a um primeiro codificador 1307 que procede para codificar cada recorte de downmix para gerar um recorte de downmix codificado. O codificador pode, por exemplo, ser uma quantificação simples dos valores dos recortes de downmix e pode, especificamente, ser uma codificação que mantém a forma de onda representada pelo recorte de downmix.

[0121] Em muitas realizações, os parâmetros de upmix também podem ser providos ao primeiro codificador 1307 que pode codificá-los utilizando qualquer abordagem de codificação adequada.

[0122] O seletor 1303 é, além disso, acoplado a um segundo codificador 1309 que é alimentado dos recortes que devem ser recortes sem downmix. O segundo codificador, então, procede para codificar esses recortes.

[0123] Será apreciado que, embora a FIGURA 13 ilustre o primeiro e segundo codificadores 1307, 1309 como unidades funcionais separadas, eles podem ser implementados como um único codificador e o mesmo algoritmo de codificação pode ser aplicado a ambos os recortes de recortes de downmix e sem downmix.

[0124] Será apreciado que qualquer codificação dos recortes de downmix e sem downmix pode ser utilizada para gerar um sinal de dados codificado adequado. Por exemplo, em algumas realizações, todos os recortes podem ser codificados separadamente. Por exemplo, codificação individual pode ser realizada para cada recorte sem consideração ou impacto de quaisquer outros recortes, isto é, os dados codificados para cada recorte podem ser gerados de maneira independente de outros recortes. Como um exemplo específico, uma quantificação e codificação de canal podem ser realizadas separadamente para cada recorte (seja de downmix ou sem downmix) para gerar dados que são combinados para gerar os dados codificados.

[0125] Em outras realizações, alguma codificação de junção de recortes pode ser utilizada. Especificamente, uma seleção de recortes de downmix e/ou recortes sem downmix pode ser codificada unidamente para aprimorar a eficiência ao explorar propriedades e/ou correlação específicas dos recortes e/ou dos objetos representados pelos recortes.

[0126] O seletor 1303 é, além disso, acoplado a um processador de indicação 1311 que recebe informações de quais recortes são codificados como recortes de downmix e quais são sem downmix. O processador de indicação 1311, então, procede para gerar uma indicação de downmix que indica se os recortes de objetos de áudio são codificados como recortes downmixados ou como recortes sem downmix. A indicação de downmix pode, por exemplo, compreender dados para cada recorte de cada um dos objetos de áudio, em que os dados para um determinado recorte indicam se foi sem downmix ou codificado como um downmix. No último caso, os dados podem ainda indicar quais outros objetos de áudio são downmixados no mesmo downmix. Esses dados podem permitir que o decodificador identifique quais dados do sinal de dados codificado devem ser utilizados para decodificar um recorte específico.

[0127] O primeiro codificador 1307, o segundo codificador 1309, e o processador de indicação 1311 são acoplados a um processador de saída 1313 que gera um sinal de áudio codificado que inclui os recortes sem downmix, os recortes de downmix codificados, e a indicação de downmix. Tipicamente, os parâmetros de upmix também são incluídos.

[0128] A FIGURA 14 ilustra elementos do decodificador 1203 em mais detalhes.

[0129] O decodificador 1203 compreende um receptor 1401 que recebe o sinal codificado do codificador 1201. Assim, o receptor recebe um sinal de dados codificado que representa a pluralidade de objetos de áudio, com o sinal de dados codificado compreendendo recortes codificados que são codificados como recortes de downmix ou como recortes sem downmix. Além disso, inclui a indicação de downmix que indica como a separação dos recortes de áudio originais em diferentes tipos de recortes codificados foi realizada. Tipicamente, os parâmetros de upmix também são incluídos.

[0130] O receptor 1401 é acoplado a um gerador 1403 que é alimentado dos recortes recebidos e o indicador de downmix, e que, em resposta, procede para gerar um conjunto de sinais de saída. Os sinais de saída podem, por exemplo, ser os objetos de áudio decodificados que podem ser, então, processados ou de outra forma manipulados em uma operação de pós-processamento. Em algumas realizações, o gerador 1403 pode gerar diretamente sinais de saída que são adequados para interpretação utilizando uma determinada configuração de interpretação (e, especificamente, configuração de alto- falante). Assim, o gerador 1403 pode, em alguns cenários, compreender a funcionalidade para mapeamento dos objetos de áudio em canais de áudio de uma configuração de interpretação específica.

[0131] O gerador 1403 é disposto para processar recortes codificados de maneira diferente, de acordo com se são recortes de downmix ou recortes sem downmix. Especificamente, para recortes que são indicados pela indicação de downmix por serem recortes de downmix, a geração de recortes para os sinais de saída compreende uma operação de upmixagem. Assim, a operação de upmixagem pode corresponder especificamente a uma extração ou reprodução de um recorte para um objeto de áudio de um recorte de downmix, em que o recorte de objeto de áudio foi downmixado.

[0132] Em realizações nas quais o sinal de dados incluir dados de upmix paramétricos, esses dados serão utilizados na operação de upmixagem dos recortes downmixados.

[0133] Como um exemplo, o gerador 1403 pode compreender um gerador de reprodução 1405 que reproduz os objetos de áudio originais. O gerador de reprodução 1405 pode, por exemplo, processar cada objeto de áudio em um momento, e com cada objeto de áudio sendo processado em um recorte em um momento.

[0134] Por exemplo, o gerador de reprodução 1405 pode, para um determinado segmento (tempo), começar com o recorte 1 (por exemplo, o recorte da menor frequência) do objeto de áudio 1. A indicação de downmix é, então, avaliada para o recorte 1 para o objeto 1. Se a indicação de downmix indicar que o recorte codificado para o recorte 1 do objeto 1 é sem downmix, o recorte codificado é decodificado para prover diretamente o recorte 1 do objeto 1. Entretanto, se a indicação de downmix indicar que o recorte codificado para o recorte 1 do objeto 1 for codificado de downmix, o recorte codificado é, primeiro, decodificado para prover o recorte de downmix e, consecutivamente, upmixado para reproduzir o recorte original 1 do objeto de áudio 1. Essa upmixagem do recorte de downmix (codificado), portanto, cria uma (estimativa) do recorte 1 do objeto de áudio 1 antes de ser downmixado no codificador. A upmixagem pode utilizar especificamente os dados de upmix paramétricos se esses dados estiverem disponíveis. Entretanto, se nenhum desses dados for provido, a upmixagem pode ser uma upmixagem cega. O resultado da operação de upmix aplicada ao recorte codificado 1 do objeto 1 é, portanto, (uma estimativa de) o recorte 1 do objeto de áudio 1, conforme alimentado ao codificador 1201.

[0135] Assim, o resultado da operação é o recorte 1 do objeto 1 em que a geração do recorte depende de se a indicação de downmix indicar que isso tem de ser codificado como um recorte de downmix ou como um sem downmix.

[0136] O gerador de reprodução 1405, então, procede para realizar exatamente a mesma operação para o recorte 2 de objeto de áudio 1, resultando, com isso, em um recorte 2 decodificado do objeto de áudio 1.

[0137] O processo é repetido para todos os recortes de objeto de áudio 1 e a coleção resultante para os recortes gerados, portanto, provê uma representação de recorte de frequência e tempo do objeto de áudio 1. Isso pode ser produzido pelo gerador de reprodução 1405 (ou pelo gerador 1403), ou se, por exemplo, um sinal de domínio de tempo for necessário, uma transformação de domínio de frequência em tempo pode ser aplicada (por exemplo, uma iFFT).

[0138] A mesma abordagem é, então, repetida para o objeto de áudio 2, então, objeto de áudio 3 etc. até todos os objetos de áudio serem gerados.

[0139] Será apreciado que, nesse exemplo, múltiplas operações de upmix são alocadas a cada recorte de downmix codificado. Por exemplo, se um determinado recorte de downmix codificado for um downmix de, digamos, recortes de objeto de áudio 1 e 3, uma operação de upmix será realizada tanto quando o objeto de áudio 1 for gerado e quando o objeto de áudio 3 for gerado. As operações de upmix utilizarão diferentes parâmetros de upmix (especificamente, os parâmetros que são providos para o objeto específico).

[0140] Será apreciado que em algumas realizações, a upmixagem pode prover simultaneamente ambos (ou todos) os recortes upmixados. Por exemplo, uma operação de matriz pode ser utilizada para gerar diretamente os recortes upmixados para ambos os objetos de áudio 1 e 3. A operação de upmix total pode, por exemplo, ser realizada quando o algoritmo, primeiro, encontra uma determinado recorte de downmix codificado (por exemplo, ao processar o objeto 1). Os recortes upmixados resultantes para outros objetos podem ser armazenados, de modo que não seja necessária operação de upmix separada quando os outros recortes downmixados no recorte de downmix forem encontrados (por exemplo, ao processar o objeto 3 no exemplo específico).

[0141] Será apreciado que em algumas realizações ou cenários, somente um recorte upmixado podem ser gerados de um recorte de downmix codificado pelas operações de upmixagem do gerador de reprodução 1405. Por exemplo, se somente um objeto 1 for gerado pelo gerador de reprodução 1405, a upmixagem de um determinado recorte de downmix precisa somente prover o recorte upmixado para o objeto 1.

[0142] Em algumas realizações, os objetos de áudio decodificado podem ser diretamente produzidos do gerador 1403. Entretanto, no exemplo da FIGURA 14, os objetos de áudio decodificado são alimentados a um processador de interpretação 1407 que é disposto para gerar sinais de saída correspondentes a uma configuração de interpretação específica e, especificamente, a uma configuração de alto- falante específica. O processador de interpretação 1407 pode, portanto, mapear os objetos de áudio em canais de saída em que cada canal de saída é associado a uma posição de som nominal. Por exemplo, diversos objetos de áudio podem ser mapeados em canais de áudio de uma configuração de alto- falante de som surround 5.1.

[0143] O técnico no assunto será ciente de que diferentes algoritmos para mapear os objetos de áudio nos canais de áudio para configurações de alto-falante espaciais específicas e será apreciado que qualquer abordagem pode ser utilizada.

[0144] No exemplo da FIGURA 14, o gerador 1403 é apresentado por ter funcionalidade separada para gerar os objetos de áudio e os interpretar. Entretanto, em muitas realizações, a funcionalidade do gerador de reprodução 1405 e do processador de interpretação 1407 pode ser combinada em uma única função ou operação integrada. Assim, o gerador pode gerar diretamente a saída de interpretação dos dados codificados sem gerar os objetos de áudio como sinais intermediários explícitos.

[0145] Por exemplo, a operação de upmixagem pode ser realizada como uma operação de matriz/multiplicação (ou, até, como uma multiplicação complexa se somente um valor de upmix tiver de ser gerado). De maneira semelhante, o mapeamento de interpretação pode ser realizado como uma operação de matriz/multiplicação). Uma ou mais operações de matriz/multiplicações podem ser especificamente uma operação de vetor/multiplicação (isto é, utilizando uma matriz com somente uma coluna ou fileira). Será apreciado que as duas multiplicações sequenciais podem ser combinadas em uma única multiplicação de matriz aplicada aos valores de recorte dos recortes codificados. Isso pode ser alcançado pela multiplicação de matriz tendo coeficientes de matriz que refletem tanto a upmixagem (se realizada) quanto o mapeamento de interpretação. Essa matriz pode, por exemplo, ser gerada simplesmente ao multiplicar as matrizes individuais associadas ao mapeamento de upmixagem e interpretação. Assim, nesse cenário, a upmixagem é realizada como uma parte integral de uma única operação de matriz e sem precisar de uma geração explícita dos valores de recorte de upmix ou dos objetos de áudio como sinais intermediários. Nessas realizações, os coeficientes de matriz podem, portanto, refletir/incluir uma upmixagem para recortes que são indicados por serem recortes de downmix, mas não para recortes que são indicados por serem recortes sem downmix. Especificamente, os coeficientes de matriz podem depender dos parâmetros de upmix recebidos no sinal de dados codificado quando a indicação de downmix indicar que o recorte é o recorte de downmix, mas não quando indicar que o recorte é um recorte sem downmix.

[0146] A abordagem do sistema da FIGURA 12 pode ser ilustrada pela FIGURA 15. Conforme ilustrado, um subconjunto de objetos de áudio é provido diretamente para codificação e é codificado como recortes sem downmix, isto é, sem qualquer downmixagem. Entretanto, objetos de áudio de outro subconjunto (desunido do primeiro subconjunto) não são providos diretamente para codificar, mas são, primeiro, combinados a outros objetos de áudio em um downmix. No exemplo, quatro objetos de áudio são sujeitos a downmix por pares em dois downmixes. O downmix, além disso, gera dados de upmix paramétricos (dados de objeto) que descrevem/definem como os objetos de áudio originais podem ser gerados do downmix. Será apreciado que esses parâmetros podem ser providos para intervalos de tempo maiores etc., e que o downmix e dados paramétricos, da mesma forma, provêm uma redução de dados em comparação aos sinais originais. Os downmixes são, então, codificados junto aos dados paramétricos. No lado do decodificador, a codificação pode, primeiro, ser desfeita para gerar os valores de sinal para os sinais sem downmix e para os upmixes. Os sinais resultantes são, então, processados para gerar canais de saída adequados. Esse processamento inclui a upmixagem para os downmixes (com base nos dados de upmix paramétricos) e um mapeamento dos objetos de áudio para a configuração de alto-falante específica.

[0147] No sistema, os sinais são processados em uma representação de recorte de frequência e tempo, e especificamente ao processar no domínio de recorte de frequência e tempo. Além disso, uma indicação de downmix é provida, que pode, para recortes individuais, indicar se os recortes de objeto de áudio individuais são codificados como recortes de downmix ou como recortes sem downmix. Essa indicação de downmix é comunicada do codificador ao decodificador e, da mesma forma, permite a alocação de recortes como recortes de downmix ou sem downmix a serem realizados em um recorte em uma base por recorte. Assim, a FIGURA 15 pode ser considerada por representar a abordagem para um recorte específico, isto é, para um intervalo de tempo e frequência específicos. Entretanto, para outros recortes, os mesmos objetos de áudio podem ser codificados utilizando uma alocação diferente de recortes em recortes de downmix e sem downmix codificados. Assim, o sistema pode prover uma codificação bastante flexível, e a abordagem altamente granular pode permitir otimização substancial para uma determinada taxa alvo com a otimização sendo específica para as características de sinal específicas.

[0148] A abordagem permite uma compensação bastante eficiente entre os méritos relativos de codificação de downmix e codificação sem downmix (e, portanto, entre os méritos relativos de codificação paramétrica e codificação de forma de onda). Por exemplo, para taxas de dados menores, um número relativamente grande de recortes podem ser parametricamente codificados como recortes de downmix com parâmetros associados. Entretanto, ainda é possível codificar recortes críticos sem qualquer downmixagem, com isso, reduzindo a possível degradação de qualidade de codificação paramétrica. Conforme a taxa de dados alvo/disponível é aumentada, um número crescente de recortes podem ser recortes sem downmix, aumentando, assim, a qualidade (especificamente, os objetos de áudio são crescentemente codificados em forma de onda em vez de codificados de maneira paramétrica e, em particular, interferência de objeto de áudio pode ser reduzida). Essa tendência pode ser continuada até todos os recortes serem recortes sem downmix e todas as abordagens de codificação e decodificação se tornam transparentes. Assim, uma codificação altamente eficiente e escalabilidade para transparência podem ser alcançadas.

[0149] O sistema da FIGURA 12 pode, portanto, ser vista como uma abordagem de forma de onda/paramétrica híbrida que utiliza pré-combinação de um subconjunto dos recortes disponíveis em recortes downmixados junto às informações paramétricas acompanhantes. Os recortes restantes junto aos recortes downmixados podem ser codificados utilizando recortes de codificação de forma de onda tradicional. As informações paramétricas relacionar-se-ão a recortes downmixados para os recortes de objeto de áudio. Além disso, as informações sobre como cada objeto é representado (informação puramente de forma de onda ou de forma de onda mais paramétrica - isto é seja codificadas sem downmix ou com downmix) também são transmitidas no sinal de dados codificado. Esses aspectos, em particular, permitem uma escalabilidade aprimorada da taxa de dados dos sinais codificados.

[0150] Um exemplo particular é a codificação de um campo de som difuso. Sob a suposição de que o campo de som difuso é, de fato, onidirecional, isso precisa que um número virtualmente ilimitado de objetos represente o campo de som difuso. Tipicamente, devido às limitações do sistema auditivo humano, não é necessário representar o campo de som difuso utilizando uma quantidade muito grande de objetos/canais. Dependendo da taxa de bits disponível, o alto número de objetos/canais que representa o campo de som difuso pode ser downmixado em um número menor de objetos/canais com informações paramétricas acompanhantes.

[0151] No exemplo da FIGURA 15, oito objetos são codificados. O codificador determina quais recortes de objeto devem ser combinados em recortes downmixados. Além do downmix, dados de objeto, que representam a relação entre os recortes downmixados e os recortes de objeto originais também são derivados. Informações sobre como cada recorte dos objetos originais podem ser derivadas (forma de onda direta ou forma de onda de downmix mais dados de objeto) também são derivadas. As informações resultantes, consistindo em recortes de objeto que não foram downmixados, recortes de objeto que foram sujeitos (parcialmente) a downmix com seus dados de objetos acompanhantes, e as informações de derivação (a indicação de downmix) são todos codificados. Os recortes de objeto (sejam downmixados ou não) podem ser codificados utilizando técnicas de codificação de forma de onda tradicionais.

[0152] O decodificador recebe um ou mais recortes de downmix, onde cada recorte de downmix representa um downmix de um ou mais recortes de um ou mais dos objetos de áudio. Além disso, o decodificador recebe dados paramétricos associados aos recortes de objeto nos recortes de downmix. Também, o decodificador recebe um ou mais recortes de um ou mais dos sinais de objeto, com esses recortes não estando presentes nos recortes de downmix. O decodificador ainda recebe um indicador de downmix para prover informações que são indicativas de se um determinado recorte de objeto é codificado como um recorte sem downmix ou como um recorte de downmix com dados paramétricos. Com base nessas informações, o decodificador pode gerar recortes para sinais de saída utilizando recortes de downmix mais informações paramétricas ou utilizando recortes sem downmix.

[0153] Em algumas realizações, todas as operações são realizadas em recortes correspondentes, isto é, o processamento é realizado separadamente para cada intervalo de frequência e intervalo de tempo do recorte. Especificamente, o sinal de saída é gerado ao gerar um recorte de sinal de saída com base em recortes codificados que abrangem o mesmo intervalo de tempo e frequência. Entretanto, em algumas realizações, alguma transformação de frequência ou tempo pode ser realizada como parte do processamento. Por exemplo, uma pluralidade de recortes codificados pode ser combinada para gerar um recorte de saída que abrange um intervalo de frequência maior.

[0154] Também, tipicamente, a downmixagem será de recortes que abrangem o mesmo intervalo de frequência e intervalo de tempo. Entretanto, em algumas realizações, o downmix pode ser de recortes que abrangem diferentes intervalos que podem ser sobrepostos ou separados. De fato, em algumas realizações e cenários, um downmix pode, ainda, ser de dois recortes do mesmo sinal (por exemplo, dois recortes sendo adjacentes ao longo da dimensão de frequência).

[0155] O uso e comunicação de uma indicação de downmix provém um grau muito alto de flexibilidade na codificação dos objetos de áudio e, especificamente, na seleção de como combinar (ou não) objetos de áudio como parte do processo de codificação. A abordagem pode permitir que segmentos de sinal individuais (recortes individuais) sejam selecionados de maneira flexível para combinação com outros segmentos de sinal, dependendo de características de somente parte do sinal. De fato, ao invés de meramente selecionar quais sinais ou objetos podem ser downmixados juntos, a aplicação de uma indicação de downmix com base em recorte permite que essas considerações sejam realizadas para segmentos de sinal individuais e especificamente para recortes individuais.

[0156] Em algumas realizações, a indicação de downmix pode incluir uma indicação separada para cada recorte de cada objeto, e o codificador pode, para cada recorte, determinar se o recorte for downmixado, e se sim, pode decidir com qual outro recorte ou recortes deve ocorrer a downmixagem. Assim, nessas realizações, uma otimização com base em recorte individual da downmixagem pode ser realizada para todos os objetos. De fato, um processo de otimização global pode ser realizado para alcançar a mais alta qualidade de áudio para uma determinada taxa alvo.

[0157] A abordagem pode permitir especificamente que alguns recortes de um determinado objeto sejam downmixados com outros recortes, enquanto outros recortes do objeto são codificados sem qualquer downmixagem. Assim, a codificação de um objeto pode incluir tanto recortes downmixados quanto recortes sem downmix. Isso pode aprimorar substancialmente a eficiência e/ou qualidade de codificação.

[0158] Por exemplo, dois objetos de áudio podem, em um determinado segmento, conter alguns intervalos de frequência que são perceptivelmente menos importantes (por exemplo, devido a baixos valores de sinal) enquanto outros intervalos de frequência são perceptivelmente mais importantes. Nesse caso, os recortes nos intervalos menos perceptivelmente significativos podem ser sujeitos a downmix juntos, enquanto os intervalos perceptivelmente mais significativos são mantidos separados para evitar interferência e aprimorar a qualidade.

[0159] Também, será apreciado que os objetos que são envolvidos em diferentes downmixes podem ser variados. Por exemplo, para um determinado objeto, um recorte pode ser downmixado com outro objeto, enquanto o outro recorte pode ser downmixado com outro objeto. Como um exemplo específico, para frequências menores, pode ser vantajoso downmixar objetos 1 e 2, enquanto para frequências maiores, pode ser vantajoso downmixar objetos 1 e 3 (digamos, em um exemplo em que o objeto 1 tem baixa energia de sinal em frequências tanto altas quanto baixas, o objeto 2 tem energia de sinal baixa em baixas frequências, mas alta energia de sinal em altas frequências, e o objeto 3 tem baixa energia de sinal em altas frequências, mas alta energia de sinal em baixas frequências).

[0160] O número de recortes que são downmixados em um determinado recorte de downmix não é, além disso, em muitas realizações, limitado a dois recortes, mas, de fato, em algumas realizações e cenários, um ou mais recortes de downmix podem ser gerados por downmixagem 3, 4 ou mesmo mais recortes.

[0161] A flexibilidade ainda se estende na direção do tempo e, de fato, a distribuição de recortes em recortes de downmix e sem downmix pode ser variante temporalmente. A distribuição pode, portanto, ser dinamicamente alterada e, em particular, uma nova distribuição/alocação pode ser determinada para cada segmento de tempo.

[0162] Também será apreciado que não é necessariamente requerido que todos os objetos incluam um ou mais recortes que são downmixados. De fato, é possível que todos os recortes de um ou mais dos objetos possam ser recortes sem downmix, provendo, com isso, alta qualidade de áudio desses objetos. Isso pode ser particularmente adequado se um objeto de significância perceptual específica (como os vocais para um cenário de áudio de música). Da mesma forma, é possível que todos os recortes de um ou mais objetos de áudio sejam inteiramente codificados como recortes de downmix.

[0163] Um exemplo da flexibilidade possível é ilustrado na FIGURA 16, que apresenta a distribuição de recortes em um segmento de tempo. Na FIGURA 16, cada coluna consiste nos recortes de um determinado sinal de entrada de áudio e cada fileira é um intervalo de frequência específico (correspondente aos recortes). O exemplo ilustra cinco objetos de áudio (representados pela letra o) e dois sinais de canal de áudio (representados pela letra c). Além disso, o exemplo tem base em uma codificação do segmento que, para cada intervalo de frequência, pode incluir dois downmixes (representados pela letra d).

[0164] No exemplo, o primeiro intervalo de frequência (isto é, a primeira fileira) é codificado utilizando somente dois recortes de downmix. Especificamente, nesse intervalo, os recortes dos três objetos mais à esquerda e os dois canais de áudio podem ser combinados no primeiro downmix e os recortes dos dois objetos mais à direita podem ser combinados no segundo recorte de downmix.

[0165] No próximo intervalo de frequência/fileira, todos os recortes são codificados como recortes sem downmix. No próximo intervalo de frequência/fileira, os dois recortes dos dois canais de áudio são downmixados sem um recorte de downmix, enquanto todos os recortes de objeto são codificados como recortes sem downmix. No próximo intervalo de frequência/fileira, os dois recortes dos dois objetos mais à direita são downmixados em um recorte de downmix enquanto todos os outros recortes são codificados como recortes sem downmix. Etc.

[0166] Para codificação eficiente dos sinais/recortes resultantes, técnicas existentes para armazenamento de matriz dispersa podem, por exemplo, ser utilizadas. De maneira adicional ou alternativa, diversas técnicas podem ser empregadas para aprimorar a eficiência de taxa de bits na codificação dos recortes. Por exemplo, o nível de quantificação para um determinado objeto/recorte pode ser aumentado devido ao mascaramento espacial por outros objetos/recortes na cena. Em casos extremos, um determinado recorte não pode, por exemplo, mais ser transmitido (isto é, quantificado a zero).

[0167] Será apreciado que diferentes abordagens, algoritmos, critérios podem ser utilizados para selecionar quais recortes são downmixados (e em quais downmixes).

[0168] Em muitas realizações, o seletor 1303 pode selecionar recortes para fazer downmixagem em resposta a uma taxa de dados alvo para o sinal de áudio codificado. Em particular, o número de recortes que são downmixados e/ou o número de downmixes que são incluídos no sinal de áudio codificado pode ser dependente da taxa de dados disponível (isto é, o alvo). Assim, para taxas de dados menores, um número grande relativo de downmixes é gerado. Conforme a taxa de dados alvo aumenta, o número de downmixes é reduzido, e, de fato, se a taxa de dados for suficientemente alta, o sistema pode selecionar não realizar quaisquer downmixes. Em taxas de bits extremamente baixas, o número de downmixes pode ser pequeno, mas cada downmix pode ser um downmix de um alto número de recortes. Assim, um número relativamente baixo de downmixes pode representar a maioria (se não todos) dos recortes de frequência da pluralidade de sinais de áudio.

[0169] O seletor 1303 pode (também) realizar a seleção em resposta à energia dos recortes. Especificamente, recortes que representam energia menor do componente de sinal no recorte podem ser downmixados, enquanto os recortes que representam energia maior do componente de sinal no recorte podem ser codificados como um recorte sem downmix. Uma energia menor é provável por ser menos perceptivelmente significativa e, portanto, as implicações (como interferência) da codificação de downmix podem ser reduzidas da mesma forma. Em alguns cenários, pode ser vantajoso equilibrar a energia dos recortes que são combinados em um determinado downmix. Isso pode, por exemplo, reduzir a interferência, uma vez que os sinais serão mais semelhantes no determinado recorte.

[0170] Em algumas realizações, a seleção pode ser em resposta a características espaciais dos recortes. Por exemplo, o objeto de áudio pode representar objetos de áudio que são prováveis por serem posicionados próximos entre si e, da mesma forma, esses recortes podem ser selecionados para serem downmixados juntos. Em muitas realizações, objetos que são espacialmente próximos serão combinados. A justificativa para isso é que quanto mais separação espacial é necessária entre os objetos, mais desmascaramento espacial ocorrerá. Em particular, interferência é menos provável de ser percebida quando estiver entre duas fontes de áudio próximas, do que quando for para duas fontes de áudio que são espacialmente distantes uma da outra.

[0171] Em algumas realizações, a seleção pode ser, em resposta, uma característica de coerência entre pares dos recortes. De fato, interferência entre sinais que são proximamente correlacionados é menos provável de ser percebida do que entre sinais que são somente correlacionados de maneira bastante folgada.

[0172] Será apreciado que a representação específica de informações pela indicação de downmix pode depender dos requisitos e preferências específicos das realizações individuais.

[0173] Como um exemplo, uma restrição predeterminada pode ser de que os objetos de áudio podem ser somente downmixados juntos, em determinados pares. Por exemplo, recortes de objeto 1 podem ser somente downmixados com recortes (no mesmo intervalo de frequência e tempo) do objeto 2, recortes do objeto 3 podem ser somente downmixados com recortes do objeto 4 etc. Nesse caso, a indicação de downmix pode simplesmente indicar quais recortes são downmixados e não precisam explicitamente indicar a identidade dos recortes que são downmixados em um downmix específico. Por exemplo, a indicação de downmix pode incluir um bit para cada intervalo de frequência do objeto 1 e 2, em que o bit simplesmente indica se o recorte é downmixado ou não. O decodificador pode interpretar esse bit e realizar uma upmixagem do recorte para gerar recortes para objetos 1 e 2, se o bit indicar que o recorte é um downmix.

[0174] De fato, a indicação de downmix não precisa ser explícita, mas pode ser provida por outros dados. Em particular, para realizações nas quais o downmix gera dados paramétricos, a indicação de que um recorte é um recorte de downmix pode simplesmente ser provida pela presença de dados de upmix paramétricos. Assim, se parâmetros que descrevem como gerar o(s) recorte(s) de upmix de um recorte codificado forem providos no sinal de áudio, isso provê uma indicação de que o recorte é, de fato, um recorte de downmix.

[0175] Em muitas realizações, a indicação de downmix pode indicar quais recortes de objeto são downmixados em um determinado recorte de downmix. A indicação de downmix pode, para um ou mais (possivelmente todos) recortes que são codificados como recortes de downmix, prover uma ligação entre o recorte de downmix e os recortes dos objetos de áudio. A ligação pode identificar os recortes que são downmixados no downmix. Por exemplo, os dados de ligação podem, para um determinado recorte de downmix, indicar que é um downmix de, digamos, objetos 1 e 2, para outro recorte de downmix que é um downmix de, digamos, objetos 2, 4 e 7 etc.

[0176] Incluindo a identificação de recortes de objeto que foram downmixados em recortes de downmix, pode prover flexibilidade aumentada e pode evitar qualquer necessidade por uma restrição predeterminada na qual recortes podem ser downmixados. A abordagem pode permitir uma otimização completamente livre, em que recortes dos downmixes podem ser downmixados em qualquer combinação para prover uma qualidade de áudio otimizada (perceptual) para uma determinada taxa de dados.

[0177] Também, será apreciado que a indicação de downmix pode ser estruturada de maneira diferente em diferentes realizações. Em particular, será apreciado que os dados de indicação de downmix podem ser providos com referência aos recortes de objeto originais (de maneira mais geral, os recortes dos sinais de áudio que são codificados). Por exemplo, para cada recorte de cada objeto, a presença de dados de upmix paramétricos pode indicar que o recorte é um recorte de downmix. Para esse recorte, são providos dados que o ligam a um recorte de downmix codificado específico. Por exemplo, os dados podem prover um sinalizador a uma posição de dados no sinal de dados codificado, em que o recorte de downmix correspondente foi codificado.

[0178] De maneira equivalente, os dados de indicação de downmix podem ser providos com referência aos recortes codificados (e, em particular, aos recortes de downmix codificados dos sinais de áudio). Por exemplo, para um recorte codificado do sinal de áudio, o sinal de áudio pode incluir uma seção de dados que identifica quais objetos o recorte de downmix representa.

[0179] Será apreciado que essas abordagens são equivalentes e que uma indicação de downmix que é relacionada aos recortes codificados também provê inerentemente uma indicação de downmix para os recortes de objeto. Por exemplo, é observado que as informações providas por dados que indicam, por exemplo,

[0180] Recorte N de objeto A é downmixado no recorte X codificado,

[0181] Recorte M de objeto B é downmixado no recorte X codificado,

[0182] (isto é dados relacionados ao recorte de objeto) provêm exatamente as mesmas informações que os dados indicando:

[0183] Recorte X codificado é um downmix do recorte N do objeto A e recorte M do objeto B.

[0184] (isto é, dados relacionados ao recorte codificado).

[0185] A disposição de dados no sinal de dados codificado pode depender da realização específica. Por exemplo, em algumas realizações, os dados que representam a indicação de downmix podem ser providos em uma seção de dados separada dos recortes de dados codificados e atualização paramétrica. Em outras realizações, os dados podem ser intercalados, por exemplo, com cada recorte de dados de downmix codificado sendo acompanhada por um campo compreendendo parâmetros de upmix e identificação dos recortes de objeto incluídos no downmix.

[0186] Por exemplo, o sinal de áudio codificado pode ser estruturado pelos sinais de objeto que são dispostos sequencialmente em um fluxo de dados. Assim, os primeiros dados podem ser providos para o objeto 1. Esses dados podem compreender uma pluralidade de seções de dados sequenciais, cada uma das quais representa um recorte (por exemplo, a fim de aumentar a frequência). Assim, a primeira seção incluir um recorte codificado para o recorte 1 do objeto 1, a próxima seção incluir um recorte codificado para recorte 2 do objeto 1 etc.

[0187] Se uma seção compreender um recorte codificado que é um recorte sem downmix, somente os dados de recorte codificado são incluídos na seção. Entretanto, se o recorte tiver sido codificado como um recorte de downmix, a seção compreende os dados de downmix codificados, isto é, o recorte de downmix. Entretanto, além disso, a seção compreende um campo contendo parâmetros de upmix paramétrico para gerar o recorte para o objeto 1 do recorte de downmix. Isso indica que a seção contém um recorte de downmix. Além disso, um campo é incluído que identifica qual(is) outro(s) recorte(s) é(são) combinado(s) no downmix (por exemplo, pode conter dados indicando que o recorte correspondente do objeto 2 também é representado pelo downmix).

[0188] O sinal de áudio codificado pode, portanto, conter seções sequenciais para todos os recortes do primeiro objeto de áudio.

[0189] A mesma abordagem é, então repetida para o próximo objeto de áudio, isto é, após os dados de codificação para o objeto 1, os dados codificados para o objeto 2 são providos em uma pluralidade de seções, cada uma das quais corresponde a um recorte. Entretanto, nesse caso, os dados de codificação de downmix que já foram providos em uma seção anterior (por exemplo, para um objeto anterior) não são incluídos. Por exemplo, se um downmix for gerado para o recorte 2 de objetos 1 e 2, esse dados de downmix codificado já foram providos para o recorte 2 do objeto 1 e, da mesma forma, a seção de dados para o recorte 2 do objeto 2 não contém quaisquer dados codificados. Entretanto, em algumas realizações, pode compreender os parâmetros de upmix para gerar recorte 2 do objeto 2 do recorte de downmix. Em outras realizações, esses dados podem não ser providos (isto é, upmixagem cega pode ser utilizada) ou pode ser provida dos dados de recorte codificado (isto é, na seção de dados para o recorte 2 de objeto 1). Nessas realizações, a seção atual pode ser vazia ou pulada.

[0190] Essa abordagem pode ser continuada para todos os objetos com o princípio de que os dados de downmix codificados são incluídos somente pela primeira vez em que são encontrados na disposição de recorte sequencial do sinal de dados codificado. Os dados codificados para cada segmento de tempo podem ser providos conforme descrito com segmentos de tempo que são dispostos sequencialmente no sinal de áudio codificado.

[0191] Será apreciado que muitas outras disposições são possíveis e que qualquer disposição adequada pode ser utilizada.

[0192] A descrição acima focalizou na codificação de objetos de áudio. Entretanto, será apreciado que a abordagem também é aplicável a outros sinais de áudio. Especificamente, pode ser aplicável à codificação de sinais/canais de áudio de um sinal de múltiplos canais espacial e/ou sinais de áudio para canais associados a uma posição nominal em uma configuração de alto-falante nominal. Especificamente, as referências a objetos de áudio na descrição anterior podem ser, conforme adequado, consideradas por serem uma referência a sinais de áudio.

[0193] De fato, a abordagem pode ser utilizada em um sistema com base em canal/objeto híbrido. Um exemplo disso é ilustrado na FIGURA 17. No exemplo, ambos os canais de áudio e objetos são tratados de maneira semelhante em uma maneira similar a descrita anteriormente para objetos de áudio. O codificador decide quais recortes de objetos e/ou canais devem ser combinados. Essa seleção pode combinar especificamente recortes de canais de áudio e objetos em recortes de downmix (híbridos).

[0194] Será apreciado que a descrição acima, para clareza, descreveu as realizações da invenção com referência a diferentes circuitos funcionais, unidades e processadores. Entretanto, será aparente que qualquer distribuição adequada de funcionalidade entre diferentes circuitos funcionais, unidades ou processadores pode ser utilizada sem diminuir a invenção. Por exemplo, a funcionalidade ilustrada para ser realizada por processadores ou controladores separados pode ser realizada pelos mesmo processador ou controladores. Com isso, referências a unidades ou circuitos funcionais específicos devem ser somente vistos como referências a meios adequados para prover a funcionalidade descrita, ao invés de indicativas de uma estrutura ou organização lógica ou física estrita.

[0195] A invenção pode ser implementada em qualquer forma adequada incluindo hardware, software, firmware ou qualquer combinação destes. A invenção pode ser opcionalmente implementada, pelo menos parcialmente, como software de computador que executa em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma realização da invenção podem ser física, funcional e logicamente implementados de qualquer maneira adequada. De fato, a funcionalidade pode ser implementada em uma única unidade, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Como tal, a invenção pode ser implementada em uma única unidade ou pode ser física e funcionalmente distribuída entre diferentes unidades, circuitos e processadores.

[0196] Embora a presente invenção tenha sido descrita em conexão com algumas realizações, não é destinada a ser limitada à forma específica aqui estabelecida. Ao contrário, o escopo da presente invenção é limitado somente pelas reivindicações anexas. Adicionalmente, embora um aspecto possa aparecer por ser descrito em conexão com as realizações particulares, um técnico no assunto reconheceria que diversos aspectos das realizações descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo compreendendo não exclui a presença de outros elementos ou etapas.

[0197] Além disso, embora listados individualmente, uma pluralidade de meios, elementos, circuitos ou etapas de método pode ser implementada, por exemplo, por um único circuito, unidade ou processador. Adicionalmente, embora aspectos individuais possam ser incluídos em diferentes reivindicações, eles podem ser possivelmente combinados de maneira vantajosa e a inclusão em diferentes reivindicações não implica que uma combinação de aspectos não seja viável e/ou vantajosa. Também, a inclusão de um aspecto em uma categoria de reivindicações não implica uma limitação a essa categoria, mas, ao contrário, indica que o aspecto é igualmente aplicável a outras categorias de reivindicação, conforme adequado. Além disso, a ordem de aspectos nas reivindicações não implica em qualquer ordem específica na qual os aspectos devem ser trabalhados e, em particular, a ordem de etapas individuais em uma reivindicação de método não implica que as etapas devem ser realizadas nessa ordem. Ao contrário, as etapas podem ser realizadas em qualquer ordem adequada. Além disso, referências em singular não excluem uma pluralidade. Assim, referências a “um”, “uma”, “primeiro/a”, “segundo/a” etc. não impedem uma pluralidade. Os sinais de referência nas reivindicações são providos meramente como um exemplo esclarecedor que não deve ser construído como limitante do escopo das reivindicações de qualquer maneira.

Claims

1. DECODIFICADOR, caracterizado por compreender: um receptor (1401) para receber um sinal de dados codificado que representa uma pluralidade de sinais de áudio, o sinal de dados codificado compreendendo recortes de frequência e tempo codificados para a pluralidade de sinais de áudio, os recortes de frequência e tempo codificados compreendendo recortes de frequência e tempo sem downmix e recortes de frequência e tempo com downmix, cada recorte de frequência e tempo com downmix sendo um downmix de pelo menos dois recortes de frequência e tempo da pluralidade de sinais de áudio e cada recorte de frequência e tempo sem downmix representando somente um recorte de frequência e tempo da pluralidade de sinais de áudio, e a alocação dos recortes de frequência e tempo codificados como recortes de frequência e tempo com downmix ou recortes de frequência e tempo sem downmix que refletem características espaciais dos recortes de frequência e tempo, o sinal de dados codificado ainda compreendendo uma indicação de downmix para recortes de frequência e tempo da pluralidade de sinais de áudio, a indicação de downmix indicando se recortes de frequência e tempo da pluralidade de sinais de áudio são codificados como recortes de frequência e tempo com downmix ou recortes de frequência e tempo sem downmix; um gerador (1403) para gerar um conjunto de sinais de saída dos recortes de frequência e tempo codificados, a geração dos sinais de saída compreendendo uma upmixagem para recortes de frequência e tempo codificados que são indicados pela indicação de downmix por serem recortes de frequência e tempo com downmix; em que pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de diferentes conjuntos de sinais de áudio da pluralidade de sinais de áudio; e pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio sendo associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

2. DECODIFICADOR, de acordo com a reivindicação 1, em que o sinal de dados codificado é ainda caracterizado por compreender dados de upmix paramétricos, e em que o gerador (1403) é disposto para adaptar a operação de upmixagem em resposta aos dados de upmix paramétricos.

3. DECODIFICADOR, de acordo com a reivindicação 1, em que o gerador (1403) é caracterizado por compreender uma unidade de interpretação disposta para mapear recortes de frequência e tempo para a pluralidade de sinais de áudio em sinais de saída correspondentes a uma configuração de fonte de som espacial.

4. DECODIFICADOR, de acordo com a reivindicação 1, caracterizado pelo gerador (1403) ser disposto para gerar recortes de frequência e tempo para o conjunto de sinais de saída ao aplicar operações de matriz aos recortes de frequência e tempo codificados, coeficientes de operações de matriz incluindo componentes de upmix para recortes de frequência e tempo codificados para os quais a indicação de downmix indica que o recorte de frequência e tempo codificado é um recorte de frequência e tempo com downmix e não para recortes de frequência e tempo codificados para os quais a indicação de downmix indica que o recorte de frequência e tempo codificado é um recorte de frequência e tempo sem downmix.

5. DECODIFICADOR, de acordo com a reivindicação 1, caracterizado por pelo menos um sinal de áudio ser representado no sinal decodificado por pelo menos um recorte de frequência e tempo sem downmix e pelo menos um recorte de frequência e tempo com downmix.

6. DECODIFICADOR, de acordo com a reivindicação 1, em que a indicação de downmix para pelo menos um recorte de frequência e tempo com downmix é caracterizada por compreender uma ligação entre um recorte de frequência e tempo com downmix codificado e um recorte de frequência e tempo da pluralidade de sinais de áudio.

7. DECODIFICADOR, de acordo com a reivindicação 1, caracterizado por pelo menos um sinal de áudio da pluralidade de sinais de áudio ser representado por recortes de frequência e tempo codificados que incluem pelo menos um recorte de frequência e tempo codificado que não é um recorte de frequência e tempo sem downmix ou um recorte de frequência e tempo com downmix.

8. DECODIFICADOR, de acordo com a reivindicação 1, caracterizado por pelo menos alguns dos recortes de frequência e tempo sem downmix serem codificados em forma de onda.

9. DECODIFICADOR, de acordo com a reivindicação 1, caracterizado por pelo menos alguns dos recortes de frequência e tempo com downmix serem codificados em forma de onda.

10. DECODIFICADOR, de acordo com a reivindicação 1, caracterizado pelo gerador (1403) ser disposto para fazer upmix dos recortes de frequência de tempo de downmix para gerar recortes de frequência e tempo upmixados para pelo menos um da pluralidade de sinais de áudio de um recorte de frequência e tempo com downmix; e o gerador é disposto para gerar recortes de frequência e tempo para o conjunto de sinais de saída utilizando os recortes de frequência e tempo upmixados para recortes para os quais a indicação de downmix indica que o recorte de frequência e tempo codificado é um recorte de frequência e tempo com downmix.

11. MÉTODO DE DECODIFICAÇÃO, caracterizado por compreender: recepção de um sinal de dados codificado que representa uma pluralidade de sinais de áudio, o sinal de dados codificado compreendendo recortes de frequência e tempo codificados para a pluralidade de sinais de áudio, os recortes de frequência e tempo codificados compreendendo recortes de frequência e tempo sem downmix e recortes de frequência e tempo com downmix, cada recorte de frequência e tempo com downmix sendo um downmix de pelo menos dois recortes de frequência e tempo da pluralidade de sinais de áudio e cada recorte de frequência e tempo sem downmix representando somente um recorte de frequência e tempo da pluralidade de sinais de áudio, e a alocação dos recortes de frequência e tempo codificados como recortes de frequência e tempo com downmix ou recortes de frequência e tempo sem downmix refletindo características espaciais dos recortes de frequência e tempo, o sinal de dados codificado ainda compreendendo uma indicação de downmix para recortes de frequência e tempo da pluralidade de sinais de áudio, a indicação de downmix indicando se recortes de frequência e tempo da pluralidade de sinais de áudio são codificados como recortes de frequência e tempo com downmix ou recortes de frequência e tempo sem downmix; e geração de um conjunto de sinais de saída dos recortes de frequência e tempo codificados, a geração dos sinais de saída compreendendo uma upmixagem para recortes de frequência e tempo codificados que são indicados pela indicação de downmix por serem recortes de frequência e tempo com downmix; em que pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de diferentes conjuntos de sinais de áudio da pluralidade de sinais de áudio; e pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio que é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

12. CODIFICADOR, caracterizado por compreender um receptor (1301) para receber uma pluralidade de sinais de áudio, cada sinal de áudio compreendendo uma pluralidade de recortes de frequência e tempo; um seletor (1303) para selecionar um primeiro subconjunto da pluralidade de recortes de frequência e tempo a serem downmixados; um executor de downmix (1305) para fazer downmixagem de recortes de frequência e tempo do primeiro subconjunto para gerar recortes de frequência e tempo dowmixados; um primeiro codificador (1307) para gerar recortes de frequência e tempo com downmix codificados ao codificar os recortes de frequência e tempo com downmix; um segundo codificador (1309) para gerar recortes de frequência e tempo sem downmix ao codificar um segundo subconjunto dos recortes de frequência e tempo dos sinais de áudio sem downmixagem de recortes de frequência e tempo do segundo subconjunto; uma unidade (1311) para gerar uma indicação de downmix que indica se recortes de frequência e tempo do primeiro subconjunto e do segundo subconjunto são codificados como recortes de frequência e tempo com downmix codificados ou como recortes de frequência e tempo sem downmix; uma saída (1313) para gerar um sinal de áudio codificado que representa a pluralidade de sinais de áudio, o sinal de áudio codificado compreendendo os recortes de frequência e tempo sem downmix, os recortes de frequência e tempo com downmix codificados, e a indicação de downmix; em que o seletor (1303) é disposto para selecionar recortes de frequência e tempo para o primeiro subconjunto em resposta e uma característica espacial dos recortes de frequência e tempo; pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de diferentes conjuntos de sinais de áudio da pluralidade de sinais de áudio; e pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio que é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

13. CODIFICADOR, de acordo com a reivindicação 12, caracterizado pelo seletor (1303) ser disposto para selecionar recortes de frequência e tempo para o primeiro subconjunto em resposta a uma taxa de dados alvo para o sinal de áudio codificado.

14. CODIFICADOR, de acordo com a reivindicação 12, caracterizado pelo seletor (1303) ser disposto para selecionar recortes de frequência e tempo para o primeiro subconjunto em resposta a pelo menos uma dentre: uma energia dos recortes de frequência e tempo; e uma característica de coerência entre pares dos recortes de frequência e tempo.

15. MÉTODO DE CODIFICAÇÃO, caracterizado por compreender: recepção de uma pluralidade de sinais de áudio, cada sinal de áudio compreendendo uma pluralidade de recortes de frequência e tempo; seleção de um primeiro subconjunto da pluralidade de recortes de frequência e tempo a serem downmixados; downmixagem de recortes de frequência e tempo do primeiro subconjunto para gerar recortes de frequência e tempo dowmixados; geração de recortes de frequência e tempo com downmix codificados ao codificar os recortes de frequência e tempo dowmixados; geração de recortes de frequência e tempo sem downmix ao codificar um segundo subconjunto dos recortes de frequência e tempo dos sinais de áudio sem downmixagem dos recortes de frequência e tempo do segundo subconjunto; geração de uma indicação de downmix que indica se os recortes de frequência e tempo do primeiro subconjunto e do segundo subconjunto são codificados como recortes de frequência e tempo dowmixados codificados ou como recortes de frequência e tempo sem downmix; e geração de um sinal de áudio codificado que representa a pluralidade de sinais de áudio, o sinal de áudio codificado compreendendo os recortes de frequência e tempo sem downmix, os recortes de frequência e tempo com downmix codificados, e a indicação de downmix; e em que a seleção compreende selecionar recortes de frequência e tempo para o primeiro subconjunto em resposta a uma característica espacial dos recortes de frequência e tempo; pelo menos um sinal de áudio da pluralidade de sinais de áudio é representado por dois recortes de frequência e tempo com downmix que são downmixes de diferentes conjuntos de sinais de áudio da pluralidade de sinais de áudio; e pelo menos um recorte de frequência e tempo com downmix é um downmix de um objeto de áudio que não é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som e um canal de áudio que é associado a uma posição de fonte de som nominal de uma configuração de interpretação de fonte de som.

16. SISTEMA DE CODIFICAÇÃO E DECODIFICAÇÃO, caracterizado por compreender o codificador, conforme definido na reivindicação 12, e o decodificador, conforme definido na reivindicação 1.