BR112020021809A2

BR112020021809A2 - integração de técnicas de reconstrução de alta frequência com atraso de pós-processamento reduzido

Info

Publication number: BR112020021809A2
Application number: BR112020021809-0A
Authority: BR
Inventors: Kristofer Kjoerling; Lars Villemoes; Heiko Purnhagen; Per Ekstrand
Original assignee: Dolby International Ab
Priority date: 2018-04-25
Filing date: 2019-04-25
Publication date: 2021-02-23
Also published as: CA3238617A1; CA3098295C; CL2020002746A1; AR128547A2; KR102560473B1; JP2021157202A; US20230206933A1; CN112204659A; MX2020011212A; KR102474146B1; SG11202010367YA; CN114242090A; EP3662469A4; US11823695B2; AR128551A2; KR20230116088A; JP7493073B2; AR126606A2; US20240161763A1; MX2023013469A

Abstract

Trata-se da revelação de um método para decodificar um fluxo de bits de áudio codificado. O método inclui receber o fluxo de bits de áudio codificado e decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado. O método inclui adicionalmente extrair metadados de reconstrução de alta frequência e filtrar o sinal de áudio de banda baixa decodificado com um banco de filtro de análise para gerar um sinal de áudio de banda baixa filtrado. O método também inclui extrair um sinalizador que indica se a translação espectral ou a transposição harmônica deve ser realizada nos dados de áudio e regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência de acordo com o sinalizador. A regeração de alta frequência é realizada como uma operação pós-processamento com um atraso de 3010 amostras por canal de áudio.

Description

“INTEGRAÇÃO DE TÉCNICAS DE RECONSTRUÇÃO DE ALTA FREQUÊNCIA COM ATRASO DE PÓS-PROCESSAMENTO REDUZIDO” REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS

[001] Este pedido reivindica o benefício de prioridade para o Pedido de Patente Provisório n° de série US 62/662.296, depositado em 25 de abril de 2018, que é incorporado em sua totalidade a título de referência no presente documento.

CAMPO DA TÉCNICA

[002] As modalidades se referem ao processamento de sinal de áudio e, mais especificamente, à codificação, decodificação ou transcodificação de fluxos de bits de áudio com dados de controle que especificam que uma forma de base de reconstrução de alta frequência (“HFR”) ou uma forma melhorada de HFR deve ser realizada nos dados de áudio.

ANTECEDENTES DA INVENÇÃO

[003] Um fluxo de bits de áudio típico inclui tanto dados de áudio (por exemplo, dados de áudio codificados) indicativos de um ou mais canais de conteúdo de áudio quanto metadados indicativos de pelo menos uma característica dos dados de áudio ou conteúdo de áudio. Um formato bem conhecido para gerar um fluxo de bits de áudio codificado é o formato de Codificação de Áudio Avançada (AAC) MPEG-4, descrito no padrão MPEG ISO/IEC 14496-3:2009. No padrão MPEG-4, AAC denota “codificação de áudio avançada” e HE-AAC denota “codificação de áudio avançada de alta eficiência”.

[004] O padrão de AAC MPEG-4 define vários perfis de áudio, que determinam quais objetos e ferramentas de codificação estão presentes em um codificador ou decodificador compatível. Três desses perfis de áudio são (1) o perfil de AAC, (2) o perfil de HE-AAC e (3) o perfil de HE-AAC v2. O perfil de AAC inclui o tipo de objeto de baixa complexidade de AAC (ou “AAC-LC”). O objeto de AAC-LC é a contraparte do perfil de baixa complexidade MPEG-2 AAC com alguns ajustes, e não inclui o tipo de objeto de replicação de banda espectral (“SBR”) nem o tipo de objeto de elemento estéreo paramétrico (“PS”). O perfil de HE-AAC é um superconjunto do perfil de AAC e inclui adicionalmente o tipo de objeto de SBR. O perfil de HE-AAC v2 é um superconjunto do perfil de HE-AAC e inclui adicionalmente o tipo de objeto de PS.

[005] O tipo de objeto de SBR contém a ferramenta de replicação de banda espectral, que é uma ferramenta de codificação de reconstrução de alta frequência (“HFR”) importante que aprimora significativamente a eficiência de compressão de codecs de áudio perceptivos. A SBR reconstrói os componentes de alta frequência de um sinal de áudio no lado de receptor (por exemplo, no decodificador). Assim, o codificador precisa apenas codificar e transmitir componentes de baixa frequência, permitindo uma qualidade de áudio muito superior em baixas taxas de dados. SBR tem como base a replicação das sequências de harmônicos previamente truncados a fim de reduzir a taxa de dados, a partir do sinal limitado de largura de banda disponível e dos dados de controle obtidos a partir do codificador. A razão entre componentes do tipo tonal e ruído é mantida por filtração inversa adaptativa assim como por adição opcional de ruído e elementos senoidais. No padrão de AAC MPEG-4, a ferramenta de SBR realiza correção espectral (também denominada translação linear ou translação espectral), na qual diversas sub-bandas de Filtro de Espelho em Quadratura (QMF) consecutivas são copiadas (ou “corrigidas” ou) a partir de uma porção de banda baixa transmitida de um sinal de áudio para uma porção de banda alta do sinal de áudio, que é gerado no decodificador.

[006] A correção espectral ou translação linear pode não ser ideal para certos tipos de áudio como conteúdo musical com frequências de cruzamento relativamente baixas. Portanto, as técnicas para aprimorar replicação de banda espectral são necessárias.

BREVE DESCRIÇÃO DE MODALIDADES DA INVENÇÃO

[007] É revelada uma primeira classe de modalidades se refere a um método para decodificar um fluxo de bits de áudio codificado. O método inclui receber o fluxo de bits de áudio codificado e decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado. O método inclui adicionalmente extrair metadados de reconstrução de alta frequência e filtrar o sinal de áudio de banda baixa decodificado com um banco de filtro de análise para gerar um sinal de áudio de banda baixa filtrado. O método inclui adicionalmente extrair um sinalizador que indica se a translação espectral ou transposição harmônica deve ser realizada nos dados de áudio e regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência de acordo com o sinalizador. Finalmente, o método inclui combinar o sinal de áudio de banda baixa filtrado e a porção de banda alta regerada par formar um sinal de áudio de banda larga.

[008] Uma segunda classe de modalidades se refere a um decodificador de áudio para decodificar um fluxo de bits de áudio codificado. O decodificador inclui uma interface de entrada para receber o fluxo de bits de áudio codificado em que o fluxo de bits de áudio codificado inclui dados de áudio que representam uma porção de banda baixa de um sinal de áudio e um decodificador de núcleo para decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado. O decodificador também inclui um demultiplexador para extrair do fluxo de bits de áudio codificado metadados de reconstrução de alta frequência em que os metadados de reconstrução de alta frequência incluem parâmetros operacionais para um processo de reconstrução de alta frequência que translada linearmente um número consecutivo de sub-bandas de uma porção de banda baixa do sinal de áudio para uma porção de banda alta do sinal de áudio e um banco de filtro de análise para filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado. O decodificador inclui adicionalmente um demultiplexador para extrair do fluxo de bits de áudio codificado um sinalizador que indica se a translação linear ou transposição harmônica deve ser realizada nos dados de áudio e um regerador de alta frequência para regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência de acordo com o sinalizador. Finalmente, o decodificador inclui um banco de filtro de síntese para combinar o sinal de áudio de banda baixa filtrado e a porção de banda alta regerada para formar um sinal de áudio de banda larga.

[009] Outras classes de modalidades se referem à codificação e à transcodificação de fluxos de bits de áudio contendo metadados que identificam se o processamento de replicação de banda espectral melhorada (eSBR) deve ser realizado.

BREVE DESCRIÇÃO DOS DESENHOS

[010] A Figura 1 é um diagrama de blocos de uma modalidade de um sistema que pode ser configurado para realizar uma modalidade do método inventivo.

[011] A Figura 2 é um diagrama de blocos de um codificador que é uma modalidade da unidade de processamento de áudio inventiva.

[012] A Figura 3 é um diagrama de blocos de um sistema incluindo um decodificador que é uma modalidade da unidade de processamento de áudio inventiva, e, opcionalmente, também um pós-processador acoplado à mesma.

[013] A Figura 4 é um diagrama de blocos de um decodificador que é uma modalidade da unidade de processamento de áudio inventiva.

[014] A Figura 5 é um diagrama de blocos de um decodificador que é uma outra modalidade da unidade de processamento de áudio inventiva.

[015] A Figura 6 é um diagrama de blocos de uma outra modalidade da unidade de processamento de áudio inventiva.

[016] A Figura 7 é um diagrama de um bloco de um fluxo de bits de AAC MPEG-4, incluindo segmentos nos quais o mesmo é dividido.

Notação e Nomenclatura

[017] Ao longo desta revelação, incluindo nas reivindicações, a expressão que realiza uma operação “em” um sinal ou dados (por exemplo, filtrar, escalonar, transformar ou aplicar ganho ao sinal ou aos dados) é usada em um sentido amplo para denotar realizar diretamente a operação no sinal ou dados, ou em uma versão processada do sinal ou dados (por exemplo, em uma versão do sinal que foi submetida à filtração preliminar ou pré-processamento antes do desempenho da operação na mesma).

[018] Ao longo desta revelação, incluindo nas reivindicações, a expressão “unidade de processamento de áudio” ou “processador de áudio” é usada em um sentido amplo para denotar um sistema, dispositivo ou aparelho configurado para processar dados de áudio. Exemplos de unidade de processamento de áudios incluem, mas sem limitação a, codificadores, transcodificadores, decodificadores, codecs, sistemas de pré-processamento, sistemas de pós-processamento e sistemas de processamento de fluxo de bits (chamados às vezes de ferramentas de processamento de fluxo de bits). Virtualmente, todos os produtos eletrônicos de consumidor como telefones móveis, televisões, computadores do tipo laptop e computadores do tipo tablet contêm uma unidade de processamento de áudio ou processador de áudio.

[019] Ao longo desta revelação, incluindo nas reivindicações, o termo “acopla” ou “acoplado” é usado em um sentido amplo para significar uma conexão direta ou indireta. Assim, se um primeiro dispositivo se acoplar a um segundo dispositivo, essa conexão pode ser através de uma conexão direta ou através de uma conexão indireta através de outros dispositivos e conexões. Além disso, os componentes que são integrados em ou com outros componentes também são acoplados entre si.

DESCRIÇÃO DETALHADA DAS MODALIDADES DA INVENÇÃO

[020] O padrão de AAC MPEG-4 contempla que um fluxo de bits de AAC

MPEG-4 codificado inclui metadados indicativos de cada tipo de processamento de reconstrução de alta frequência (“HFR”) a ser aplicado (se qualquer deve ser aplicado) por um decodificador para decodificar conteúdo de áudio do fluxo de bits, e/ou que controla tal processamento de HFR, e/ou são indicativos de pelo menos uma característica ou parâmetro de pelo menos uma ferramenta de HFR a ser empregada para decodificar conteúdo de áudio do fluxo de bits. No presente documento, usa-se a expressão “metadados de SBR” para denotar metadados desse tipo que é descrito ou mencionado no padrão de AAC MPEG-4 para usar com replicação de banda espectral (“SBR”). Conforme observado por um elemento versado na técnica, SBR é uma forma de HFR.

[021] SBR é, de preferência, usada como um sistema de taxa dupla, com o codec subjacente operando em metade da taxa de amostragem original, enquanto SBR opera na taxa de amostragem original. O codificador de SBR funciona em paralelo ao codec de núcleo subjacente, apesar de funcionar em uma taxa de amostragem superior. Embora SBR seja principalmente um pós-processo no decodificador, parâmetros importantes são extraídos no codificador a fim de assegurar a reconstrução de alta frequência mais precisa no decodificador. O codificador estima o envelope espectral da faixa de SBR para uma faixa/resolução de tempo e frequência adequada para as características de segmentos de sinal de entrada atual. O envelope espectral é estimado por uma análise de QMF complexa e cálculo de energia subsequente. As resoluções de tempo e frequência dos envelopes espectrais podem ser escolhidas com um alto nível de liberdade, a fim de garantir a melhor resolução de frequência de tempo adequada para o determinado segmento de entrada. A estimativa de envelope precisar considerar que um elemento transiente no original, situado principalmente na região de alta frequência (por exemplo, um alto âmbito) estará presente em menor extensão na banda alta gerada por SBR antes do ajuste de envelope, uma vez que a banda alta no decodificador tem como base a banda baixa em que elemento transiente é muito menos acentuado em comparação à banda alta.

Esse aspecto impõe diferentes requisitos em relação à resolução de frequência de tempo dos dados de envelope espectral, em comparação à estimativa de envelope espectral comum conforme usado em outros algoritmos de codificação de áudio.

[022] Além do envelope espectral, são extraídos vários parâmetros adicionais que representam características espectrais do sinal de entrada para diferentes regiões de tempo e frequência. Uma vez que o codificador acessou naturalmente o sinal original assim como informações sobre como a unidade de SBR no decodificador criará a banda alta, dado o conjunto específico de parâmetros de controle, é possível que o sistema lide com situações em que a banda baixa constitui uma série harmônica forte e a banda alta, a ser recriada, constitui principalmente componentes de sinal aleatórios, assim como situações em que componentes tonais fortes estão presentes na banda alta original sem contrapartes na banda baixa, na qual a região de banda alta tem base. Adicionalmente, o codificador de SBR funciona em relação próxima com o codec de núcleo subjacente para avaliar qual faixa de frequência deve ser coberta por SBR em um determinado momento. Os dados SBR são codificados eficientemente antes da transmissão ao explorar codificação por entropia assim como dependências de canal dos dados de controle, no caso de sinais estéreos.

[023] Os algoritmos de extração de parâmetro de controle precisam tipicamente ser sintonizados cuidadosamente com o codec subjacente em uma determinada taxa de bits e em uma determinada taxa de amostragem. Isso ocorre devido ao fato de que uma taxa de bits inferior implica usualmente em uma faixa de SBR maior em comparação a uma alta taxa de bits, e diferentes taxas de amostragem correspondem a diferentes resoluções de tempo dos quadros de SBR.

[024] Um decodificador de SBR inclui tipicamente várias partes diferentes. O mesmo compreende um módulo de decodificação de fluxo de bits, um módulo de reconstrução de alta frequência (HFR), um módulo de componentes de alta frequência adicional e um módulo ajustador de envelope. O sistema tem como base um banco de filtro de QMF de valor complexo (para SBR de alta qualidade) ou um banco de filtro de QMF de valor real (para SBR de baixa potência). As modalidades da invenção são aplicáveis tanto à SBR de alta qualidade quanto à SBR de baixa potência. No módulo de extração de fluxo de bits, os dados de controle são lidos a partir do fluxo de bits e decodificados. A grade de frequência de tempo é obtida para o quadro atual, antes de ler os dados de envelope do fluxo de bits. O decodificador de núcleo subjacente decodifica o sinal de áudio do quadro atual (apesar de estar em uma taxa de amostragem inferior) para produzir amostras de áudio de domínio de tempo. O quadro de dados de áudio resultante é usado para reconstrução de alta frequência pelo módulo de HFR. O sinal de banda baixa decodificado é, então, analisado com o uso de um banco de filtro de QMF. O ajuste de reconstrução de alta frequência e envelope é realizado subsequentemente nas amostras de sub-banda do banco de filtro de QMF.

As altas frequências são reconstruídas a partir da banda baixa de uma forma flexível com base nos determinados parâmetros de controle. Adicionalmente, a banda alta reconstruída é filtrada adaptativamente em uma base de canal de sub-banda de acordo com os dados de controle para garantir as características espectrais apropriadas da determinada região de tempo/frequência.

[025] O nível superior de um fluxo de bits de AAC MPEG-4 é uma sequência de blocos de dados (elementos “raw_data_block”), cada um dos quais é um segmento de dados (chamado de um “bloco” no presente documento) que contém dados de áudio (tipicamente por um período de tempo de 1024 ou 960 amostras) e informações relacionadas e/ou outros dados. No presente documento, usa-se o termo “bloco” para denotar um segmento de um fluxo de bits de AAC MPEG-4 que compreende dados de áudio (e metadados correspondentes e, opcionalmente, também outros dados relacionados) que determinam ou são indicativos de um (mas não mais de um) elemento “raw_data_block”.

[026] Cada bloco de um fluxo de bits de AAC MPEG-4 pode incluir diversos elementos sintáticos (cada um dos quais também é materializado no fluxo de bits como um segmento de dados). Sete tipos de tais elementos sintáticos são definidos no padrão de AAC MPEG-4. Cada elemento sintático é identificado por um valor diferente do elemento de dados “id_syn_ele”. Exemplos de elementos sintáticos incluem um “single_channel_element()”, um “channel_pair_element()” e um “fill_element()”. Um único elemento de canal é um recipiente incluindo dados de áudio de um único canal de áudio (um sinal de áudio monofônico). Um elemento de par de canal inclui dados de áudio de dois canais de áudio (ou seja, um sinal de áudio estéreo).

[027] Um elemento de preenchimento é um recipiente de informações incluindo um identificador (por exemplo, o valor do elemento “id_syn_ele” observado acima) seguido por dados, que são chamados de “dados de preenchimento”.

Elementos de preenchimentos foram usados historicamente para ajustar a taxa de bits instantânea de fluxos de bits que devem ser transmitidos em um canal de taxa constante. Ao adicionar a quantidade apropriada de dados de preenchimento a cada bloco, uma taxa de dados constante pode ser alcançada.

[028] De acordo com as modalidades na invenção, os dados de preenchimento podem incluir uma ou mais cargas úteis de extensão que estendem o tipo de dados (por exemplo, metadados) que têm capacidade de serem transmitidos em um fluxo de bits. Um decodificador que recebe fluxos de bits com dados de preenchimento contendo um novo tipo de dados pode ser usado opcionalmente por um dispositivo que recebe o fluxo de bits (por exemplo, um decodificador) para estender a funcionalidade do dispositivo. Assim, conforme pode ser observado por um elemento versado na técnica, elementos de preenchimento são um tipo especial de estrutura de dados e são diferentes das estruturas de dados tipicamente usadas para transmitir dados de áudio (por exemplo, cargas úteis contendo dados de canais).

[029] Em algumas modalidades da invenção, o identificador usado para identificar um elemento de preenchimento pode consistir em um primeiro bit mais significativo transmitido de número inteiro não assinado de três bits (“uimsbf”) que tem um valor de 0x6. Em um bloco, vários exemplos do mesmo tipo de elemento sintático (por exemplo, vários elementos de preenchimento) podem ocorrer.

[030] Um outro padrão para codificar fluxos de bits de áudio é o padrão de Codificação de Áudio e Voz Unificados MPEG (USAC) (ISO/IEC 23003-3:2012). O padrão de USAC MPEG descreve a codificação e a decodificação de conteúdo de áudio usando processamento de replicação de banda espectral (incluindo processamento de SBR conforme descrito no padrão de AAC MPEG-4, e também incluindo outras formas melhoradas de processamento de replicação de banda espectral). Esse processamento se aplica a ferramentas de replicação de banda espectral (chamadas às vezes de “ferramentas de SBR melhorada” ou “ferramentas de eSBR” no presente documento) de uma versão expandida e melhorada do conjunto de ferramentas de SBR descrito no padrão de AAC MPEG-4. Assim, eSBR (conforme definido no padrão de USAC) é um aprimoramento para SBR (conforme definido no padrão de AAC MPEG-4).

[031] No presente documento, usa-se a expressão “processamento de SBR melhorada” (ou “processamento de eSBR”) para denotar processamento de replicação de banda espectral usando pelo menos uma ferramenta de eSBR (por exemplo, pelo menos uma ferramenta de eSBR que é descrita ou mencionada no padrão de USAC MPEG ) que não é descrito ou mencionado no padrão de AAC MPEG-4. Exemplos de tais ferramentas de eSBR são a transposição harmônica e o pré-processamento adicional de correção de QMF ou “pré-nivelamento”.

[032] Um transpositor harmônico de ordem inteira T mapeia uma senoide com frequência ω em uma senoide com frequência Tω, enquanto preserva a duração de sinal. Três ordens, T = 2, 3, 4, são usadas tipicamente em sequência para produzir cada parte da faixa de frequência de saída desejada usando a menor ordem de transposição possível. Se a saída acima da quarta ordem for exigida, a mesma pode ser gerada por mudanças de frequência. Quando possível, domínios de tempo de banda de base quase criticamente amostrados são criados para o processamento para minimizar complexidade computacional.

[033] O transpositor harmônico pode ser com base em QMF ou DFT. Ao usar o transpositor harmônico com base em QMF, a extensão de largura de banda do sinal de domínio de tempo de codificador de núcleo é executada totalmente no domínio de QMF, usando uma estrutura de vocodificador de fase modificada, ao realizar decimação seguida por alongamento de tempo para cada sub-banda de QMF. A transposição com o uso de vários fatores de transposições (por exemplo, T = 2, 3, 4) é executada em um estágio de transformação de análise/síntese de QMF comum.

Uma vez que o transpositor harmônico com base em QMF não apresenta sobreamostragem de domínio de frequência adaptativa de sinal, o sinalizador correspondente no fluxo de bits (sbrOversamplingFlag[ch]) pode ser ignorado.

[034] Ao usar o transpositor harmônico com base em DFT, os transpositores de fator 3 e 4 (transpositores de 3ª e 4ª ordem) são, de preferência, integrados no transpositor de fator 2 (transpositor de 2ª ordem) por meio de interpolação para reduzir complexidade. Para cada quadro (correspondente a amostras de codificador de núcleo coreCoderFrameLength), o tamanho de transformação nominal de “tamanho total” do transpositor é determinado primeiramente pela sobreamostragem de domínio de frequência adaptativa de sinal sinalizador (sbrOversamplingFlag[ch]) no fluxo de bits.

[035] Quando sbrPatchingMode==1, indicando que a transposição linear deve ser usada para gerar a banda alta, uma etapa adicional pode ser introduzida para evitar descontinuidades no formato do envelope espectral do sinal de alta frequência sendo inserida no ajustador de envelope subsequente. Isso aprimora a operação do estágio de ajuste de envelope subsequente, resultando em um sinal de banda alta que é percebido como sendo mais estável. A operação do pré-processamento adicional é benéfica para tipos de sinal em que o envelope espectral bruto do sinal de banda baixa que é usado para reconstrução de alta frequência exibe grandes variações de nível.

Entretanto, o valor do elemento de fluxo de bits pode ser determinado no codificador ao aplicar qualquer tipo de classificação dependente de sinal. O pré-processamento adicional é, de preferência, ativado através de um elemento de fluxo de bits de um bit, bs_sbr_preprocessing. Quando bs_sbr_preprocessing é definido como um, o processamento adicional é habilitado. Quando bs_sbr_preprocessing é definido como zero, o pré-processamento adicional é desabilitado. O processamento adicional preferencial utiliza uma curva preGain que é usada pelo gerador de alta frequência para escalonar a banda baixa, XBaixa, para cada correção. Por exemplo, a curva preGain pode ser calculada de acordo com: / 𝑝𝑟𝑒𝐺𝑎𝑖𝑛 𝑘 10 ,0 𝑘 𝑘

[036] onde k0 é a primeira sub-banda de QMF na tabela de banda de frequência principal e lowEnvSlope é calculado usando uma função que computa coeficientes de um polinômio de melhor ajuste (em um sentido de mínimos quadrados) como polyfit(). Por exemplo, 𝑝𝑜𝑙𝑦𝑓𝑖𝑡 3, 𝑘 , 𝑥_𝑙𝑜𝑤𝑏𝑎𝑛𝑑, 𝑙𝑜𝑤𝐸𝑛𝑣, 𝑙𝑜𝑤𝐸𝑛𝑣𝑆𝑙𝑜𝑝𝑒 ;

[037] pode ser empregado (usando um polinômio de terceiro grau) e onde 𝜑 0,0 𝑙𝑜𝑤𝐸𝑛𝑣 𝑘 10 log ,0 𝑘 𝑘 𝑛𝑢𝑚𝑇𝑖𝑚𝑒𝑆𝑙𝑜𝑡𝑠 ∙ 𝑅𝐴𝑇𝐸 6

[038] onde x_lowband(k)=[0…k0-1], numTimeSlot é o número de fendas de tempo de envelope de SBR que existe dentro um quadro, RATE é uma constante que indica o número de amostras de sub-banda de QMF por faixa de tempo (por exemplo, 2), φk é um coeficiente de filtro de previsão linear (potencialmente obtido a partir do método de covariância) e onde ∑ 𝑚𝑒𝑎𝑛𝑁𝑟𝑔 .

[039] Um fluxo de bits gerado de acordo com o padrão de USAC MPEG (chamado às vezes um “fluxo de bits de USAC” no presente documento) inclui conteúdo de áudio codificado e inclui tipicamente metadados indicativos de cada tipo de processamento de replicação de banda espectral a ser aplicado por um decodificador para decodificar conteúdo de áudio do fluxo de bits de USAC e/ou metadados que controlam tal processamento de replicação de banda espectral e/ou são indicativos de pelo menos uma característica ou parâmetro de pelo menos uma ferramenta de SBR e/ou ferramenta de eSBR a ser empregada para decodificar conteúdo de áudio do fluxo de bits de USAC.

[040] No presente documento, usa-se a expressão “metadados de SBR melhorada” (ou “metadados de eSBR”) para denotar metadados indicativos de cada tipo de processamento de replicação de banda espectral a ser aplicado por um decodificador para decodificar conteúdo de áudio de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de USAC) e/ou que controlam tal processamento de replicação de banda espectral, e/ou são indicativos de pelo menos uma característica ou parâmetro de pelo menos uma ferramenta de SBR e/ou ferramenta de eSBR a ser empregada para decodificar tal conteúdo de áudio, mas que não são descritos ou mencionados no padrão de AAC MPEG-4. Um exemplo de metadados de eSBR são os metadados (indicativos de ou para controlar processamento de replicação de banda espectral) que são descritos ou mencionados no padrão de USAC MPEG, mas não no padrão de AAC MPEG-4. Assim, os metadados de eSBR denotam no presente documento metadados que não são metadados de SBR, e metadados de SBR denotam no presente documento metadados que não são metadados de eSBR.

[041] Um fluxo de bits de USAC pode incluir tanto metadados de SBR quanto metadados de eSBR. Mais especificamente, um fluxo de bits de USAC pode incluir metadados de eSBR que controlam o desempenho de processamento de eSBR por um decodificador, e metadados de SBR que controlam o desempenho de processamento de SBR pelo decodificador. De acordo com as modalidades típicas da presente invenção, metadados de eSBR (por exemplo, dados de configuração específica de eSBR) são incluídos (de acordo com a presente invenção) em um fluxo de bits de AAC MPEG-4 (por exemplo, no recipiente de sbr_extension() no final de uma carga útil de SBR).

[042] O desempenho de processamento de eSBR durante a decodificação de um fluxo de bits codificado usando um conjunto de ferramentas de eSBR (compreendendo pelo menos uma ferramenta de eSBR), por um decodificador regera a banda de alta frequência do sinal de áudio com base em replicação de sequências de elementos harmônicos que foram truncados durante a codificação. Tal processamento de eSBR ajusta tipicamente o envelope espectral da banda de alta frequência gerada e aplica filtração inversa, e adiciona componentes de ruído e senoidais a fim de recriar as características espectrais do sinal de áudio original.

[043] De acordo com as modalidades típicas da invenção, metadados de eSBR são incluídos (por exemplo, um pequeno número de bits de controle que são metadados de eSBR é incluído) em um ou mais de segmentos de metadados de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de AAC MPEG-4) que também inclui dados de áudio codificados em outros segmentos (segmentos de dados de áudio). Tipicamente, pelo menos tal segmento de metadados de cada bloco do fluxo de bits é (ou inclui) um elemento de preenchimento (incluindo um identificador que indica o início do elemento de preenchimento), e os metadados de eSBR são incluídos no elemento de preenchimento após o identificador. A Figura 1 é um diagrama de blocos de uma cadeia de processamento de áudio exemplificativa (um sistema de processamento de dados de áudio) na qual um ou mais elementos do sistema podem ser configurados de acordo com uma modalidade da presente invenção. O sistema inclui os elementos a seguir, acoplados em conjunto conforme mostrado: codificador 1, subsistema de entrega 2, decodificador 3 e unidade de pós- processamento 4. Em variações no sistema mostrado, um ou mais elementos são omitidos ou unidades de processamento de dados de áudio adicionais são incluídas.

[044] Em algumas implementações, o codificador 1 (que inclui opcionalmente uma unidade de pré-processamento) é configurado para aceitar amostras de PCM (domínio de tempo) compreendendo conteúdo de áudio como entrada, e emitir um fluxo de bits de áudio codificado (que tem um formato que está em conformidade com o padrão de AAC MPEG-4) que é indicativo do conteúdo de áudio. Os dados do fluxo de bits que são indicativos do conteúdo de áudio são chamados às vezes de “dados de áudio” ou “dados de áudio codificados” no presente documento. Se o codificador for configurado de acordo com uma modalidade típica da presente invenção, o fluxo de bits de áudio emitido a partir do codificador inclui metadados de eSBR (e também tipicamente outros metadados) assim como dados de áudio.

[045] Um ou mais fluxos de bits de áudio codificados emitidos a partir do codificador 1 podem ser expressados para subsistema de entrega de áudio codificado

2. O subsistema 2 é configurado para armazenar e/ou entregar cada fluxo de bits codificado emitido a partir do codificador 1. Um fluxo de bits de áudio codificado emitido a partir do codificador 1 pode ser armazenado pelo subsistema 2 (por exemplo, na forma de um DVD ou disco do tipo Blu ray), ou transmitido pelo subsistema 2 (que pode implementar um enlace ou rede de transmissão), ou pode ser tanto armazenado quanto transmitido pelo subsistema 2.

[046] O decodificador 3 é configurado para decodificar um fluxo de bits de AAC MPEG-4 codificado de áudio (gerado pelo codificador 1) que o mesmo recebe através do subsistema 2. Em algumas modalidades, o decodificador 3 é configurado para extrair metadados de eSBR de cada bloco do fluxo de bits, e decodificar o fluxo de bits (incluindo ao realizar processamento de eSBR usando os metadados de eSBR extraídos) para gerar dados de áudio decodificados (por exemplo, fluxos de amostras de áudio de PCM decodificadas). Em algumas modalidades, o decodificador 3 é configurado para extrair metadados de SBR do fluxo de bits (mas para ignorar metadados de eSBR incluídos no fluxo de bits), e decodificar o fluxo de bits (incluindo ao realizar processamento de SBR usando os metadados de SBR extraídos) para gerar dados de áudio decodificados (por exemplo, fluxos de amostras de áudio de PCM decodificadas). Tipicamente, o decodificador 3 inclui uma memória principal que armazena (por exemplo, de uma maneira não transitória) segmentos do fluxo de bits de áudio codificado recebido do subsistema 2.

[047] A unidade pós-processamento 4 da Figura 1 é configurada para aceitar um fluxo de dados de áudio decodificados do decodificador 3 (por exemplo, amostras de áudio de PCM decodificadas), e realizar pós-processamento nas mesmas. A unidade de pós-processamento também pode ser configurada para renderizar o conteúdo de áudio pós-processado (ou o áudio decodificado recebido do decodificador 3) para reprodução por um ou mais alto falantes.

[048] A Figura 2 é um diagrama de blocos de um codificador (100) que é uma modalidade da unidade de processamento de áudio inventiva. Qualquer um dos componentes ou elementos do codificador 100 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASICs, FPGAs ou outros circuitos integrados) em hardware, software ou uma combinação de hardware e software. O codificador 100 inclui codificador 105, estágio de preenchedor/formatador 107, estágio de geração de metadados 106 e memória de armazenamento temporário 109 conectados conforme mostrado. Tipicamente, o codificador 100 também inclui outros elementos de processamento (não mostrados). O codificador 100 é configurado para converter um fluxo de bits de áudio de entrada em um fluxo de bits de AAC MPEG-4 de saída codificado.

[049] O gerador de metadados 106 é acoplado e configurado para gerar (e/ou passar pelo estágio 107) metadados (incluindo metadados de eSBR e metadados de

SBR) a serem incluídos pelo estágio 107 no fluxo de bits codificado a ser emitido a partir do codificador 100.

[050] O codificador 105 é acoplado e configurado para codificar (por exemplo, ao realizar a compressão nos mesmos) os dados de áudio inseridos, e expressar o áudio codificado resultante para o estágio 107 para inclusão no fluxo de bits codificado a ser inserido a partir do estágio 107.

[051] O estágio 107 é configurado para multiplexar o áudio codificado do codificador 105 e os metadados (incluindo metadados de eSBR e metadados de SBR) do gerador 106 para gerar o fluxo de bits codificado a ser emitido a partir do estágio 107, de preferência, de modo que o fluxo de bits codificado tenha formato conforme especificado por uma das modalidades da presente invenção.

[052] A memória de armazenamento temporário 109 é configurada para armazenar (por exemplo, de uma maneira não transitória) pelo menos um bloco do fluxo de bits de áudio codificado emitido a partir do estágio 107, e, então, uma sequência dos blocos do fluxo de bits de áudio codificado é, então, expressada a partir da memória de armazenamento temporário 109 como saída do codificador 100 para um sistema de entrega.

[053] A Figura 3 é um diagrama de blocos de um sistema incluindo decodificador (200) que é uma modalidade da unidade de processamento de áudio inventiva, e, opcionalmente, também um pós-processador (300) acoplado à mesma.

Qualquer um dos componentes ou elementos do decodificador 200 e pós-processador 300 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASICs, FPGAs ou outros circuitos integrados) em hardware, software ou uma combinação de hardware e software. O decodificador 200 compreende memória de armazenamento temporário 201, desformatador de carga útil de fluxo de bits (analisador) 205, subsistema de decodificação de áudio 202 (chamado às vezes de um estágio de descodificação “de núcleo” ou subsistema de decodificação “de núcleo”), estágio de processamento de eSBR 203 e estágio de geração de bit de controle 204 conectados conforme mostrado. Tipicamente, o decodificador 200 também inclui outros elementos de processamento (não mostrados).

[054] A memória de armazenamento temporário (armazenamento temporário) 201 armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco de um fluxo de bits de AAC MPEG-4 codificado de áudio recebido pelo decodificador

200. Na operação do decodificador 200, uma sequência dos blocos do fluxo de bits é expressada a partir do armazenamento temporário 201 para o desformatador 205.

[055] Em variações na modalidade da Figura 3 (ou na modalidade da Figura 4 a ser descrita), uma APU que não é um decodificador (por exemplo, APU 500 da Figura 6) inclui uma memória de armazenamento temporário (por exemplo, uma memória de armazenamento temporário idêntica ao armazenamento temporário 201) que armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de AAC MPEG- 4 de áudio) do mesmo tipo recebido pelo armazenamento temporário 201 da Figura 3 ou Figura 4 (isto é, um fluxo de bits de áudio codificado que inclui metadados de eSBR).

[056] Com referência novamente à Figura 3, o desformatador 205 é acoplado e configurado para demultiplexar cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de envelope quantificados) e metadados de eSBR (e, tipicamente, também outras metadados) a partir do mesmo, para expressar pelo menos os metadados de eSBR e os metadados de SBR para estágio de processamento de eSBR 203, e, tipicamente, também para expressar outros metadados extraídos para subsistema de decodificação 202 (e, opcionalmente, também para gerador de bit de controle 204). O desformatador 205 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits, e expressar os dados de áudio extraídos para o subsistema de decodificação (estágio de decodificação) 202.

[057] O sistema da Figura 3 também inclui opcionalmente o pós-processador

300. O pós-processador 300 inclui memória de armazenamento temporário (armazenamento temporário) 301 e outros elementos de processamento (não mostrados) incluindo pelo menos um elemento de processamento acoplado ao armazenamento temporário 301. O armazenamento temporário 301 armazena (por exemplo, de uma maneira não transitória) pelo menos um bloco (ou quadro) dos dados de áudio decodificados recebidos pelo pós-processador 300 do decodificador 200. Os elementos de processamento do pós-processador 300 são acoplados e configurados para receber e processar adaptativamente uma sequência dos blocos (ou quadros) do áudio decodificado emitido a partir do armazenamento temporário 301, usando metadados emitidos a partir do subsistema de decodificação 202 (e/ou desformatador 205) e/ou bits de controle emitidos a partir do estágio 204 do decodificador 200.

[058] O subsistema de decodificação de áudio 202 do decodificador 200 é configurado para decodificar os dados de áudio extraídos pelo analisador 205 (tal descodificação pode ser chamada de uma operação de decodificação “de núcleo”) para gerar dados de áudio decodificados, e expressar os dados de áudio decodificados para estágio de processamento de eSBR 203. A decodificação é realizada no domínio de frequência e inclui tipicamente quantificação inversa seguida por processamento espectral. Tipicamente, um estágio final de processamento no subsistema 202 aplica uma transformação de domínio de tempo para domínio de frequência a dados de áudio de domínio de frequência decodificados, de modo que a saída de subsistema seja dados de áudio decodificados de domínio de tempo. O estágio 203 é configurado para aplicar ferramentas de SBR e ferramentas de eSBR indicadas pelos metadados de eSBR e pela eSBR (extraídos pelo analisador 205) aos dados de áudio decodificados (isto é, realizar processamento de SBR e eSBR na saída de subsistema de decodificação 202 usando os metadados de SBR e eSBR)

para gerar os dados de áudio completamente decodificados que são emitidos (por exemplo, para o pós-processador 300) do decodificador 200. Tipicamente, o decodificador 200 inclui uma memória (acessível pelo subsistema 202 e pelo estágio 203) que armazena os dados de áudio e metadados desformatados emitidos a partir do desformatador 205, e o estágio 203 é configurado para acessar os dados de áudio e metadados (incluindo metadados de SBR e metadados de eSBR) conforme necessário durante o processamento de SBR e eSBR. O processamento de SBR e o processamento de eSBR no estágio 203 podem ser considerados como sendo pós- processamento na saída do subsistema de decodificação de núcleo 202.

Opcionalmente, o decodificador 200 também inclui um subsistema de mistura ascendente final (que pode aplicar ferramentas estéreas paramétricas (“PS”) definidas no padrão de AAC MPEG-4, usando metadados de PS extraídos pelo desformatador 205 e/ou bits de controle gerados no subsistema 204) que é acoplado e configurado para realizar mistura ascendente na saída do estágio 203 para gerar áudio misturado ascendentemente completamente decodificado que é emitido a partir do decodificador

200. Alternativamente, o pós-processador 300 é configurado para realizar mistura ascendente na saída do decodificador 200 (por exemplo, usando de metadados de PS extraídos pelo desformatador 205 e/ou bits de controle gerados no subsistema 204).

[059] Em resposta a metadados extraídos pelo desformatador 205, o gerador de bit de controle 204 pode gerar dados de controle, e os dados de controle podem ser usados dentro do decodificador 200 (por exemplo, em um subsistema de mistura ascendente final) e/ou expressados como saída do decodificador 200 (por exemplo, para pós-processador 300 para usar no pós-processamento). Em resposta a metadados extraídos do fluxo de bits (e, opcionalmente, também em resposta a dados de controle), o estágio 204 pode gerar (e expressar para pós-processador 300) bits de controle que indicam que dados de áudio decodificados emitidos a partir do estágio de processamento de eSBR 203 devem ser submetidos a um tipo específico de pós- processamento. Em algumas implementações, o decodificador 200 é configurado para expressar metadados extraídos pelo desformatador 205 do fluxo de bits de entrada para pós-processador 300, e o pós-processador 300 é configurado para realizar pós- processamento nos dados de áudio decodificados emitidos a partir do decodificador 200 usando os metadados.

[060] A Figura 4 é um diagrama de blocos de uma unidade de processamento de áudio (“APU”) (210) que é uma outra modalidade da unidade de processamento de áudio inventiva. A APU 210 é um decodificador de legado que não é configurado para realizar processamento de eSBR. Qualquer um dos componentes ou elementos da APU 210 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASICs, FPGAs ou outros circuitos integrados) em hardware, software ou uma combinação de hardware e software. A APU 210 compreende memória de armazenamento temporário 201, desformatador de carga útil de fluxo de bits (analisador) 215, subsistema de decodificação de áudio 202 (chamado às vezes de um estágio de descodificação “de núcleo” ou subsistema de decodificação “de núcleo”) e estágio de processamento de SBR 213 conectado conforme mostrado.

Tipicamente, a APU 210 também inclui outros elementos de processamento (não mostrados). A APU 210 pode representar, por exemplo, um codificador, decodificador ou transcodificador de áudio.

[061] Os elementos 201 e 202 da APU 210 são idênticos aos elementos do decodificador 200 numerados identicamente (da Figura 3) e a descrição acima dos mesmos não será repetida. Na operação da APU 210, uma sequência de blocos de um fluxo de bits de áudio codificado (um fluxo de bits de AAC MPEG-4) recebido pela APU 210 é expressada a partir do armazenamento temporário 201 para o desformatador 215.

[062] O desformatador 215 é acoplado e configurado para demultiplexar cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de envelope quantificados) e, tipicamente, também outros metadados da mesma, mas ignorar metadados de eSBR que podem ser incluídos no fluxo de bits de acordo com qualquer modalidade da presente invenção. O desformatador 215 é configurado para expressar pelo menos os metadados de SBR para estágio de processamento de SBR 213. O desformatador 215 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits, e expressar os dados de áudio extraídos para o subsistema de decodificação (estágio de decodificação) 202.

[063] O subsistema de decodificação de áudio 202 do decodificador 200 é configurado para decodificar os dados de áudio extraídos pelo desformatador 215 ((tal descodificação pode ser chamada de uma operação de decodificação “de núcleo”) para gerar dados de áudio decodificados, e expressar os dados de áudio decodificados para estágio de processamento de SBR 213. A decodificação é realizada no domínio de frequência. Tipicamente, um estágio final de processamento no subsistema 202 aplica uma transformação de domínio de tempo para domínio de frequência a dados de áudio de domínio de frequência decodificados, de modo que a saída de subsistema seja dados de áudio decodificados de domínio de tempo. O estágio 213 é configurado para aplicar ferramentas de SBR (mas não ferramentas de eSBR) indicadas pelos metadados de SBR (extraídos pelo desformatador 215) aos dados de áudio decodificados (isto é, realizar processamento de SBR na saída de subsistema de decodificação 202 usando os metadados de SBR) para gerar os dados de áudio completamente decodificados que são emitidos (por exemplo, para pós- processador 300) a partir da APU 210. Tipicamente, a APU 210 inclui uma memória (acessível pelo subsistema 202 e pelo estágio 213) que armazena os dados de áudio e metadados desformatados emitidos a partir do desformatador 215, e o estágio 213 é configurado para acessar os dados de áudio e metadados (incluindo metadados de SBR) conforme necessário durante o processamento de SBR. O processamento de

SBR no estágio 213 pode ser considerado como sendo pós-processamento na saída do subsistema de decodificação de núcleo 202. Opcionalmente, a APU 210 também inclui um subsistema de mistura ascendente final (que pode aplicar ferramentas estéreas paramétricas (“PS”) definidas no padrão de AAC MPEG-4, usando metadados de PS extraídos pelo desformatador 215) que é acoplado e configurado para realizar mistura ascendente na saída do estágio 213 para gerar áudio misturado ascendentemente completamente decodificado que é emitido a partir da APU 210.

Alternativamente, um pós-processador é configurado para realizar mistura ascendente na saída da APU 210 (por exemplo, usando metadados de PS extraídos pelo desformatador 215 e/ou bits de controle gerados na APU 210).

[064] Várias implementações do codificador 100, do decodificador 200 e da APU 210 são configuradas para realizar diferentes modalidades do método inventivo.

[065] De acordo com algumas modalidades, metadados de eSBR são incluídos (por exemplo, um pequeno número de bits de controle que são metadados de eSBR é incluído) em um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de AAC MPEG-4), de modo que os decodificadores de legado (que não são configurados para analisar os metadados de eSBR, ou usar qualquer ferramenta de eSBR à qual os metadados de eSBR pertencem) possam ignorar os metadados de eSBR, mas, no entanto, decodifiquem o fluxo de bits na medida do possível sem o uso dos metadados de eSBR ou qualquer ferramenta de eSBR à qual os metadados de eSBR pertencem, tipicamente, sem qualquer penalidade significativa na qualidade de áudio decodificado. Entretanto, os decodificadores de eSBR configurados para analisar o fluxo de bits para identificar os metadados de eSBR e usar pelo menos uma ferramenta de eSBR em resposta aos metadados de eSBR, aproveitarão os benefícios de uso de pelo menos tal ferramenta de eSBR. Portanto, as modalidades da invenção fornecem um meio para transmitir eficientemente dados de controle ou metadados de replicação de banda espectral melhorada (eSBR) de um modo retrocompatível.

[066] Tipicamente, os metadados de eSBR no fluxo de bits são indicativos de (por exemplo, são indicativos de pelo menos uma característica ou parâmetro de) uma ou mais das ferramentas de eSBR a seguir (que são descritas no padrão de USAC MPEG , e que podem ter sido aplicadas ou não por um codificador durante a geração do fluxo de bits):

[067] Transposição harmônica; e

[068] Pré-processamento adicional de correção de QMF (pré-nivelamento).

[069] Por exemplo, os metadados de eSBR incluídos no fluxo de bits podem ser indicativos de valores dos parâmetros (descritos no padrão de USAC MPEG e na presente revelação): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch] e bs_sbr_preprocessing.

[070] No presente documento, a notação X[ch], onde X é algum parâmetro, denota que o parâmetro pertence ao canal (“ch”) de conteúdo de áudio de um fluxo de bits codificado a ser decodificado. A título de simplicidade, às vezes, omite-se a expressão [ch], e considera-se que o parâmetro relevante pertence a um canal de conteúdo de áudio.

[071] No presente documento, a notação X[ch][env], onde X é algum parâmetro, denota que o parâmetro pertence ao envelope (“env”) de SBR de canal (“ch”) de conteúdo de áudio de um fluxo de bits codificado a ser decodificado A título de simplicidade, omite-se as expressões [env] e [ch], e considera-se que o parâmetro relevante pertence a um envelope de SBR de um canal de conteúdo de áudio.

[072] Durante a decodificação de um fluxo de bits codificado, o desempenho de transposição harmônica durante um estágio de processamento de eSBR da decodificação (para cada canal, “ch”, de conteúdo de áudio indicado pelo fluxo de bits) é controlado pelos parâmetros de metadados de eSBR a seguir: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch] e sbrPitchInBins[ch].

[073] O valor de “sbrPatchingMode[ch]” indica o tipo de transpositor usado em eSBR: sbrPatchingMode[ch] = 1 indica correção de transposição linear conforme descrito na Seção 4.6.18 do padrão de AAC MPEG-4 (conforme usado com SBR de alta qualidade ou SBR de baixa potência); sbrPatchingMode[ch] = 0 indica correção de SBR harmônica conforme descrito na Seção 7.5.3 ou 7.5.4 do padrão de USAC MPEG .

[074] O valor “sbrOversamplingFlag[ch]” indica o uso de sobreamostragem de domínio de frequência adaptativa de sinal em eSBR em combinação com a correção de SBR harmônica com base em DFT conforme descrito na Seção 7.5.3 do padrão de USAC MPEG . Esse sinalizador controla o tamanho dos DFTs que são utilizados no transpositor: 1 indica sobreamostragem de domínio de frequência adaptativa de sinal habilitado conforme descrito na Seção 7.5.3.1 do padrão de USAC MPEG; 0 indica sobreamostragem de domínio de frequência adaptativa de sinal desabilitada conforme descrito na Seção 7.5.3.1 do padrão de USAC MPEG .

[075] O valor “sbrPitchInBinsFlag[ch]” controla a interpretação do parâmetro sbrPitchInBins[ch]: 1 indica que o valor em sbrPitchInBins[ch] é válido e maior que zero; 0 indica que o valor de sbrPitchInBins[ch] é definido como zero.

[076] O valor “sbrPitchInBins[ch]” controla a adição de termos de produto cruzado no transpositor harmônico de SBR. O valor sbrPitchinBins[ch] é um valor inteiro na faixa de [0,127] e representa a distância medida em compartimentos de frequência para uma DFT de 1536 linhas que atua na frequência de amostragem do codificador de núcleo.

[077] No caso em que um fluxo de bits de AAC MPEG-4 é indicativo de um par de canais de SBR cujos canais não acoplados (em vez de um único canal de SBR), o fluxo de bits é indicativo de dois exemplos da sintaxe acima (para transposição harmônica ou não harmônica), um para cada canal do sbr_channel_pair_element().

[078] A transposição harmônica da ferramenta de eSBR aprimora tipicamente a qualidade de sinais musicais decodificados em frequências de cruzamento relativamente baixas. A transposição não harmônica (ou seja, correção espectral de legado) aprimora tipicamente sinais de voz. Por conseguinte, um ponto de partida na decisão quanto a qual tipo de transposição é preferencial para codificar conteúdo de áudio específico consiste em selecionar o método de transposição dependendo se a detecção de voz/música com transposição harmônica ser empregada no conteúdo musical e correção espectral no conteúdo de voz.

[079] O desempenho de pré-nivelamento durante o processamento de eSBR é controlado pelo valor de um parâmetro de metadados de eSBR de um bit conhecido como “bs_sbr_preprocessing”, no sentido de que o pré-nivelamento é realizado ou não dependendo do valor desse único bit. Quando o algoritmo de correção de QMF de SBR, conforme descrito na Seção 4.6.18.6.3 do padrão de AAC MPEG-4, é usado, a etapa de pré-nivelar pode ser realizada (quando indicada pelo parâmetro “bs_sbr_preprocessing”) em um esforço para evitar descontinuidades no formato do envelope espectral de um sinal de alta frequência que é inserido em ajustador de envelope subsequente(o ajustador de envelope realiza um outro estágio do processamento de eSBR). O pré-nivelamento aprimora tipicamente a operação do estágio de ajuste de envelope subsequente, resultando em um sinal de banda alta que é percebido como sendo mais estável.

[080] Espera-se que o requisito de taxa de bits geral para incluir em um fluxo de bits de AAC MPEG-4 metadados de eSBR indicativos das ferramentas de eSBR mencionadas acima (transposição harmônica e pré-nivelamento) seja na ordem de poucas centenas de bits por segundo devido ao fato de que apenas os dados de controle diferenciais necessários para realizar processamento de eSBR são transmitidos de acordo com algumas modalidades da invenção. Os decodificadores de legado podem ignorar essas informações devido ao fato de que as mesmas são incluídas de uma maneira retrocompatível (conforme será explicado posteriormente).

Portanto, o efeito prejudicial sobre a taxa de bits associada à inclusão de metadados de eSBR é desprezível por diversos motivos, incluindo os seguintes:

[081] A penalidade de taxa de bits (devido ao fato de que inclui os metadados de eSBR) é uma fração muito pequena da taxa de bits total devido ao fato de que apenas os dados de controle necessários para realizar processamento de eSBR são transmitidos (e não uma transmissão simultânea dos dados de controle de SBR); e

[082] A sintonização de informações de controle relacionas à SBR não depende tipicamente dos detalhes da transposição. Exemplos de quando os dados de controle dependem da operação do transpositor são discutidos posteriormente neste pedido.

[083] Assim, as modalidades da invenção fornecem um meio para transmitir eficientemente dados de controle ou metadados de replicação de banda espectral melhorada (eSBR) de um modo retrocompatível. Essa transmissão eficiente dos dados de controle de eSBR reduz requisitos de memória em decodificadores, codificadores e transcodificadores que empregam aspectos da invenção, enquanto não tem nenhum efeito adverso tangível sobre a taxa de bits. Além disso, os requisitos de complexidade e processamento associados à realização de eSBR de acordo com as modalidades da invenção também são reduzidos devido ao fato de que os dados de SBR precisam ser apenas processados e transmitidos simultaneamente, o que poderia ser o caso se a eSBR for tratada como um tipo de objeto completamente separado em MPEG-4 AAC em vez de ser integrada ao codec de AAC MPEG-4 de uma maneira retrocompatível.

[084] A seguir, com referência à Figura 7, descreve-se elementos de um bloco (“raw_data_block”) de um fluxo de bits de AAC MPEG-4 no qual metadados de eSBR são incluídos de acordo com algumas modalidades da presente invenção. A Figura 7 é um diagrama de um bloco (um “raw_data_block”) do fluxo de bits de AAC MPEG-4 que mostra alguns dos segmentos do mesmo.

[085] Um bloco de um fluxo de bits de AAC MPEG-4 pode incluir pelo menos um “single_channel_element()” (por exemplo, o elemento de único canal mostrado na Figura 7), e/ou pelo menos um “channel_pair_element()” (não especificamente mostrado na Figura 7 embora possa estar presente), incluindo dados de áudio para um programa de áudio. O bloco também pode incluir diversos “fill_elements” (por exemplo, elemento de preenchimento 1 e/ou elemento de preenchimento 2 da Figura 7) incluindo dados (por exemplo, metadados) relacionados ao programa. Cada “single_channel_element()” inclui um identificador (por exemplo, “ID1” da Figura 7) indicando o início de um elemento de único canal, e pode incluir dados de áudio indicativos de um canal diferente de um programa de áudio de múltiplos canais. Cada "channel_pair_element" inclui um identificador (não mostrado na Figura 7) indicando o início de um elemento de par de canais, e pode incluir dados de áudio indicativos de dois canais do programa.

[086] Um fill_element (chamado de um elemento de preenchimento no presente documento) de um fluxo de bits de AAC MPEG-4 inclui um identificador (“ID2” da Figura 7) indicando o início de um elemento de preenchimento, e dados de preenchimento após o identificador. O identificador ID2 pode consistir em um primeiro bit mais significativo transmitido de número inteiro não assinado de três bits (“uimsbf”) que tem um valor de 0x6. Os dados de preenchimento podem incluir um elemento de extension_payload() (chamado às vezes de uma carga útil de extensão no presente documento) cuja sintaxe é mostrada na Tabela 4.57 do padrão de AAC MPEG-4.

Vários tipos de cargas úteis de extensão existem e são identificados através do parâmetro “extension_type”, que é um primeiro bit mais significativo transmitido de número inteiro não assinado de quatro bits (“uimsbf”).

[087] Os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) podem incluir um cabeçalho ou identificador (por exemplo, “cabeçalho1”

da Figura 7) que indica um segmento de dados de preenchimento que é indicativo de um objeto de SBR (isto é, o cabeçalho inicializa um tipo de “objeto de SBR”, chamado de sbr_extension_data() no padrão de AAC MPEG-4). Por exemplo, uma carga útil de extensão de replicação de banda espectral (SBR) é identificada com o valor de ‘1101’ ou ‘1110’ para o campo de extension_type no cabeçalho, com o identificador ‘1101’ identificando uma carga útil de extensão com dados de SBR e ‘1110’ identificando uma carga útil de extensão com dados de SBR com uma Verificação de Redundância Cíclica (CRC) para verificar a exatidão dos dados de SBR.

[088] Quando o cabeçalho (por exemplo, o campo de extension_type) inicializa um tipo de objeto de SBR, metadados de SBR (chamados às vezes de “dados de replicação de banda espectral” no presente documento, e chamados de sbr_data() no padrão de AAC MPEG-4) seguem o cabeçalho, e pelo menos um elemento de extensão de replicação de banda espectral (por exemplo, o “elemento de extensão de SBR” do elemento de preenchimento 1 da Figura 7) pode seguir os metadados de SBR. Tal elemento de extensão de replicação de banda espectral (um segmento do fluxo de bits) é chamado de um recipiente de “sbr_extension()” no padrão de AAC MPEG-4. Um elemento de extensão de replicação de banda espectral inclui opcionalmente um cabeçalho (por exemplo, “cabeçalho de extensão de SBR” do elemento de preenchimento 1 da Figura 7).

[089] O padrão de AAC MPEG-4 contempla que um elemento de extensão de replicação de banda espectral pode incluir dados de PS (elemento estéreo paramétrico) para dados de áudio de um programa. O padrão de AAC MPEG-4 contempla que, quando o cabeçalho de um elemento de preenchimento (por exemplo, de uma carga útil de extensão do mesmo) inicializa um tipo de objeto de SBR (como o “cabeçalho1” da Figura 7) e um elemento de extensão de replicação de banda espectral do elemento de preenchimento inclui dados de PS, o elemento de preenchimento (por exemplo, a carga útil de extensão do mesmo) inclui dados de replicação de banda espectral, e um parâmetro “bs_extension_id” cujo valor (isto é, bs_extension_id = 2) indica que os dados de PS data são incluídos em um elemento de extensão de replicação de banda espectral do elemento de preenchimento.

[090] De acordo com algumas modalidades da presente invenção, metadados de eSBR (por exemplo, um sinalizador indicativo de se o processamento de replicação de banda espectral melhorada (eSBR) deve ser realizado no conteúdo de áudio do bloco) são incluídos em um elemento de extensão de replicação de banda espectral de um elemento de preenchimento. Por exemplo, tal sinalizador é indicado no elemento de preenchimento 1 da Figura 7, em que o sinalizador ocorre após o cabeçalho (o “cabeçalho de extensão de SBR” do elemento de preenchimento 1) de “elemento de extensão de SBR” do elemento de preenchimento 1. Opcionalmente, tal sinalizador e metadados de eSBR adicionais são incluídos em um elemento de extensão de replicação de banda espectral após o cabeçalho do elemento de extensão de replicação de banda espectral (por exemplo, no elemento de extensão de SBR do elemento de preenchimento 1 na Figura 7, após o cabeçalho de extensão de SBR). De acordo com algumas modalidades da presente invenção, um elemento de preenchimento que inclui metadados de eSBR também inclui um parâmetro “bs_extension_id” cujo valor (por exemplo, bs_extension_id = 3) indica que metadados de eSBR são incluídos no elemento de preenchimento e que o processamento de eSBR deve ser realizado no conteúdo de áudio do bloco relevante.

[091] De acordo com algumas modalidades da invenção, metadados de eSBR são incluídos em um elemento de preenchimento (por exemplo, elemento de preenchimento 2 da Figura 7) de um fluxo de bits de AAC MPEG-4 diferente de em um elemento de extensão de replicação de banda espectral (elemento de extensão de SBR) do elemento de preenchimento. Isso ocorre devido ao fato de que elementos de preenchimento contendo um extension_payload() com dados de SBR ou dados de SBR com uma CRC não contêm qualquer outra carga útil de extensão de qualquer outro tipo de extensão. Portanto, em modalidades em que metadados de eSBR são armazenados na sua própria carga útil de extensão, um elemento de preenchimento separado é usado para armazenar os metadados de eSBR. Tal elemento de preenchimento inclui um identificador (por exemplo, “ID2” da Figura 7) indicando o início de um elemento de preenchimento, e dados de preenchimento após o identificador. Os dados de preenchimento podem incluir um elemento de extension_payload() (chamado às vezes de uma carga útil de extensão no presente documento) cuja sintaxe é mostrada na Tabela 4.57 do padrão de AAC MPEG-4. Os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) incluem um cabeçalho (por exemplo, “cabeçalho 2” do elemento de preenchimento 2 da Figura 7) que são indicativos de um objeto de eSBR (isto é, o cabeçalho inicializa um tipo de objeto de replicação de banda espectral melhorada (eSBR)), e os dados de preenchimento (por exemplo, uma carga útil de extensão dos mesmos) incluem metadados de eSBR após o cabeçalho. Por exemplo, o elemento de preenchimento 2 da Figura 7 inclui tal cabeçalho (“cabeçalho 2”) e também inclui, após o cabeçalho, metadados de eSBR (isto é, o “sinalizador” no elemento de preenchimento 2, que é indicativo de se o processamento de replicação de banda espectral melhorada (eSBR) deve ser realizado no conteúdo de áudio do bloco). Opcionalmente, metadados de eSBR adicionais também são incluídos nos dados de preenchimento do elemento de preenchimento 2 da Figura 7 após o cabeçalho 2. Nas modalidades que são descritas no presente parágrafo, o cabeçalho (por exemplo, cabeçalho 2 da Figura 7) tem um valor de identificação que não é um dos valores convencionais especificados na Tabela 4.57 do padrão de AAC MPEG-4, e é, em vez disso, indicativo de uma carga útil de extensão de eSBR (de modo que o campo extension_type do cabeçalho indica que os dados de preenchimento incluem metadados de eSBR).

[092] Em uma primeira classe de modalidades, a invenção é uma unidade de processamento de áudio (por exemplo, um decodificador) compreendendo:

[093] uma memória (por exemplo, armazenamento temporário 201 da Figura 3 ou 4) configurada para armazenar pelo menos um bloco de um fluxo de bits de áudio codificado (por exemplo, pelo menos um bloco de um fluxo de bits de AAC MPEG-4);

[094] um desformatador de carga útil de fluxo de bits (por exemplo, elemento 205 da Figura 3 ou elemento 215 da Figura 4) acoplado à memória e configurado para demultiplexar pelo menos uma porção do dito bloco do fluxo de bits; e

[095] um subsistema de decodificação (por exemplo, elementos 202 e 203 da Figura 3, ou elementos 202 e 213 da Figura 4), acoplado e configurado para decodificar pelo menos uma porção de conteúdo de áudio do dito bloco do fluxo de bits, em que o bloco inclui:

[096] um elemento de preenchimento, incluindo um identificador indicando um início do elemento de preenchimento (por exemplo, o identificador “id_syn_ele” que tem valor de 0x6 da Tabela 4.85 do padrão de AAC MPEG-4), e dados de preenchimento após o identificador, em que os dados de preenchimento incluem:

[097] pelo menos um sinalizador identificando se o processamento de replicação de banda espectral melhorada (eSBR) deve ser realizado no conteúdo de áudio do bloco (por exemplo, usando dados de replicação de banda espectral e metadados de eSBR incluídos no bloco).

[098] O sinalizador são metadados de eSBR, e um exemplo do sinalizador é o sinalizador de sbrPatchingMode. Um outro exemplo do sinalizador é o sinalizador de SBR harmônico. Ambos esses sinalizadores indicam se uma forma de base de replicação de banda espectral ou uma forma melhorada de replicação espectral deve ser realizada nos dados de áudio do bloco. A forma de base da replicação espectral é correção espectral, e a forma melhorada de replicação de banda espectral é transposição harmônica.

[099] Em algumas modalidades, os dados de preenchimento também incluem metadados de eSBR adicionais (isto é, metadados de eSBR diferentes do sinalizador).

[0100] A memória pode ser uma memória de armazenamento temporário (por exemplo, uma implementação de armazenamento temporário 201 da Figura 4) que armazena (por exemplo, de uma maneira não transitória) o pelo menos um bloco do fluxo de bits de áudio codificado.

[0101] Estima-se que a complexidade de desempenho de processamento de eSBR (usando a transposição harmônica de eSBR e pré-nivelamento) por um decodificador de eSBR durante a decodificação de um fluxo de bits de AAC MPEG-4 que inclui metadados de eSBR (indicativos dessas ferramentas de eSBR) seria conforme a seguir (para decodificação típica com os parâmetros indicados):

[0102] transposição harmônica (16 kbps, 14400/28800 Hz)

[0103] com base em DFT: 3,68 WMOPS (milhões de operações ponderadas por segundo);

[0104] com base em QMF: 0,98 WMOPS;

[0105] Pré-processamento de correção de QMF (pré-nivelamento): 0,1

WMOPS

[0106] Sabe-se que a transposição com base em DFT se realiza tipicamente melhor que a transposição com base em QMF para elementos transientes.

[0107] De acordo com algumas modalidades da presente invenção, um elemento de preenchimento (de um fluxo de bits de áudio codificado) que inclui metadados de eSBR também inclui um parâmetro (por exemplo, um parâmetro “bs_extension_id”) cujo valor (por exemplo, bs_extension_id = 3) sinaliza que metadados de eSBR são incluídos no elemento de preenchimento e que o processamento de eSBR deve ser realizado no conteúdo de áudio do bloco relevante, e/ou um parâmetro (por exemplo, o mesmo parâmetro “bs_extension_id”) cujo valor (por exemplo, bs_extension_id = 2) sinaliza que um recipiente de sbr_extension() do elemento de preenchimento inclui dados de PS. Por exemplo, conforme indicado na Tabela 1 abaixo, tal parâmetro que tem o valor bs_extension_id = 2 pode sinalizar que um recipiente de sbr_extension() do elemento de preenchimento inclui dados de PS, e tal parâmetro que tem o valor bs_extension_id = 3 pode sinalizar que um recipiente de sbr_extension() do elemento de preenchimento inclui metadados de eSBR: Tabela 1 bs_extension_id Significado 0 Reservado 1 Reservado 2 EXTENSION_ID_PS 3 EXTENSION_ID_ESBR

[0108] De acordo com algumas modalidades da invenção, a sintaxe de cada elemento de extensão de replicação de banda espectral que inclui metadados de eSBR e/ou dados de PS data é conforme indicado na Tabela 2 abaixo (na qual “sbr_extension()” denota um recipiente que é o elemento de extensão de replicação de banda espectral, “bs_extension_id” é conforme descritos na Tabela 1 acima, “ps_data” denota dados de PS, e “esbr_data” denota metadados de eSBR): Tabela 2 sbr_extension(bs_extension_id, num_bits_left) { comutação (bs_extension_id) { caso EXTENSION_ID_PS: num_bits_left -= ps_data(); Nota 1 pausa; caso EXTENSION_ID_ESBR: num_bits_left -= esbr_data(); Nota 2 pausa; padrão: bs_fill_bits;

num_bits_left = 0; pausa; } } Nota 1: ps_data() retorna o número de bits lido.

Nota 2: esbr_data() retorna o número de bits lido.

[0109] Em uma modalidade exemplificativa, o esbr_data() referido na Tabela 2 acima é indicativo de valores dos parâmetros de metadados a seguir:

1. o parâmetro de metadados de um bit, “bs_sbr_preprocessing”; e

2. para cada canal (“ch”) de conteúdo de áudio do fluxo de bits codificado a ser decodificado, cada um dos parâmetros descritos acima: “sbrPatchingMode[ch]”; “sbrOversamplingFlag[ch]”; “sbrPitchInBinsFlag[ch]” e “sbrPitchInBins[ch]”.

[0110] Por exemplo, em algumas modalidades, o esbr_data() pode ter a sintaxe indicada na Tabela 3 para indicar esses parâmetros de metadados: Tabela 3 Sintaxe n° de bits esbr_data(id_aac, bs_coupling) { bs_sbr_preprocessing; 1 se (id_aac == ID_SCE) { se (sbrPatchingMode[0] == 0) { 1 sbrOversamplingFlag[0]; 1 se (sbrPitchInBinsFlag[0]) 1 sbrPitchInBins[0]; 7 ou sbrPitchInBins[0] = 0; } ou {

sbrOversamplingFlag[0] = 0;

sbrPitchInBins[0] = 0;

}

} ou se (id_aac == ID_CPE) {

Se (bs_coupling) {

se (sbrPatchingMode[0,1] == 0) { 1 sbrOversamplingFlag[0,1]; 1 se (sbrPitchInBinsFlag[0,1]) 1 sbrPitchInBins[0,1]; 7 ou sbrPitchInBins[0,1] = 0;

} ou {

sbrOversamplingFlag[0,1] = 0;

sbrPitchInBins[0,1] = 0;

}

} ou { /* bs_coupling == 0 */

se (sbrPatchingMode[0] == 0) { 1 sbrOversamplingFlag[0]; 1 se (sbrPitchInBinsFlag[0]) 1 sbrPitchInBins[0]; 7 ou sbrPitchInBins[0] = 0;

} ou {

sbrOversamplingFlag[0] = 0;

sbrPitchInBins[0] = 0;

}

se (sbrPatchingMode[1] == 0) { 1 sbrOversamplingFlag[1]; 1 se (sbrPitchInBinsFlag[1]) 1 sbrPitchInBins[1]; 7 ou sbrPitchInBins[1] = 0; } ou { sbrOversamplingFlag[1] = 0; sbrPitchInBins[1] = 0; } } } } Nota: bs_sbr_preprocessing é definido conforme descrito na seção 6.2.12 de ISO/IEC 23003-3:2012. sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBinsFlag[ch] e sbrPitchInBins[ch] são definidos conforme descrito na seção 7.5 do ISO/IEC 23003-3:2012.

[0111] A sintaxe acima habilita uma implementação eficiente de uma forma melhorada de replicação de banda espectral como transposição harmônica como uma extensão para um decodificador de legado. Especificamente, os dados de eSBR da Tabela 3 incluem apenas aqueles parâmetros necessários para realizar a forma melhorada de replicação de banda espectral que já não são suportados no fluxo de bits ou diretamente deriváveis de parâmetros já suportados no fluxo de bits. Todos os outros parâmetros e dados de processamento necessários para realizar a forma melhorada de replicação de banda espectral são extraídos de parâmetros pré- existentes em localizações já definidas no fluxo de bits.

[0112] Por exemplo, um decodificador em conformidade com MPEG-4 HE- AAC ou HE-AAC v2 pode ser estendido para incluir uma forma melhorada de replicação de banda espectral como transposição harmônica. Essa forma melhorada de replicação de banda espectral é adicional à forma de base de replicação de banda espectral já suportada pelo decodificador. No contexto de um decodificador em conformidade com MPEG-4 HE-AAC ou HE-AAC v2, essa forma de base de replicação de banda espectral é a ferramenta de SBR de correção espectral de QMF conforme definido na Seção 4.6.18 do padrão de AAC MPEG-4.

[0113] Ao realizar a forma melhorada de replicação de banda espectral, um decodificador de HE-AAC estendido pode reusar qualquer um dos parâmetros de fluxo de bits já incluídos na carga útil de extensão de SBR do fluxo de bits. Os parâmetros específicos que podem ser reusados incluem, por exemplo, os vários parâmetros que determinam a tabela de banda de frequência principal. Esses parâmetros incluem bs_start_freq (parâmetro que determina o início de parâmetro de tabela de frequência principal), bs_stop_freq (parâmetro que determina a interrupção de tabela de frequência principal), bs_freq_scale (parâmetro que determina o número de bandas de frequência por oitava), e bs_alter_scale (parâmetro que altera a escala das bandas de frequência). Os parâmetros que podem ser reusados também incluem parâmetros que determinam a tabela de banda de ruído (bs_noise_bands) e os parâmetros de tabela de banda limitadores (bs_limiter_bands). Consequentemente, em várias modalidades, pelo menos alguns dos parâmetros equivalentes especificados no padrão de USAC são omitidos do fluxo de bits, reduzindo, desse modo, a sobrecarga de controle no fluxo de bits. Tipicamente, quando um parâmetro especificado no padrão de AAC tem um parâmetro equivalente especificado no padrão de USAC, o parâmetro equivalente especificado no padrão de USAC tem o mesmo nome que o parâmetro especificado no padrão de AAC, por exemplo, o fator de escala de envelope EOrigMapped. Entretanto, o parâmetro equivalente especificado no padrão de USAC tem tipicamente um valor diferente, que é “sintonizado” com o processamento de SBR melhorada definido no padrão de USAC em vez de com o processamento de SBR definido no padrão de AAC.

[0114] A fim de aprimorar a qualidade subjetiva para conteúdo de áudio com estrutura de frequência harmônica e características tonais fortes, em particular, em baixas taxas de bits, a ativação de SBR melhorada é recomendada. Os valores do elemento de fluxo de bits correspondente (isto é, esbr_data()), que controla essas ferramentas podem ser determinados no codificador ao aplicar um mecanismo de classificação dependente de sinal. Em geral, o uso do método de correção harmônica (sbrPatchingMode == 1) é preferencial para codificar sinais musicais em taxas de bits muito baixas, em que o codec de núcleo pode ser limitado consideravelmente em largura de banda de áudio. Isso é especialmente verdadeiro se esses sinais incluírem uma estrutura harmônica acentuada. Em contrapartida, o uso do método de correção de SBR regular é preferencial para sinais de voz e misturados, uma vez que o mesmo fornece uma melhor conservação da estrutura temporal na voz.

[0115] A fim de aprimorar o desempenho do transpositor harmônico, uma etapa de pré-processamento pode ser ativada (bs_sbr_preprocessing == 1) que se esforça para evitar a introdução de descontinuidades espectrais do sinal que vai para o ajustador de envelope subsequente. A operação da ferramenta é benéfica para tipos de sinal em que o envelope espectral bruto do sinal de banda baixa que é usado para reconstrução de alta frequência exibe grandes variações de nível.

[0116] A fim de aprimorar a resposta transiente da correção de SBR harmônica, a sobreamostragem de domínio de frequência adaptativa de sinal pode ser aplicada (sbrsbrOversamplingFlag== 1). Uma vez que a sobreamostragem de domínio de frequência adaptativa de sinal aumenta a complexidade computacional do transpositor, mas apenas traz benefícios para quadros que contêm elementos transientes, o uso dessa ferramenta é controlado pelo elemento de fluxo de bits, que é transmitido uma vez por quadro e por canal de SBR independente.

[0117] Um decodificador que opera no modo de SBR melhorada proposto precisa tipicamente ter capacidade de comutar entre correção de SBR de legado e melhorada. Portanto, pode ser introduzido o atraso que pode ser tão longo quanto a duração de um quadro de áudio principal, dependendo da configuração de decodificador. Tipicamente, o atraso tanto para correção de SBR de legado quanto melhorada será similar.

[0118] Além dos inúmeros parâmetros, outros elementos de dados também podem ser reusados por um decodificador de HE-AAC estendido ao realizar uma forma melhorada de replicação de banda espectral de acordo com as modalidades da invenção. Por exemplo, os dados de envelope e dados de piso de ruído também podem ser extraídos dos dados de bs_data_env (fatores de escala de envelope) e bs_noise_env (fatores de escala de piso de ruído) e usados durante a forma melhorada de replicação de banda espectral.

[0119] Essencialmente, essas modalidades exploram os parâmetros de configuração e dados de envelope já suportados por um decodificador de HE-AAC ou HE-AAC v2 de legado na carga útil de extensão de SBR para habilitar uma forma melhorada de replicação de banda espectral que exige o mínimo possível de dados transmitidos extras. Os metadados foram sintonizados originalmente com uma forma de base de HFR (por exemplo, a operação de translação espectral de SBR), mas, de acordo com modalidades, são usados para uma forma melhorada de HFR (por exemplo, a transposição harmônica de eSBR). Conforme previamente discutido, os metadados representam, em geral, parâmetros operacionais (por exemplo, fatores de escala de envelope, fatores de escala de piso de ruído, parâmetros de grade de tempo/frequência, informações de adição de senoide, cruzamento variável de frequência/banda, modo de filtração inversa, resolução de envelope, modo de suavização, modo de interpolação de frequência) sintonizados e destinados a serem usados com a forma de base de HFR (por exemplo, translação espectral linear).

Entretanto, esses metadados, combinados com parâmetros de metadados adicionais específicos para a forma melhorada de HFR (por exemplo, transposição harmônica), podem ser usados para processar eficiente e eficazmente os dados de áudio usando a forma melhorada de HFR.

[0120] Consequentemente, decodificadores estendidos que suportam uma forma melhorada de replicação de banda espectral podem ser criados de uma maneira muito eficiente ao se basear em elementos de fluxo de bits já definidos (por exemplo, aqueles na carga útil de extensão de SBR) e adicionar apenas aqueles parâmetros necessários para suportar a forma melhorada de replicação de banda espectral (em uma carga útil de extensão de elemento de preenchimento). Esse recurso de redução de dados combinado com a colocação de parâmetros recentemente adicionados em um campo de dados reservados como um recipiente de extensão reduzem substancialmente as barreiras para criar um decodificador que suporta uma forma melhorada de replicação de banda espectral ao garantir que o fluxo de bits seja retrocompatível com o decodificador de legado que não suporta a forma melhorada de replicação de banda espectral.

[0121] Na Tabela 3, o número na coluna direita indica o número de bits do parâmetro correspondente na coluna esquerda.

[0122] Em algumas modalidades, o tipo de objeto de SBR definido em MPEG- 4 AAC é atualizado para conter a Ferramenta de SBR e aspectos da Ferramenta de SBR melhorada (eSBR) conforme sinalizado no elemento de extensão de SBR (bs_extension_id== EXTENSION_ID_ESBR). Se um decodificador detectar e suportar esse elemento de extensão de SBR, o decodificador emprega os aspectos sinalizados da Ferramenta de SBR melhorada. O tipo de objeto de SBR atualizado dessa maneira é chamado de melhoramentos de SBR.

[0123] Em algumas modalidades, a invenção é um método incluindo uma etapa de codificar dados de áudio para gerar um fluxo de bits codificados (por exemplo, um fluxo de bits de AAC MPEG-4), incluindo a inclusão de metadados de eSBR em pelo menos um segmento de pelo menos um bloco do fluxo de bits codificado e dados de áudio em pelo menos um outro segmento do bloco. Em modalidades típicas, o método inclui uma etapa de multiplexar os dados de áudio com os metadados de eSBR em cada bloco do fluxo de bits codificado. Na decodificação típica do fluxo de bits codificado em um decodificador de eSBR, o decodificador extrai os metadados de eSBR do fluxo de bits (incluindo a análise e a demultiplexação dos metadados de eSBR e dos dados de áudio) e usa os metadados de eSBR para processar os dados de áudio para gerar um fluxo de dados de áudio decodificado.

[0124] Um outro aspecto da invenção consiste em um decodificador de eSBR configurado para realizar processamento de eSBR (por exemplo, usando pelo menos uma das ferramentas de eSBR conhecidas como transposição harmônica ou pré- nivelamento) durante a decodificação de um fluxo de bits de áudio codificado (por exemplo, um fluxo de bits de AAC MPEG-4) que não inclui metadados de eSBR. Um exemplo de tal decodificador será descrito com referência à Figura 5.

[0125] O decodificador de eSBR (400) da Figura 5 inclui memória de armazenamento temporário 201 (que é idêntica à memória 201 das Figuras 3 e 4), desformatador de carga útil de fluxo de bits 215 (que é idêntico ao desformatador 215 da Figura 4), subsistema de decodificação de áudio 202 (chamado às vezes de um estágio de decodificação “de núcleo” ou subsistema de decodificação “de núcleo”, e que é idêntico ao subsistema de decodificação 202 da Figura 3), subsistema de geração de dados de controle de eSBR 401 e estágio de processamento de eSBR 203 (que é idêntico ao estágio 203 da Figura 3) conectados conforme mostrado.

Tipicamente, o decodificador 400 também inclui outros elementos de processamento (não mostrados).

[0126] Na operação de decodificação 400, uma sequência de blocos de um fluxo de bits de áudio codificado (um fluxo de bits de AAC MPEG-4) recebida pelo decodificador 400 é expressada a partir do armazenamento temporário 201 para o desformatador 215.

[0127] O desformatador 215 é acoplado e configurado para demultiplexar cada bloco do fluxo de bits para extrair metadados de SBR (incluindo dados de envelope quantificados) e também, tipicamente, outros metadados do mesmo. O desformatador 215 é configurado para expressar pelo menos os metadados de SBR para processamento de eSBR estágio 203. O desformatador 215 também é acoplado e configurado para extrair dados de áudio de cada bloco do fluxo de bits, e expressar os dados de áudio extraídos para o subsistema de decodificação (estágio de decodificação) 202.

[0128] O subsistema de decodificação de áudio 202 do decodificador 400 é configurado para decodificar os dados de áudio extraídos pelo desformatador 215 (tal decodificação pode ser chamada de uma operação de decodificação “de núcleo”) para gerar dados de áudio decodificados, e expressar os dados de áudio decodificados para estágio de processamento de eSBR 203. A decodificação é realizada no domínio de frequência. Tipicamente, um estágio final de processamento no subsistema 202 aplica uma transformação de domínio de tempo para domínio de frequência a dados de áudio de domínio de frequência decodificados, de modo que a saída de subsistema seja dados de áudio decodificados de domínio de tempo. O estágio 203 é configurado para aplicar ferramentas de SBR (e ferramentas de eSBR) indicadas pelos metadados de SBR (extraídos pelo desformatador 215) e por metadados de eSBR gerados no subsistema 401 aos dados de áudio decodificados (isto é, para realizar processamento de SBR e eSBR na saída do subsistema de decodificação 202 usando os metadados de SBR e eSBR) para gerar os dados de áudio completamente decodificados que são emitidos a partir do decodificador 400. Tipicamente, o decodificador 400 inclui uma memória (acessível pelo subsistema 202 e pelo estágio 203) que armazena os dados de áudio e metadados desformatados emitidos a partir do desformatador 215 (e, opcionalmente, também a partir do subsistema 401), e o estágio 203 é configurado para acessar os dados de áudio e metadados conforme necessário durante o processamento de SBR e eSBR. O processamento de SBR no estágio 203 pode ser considerado como sendo pós-processamento na saída do subsistema de decodificação de núcleo 202. Opcionalmente, o decodificador 400 também inclui um subsistema de mistura ascendente final (que pode aplicar ferramentas estéreas paramétricas (“PS”) definidas no padrão de AAC MPEG-4, usando metadados de PS extraídos pelo desformatador 215) que á acoplado e configurado para realizar mistura ascendente na saída do estágio 203 para áudio misturado de maneira ascendente completamente decodificado que é emitido a partir da APU 210.

[0129] O elemento estéreo paramétrico é uma ferramenta de codificação que representa um sinal estéreo usando uma mistura descendente linear dos canais esquerdo e direito do sinal estéreo e conjuntos de parâmetros espaciais que descreve a imagem estéreo. O elemento estéreo paramétrico emprega tipicamente três tipos de parâmetros espaciais: (1) diferenças de intensidade entre canais (IID) que descrevem as diferenças de intensidade entre os canais; (2) diferenças de fase entre canais (IPD) que descrevem as diferenças de fase entre os canais; e (3) coerência entre canais (ICC) que descrevem a coerência (ou similaridade) entre os canais. A coerência pode ser medida como o máximo da correlação cruzada como uma função de tempo ou fase. Esses três parâmetros habilitam, em geral, uma reconstrução de alta qualidade da imagem estéreo. Entretanto, os parâmetros de IPD especificam apenas as diferenças de fase relativas entre os canais do sinal de entrada e não indicam a distribuição dessas diferenças de fase nos canais esquerdo e direito Portanto, um quarto tipo de parâmetro que descreve um deslocamento de fase geral ou diferença de fase geral (OPD) pode ser usado adicionalmente. No processo de reconstrução estérea, segmentos em janelas consecutivas tanto do sinal de mistura descendente recebido, s[n], quanto de uma versão descorrelacionada do sinal de mistura descendente recebido, d[n], são processados em conjunto com os parâmetros espaciais para gerar os sinais reconstruídos esquerdo (lk(n)) e direito (rk(n)) de acordo com: lk(n)=H11(k,n)sk(n)+H21(k,n)dk(n) rk(n)=H12(k,n)sk(n)+H22(k,n)dk(n)

[0130] onde H11, H12, H21 e H22 são definidos por parâmetros estéreos. Os sinais lk(n) e rk(n) são transformados finalmente de volta para o domínio de tempo por meio de uma transformação de frequência em tempo.

[0131] O subsistema de geração de dados de controle 401 da Figura 5 é acoplado e configurado para detectar pelo menos uma propriedade do fluxo de bits de áudio codificado a ser decodificado, e gerar dados de controle de eSBR (que podem ser ou incluem metadados de eSBR de qualquer um dos tipos incluídos em fluxos de bits de áudio codificados de acordo com outras modalidades da invenção) em resposta a pelo menos um resultado da etapa de detecção. Os dados de controle de eSBR são expressados para estágio 203 para acionar a aplicação de ferramentas de eSBR individuais ou combinações de ferramentas de eSBR mediante a detecção de uma propriedade específica (ou combinação de propriedades) do fluxo de bits, e/ou controlar a aplicação de tais ferramentas de eSBR. Por exemplo, a fim de controlar o desempenho de processamento de eSBR usando transposição harmônica, algumas modalidades de subsistema de geração de dados de controle 401 incluiriam: um detector musical (por exemplo, uma versão simplificada de um detector musical convencional) para definir o parâmetro sbrPatchingMode[ch] (e expressar o parâmetro definido para estágio 203) em resposta à detecção de que o fluxo de bits é ou não indicativo de música; um detector transiente para definir o parâmetro sbrOversamplingFlag[ch] (e expressar o parâmetro definido para estágio 203) em resposta à detecção da presença ou ausência de elementos transientes no conteúdo de áudio indicado pelo fluxo de bits; e/ou um detector de tom para definir os parâmetros sbrPitchInBinsFlag[ch] e sbrPitchInBins[ch] (e expressar os parâmetros definidos para estágio 203) em resposta à detecção do tom de conteúdo de áudio indicado pelo fluxo de bits. Outros aspectos da invenção consistem em métodos de decodificação de fluxo de bits de áudio realizados por qualquer modalidade do decodificador inventivo descrito nesse parágrafo e no parágrafo anterior.

[0132] Aspectos da invenção incluem um método de codificação ou decodificação do tipo que qualquer modalidade da APU, sistema ou dispositivo inventivo é configurada (por exemplo, programada) para realização. Outros aspectos da invenção incluem um sistema ou dispositivo configurado (por exemplo, programado) para realizar qualquer modalidade do método inventivo, e um meio legível por computador (por exemplo, um disco) que armazena código (por exemplo, de uma maneira não transitória) para implementar qualquer modalidade do método inventivo ou etapas do mesmo. Por exemplo, o sistema inventivo pode ser ou incluir um processador de propósito geral programável, processador de sinal digital ou microprocessador, programado com software ou firmware e/ou, de outro modo, configurado para realizar qualquer uma dentre uma variedade de operações em dados, incluindo uma modalidade do método inventivo ou etapas do mesmo. Tal processador de propósito geral pode ser ou incluir um sistema computacional incluindo um dispositivo de entrada, uma memória e conjunto de circuitos de processamento programado (e/ou, de outro modo, configurado) para realizar uma modalidade do método inventivo (ou etapas do mesmo) em resposta a dados expressados pelo mesmo.

[0133] Modalidades da presente invenção podem ser implementadas em hardware, firmware ou software, ou uma combinação de ambos (por exemplo, como um arranjo lógico programável). Salvo se especificado de outro modo, os algoritmos ou processos incluídos como parte da invenção não são relacionados inerentemente a qualquer computador particular ou a outro aparelho. Em particular, várias máquinas de propósito geral podem ser usadas com programas escritos de acordo com os ensinamentos no presente documento, ou pode ser mais conveniente construir aparelho mais especializado (por exemplo, circuitos integrados) para realizar as etapas de método exigidas. Assim, a invenção pode ser implementada em um ou mais programas de computador que executam em um ou mais sistemas computacionais programáveis (por exemplo, uma implementação de qualquer um dos elementos da Figura 1 ou codificador 100 da Figura 2 (ou um elemento da mesma) ou decodificador 200 da Figura 3 (ou um elemento da mesma) ou decodificador 210 da Figura 4 (ou um elemento da mesma) ou decodificador 400 da Figura 5 (ou um elemento da mesma)), cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindo memória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. O código de programa é aplicado aos dados de entrada para realizar as funções descritas no presente documento e gerar informações de saída. As informações de saída são aplicadas a um ou mais dispositivos de saída de um modo conhecido.

[0134] Cada tal programa pode ser implementado em qualquer linguagem de computador desejada (incluindo máquina, montagem ou linguagens de programação de procedimento, lógica ou orientada por objeto de alto nível) para se comunicar com o sistema computacional. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.

[0135] Por exemplo, quando implementadas por sequências de instrução de software de computador, várias funções e etapas de modalidades da invenção podem ser implementadas por sequências de instruções de software de múltiplas linhas que executam em hardware de processamento de sinal digital adequado, em cujo caso os vários dispositivos, etapas e funções das modalidades podem corresponder a porções das instruções de software.

[0136] Cada tal programa de computador é, de preferência, armazenado ou transferido por download para um meio ou dispositivo de armazenamento (por exemplo, memória ou meios de estado sólido, ou meios magnéticos ou ópticos) legível por um computador programável de propósito geral ou especial, para configurar e operar o computador quando o meio ou dispositivo de armazenamento é lido pelo sistema computacional para realizar os procedimentos descritos no presente documento. O sistema inventivo também pode ser implementado como um meio de armazenamento legível por computador, configurado com (isto é, armazenando) um programa de computador, em que o meio de armazenamento assim configurado faz com que um sistema computacional opere de uma maneira específica e predeterminada para realizar as funções descritas no presente documento.

[0137] Diversas modalidades da invenção foram descritas. No entanto, será entendido que várias modificações podem ser feitas sem se afastar do espírito e do escopo da invenção. Inúmeras modificações e variações da presente invenção são possíveis à luz dos ensinamentos acima. Por exemplo, a fim de facilitar implementações eficientes, mudanças de fase podem ser usadas em combinação com os bancos de filtro de síntese e análise de QMF complexa. O banco de filtro de análise é responsável por filtrar o sinal de banda baixa de domínio de tempo gerado pelo decodificador de núcleo em uma pluralidade de sub-bandas (por exemplo, sub- bandas de QMF). O banco de filtro de síntese é responsável por combinar a banda alta regerada produzida pela técnica de HFR selecionada (conforme indicado pelo parâmetro sbrPatchingMode recebido) com a banda baixa decodificada para produzir um sinal de áudio de saída de banda larga. Uma determinada implementação de banco de filtro que opera em um certo modo de taxa de amostra, por exemplo, operação de taxa dupla normal ou modo de SBR de amostragem inferior, não deve, entretanto, ter mudanças de fase que são dependentes de fluxo de bits. Os bancos de QMF usados em SBR são uma extensão exponencial complexa da teoria de bancos de filtro modulados por cosseno. Pode ser mostrado que as restrições de cancelamento de réplica se tornam obsoletas ao estender banco de filtro modulado por cosseno com modulação exponencial complexa. Assim, para os bancos de QMF de SBR, tanto os filtros de análise, hk(n), quanto os filtros de síntese, fk(n), podem ser definidos por: ℎ 𝑛 𝑓 𝑛 𝑝 𝑛 exp 𝑖 𝑘 𝑛 ,0 𝑛 𝑁; 0 𝑘 𝑀 (1)

[0138] onde p0(n) é um filtro de protótipo simétrico ou assimétrico de valor real (tipicamente, um filtro de protótipo passa-baixa), M denota o número de canais e N é a ordem de filtro de protótipo. O número de canais usado no banco de filtro de análise pode ser diferente do número de canal usado no banco de filtro de síntese. Por exemplo, o banco de filtro de análise pode ter 32 canais e o banco de filtro de síntese pode ter 64 canais. Ao operar o banco de filtro de síntese em modo de amostragem inferior, o banco de filtro de síntese pode ter apenas 32 canais. Uma vez que as amostras de sub-banda do banco de filtro são de valor complexo, uma etapa de mudança de fase possivelmente dependente de canal aditiva pode ser anexada ao banco de filtro de análise. Essas mudanças de fase extras precisam ser compensadas antes do banco de filtro de síntese. Embora os termos de mudança de fase em princípio possam ser de valores arbitrários sem destruir a operação da cadeia de análise/síntese de QMF, os mesmos também podem ser restritos a certos valores para verificação de conformidade. O sinal de SBR será afetado pela escolha dos fatores de fase enquanto o sinal passa-baixa que vem do decodificador de núcleo não será. A qualidade de áudio do sinal de saída não é afetada.

[0139] Os coeficientes do filtro de protótipo, p0(n), podem ser definidos com um comprimento, L, de 640, conforme mostrado na Tabela 4 abaixo.

Tabela 4 n p0(n) n p0(n) n p0(n) 0 0,0000000000 214 0,0019765601 428 0,0117623832

1 -0,0005525286 215 -0,0032086896 429 0,0163701258

2 -0,0005617692 216 -0,0085711749 430 0,0207997072

3 -0,0004947518 217 -0,0141288827 431 0,0250307561

4 -0,0004875227 218 -0,0198834129 432 0,0290824006

5 -0,0004893791 219 -0,0258227288 433 0,0329583930

6 -0,0005040714 220 -0,0319531274 434 0,0366418116

7 -0,0005226564 221 -0,0382776572 435 0,0401458278

8 -0,0005466565 222 -0,0447806821 436 0,0434768782

9 -0,0005677802 223 -0,0514804176 437 0,0466303305

10 -0,0005870930 224 -0,0583705326 438 0,0495978676

11 -0,0006132747 225 -0,0654409853 439 0,0524093821

12 -0,0006312493 226 -0,0726943300 440 0,0550460034

13 -0,0006540333 227 -0,0801372934 441 0,0575152691

14 -0,0006777690 228 -0,0877547536 442 0,0598166570

15 -0,0006941614 229 -0,0955533352 443 0,0619602779

16 -0,0007157736 230 -0,1035329531 444 0,0639444805

17 -0,0007255043 231 -0,1116826931 445 0,0657690668

18 -0,0007440941 232 -0,1200077984 446 0,0674525021

19 -0,0007490598 233 -0,1285002850 447 0,0689664013

20 -0,0007681371 234 -0,1371551761 448 0,0703533073

21 -0,0007724848 235 -0,1459766491 449 0,0715826364

22 -0,0007834332 236 -0,1549607071 450 0,0726774642

23 -0,0007779869 237 -0,1640958855 451 0,0736406005

24 -0,0007803664 238 -0,1733808172 452 0,0744664394

25 -0,0007801449 239 -0,1828172548 453 0,0751576255

26 -0,0007757977 240 -0,1923966745 454 0,0757305756

27 -0,0007630793 241 -0,2021250176 455 0,0761748321

28 -0,0007530001 242 -0,2119735853 456 0,0765050718

29 -0,0007319357 243 -0,2219652696 457 0,0767204924

30 -0,0007215391 244 -0,2320690870 458 0,0768230011

31 -0,0006917937 245 -0,2423016884 459 0,0768173975

32 -0,0006650415 246 -0,2526480309 460 0,0767093490

33 -0,0006341594 247 -0,2631053299 461 0,0764992170

34 -0,0005946118 248 -0,2736634040 462 0,0761992479

35 -0,0005564576 249 -0,2843214189 463 0,0758008358

36 -0,0005145572 250 -0,2950716717 464 0,0753137336

37 -0,0004606325 251 -0,3059098575 465 0,0747452558

38 -0,0004095121 252 -0,3168278913 466 0,0741003642

39 -0,0003501175 253 -0,3278113727 467 0,0733620255

40 -0,0002896981 254 -0,3388722693 468 0,0725682583

41 -0,0002098337 255 -0,3499914122 469 0,0717002673

42 -0,0001446380 256 0,3611589903 470 0,0707628710

43 -0,0000617334 257 0,3723795546 471 0,0697630244

44 0,0000134949 258 0,3836350013 472 0,0687043828

45 0,0001094383 259 0,3949211761 473 0,0676075985

46 0,0002043017 260 0,4062317676 474 0,0664367512

47 0,0002949531 261 0,4175696896 475 0,0652247106

48 0,0004026540 262 0,4289119920 476 0,0639715898

49 0,0005107388 263 0,4402553754 477 0,0626857808

50 0,0006239376 264 0,4515996535 478 0,0613455171

51 0,0007458025 265 0,4629308085 479 0,0599837480

52 0,0008608443 266 0,4742453214 480 0,0585915683

53 0,0009885988 267 0,4855253091 481 0,0571616450

54 0,0011250155 268 0,4967708254 482 0,0557173648

55 0,0012577884 269 0,5079817500 483 0,0542452768

56 0,0013902494 270 0,5191234970 484 0,0527630746

57 0,0015443219 271 0,5302240895 485 0,0512556155

58 0,0016868083 272 0,5412553448 486 0,0497385755

59 0,0018348265 273 0,5522051258 487 0,0482165720

60 0,0019841140 274 0,5630789140 488 0,0466843027

61 0,0021461583 275 0,5738524131 489 0,0451488405

62 0,0023017254 276 0,5845403235 490 0,0436097542

63 0,0024625616 277 0,5951123086 491 0,0420649094

64 0,0026201758 278 0,6055783538 492 0,0405349170

65 0,0027870464 279 0,6159109932 493 0,0390053679

66 0,0029469447 280 0,6261242695 494 0,0374812850

67 0,0031125420 281 0,6361980107 495 0,0359697560

68 0,0032739613 282 0,6461269695 496 0,0344620948

69 0,0034418874 283 0,6559016302 497 0,0329754081

70 0,0036008268 284 0,6655139880 498 0,0315017608

71 0,0037603922 285 0,6749663190 499 0,0300502657

72 0,0039207432 286 0,6842353293 500 0,0286072173

73 0,0040819753 287 0,6933282376 501 0,0271859429

74 0,0042264269 288 0,7022388719 502 0,0257875847

75 0,0043730719 289 0,7109410426 503 0,0244160992

76 0,0045209852 290 0,7194462634 504 0,0230680169

77 0,0046606460 291 0,7277448900 505 0,0217467550

78 0,0047932560 292 0,7358211758 506 0,0204531793

79 0,0049137603 293 0,7436827863 507 0,0191872431

80 0,0050393022 294 0,7513137456 508 0,0179433381

81 0,0051407353 295 0,7587080760 509 0,0167324712

82 0,0052461166 296 0,7658674865 510 0,0155405553

83 0,0053471681 297 0,7727780881 511 0,0143904666

84 0,0054196775 298 0,7794287519 512 -0,0132718220

85 0,0054876040 299 0,7858353120 513 -0,0121849995

86 0,0055475714 300 0,7919735841 514 -0,0111315548

87 0,0055938023 301 0,7978466413 515 -0,0101150215

88 0,0056220643 302 0,8034485751 516 -0,0091325329

89 0,0056455196 303 0,8087695004 517 -0,0081798233

90 0,0056389199 304 0,8138191270 518 -0,0072615816

91 0,0056266114 305 0,8185776004 519 -0,0063792293

92 0,0055917128 306 0,8230419890 520 -0,0055337211

93 0,0055404363 307 0,8272275347 521 -0,0047222596

94 0,0054753783 308 0,8311038457 522 -0,0039401124

95 0,0053838975 309 0,8346937361 523 -0,0031933778

96 0,0052715758 310 0,8379717337 524 -0,0024826723

97 0,0051382275 311 0,8409541392 525 -0,0018039472

98 0,0049839687 312 0,8436238281 526 -0,0011568135

99 0,0048109469 313 0,8459818469 527 -0,0005464280

100 0,0046039530 314 0,8480315777 528 0,0000276045

101 0,0043801861 315 0,8497805198 529 0,0005832264

102 0,0041251642 316 0,8511971524 530 0,0010902329

103 0,0038456408 317 0,8523047035 531 0,0015784682

104 0,0035401246 318 0,8531020949 532 0,0020274176

105 0,0032091885 319 0,8535720573 533 0,0024508540

106 0,0028446757 320 0,8537385600 534 0,0028446757

107 0,0024508540 321 0,8535720573 535 0,0032091885

108 0,0020274176 322 0,8531020949 536 0,0035401246

109 0,0015784682 323 0,8523047035 537 0,0038456408

110 0,0010902329 324 0,8511971524 538 0,0041251642

111 0,0005832264 325 0,8497805198 539 0,0043801861

112 0,0000276045 326 0,8480315777 540 0,0046039530

113 -0,0005464280 327 0,8459818469 541 0,0048109469

114 -0,0011568135 328 0,8436238281 542 0,0049839687

115 -0,0018039472 329 0,8409541392 543 0,0051382275

116 -0,0024826723 330 0,8379717337 544 0,0052715758

117 -0,0031933778 331 0,8346937361 545 0,0053838975

118 -0,0039401124 332 0,8311038457 546 0,0054753783

119 -0,0047222596 333 0,8272275347 547 0,0055404363

120 -0,0055337211 334 0,8230419890 548 0,0055917128

121 -0,0063792293 335 0,8185776004 549 0,0056266114

122 -0,0072615816 336 0,8138191270 550 0,0056389199

123 -0,0081798233 337 0,8087695004 551 0,0056455196

124 -0,0091325329 338 0,8034485751 552 0,0056220643

125 -0,0101150215 339 0,7978466413 553 0,0055938023

126 -0,0111315548 340 0,7919735841 554 0,0055475714

127 -0,0121849995 341 0,7858353120 555 0,0054876040

128 0,0132718220 342 0,7794287519 556 0,0054196775

129 0,0143904666 343 0,7727780881 557 0,0053471681

130 0,0155405553 344 0,7658674865 558 0,0052461166

131 0,0167324712 345 0,7587080760 559 0,0051407353

132 0,0179433381 346 0,7513137456 560 0,0050393022

133 0,0191872431 347 0,7436827863 561 0,0049137603

134 0,0204531793 348 0,7358211758 562 0,0047932560

135 0,0217467550 349 0,7277448900 563 0,0046606460

136 0,0230680169 350 0,7194462634 564 0,0045209852

137 0,0244160992 351 0,7109410426 565 0,0043730719

138 0,0257875847 352 0,7022388719 566 0,0042264269

139 0,0271859429 353 0,6933282376 567 0,0040819753

140 0,0286072173 354 0,6842353293 568 0,0039207432

141 0,0300502657 355 0,6749663190 569 0,0037603922

142 0,0315017608 356 0,6655139880 570 0,0036008268

143 0,0329754081 357 0,6559016302 571 0,0034418874

144 0,0344620948 358 0,6461269695 572 0,0032739613

145 0,0359697560 359 0,6361980107 573 0,0031125420

146 0,0374812850 360 0,6261242695 574 0,0029469447

147 0,0390053679 361 0,6159109932 575 0,0027870464

148 0,0405349170 362 0,6055783538 576 0,0026201758

149 0,0420649094 363 0,5951123086 577 0,0024625616

150 0,0436097542 364 0,5845403235 578 0,0023017254

151 0,0451488405 365 0,5738524131 579 0,0021461583

152 0,0466843027 366 0,5630789140 580 0,0019841140

153 0,0482165720 367 0,5522051258 581 0,0018348265

154 0,0497385755 368 0,5412553448 582 0,0016868083

155 0,0512556155 369 0,5302240895 583 0,0015443219

156 0,0527630746 370 0,5191234970 584 0,0013902494

157 0,0542452768 371 0,5079817500 585 0,0012577884

158 0,0557173648 372 0,4967708254 586 0,0011250155

159 0,0571616450 373 0,4855253091 587 0,0009885988

160 0,0585915683 374 0,4742453214 588 0,0008608443

161 0,0599837480 375 0,4629308085 589 0,0007458025

162 0,0613455171 376 0,4515996535 590 0,0006239376

163 0,0626857808 377 0,4402553754 591 0,0005107388

164 0,0639715898 378 0,4289119920 592 0,0004026540

165 0,0652247106 379 0,4175696896 593 0,0002949531

166 0,0664367512 380 0,4062317676 594 0,0002043017

167 0,0676075985 381 0,3949211761 595 0,0001094383

168 0,0687043828 382 0,3836350013 596 0,0000134949

169 0,0697630244 383 0,3723795546 597 -0,0000617334

170 0,0707628710 384 -0,3611589903 598 -0,0001446380

171 0,0717002673 385 -0,3499914122 599 -0,0002098337

172 0,0725682583 386 -0,3388722693 600 -0,0002896981

173 0,0733620255 387 -0,3278113727 601 -0,0003501175

174 0,0741003642 388 -0,3168278913 602 -0,0004095121

175 0,0747452558 389 -0,3059098575 603 -0,0004606325

176 0,0753137336 390 -0,2950716717 604 -0,0005145572

177 0,0758008358 391 -0,2843214189 605 -0,0005564576

178 0,0761992479 392 -0,2736634040 606 -0,0005946118

179 0,0764992170 393 -0,2631053299 607 -0,0006341594

180 0,0767093490 394 -0,2526480309 608 -0,0006650415

181 0,0768173975 395 -0,2423016884 609 -0,0006917937

182 0,0768230011 396 -0,2320690870 610 -0,0007215391

183 0,0767204924 397 -0,2219652696 611 -0,0007319357

184 0,0765050718 398 -0,2119735853 612 -0,0007530001

185 0,0761748321 399 -0,2021250176 613 -0,0007630793

186 0,0757305756 400 -0,1923966745 614 -0,0007757977

187 0,0751576255 401 -0,1828172548 615 -0,0007801449

188 0,0744664394 402 -0,1733808172 616 -0,0007803664

189 0,0736406005 403 -0,1640958855 617 -0,0007779869

190 0,0726774642 404 -0,1549607071 618 -0,0007834332 191 0,0715826364 405 -0,1459766491 619 -0,0007724848 192 0,0703533073 406 -0,1371551761 620 -0,0007681371 193 0,0689664013 407 -0,1285002850 621 -0,0007490598 194 0,0674525021 408 -0,1200077984 622 -0,0007440941 195 0,0657690668 409 -0,1116826931 623 -0,0007255043 196 0,0639444805 410 -0,1035329531 624 -0,0007157736 197 0,0619602779 411 -0,0955533352 625 -0,0006941614 198 0,0598166570 412 -0,0877547536 626 -0,0006777690 199 0,0575152691 413 -0,0801372934 627 -0,0006540333 200 0,0550460034 414 -0,0726943300 628 -0,0006312493 201 0,0524093821 415 -0,0654409853 629 -0,0006132747 202 0,0495978676 416 -0,0583705326 630 -0,0005870930 203 0,0466303305 417 -0,0514804176 631 -0,0005677802 204 0,0434768782 418 -0,0447806821 632 -0,0005466565 205 0,0401458278 419 -0,0382776572 633 -0,0005226564 206 0,0366418116 420 -0,0319531274 634 -0,0005040714 207 0,0329583930 421 -0,0258227288 635 -0,0004893791 208 0,0290824006 422 -0,0198834129 636 -0,0004875227 209 0,0250307561 423 -0,0141288827 637 -0,0004947518 210 0,0207997072 424 -0,0085711749 638 -0,0005617692 211 0,0163701258 425 -0,0032086896 639 -0,0005525280 212 0,0117623832 426 0,0019765601 213 0,0069636862 427 0,0069636862

[0140] O filtro de protótipo, p0(n), também pode ser derivado da Tabela 4 em uma ou mais operações matemáticas como arredondamento, subamostragem, interpolação e decimação.

[0141] Embora a sintonização de informações de controle relacionadas à SBR não dependa tipicamente dos detalhes da transposição (conforme discutido anteriormente), em algumas modalidades, certos elementos dos dados de controle podem ser transmitidos simultaneamente no recipiente de extensão de eSBR (bs_extension_id ==EXTENSION_ID_ESBR) para aprimorar a qualidade do sinal regerado. Alguns dos elementos transmitidos simultaneamente podem incluir os dados de piso de ruído (por exemplo, fatores de escala de piso de ruído e um parâmetro que indica a direção, na direção de frequência ou tempo, de codificação delta para cada piso de ruído), os dados de filtração inversa (por exemplo, um parâmetro que indica o modo de filtração inversa selecionado a partir de nenhuma filtração inversa, um baixo nível de filtração inversa, um nível intermediário de filtração inversa, e um nível intenso de filtração inversa filtrar), e o dados harmônicos ausentes (por exemplo, um parâmetro que indica se uma senoide deve ser adicionada a uma banda de frequência específica da banda alta regerada). Todos esses elementos se baseiam em uma emulação sintetizada do transpositor do decodificador realizada no codificador e, portanto, se sintonizada apropriadamente com o transpositor selecionado pode aumentar a qualidade do sinal regerado.

[0142] Especificamente, em algumas modalidades, os dados harmônicos ausentes e de controle de filtração inversa são transmitidos no recipiente de extensão de eSBR (juntamente com os outros parâmetros de fluxo de bits da Tabela 3) e sintonizados com o transpositor harmônico de eSBR. A taxa de bits adicional exigida para transmitir essas duas classes de metadados para o transpositor harmônico de eSBR é relativamente baixa. Portanto, o envio de dados harmônicos ausentes e/ou de controle de filtração inversa no recipiente de extensão de eSBR aumentará a qualidade de áudio produzida pelo transpositor enquanto apenas afeta minimamente a taxa de bits. Para garantir retrocompatibilidade com decodificadores de legado, os parâmetros sintonizados com a operação de translação espectral de SBR também podem ser enviados no fluxo de bits como parte dos dados de SBR de controle usando sinalização implícita ou explícita.

[0143] A complexidade de um decodificador com os melhoramentos de SBR conforme descrito neste pedido precisa ser limitada para aumentar significativamente a complexidade computacional geral da implementação. De preferência, as PCU (MOP) para o tipo de objeto de SBR estão em ou abaixo de 4,5 ao usar a ferramenta de eSBR, e as RCU para o tipo de objeto de SBR estão em ou abaixo de 3 ao usar a ferramenta de eSBR. A potência de processamento aproximada é determinada em Unidades de Complexidade de Processador (PCU) especificadas em números inteiros de MOPS. O uso de RAM aproximado é determinado em Unidades de Complexidade de RAM (RCU) especificadas em números inteiros de kWords (1000 palavras). Os números de RCU não incluem armazenamentos temporários de trabalho que podem ser compartilhados entre diferentes objetos e/ou canais. Ademais, as PCU são proporcionais à frequência de amostragem. Os valores de PCU são determinados em MOPS (Milhões de Operações por Segundo) por canal, e valores de RCU em kWords por canal.

[0144] Para dados compactados, como áudio codificado por HE-AAC que pode ser decodificado por diferentes configurações de decodificador, é necessária atenção especial. Nesse caso, a decodificação pode ser feita de um modo retrocompatível (apenas por AAC) assim como de um modo melhorado (por AAC+SBR). Se os dados compactados permitirem a decodificação tanto retrocompatível quanto melhorada, e se o decodificador estiver operando de modo melhorado de modo que o mesmo esteja usando um pós-processador que insere algum atraso adicional (por exemplo, o pós-processador de SBR em HE-AAC), então, precisa garantir que esse atraso de tempo adicional incorrido em relação ao modo retrocompatível, conforme descrito por um valor correspondente de n, seja considerado ao apresentar a unidade de composição. A fim de garantir que os carimbos de data e hora de composição sejam manuseados corretamente (de modo que o áudio permaneça sincronizado com outros meios), o atraso adicional introduzido pelo pós-processamento determinado em diversas amostras (por canal de áudio) na taxa de amostra de saída é 3010 quando o modo de operação de decodificador inclui os melhoramentos de SBR (incluindo eSBR) conforme descrito neste pedido.

Portanto, para uma unidade de composição de áudio, o tempo de composição se aplica à amostra de áudio 3011-ésima dentro da unidade de composição quando o modo de operação de decodificador inclui os melhoramentos de SBR conforme descrito neste pedido.

[0145] A fim de aprimorar a qualidade subjetiva para conteúdo de áudio com estrutura de frequência harmônica e características tonais fortes, em particular, em baixas taxas de bits, os melhoramentos de SBR devem ser ativados. Os valores do elemento de fluxo de bits correspondente (isto é, esbr_data()), que controla essas ferramentas podem ser determinados no codificador ao aplicar um mecanismo de classificação dependente de sinal.

[0146] Em geral, o uso do método de correção harmônica (sbrPatchingMode == 0) é preferencial para codificar sinais musicais em taxas de bits muito baixas, em que o codec de núcleo pode ser limitado consideravelmente em largura de banda de áudio. Isso é especialmente verdadeiro se esses sinais incluírem uma estrutura harmônica acentuada. Em contrapartida, o uso do método de correção de SBR regular é preferencial para sinais de voz e misturados, uma vez que o mesmo fornece uma melhor conservação da estrutura temporal na voz.

[0147] A fim de aprimorar o desempenho do transpositor de SBR MPEG-4, pode ser ativada uma etapa de pré-processamento (bs_sbr_preprocessing == 1) que evita a introdução de descontinuidades espectrais do sinal que vai para o ajustador de envelope subsequente. A operação da ferramenta é benéfica para tipos de sinal em que o envelope espectral bruto do sinal de banda baixa que é usado para reconstrução de alta frequência exibe grandes variações de nível.

[0148] A fim de aprimorar a resposta transiente da correção de SBR harmônica (sbrPatchingMode == 0), a sobreamostragem de domínio de frequência adaptativa de sinal pode ser aplicada (sbrOversamplingFlag == 1). Uma vez que a sobreamostragem de domínio de frequência adaptativa de sinal aumenta a complexidade computacional do transpositor, mas apenas traz benefícios para quadros que contêm elementos transientes, o uso dessa ferramenta é controlado pelo elemento de fluxo de bits, que é transmitido uma vez por quadro e por canal de SBR independente.

[0149] As recomendações de configurações de taxa de bits típicas para HE- AACv2 com melhoramentos de SBR (ou seja, habilitando o transpositor harmônico da ferramenta de eSBR) correspondem a 20 a 32 kbps para conteúdo de áudio estéreo em taxas de amostragem de 44,1 kHz ou 48 kHz. O ganho de qualidade subjetivo relativo dos melhoramentos de SBR aumenta em direção ao limite de taxa de bits inferior e um codificador apropriadamente configurado permite estender essa faixa em taxas de bits ainda inferiores. As taxas de bits fornecidas acima são apenas recomendações e podem ser adaptadas para requisitos de serviço específicos.

[0150] Um decodificador que opera no modo de SBR melhorada proposto precisa tipicamente ter capacidade de comutar entre correção de SBR de legado e melhorada. Portanto, pode ser introduzido o atraso que pode ser tão longo quanto a duração de um quadro de áudio principal, dependendo da configuração de decodificador. Tipicamente, o atraso tanto para correção de SBR de legado quanto melhorada será similar.

[0151] Deve ser entendido que, dentro do escopo das reivindicações anexas, a invenção pode ser praticada de modo diferente do modo descrito especificamente no presente documento. Quaisquer números de referência contidos nas reivindicações a seguir têm apenas propósito de ilustração e não devem ser usados para interpretar ou limitar as reivindicações de qualquer maneira.

[0152] Vários aspectos da presente invenção podem ser observados a partir das modalidades exemplificativas enumeradas a seguir (EEEs):

[0153] EEE 1. Um método para realizar reconstrução de alta frequência de um sinal de áudio, o método compreendendo:

[0154] receber um fluxo de bits de áudio codificado, o fluxo de bits de áudio codificado incluindo dados de áudio que representam uma porção de banda baixa do sinal de áudio e metadados de reconstrução de alta frequência;

[0155] decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado;

[0156] extrair do fluxo de bits de áudio codificado os metadados de reconstrução de alta frequência, os metadados de reconstrução de alta frequência incluindo parâmetros operacionais para um processo de reconstrução de alta frequência, os parâmetros operacionais incluindo um parâmetro de modo de correção localizado em um recipiente de extensão retrocompatível do fluxo de bits de áudio codificado, em que um primeiro valor do parâmetro de modo de correção indica translação espectral e um segundo valor do parâmetro de modo de correção indica transposição harmônica por propagação de frequência de vocodificador de fase;

[0157] filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado;

[0158] regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência, em que a regeração inclui translação espectral se o parâmetro de modo de correção for o primeiro valor e a regeração inclui transposição harmônica por propagação de frequência de vocodificador de fase se o parâmetro de modo de correção for o segundo valor; e

[0159] combinar o sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga,

[0160] em que a filtração, a regeração e a combinação são realizadas como uma operação de pós-processamento com um atraso de 3010 amostras por canal de áudio ou menos, e em que a translação espectral compreende manter uma razão entre componentes do tipo tonal e ruído por filtração inversa adaptativa.

[0161] EEE 2. O método, de acordo com a EEE 1, em que o fluxo de bits de áudio codificado inclui adicionalmente um elemento de preenchimento com um identificador indicando um início do elemento de preenchimento e dados de preenchimento após o identificador, em que os dados de preenchimento incluem o recipiente de extensão retrocompatível.

[0162] EEE 3. O método, de acordo com a EEE 2, em que o identificador é um primeiro bit mais significativo transmitido de número inteiro não assinado de três bits e que tem um valor de 0x6.

[0163] EEE 4. O método, de acordo com a EEE 2 ou EEE 3, em que os dados de preenchimento incluem uma carga útil de extensão, a carga útil de extensão inclui dados de extensão de replicação de banda espectral e a carga útil de extensão é identificada com um primeiro bit mais significativo transmitido de número inteiro não assinado de quatro bits e que tem um valor de ‘1101’ ou ‘1110’, e, opcionalmente,

[0164] em que os dados de extensão de replicação de banda espectral incluem:

[0165] um cabeçalho de replicação de banda espectral opcional,

[0166] dados de replicação de banda espectral após o cabeçalho, e

[0167] um elemento de extensão de replicação de banda espectral após os dados de replicação de banda espectral, e em que o sinalizador é incluído no elemento de extensão de replicação de banda espectral.

[0168] EEE 5. O método, de acordo com qualquer uma das EEEs 1 a 4, em que os metadados de reconstrução de alta frequência incluem fatores de escala de envelope, fatores de escala de piso de ruído, informações de grade de tempo/frequência ou um parâmetro que indica uma frequência de cruzamento.

[0169] EEE 6. O método, de acordo com qualquer uma das EEEs 1 a 5, em que o recipiente de extensão retrocompatível inclui adicionalmente um sinalizador indicando se pré-processamento adicional é usado para evitar descontinuidades em um formato de um envelope espectral da porção de banda alta quando o parâmetro de modo de correção se iguala ao primeiro valor, em que um primeiro valor do sinalizador habilita o pré-processamento adicional e um segundo valor do sinalizador desabilita o pré-processamento adicional.

[0170] EEE 7. O método, de acordo com a EEE 6, em que o pré- processamento adicional inclui calcular uma curva de pré-ganho usando um coeficiente de filtro de previsão linear.

[0171] EEE 8. O método, de acordo com qualquer uma das EEEs 1 a 5, em que o recipiente de extensão retrocompatível inclui adicionalmente um sinalizador indicando se a sobreamostragem de domínio de frequência adaptativa de sinal deve ser aplicada quando o parâmetro de modo de correção se iguala ao segundo valor, em que um primeiro valor do sinalizador habilita a sobreamostragem de domínio de frequência adaptativa de sinal e um segundo valor do sinalizador desabilita a sobreamostragem de domínio de frequência adaptativa de sinal.

[0172] EEE 9. O método, de acordo com a EEE 8, em que a sobreamostragem de domínio de frequência adaptativa de sinal é aplicada apenas a quadros contendo um elemento transiente.

[0173] EEE 10. O método, de acordo com qualquer uma das EEEs anteriores, em que a transposição harmônica por propagação de frequência de vocodificador de fase é realizada com uma complexidade estimada em ou abaixo de 4,5 milhões de operações por segundo e 3 kWords de memória.

[0174] EEE 11. Um meio legível por computador não transitório contendo instruções que, quando executadas por um processador, realizam o método, conforme definido em qualquer uma das EEEs 1 a 10.

[0175] EEE 12. Um produto de programa de computador que tem instruções que, quando executadas por um dispositivo ou sistema computacional, fazem com que o dito dispositivo ou sistema computacional execute o método, conforme definido em qualquer uma das EEEs 1 a 10.

[0176] EEE 13. Uma unidade de processamento de áudio para realizar reconstrução de alta frequência de um sinal de áudio, a unidade de processamento de áudio compreendendo:

[0177] uma interface de entrada para receber um fluxo de bits de áudio codificado, o fluxo de bits de áudio codificado incluindo dados de áudio que representam uma porção de banda baixa do sinal de áudio e metadados de reconstrução de alta frequência;

[0178] um decodificador de áudio de núcleo para decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado;

[0179] um desformatador para extrair do fluxo de bits de áudio codificado os metadados de reconstrução de alta frequência, os metadados de reconstrução de alta frequência incluindo parâmetros operacionais para um processo de reconstrução de alta frequência, os parâmetros operacionais incluindo um parâmetro de modo de correção localizado em um recipiente de extensão retrocompatível do fluxo de bits de áudio codificado, em que um primeiro valor do parâmetro de modo de correção indica translação espectral e um segundo valor do parâmetro de modo de correção indica transposição harmônica por propagação de frequência de vocodificador de fase;

[0180] um banco de filtro de análise para filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado;

[0181] um regerador de alta frequência para reconstruir uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência, em que a reconstrução inclui uma translação espectral se o parâmetro de modo de correção for o primeiro valor e a reconstrução inclui transposição harmônica por propagação de frequência de vocodificador de fase se o parâmetro de modo de correção for o segundo valor; e

[0182] um banco de filtro de síntese para combinar o sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga,

[0183] em que o banco de filtro de análise, o regerador de alta frequência e o banco de filtro de síntese são realizados em um pós-processador com um atraso de 3010 amostras por canal de áudio ou menos, e em que a translação espectral compreende manter uma razão entre componentes do tipo tonal e ruído por filtração inversa adaptativa.

[0184] EEE 14. A unidade de processamento de áudio, de acordo com a EEE 13, em que a transposição harmônica por propagação de frequência de vocodificador de fase é realizada com uma complexidade estimada em ou abaixo de 4,5 milhões de operações por segundo e 3 kWords de memória.

Claims

REIVINDICAÇÕES

1. Método para realizar reconstrução de alta frequência de um sinal de áudio, sendo o método CARACTERIZADO pelo fato de que compreende: receber um fluxo de bits de áudio codificado, o fluxo de bits de áudio codificado incluindo dados de áudio que representam uma porção de banda baixa do sinal de áudio e metadados de reconstrução de alta frequência; decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado; extrair do fluxo de bits de áudio codificado os metadados de reconstrução de alta frequência, os metadados de reconstrução de alta frequência incluindo parâmetros operacionais para um processo de reconstrução de alta frequência, os parâmetros operacionais incluindo um parâmetro de modo de correção localizado em um recipiente de extensão retrocompatível do fluxo de bits de áudio codificado, em que um primeiro valor do parâmetro de modo de correção indica translação espectral e um segundo valor do parâmetro de modo de correção indica transposição harmônica por propagação de frequência de vocodificador de fase; filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado; regerar uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência, em que a regeração inclui translação espectral se o parâmetro de modo de correção for o primeiro valor e a regeração inclui transposição harmônica por propagação de frequência de vocodificador de fase se o parâmetro de modo de correção for o segundo valor; e combinar o sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga, em que a filtração, a regeração e a combinação são realizadas como uma operação pós-processamento com um atraso de 3010 amostras por canal de áudio e em que a translação espectral compreende manter uma razão entre componentes do tipo tonal e ruído por filtração inversa adaptativa.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o fluxo de bits de áudio codificado inclui adicionalmente um elemento de preenchimento com um identificador indicando um início do elemento de preenchimento e dados de preenchimento após o identificador, em que os dados de preenchimento incluem o recipiente de extensão retrocompatível.

3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que o identificador é um primeiro bit mais significativo transmitido de número inteiro não assinado de três bits e que tem um valor de 0x6.

4. Método, de acordo com a reivindicação 2 ou 3, CARACTERIZADO pelo fato de que os dados de preenchimento incluem uma carga útil de extensão, a carga útil de extensão inclui dados de extensão de replicação de banda espectral, e a carga útil de extensão é identificada com um primeiro bit mais significativo transmitido de número inteiro não assinado de quatro bits e que tem um valor de ‘1101’ ou ‘1110’ e, opcionalmente, em que os dados de extensão de replicação de banda espectral incluem: um cabeçalho de replicação de banda espectral opcional, dados de replicação de banda espectral após o cabeçalho, e um elemento de extensão de replicação de banda espectral após os dados de replicação de banda espectral, e em que o sinalizador é incluído no elemento de extensão de replicação de banda espectral.

5. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os metadados de reconstrução de alta frequência incluem fatores de escala de envelope, fatores de escala de piso de ruído, informações de grade de tempo/frequência ou um parâmetro que indica uma frequência de cruzamento.

6. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o recipiente de extensão retrocompatível inclui adicionalmente um sinalizador que indica se pré-processamento adicional é usado para evitar descontinuidades em um formato de um envelope espectral da porção de banda alta quando o parâmetro de modo de correção é igual ao primeiro valor, em que um primeiro valor do sinalizador habilita o pré-processamento adicional e um segundo valor do sinalizador desabilita o pré-processamento adicional.

7. Método, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que o pré-processamento adicional inclui calcular uma curva de pré-ganho usando um coeficiente de filtro de previsão linear.

8. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o recipiente de extensão retrocompatível inclui adicionalmente um sinalizador que indica se a sobreamostragem de domínio de frequência adaptativa de sinal deve ser aplicada quando o parâmetro de modo de correção é igual ao segundo valor, em que um primeiro valor do sinalizador habilita a sobreamostragem de domínio de frequência adaptativa de sinal e um segundo valor do sinalizador desabilita a sobreamostragem de domínio de frequência adaptativa de sinal.

9. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que a sobreamostragem de domínio de frequência adaptativa de sinal é aplicada apenas para quadros contendo um transiente.

10. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a transposição harmônica por propagação de frequência de vocodificador de fase é realizada com uma complexidade estimada de ou abaixo de 4,5 milhões de operações por segundo e 3 kWords de memória.

11. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a filtração do sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado compreende filtrar o sinal de áudio de banda baixa decodificado em uma pluralidade de sub-bandas usando um banco de filtro de análise de QMF complexo; e a combinação do sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga compreende usar um banco de filtro de síntese de QMF complexo.

12. Método, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que os filtros de análise hk(n) do banco de filtro de análise de QMF complexo e os filtros de síntese fk(n) do banco de filtro de síntese de QMF complexo são definidos por: 𝜋 1 𝑁 ℎ 𝑛 𝑓 𝑛 𝑝0 𝑛 exp 𝑖 𝑘 𝑛 ,0 𝑛 𝑁; 0 𝑘 𝑀 𝑀 2 2 em que p0(n) é um filtro de protótipo de valor real, M denota um número de canais e N é uma ordem de filtro de protótipo.

13. Meio legível por computador não transitório CARACTERIZADO pelo fato de que contém instruções, que quando executadas por um processador, realizam o método, conforme definido na reivindicação 1.

14. Produto de programa de computador armazenado em um meio legível por computador não transitório CARACTERIZADO pelo fato de que tem instruções que, quando executadas por um dispositivo ou sistema computacional, fazem com que o dito dispositivo ou sistema computacional execute o método, conforme definido na reivindicação 1.

15. Unidade de processamento de áudio para realizar reconstrução de alta frequência de um sinal de áudio, sendo a unidade de processamento de áudio CARACTERIZADA pelo fato de que compreende: uma interface de entrada para receber um fluxo de bits de áudio codificado, o fluxo de bits de áudio codificado incluindo dados de áudio que representam uma porção de banda baixa do sinal de áudio e metadados de reconstrução de alta frequência;

um decodificador de áudio de núcleo para decodificar os dados de áudio para gerar um sinal de áudio de banda baixa decodificado;

um desformatador para extrair do fluxo de bits de áudio codificado os metadados de reconstrução de alta frequência, os metadados de reconstrução de alta frequência incluindo parâmetros operacionais para um processo de reconstrução de alta frequência, os parâmetros operacionais incluindo um parâmetro de modo de correção localizado em um recipiente de extensão retrocompatível do fluxo de bits de áudio codificado, em que um primeiro valor do parâmetro de modo de correção indica translação espectral e um segundo valor do parâmetro de modo de correção indica transposição harmônica por propagação de frequência de vocodificador de fase;

um banco de filtro de análise para filtrar o sinal de áudio de banda baixa decodificado para gerar um sinal de áudio de banda baixa filtrado;

um regerador de alta frequência para reconstruir uma porção de banda alta do sinal de áudio usando o sinal de áudio de banda baixa filtrado e os metadados de reconstrução de alta frequência, em que a reconstrução inclui uma translação espectral se o parâmetro de modo de correção for o primeiro valor e a reconstrução inclui transposição harmônica por propagação de frequência de vocodificador de fase se o parâmetro de modo de correção for o segundo valor; e um banco de filtro de síntese para combinar o sinal de áudio de banda baixa filtrado com a porção de banda alta regerada para formar um sinal de áudio de banda larga,

em que o banco de filtro de análise, o regerador de alta frequência e o banco de filtro de síntese são realizados em um pós-processador com um atraso de 3010 amostras por canal de áudio e em que a translação espectral compreende manter uma razão entre componentes do tipo tonal e ruído por filtração inversa adaptativa.

16. Unidade de processamento de áudio, de acordo com a reivindicação 15,

CARACTERIZADA pelo fato de que a transposição harmônica por propagação de frequência de vocodificador de fase é realizada com uma complexidade estimada de ou abaixo de 4,5 milhões de operações por segundo e 3 kWords de memória.