BR112013022988B1 - Método para processar um sinal de áudio digital, aparelho para processar um sinal de áudio digital e meio de armazenamento - Google Patents

Método para processar um sinal de áudio digital, aparelho para processar um sinal de áudio digital e meio de armazenamento Download PDF

Info

Publication number
BR112013022988B1
BR112013022988B1 BR112013022988-8A BR112013022988A BR112013022988B1 BR 112013022988 B1 BR112013022988 B1 BR 112013022988B1 BR 112013022988 A BR112013022988 A BR 112013022988A BR 112013022988 B1 BR112013022988 B1 BR 112013022988B1
Authority
BR
Brazil
Prior art keywords
transform
audio signal
real
coefficients
valued
Prior art date
Application number
BR112013022988-8A
Other languages
English (en)
Other versions
BR112013022988A2 (pt
Inventor
Matthew C. Fellers
Original Assignee
Dolby Laboratories Licensing Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation filed Critical Dolby Laboratories Licensing Corporation
Priority claimed from PCT/US2012/029603 external-priority patent/WO2012134851A1/en
Publication of BR112013022988A2 publication Critical patent/BR112013022988A2/pt
Publication of BR112013022988B1 publication Critical patent/BR112013022988B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

TRANSFORMADA DE COMPLEXIDADE REDUZIDA PARA UM CANAL DE EFEITOS DE BAIXA FREQUÊNCIA. Os recursos computacionais que são necessários para aplicar um banco de filtros baseado em transformada para sinais de áudio com largura de banda limitada são reduzidos pela execução de um processo integrado de combinar dados de entrada com valores reais com dados com valores complexos e pela aplicação de uma transformada curta para os dados com valores complexos, aplicando um banco de transformadas muito curtas para a saída do processo integrado, e derivando uma sequência de dados de saída com valores reais a partir das saídas do banco de transformadas muito curtas.

Description

REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS
[0001] Este pedido reivindica prioridade para o Pedido de Patente Provisório dos Estados Unidos No 61/468.373, depositado em 28 de março de 2011, incorporado neste documento por referência em sua totalidade.
CAMPO TÉCNICO
[0002] A presente invenção geralmente está relacionada com processamento de sinal digital e é mais particularmente direcionada para métodos e aparelhos que podem ser utilizados para aplicar bancos de filtros para canais de áudio com largura de banda limitada tal como os assim chamados canais de efeitos de baixa frequência (LFE) utilizando menos recursos computacionais.
FUNDAMENTO DA TÉCNICA
[0003] Vários padrões internacionais, regionais e nacionais têm sido desenvolvidos para definir métodos e sistemas que podem ser utilizados para implementar sistemas de codificação de áudio com múltiplos canais. Três exemplos de tais padrões incluem ISSO/IEC 13818-7, Codificação de Áudio Avançado (AAC), também conhecido como "MPEG-2 AAC" e ISO/IEC 14496-3, sub-parte 4, também conhecido como "áudio MPEG-4", publicados pela Organização Internacional de Padrões (ISSO), e um padrão publicado pelos Comitê de Sistemas Avançados de Televisão dos Estados Unidos (ATSC), Inc., no Documento A/52B, denominado "Digital Audio Compression Standard (AC-3, E-AC-3)", Revisão B, publicado em 14 de junho de 2005, também conhecido como "Dolby Digital" ou "AC-3".
[0004] Os sistemas de áudio que estão de acordo com padrões tais como estes mencionados acima geralmente incluem transmissores que aplicam um banco de filtros de análise para cada um dos vários canais de sinais de áudio de entrada, processam a saída dos bancos de filtros de análise em sinais codificados e transmitem ou gravam os sinais codificados, e receptores que recebem os sinais codificados, decodificam os mesmos e aplicam bancos de filtros de síntese para os sinais decodificados para gerar canais de sinais de áudio de saída que são uma réplica dos sinais de áudio de entrada originais. Vários dos padrões especificam implementar os bancos de filtros de análise e de síntese por uma Transformada Discreta Modificada (MDCT) e por uma Transformada Discreta Modificada Inversa (IMDCT) descritas em "Subband / Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation", de Princen, Johnson e Bradley, ICASSP 1987 Conf. Proc., Maio de 1987, páginas 2161 até 2164.
[0005] Os bancos de filtros que são implementados por estas transformadas particulares possuem várias propriedades atrativas, mas processamento ou recursos computacionais significativos são requeridos para executar os cálculos necessários. São conhecidas técnicas que podem ser utilizadas para executar as transformadas mais eficientemente, desse modo reduzindo a quantidade de recursos computacionais que são necessários. Uma característica que é comum para estas técnicas é que sua complexidade computacional varia com o assim chamado comprimento da transformada. São conhecidas técnicas que podem realizar reduções adicionais na complexidade computacional por utilizarem comprimentos mais curtos de transformadas para processar canais de áudio com larguras de bandas mais estreitas.
[0006] Padrões como estes mencionados acima definem sequências de dados digitais ou de fluxos de bits digitais que transportam dados representando representações codificadas de um ou mais canais de áudio. Uma configuração de canais algumas vezes referida como "canais 5.1" inclui cinco canais de largura de banda plena denotados esquerdo (L), direito (R), central (C), surround esquerdo (LS) e surround direito (RS), e um canal de largura de banda limitada ou canal de efeitos de baixa frequência (LFE). Os canais de largura de banda plena tipicamente possuem uma largura de banda de ao redor de 20 kHz e o canal LFE de largura de banda limitada tipicamente possui uma largura de banda ao redor de 100 até 200 Hz. Devido à largura de banda do canal LFE ser mais estreita, técnicas conhecidas podem ser utilizadas para executar uma transformada de bancada de filtros mais eficientemente para o canal LFE do que pode ser executado para um dos canais de largura de banda plena.
[0007] Contudo, existe uma necessidade de desenvolver técnicas que adicionalmente melhorem a eficiência dos bancos de filtros da transformada que são aplicados para canais com largura de banda limitada como o canal LFE.
REVELAÇÃO DA INVENÇÃO
[0008] Um objetivo da presente invenção é proporcionar meios que possam ser utilizados para executar transformadas que implementam bancos de filtros para sinais de canal de largura de banda limitada mais eficientemente do que é possível utilizando técnicas conhecidas.
[0009] De acordo com um aspecto da presente invenção, um sinal de largura de banda limitada é processado por receber um bloco de K coeficientes de transformada com valor real dos quais somente um número L de coeficientes representa componentes espectrais de um sinal de áudio com largura de banda limitada, onde
Figure img0001
uma potência de dois; aplicar uma primeira transformada de comprimento R para um bloco de coeficientes de valor complexo derivados a partir de M coeficientes de transformada de valor complexo que incluem os L coeficientes de transformada de valor real representando componentes espectrais do sinal de áudio com largura de banda limitada, onde e e P é uma potência de dois; aplicar um banco de Q segundas transformadas de comprimento P para as saídas da primeira transformada; e derivar uma sequência de N amostras de sinal com valor real a partir das saídas do banco de segundas transformadas, onde N = 2.K e as amostras de sinal com valor real representam componentes temporais do sinal de áudio com largura de banda limitada.
[00010] Os vários aspectos da presente invenção e suas concretizações preferidas podem ser mais bem entendidos por referência à discussão seguinte e aos desenhos acompanhantes nos quais números de referência se referem a elementos iguais nas várias figuras. O conteúdo da discussão seguinte e os desenhos são expostos somente como exemplos e não devem ser entendidos como representando limitações em relação ao escopo da presente invenção. BREVE DESCRIÇÃO DOS DESENHOS
[00011] A Fig. 1 é um diagrama de blocos esquemático de um sistema de codificação de áudio no qual vários aspectos da presente invenção podem ser realizados.
[00012] A Fig. 2 é um diagrama de blocos esquemático de um processo que pode ser utilizado para executar uma transformada de síntese no sistema de codificação apresentado na Fig. 1.
[00013] As Figs. 3 e 4 são diagramas de blocos esquemáticos que ilustram alguns aspectos que podem ser utilizados para executar uma parte do processo apresentado na Fig. 2.
[00014] A Fig. 5 é um diagrama de blocos esquemático de um dispositivo que pode ser utilizado para implementar vários aspectos da presente invenção.
MODOS PARA REALIZAR A INVENÇÃO
[00015] A Fig. 1 é uma ilustração esquemática de um sistema de codificação de áudio com dois canais que inclui um transmissor 100 e um receptor 200. O transmissor 100 recebe a partir dos caminhos 11, 12 dois canais de sinais de áudio de entrada. Os bancos de filtros de análise 111, 112 são aplicados para os canais de áudio de entrada para obter um primeiro conjunto de sinais de sub-banda de frequência representando o conteúdo espectral dos sinais de áudio de entrada. Estes bancos de filtros de análise são implementados pelas transformadas do domínio de tempo para domínio de frequência. O codificador 120 aplica um processo de codificação para o primeiro conjunto de sinais de sub-banda de frequência para gerar a informação codificada, a qual é passada ao longo do caminho 20. O receptor 200 recebe a informação codificada a partir do caminho 20. O decodificador 220 aplica um processo de decodificação para a informação codificada para obter um segundo conjunto de sinais de sub-banda de frequência. Os bancos de filtros de síntese 231, 232 são aplicados para o segundo conjunto de sinais de sub-banda de frequência para gerar dois ou mais canais de sinais de áudio de saída, os quais são passados ao longo dos caminhos 31, 32. Estes bancos de filtros de síntese são implementados pelas transformadas de domínio de frequência para domínio de tempo. O caminho 20 pode ser um meio de difusão, um meio de comunicação ponto a ponto, um meio de gravação ou qualquer outro meio que possa transportar ou gravar a informação codificada.
[00016] O codificador 120 e o decodificador 220 não são essenciais para prática da presente invenção. Se eles forem utilizados, eles podem executar processo de codificação sem perdas ou com perdas. A presente invenção não está limitada a qualquer processo particular de codificação e de decodificação.
[00017] Somente dois canais de sinais de áudio de entrada e de saída são apresentados nos desenhos para clareza de ilustração. Em várias implementações, existem mais do que dois canais de sinais de áudio de entrada e mais do que dois canais de sinais de áudio de saída. Pelo menos um dos sinais de áudio de saída possui uma largura de banda que é muito mais estreita do que a largura de banda de um ou mais dos outros sinais de áudio de saída.
[00018] A presente invenção é direcionada para reduzir os recursos computacionais necessários para executar a transformada que implementa o banco de filtros de síntese 231 ou 232 no receptor 200 utilizado para gerar sinais de áudio de saída com largura de banda mais estreita. A presente invenção pode implementar um banco de filtros de síntese mais eficiente em um receptor 200 que mantém compatibilidade com um banco de filtros de análise nos transmissores existentes 100.
[00019] A presente invenção também pode ser utilizada para reduzir os recursos computacionais necessários para executar a transformada que implementa o banco de filtros de análise 111 ou 112 no transmissor 100 aplicado para sinais de áudio de entrada com largura de banda mais estreita. Esta implementação pode manter compatibilidade com um banco de filtros de síntese nos receptores existentes 200.
B. Técnicas de Implementação
[00020] Os bancos de filtros de síntese podem ser implementados por uma ampla variedade de transformadas de domínio de frequência para domínio de tempo incluindo várias variações da Transformada de Cosseno Discreta Inversa (IDCT) e da Transformada de Cosseno Discreta Modificada Inversa (IMDCT) mencionadas acima. Os algoritmos que definem estas transformadas de uma maneira direta são referidos neste documento como "transformadas diretas".
[00021] Uma técnica referida neste documento como uma "técnica de dobra" pode ser utilizada para executar estas transformadas diretas mais eficientemente. A técnica de dobra compreende três estágios como ilustrando na Fig. 2. O segundo estágio 402 executa uma transformada que possui um comprimento mais curto do que a transformada direta que esta técnica de dobra implementa. A transformada que é executada no segundo estágio 402 é referida como "transformada dobrada" de modo que a descrição seguinte pode mais facilmente distinguir a mesma da transformada direta.
[00022] O estágio de pré-processador 401 combina os coeficientes da transformadas em um bloco de K coeficientes da transformada do domínio de frequência com valores reais em um bloco de 1.K coeficientes da transformada com valores complexos. O estágio da transformada 402 aplica uma transformada dobrada do domínio de frequência para o domínio de tempo de comprimento 1.K para o bloco de coeficientes da transformada com valores complexos para gerar 1. K amostras no domínio do tempo com valores complexos. O estágio pós- processador 403 deriva uma sequência de K amostras no domínio do tempo com valores reais a partir das 1.K amostras de sinal no domínio do tempo com valores complexos. Exceto para vários erros que podem ocorrer a partir das operações aritméticas com precisão finita, as K amostras de sinal no domínio do tempo que são obtidas por esta técnica são idênticas às K amostras de sinal no domínio do tempo que poderiam ser obtidas pela aplicação da transformada direta de comprimento K para o bloco de K coeficientes da transformada no domínio de frequência com valores reais. Esta técnica melhora a eficiência devido aos recursos computacionais adicionais necessários para executar a transformada direta como oposto à transformada dobrada no estágio 402 serem maiores do que os recursos computacionais necessários para implementar o processo executado no estágio de pré-processador 401 e no estágio de pós-processador 403.
[00023] Se um bloco de coeficientes da transformada representa um sinal com largura de banda estreita no qual um número significativo de coeficientes da transformada são sempre zero, uma técnica adicional de decomposição da transformada pode ser utilizada para aumentar a eficiência do processamento da transformada dobrada que é executada no estágio 402.
1. Transformadas Diretas
[00024] A IMDCT direta é apresentada na expressão 2. Sua Transformada de Cosseno Discreta Modificada (MDCT) complementar é apresentada na expressão 1.
Figure img0002
onde X(k) = coeficiente da transformada no domínio de frequência com valor real k; K = número total de coeficientes da transformada no domínio de frequência com valores reais; x(n) = amostra de sinal no domínio do tempo com valor real n; e N = comprimento da janela no domínio do tempo de amostras, onde N = 2K.
[00025] A operação apropriada destas transformadas diretas requer o uso de funções de janela de análise e funções de janela de síntese cujos comprimentos e formatos atendem a alguns requerimentos que são bem conhecidos na técnica. A função de janela de análise é aplicada para os segmentos de N amostras de sinal de áudio de entrada antes da aplicação da MDCT. A função de janela de síntese é aplicada para os segmentos de N amostras obtidas a partir de uma aplicação da IMDCT para os blocos de K coeficientes da transformada e estes segmentos colocados na janela de amostras são sobrepostos e adicionados para os segmentos colocados na janela de amostras obtidas a partir de outros blocos de coeficientes de transformada. Detalhes adicionais podem ser obtidos a partir do documento de Princen et al., citado acima. Os parágrafos seguintes omitem discussão adicional da função de janela de análise.
2. Técnica de Dobra
[00026] O processo executado no estágio pré-processador 401 pode ser expresso como:
Figure img0003
onde X'(k) = coeficiente da transformada no domínio de frequência com valor complexo k; e j = operador imaginário igual a
Figure img0004
[00027] A transformada dobrada executada no estágio da transformada 402 pode ser expressa como:
Figure img0005
x'(n) = amostra de sinal no domínio do tempo com valor complexo.
[00028] O processo executado no estágio pós-processador 403 pode ser expresso como:
Figure img0006
onde y(n) = valor de amostra intermediário utilizado nos cálculos subsequentes de colocação em janela;
Figure img0007
3. Função de Janela de Síntese para IMDCT
[00029] A operação apropriada da IMDCT inclui aplicar uma função de janela de síntese apropriadamente projetada para as amostras no domínio do tempo geradas pela transformada. As amostras de sinal no domínio do tempo que são obtidas a partir desta operação de colocação em janela podem ser expressas como:
Figure img0008
onde h(n) = ponto n na função de janela de síntese; e y'(n) = amostra intermediária colocada na janela n.
[00030] As amostras intermediárias colocadas na janela y' obtidas a partir da expressão 6 são as amostras intermediárias no domínio do tempo que poderiam ter sido obtidas pela aplicação da IMDCT direta para um bloco dos coeficientes da transformada no domínio de frequência X seguido por uma aplicação da função de janela de síntese h. Como explicado no documento de Princen citado acima, as amostras de sinal de saída no domínio do tempo são obtidas por sobrepor e adicionar intermediárias colocadas na janela derivadas a partir de um bloco "corrente" de coeficientes da transformada com um conjunto das amostras intermediárias colocadas na janela "anteriores" derivadas a partir de um bloco anterior de coeficientes da transformada. Esse processo de sobreposição - adição pode ser expresso como:
Figure img0009
onde
Figure img0010
= amostras intermediárias colocadas na janela anteriores.
4. Técnica de Decomposição de Transformada
[00031] Uma técnica de decomposição de transformada pode ser utilizada para derivar um método mais eficiente para executar a transformada dobrada para sinais com largura de banda limitada nos quais alguns dos coeficientes da transformada em um bloco de coeficientes da transformada no domínio de frequência são conhecidos como sendo iguais a zero. Esta técnica de decomposição consiste em expressar a transformada dobrada como uma transformada bidimensional equivalente e decompor esta transformada bidimensional em uma única transformada vertical unidimensional seguida por um banco de Transformadas Discretas de Fourier Inversas (IDFT) de direção única horizontal. A transformada vertical possui um comprimento igual a Q e o banco de IDFT complexa horizontal compreende Q transformadas, cada uma possuindo um comprimento igual a P, onde P e Q são números inteiros e o produto de P e Q é igual ao comprimento da transformada dobrada.
[00032] Referindo-se à discussão precedente da técnica de dobra, pode ser visto que o comprimento da transformada dobrada é J = %.N = 1/2K; portanto, P.Q = J. Os valores para P, Q e J são restritos a serem potência de dois.
[00033] A IDFT horizontal e a transformada vertical são apresentadas nas expressões 8 e 9, respectivamente:
Figure img0011
[00034] O núcleo da transformada WN/4 na transformada vertical pode ser calculado utilizando a lei de Euler:
Figure img0012
[00035] Devido aos coeficientes da transformada direta X(k) representarem um sinal de áudio em um canal LFE com uma largura de banda limitada, somente L destes coeficientes podem possuir um valor diferente de zero, onde L é muito menor do que K. Como resultado, não mais do que
Figure img0013
frequência com valores complexos X'(k) obtidos a partir do estágio pré- processador 401 podem possuir valores diferentes de zero e o comprimento da transformada vertical pode ser reduzido. Um valor M é escolhido de modo que ele seja a menor potência de dois igual ou maior do que este número
Figure img0014
derivar M coeficientes da transformada no domínio de frequência com valores complexos X'(k) que incluem os L coeficientes da transformada direta com valores reais que podem ter valores que não são zero. Estes M coeficientes da transformada no domínio de frequência com valores complexos são para ser processados pelo estágio da transformada 402. O tamanho R da transformada vertical é escolhido de modo que
Figure img0015
Os coeficientes da transformada ^s'1 1 são zero para ou, alternativamente, r> R. Por considerar estas questões, a expressão 9 pode ser escrita como:
Figure img0016
5. Pré-Processador Integrado e Transformada Vertical
[00036] A eficiência da técnica de dobra combinada com a técnica de decomposição de transformada como descrita acima pode ser adicionalmente melhorada por integrar o estágio pré-processador 401 e a transformada vertical como apresentado na expressão 9 em um processo. Isto é ilustrado esquematicamente na Fig. 3.
[00037] O comprimento R da transformada vertical pode ser escolhido para ser igual ao valor M ou ser um sub-múltiplo da potência de dois
Figure img0017
do valor M. Em uma concretização que está de acordo com o padrão AC- 3 mencionado acima, o número %.N de coeficientes da transformada no domínio de tempo com valores reais é igual a 256 e o conteúdo espectral do sinal de áudio no canal LFE pode ser representado por sete coeficientes da transformada com valores reais X(k), onde 0 < k < 7. O estágio pré- processador 401 dobra estes sete coeficientes da transformada com valores reais em quatro coeficientes da transformada com valores complexos que são subsequentemente processados pela transformada dobrada cujo comprimento é J = %.N = 128. Como resultado, dados quatro coeficientes da transformada com valores complexos nesta concretização, M é igual a quatro e R pode ser estabelecido igual a 4, 2 ou 1 por estabelecer P igual a 1, 2 ou 4, respectivamente. Devido a P.Q = J, o comprimento da transformada vertical Q é igual a 128, 64 e 32 quando P é igual a 1, 2 e 4, respectivamente. Pouco ou nenhum ganho na eficiência é alcançado quando P é igual a um.
[00038] Onde P é estabelecido igual a dois, os valores obtidos a partir da saída dos índices da transformada vertical não precisam ter o bit invertido dado o pequeno número de coeficientes calculados em cada uma das transformadas horizontais. A necessidade de inversão de bit dos índices da transformada para o algoritmo FFT de Cooley-Tukey é bem conhecida. Entretanto, a inversão de bit não é necessária quando P é estabelecido igual a dois, devido à inversão de bit para uma DFT complexa com comprimento dois produzir a mesma indexação de coeficiente que é alcançada por não executar a inversão de bit. Esta vantagem computacional é anulada por se ter um grande número de transformadas horizontais a executar. Os valores para P e Q podem ser selecionados em resposta às várias considerações de projeto tal como limitação do processamento no hardware escolhido para implementar os processos.
[00039] Uma integração do processo apresentado na expressão 3 com a transformada vertical apresentada na expressão 9 pode ser derivada por fazer as substituições para
Figure img0018
expressão 9 de acordo com as expressões 3 e 10, respectivamente. Estas substituições produzem a função núcleo seguinte para a transformada vertical:
Figure img0019
para ' '. sin = seno
[00040] O produto vetorial dos temos seno e cosseno na expressão 12 pode ser reescrito como:
Figure img0020
Figure img0021
que nós denotamos como l(s,n) para simplificar as expressões seguintes. Utilizando esta notação, a expressão 11 pode ser reescrita como:
Figure img0022
[00041] Executando a multiplicação complexa, obtemos:
Figure img0023
[00042] A complexidade computacional da função U(n,p) pode ser adicionalmente reduzida por tirar vantagem do fato de que os coeficientes no domínio de frequência X(v) podem ser não zero somente para 0 < v < 2R. Esta redução é refletida na expressão seguinte que também divide a função em funções de componente reais e imaginários UR(n,p) e U1(n,p), respectivamente, onde U(n,p) = UR(n,p) + j . U1(n,p):
Figure img0024
[00043] Esta integração do estágio pré-processador 401 com a transformada vertical é ilustrada esquematicamente na Fig. 4.
[00044] Os recursos computacionais requeridos para implementar a função U(n,p) ou suas funções componentes UR(n,p) e U1(n,p) podem ser reduzidos por pré-calcular as funções s’ n( /■: r.» > i. COSÍ ÍÍ ). si nc /■: /?.//) e cosi/(.7,7?) para todos os valores de v, u e n. Armazenar os resultados calculados em tabelas de consulta exige 4.P.R.Q entradas, onde o fato de quatro considera todas as combinações de seno, cosseno, v e u na expressão 17.
[00045] O tamanho da tabela pode ser adicionalmente reduzido em 12,5% por reconhecer que
Figure img0025
para todos n. Como resultado, o número de entradas requeridas para todos os fatores de X na expressão 17 é na ordem de 3,5.P.Q.Q,
[00046] Se o tamanho destas tabelas for maior do que desejado, seu tamanho pode ser reduzido por tirar vantagem do fato de que várias das entradas para I(v,n) na tabela possuem valores duplicados devido á periodicidade das funções básicas de seno e cosseno. Esta redução no tamanho pode ser alcançada na troca por recursos adicionais de processamento necessários para entradas de consulta na tabela devido a um esquema de indexação mais elaborado que será necessário para acessar dados na tabela.
[00047] Outras técnicas podem ser utilizadas para reduzir os requerimentos de tamanho da tabela. Por exemplo, se as tabelas de seno e de cosseno j existem em uma implementação particular, então somente I(v,n) e I(u,n) são necessários, o que reduz o número de entradas da tabela por um fator de dois.
C. Implementação
[00048] Dispositivos que incorporam vários aspectos da presente invenção podem ser implementados de vários modos incluindo software para execução por um computador ou algum outro dispositivo que inclua componentes mais especializados tais como conjunto de circuitos de processador de sinal digital (DSP) acoplado com componentes similares a estes encontrados em um computador de propósito geral. A Fig. 5 é um diagrama de blocos esquemático de um dispositivo 70 que pode ser utilizado para implementar aspectos da presente invenção. O processador 72 proporciona recursos de computação. A RAM 73 é memória de acesso aleatório (RAM) do sistema utilizada pelo processador 72 para processamento. A ROM 74 representa alguma forma de armazenamento persistente tal como memória somente para leitura (ROM) para armazenar programas necessários para operar o dispositivo 70 e possivelmente para realizar vários aspectos da presente invenção. O controle de E/S 75 representa conjunto de circuitos de interface para receber e transmitir sinais por meio dos canais de comunicação 76, 77. Na concretização apresentada, todos os componentes principais do sistema se conectam com o barramento 71, o qual pode representar mais do que um barramento físico ou lógico; entretanto, uma arquitetura de barramento não é requerida para implementar a presente invenção.
[00049] Nas concretizações implementadas por um sistema de computador de propósito geral, componentes adicionais podem ser incluídos para fazer interface com dispositivos tais como um teclado ou mouse e um vídeo, e para controlar um dispositivo de armazenamento 78 possuindo um meio de armazenamento tal como fita ou disco magnético, ou um meio ótico. O meio de armazenamento pode ser utilizado para gravar programas de instruções para operar sistemas, utilitários e aplicativos, e pode inclui programas que implementam vários aspectos da presente invenção.
[00050] As funções requeridas para praticar vários aspectos da presente invenção podem ser executadas por componentes que são implementados em uma ampla variedade de modos incluindo componentes lógicos separados, circuitos integrados, um ou mais ASICs e/ou processadores controlados por programa. A maneira na qual estes componentes são implementados não é importante para a presente invenção.
[00051] Implementações de software da presente invenção pode ser transportadas por vários meios legíveis por máquina tal como caminhos de comunicação de banda base ou modulados através do espectro incluindo desde que frequências supersônicas até ultravioleta, ou meio de armazenamento que transporta informação utilizando essencialmente qualquer tecnologia de gravação incluindo fita magnética, cartões ou disco, cartões ou disco ótico, e marcações detectáveis no meio incluindo papel.

Claims (7)

1. Método para processar um sinal de áudio digital, carac-terizado pelo fato de que o método compreende: receber um bloco de coeficientes de transformada com valores reais, em que o bloco possui uma quantidade K de coeficientes de transformada com valores reais dos quais somente um número L dos coeficientes de transformada com valores reais representam componentes espectrais de um sinal de áudio com largura de banda limitada, ^ L < M < K, e M é uma potência de dois; aplicar uma primeira transformada de comprimento R para ou os L coeficientes de transformada com valores reais representando componentes espectrais do sinal de áudio com largura de banda limitada ou um bloco de coeficientes com valores complexos derivados a partir de M coeficientes de transformada com valores complexos que incluem os L coeficientes de transformada com valores reais representando componentes espectrais do sinal de áudio com largura de banda limitada, em que
Figure img0026
uma potência de dois; aplicar um banco de Q segundas transformadas de comprimento P a saídas da primeira transformada; e derivar uma sequência de N amostras de sinal com valores reais a partir de saídas do banco de segundas transformadas, em que N = 2.K e as amostras de sinal com valores reais representam componentes temporais do sinal de áudio com largura de banda limitada.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: cada uma das segundas transformadas é equivalente a executar cálculos expressos como
Figure img0027
a sequência de amostras de sinal com valores reais é derivada a partir das saídas do banco de segundas transformadas ao executar cálculos equivalentes a
Figure img0028
onde x' representa as saídas da segunda transformada; U(n,p) = função núcleo da primeira transformada;
Figure img0029
y(n) representa as amostras de sinal intermediárias;
Figure img0030
j = operador imaginário igual a V-1; e m, n e p são índices utilizados em cálculos.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a primeira transformada é equivalente a executar cálculos expressos como
Figure img0031
onde X’ representa os coeficientes com valores complexos;
Figure img0032
r é um índice utilizado em cálculos.
4. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a primeira transformada é equivalente a executar cálculos expressos como
Figure img0033
onde X representa os coeficientes de transformada com valores reais;
Figure img0034
r é um índice utilizado em cálculos.
5. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a primeira transformada é equivalente a executar cálculos expressos como
Figure img0035
onde X representa os coeficientes de transformada com valores reais;
Figure img0036
r é um índice utilizado em cálculos.
6. Aparelho para processar um sinal de áudio digital, carac-terizado pelo fato de que o aparelho compreende meios para executar todas as etapas do método como definido em qualquer uma das reivindicações 1 a 5.
7. Meio de armazenamento caracterizado pelo fato de que tem etapas de método armazenadas no mesmo que são executáveis por um dispositivo para executar o método como definido em qualquer uma das reivindicações 1 a 5.
BR112013022988-8A 2011-03-28 2012-03-19 Método para processar um sinal de áudio digital, aparelho para processar um sinal de áudio digital e meio de armazenamento BR112013022988B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161468373P 2011-03-28 2011-03-28
US61/468,373 2011-03-28
PCT/US2012/029603 WO2012134851A1 (en) 2011-03-28 2012-03-19 Reduced complexity transform for a low-frequency-effects channel

Publications (2)

Publication Number Publication Date
BR112013022988A2 BR112013022988A2 (pt) 2016-12-06
BR112013022988B1 true BR112013022988B1 (pt) 2022-03-03

Family

ID=80778248

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112013022988-8A BR112013022988B1 (pt) 2011-03-28 2012-03-19 Método para processar um sinal de áudio digital, aparelho para processar um sinal de áudio digital e meio de armazenamento

Country Status (1)

Country Link
BR (1) BR112013022988B1 (pt)

Also Published As

Publication number Publication date
BR112013022988A2 (pt) 2016-12-06

Similar Documents

Publication Publication Date Title
KR101286329B1 (ko) 저 복잡도의 스펙트럼 대역 복제 (sbr) 필터뱅크
EP3025336B1 (en) Reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
BR112012013745B1 (pt) Método para decodificar um quadro de um sinal de áudio digital codificado, aparelho para decodificar um quadro de um sinal de áudio digital codificado e meio de armazenamento que grava o método
JP2007526691A (ja) 信号解析及び合成のための適応型混合変換
KR100776235B1 (ko) 변환 표시로의 변환 또는 변환 표시의 역변환을 위한 장치및 방법
BRPI0709235B1 (pt) Decodificador de áudio, método de decodificação de áudio, receptor para receber um sinal de n canais, sistema de transmissão para transmitir um sinal de áudio, método para receber um sinal de áudio, método para transmitir e receber um sinal de áudio, mídia de armazenamento legível por computador, e, dispositivo de reprodução de áudio
BRPI1005299B1 (pt) aparelho e método para realizar o upmmix em um sinal de áudio downmix
BR112015025080B1 (pt) Método de decodificação e decodificador para decodificar dois sinais de áudio, método de codificação e codificador para codificar dois sinais de áudio, e meio legível não transitório
BR112015007532B1 (pt) Codificador, decodificador e métodos para codificação de objeto de áudio espacial multirresolução compatível regressivo
KR20120095920A (ko) 최적의 저-스루풋 파라메트릭 코딩/디코딩
KR20100095586A (ko) 신호 처리 방법 및 장치
JP6094322B2 (ja) 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
BR112013022988B1 (pt) Método para processar um sinal de áudio digital, aparelho para processar um sinal de áudio digital e meio de armazenamento
Britanak New generalized conversion method of the MDCT to MDST coefficients in the frequency domain for arbitrary symmetric windowing function
JP5762620B2 (ja) 低周波数エフェクトチャネルのための複雑さが低減された変換
TWI470622B (zh) 用於低頻效應頻道降低複雜度之轉換
BR112015028914B1 (pt) Método e aparelho para reconstruir um bloco de tempo/frequência de objetos de áudio n, método e codificador para gerar pelo menos um parâmetro de ponderação, e meio legível por computador
AU2012238001A1 (en) Reduced complexity transform for a low-frequency-effects channel

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B09W Correction of the decision to grant [chapter 9.1.4 patent gazette]

Free format text: O PRESENTE PEDIDO TEVE UM PARECER DE DEFERIMENTO NOTIFICADO NA RPI NO 2657 DE07/12/2021, TENDO SIDO CONSTATADO QUE ESTA NOTIFICACAO FOI EFETUADA COM INCORRECOES, OU SEJA,AUSENCIA DO QUADRO 5 DO PARECER, OBSERVADA ATRAVES DA MENSAGEM FALE CONOSCO 997288,ASSIM RETIFICA-SE A REFERIDA PUBLICACAO.

B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 19/03/2012, OBSERVADAS AS CONDICOES LEGAIS.