BR122017006632A2 - Sistema e método de compansão para reduzir o ruído de quantização com o uso de extensão de espectro avançada - Google Patents

Sistema e método de compansão para reduzir o ruído de quantização com o uso de extensão de espectro avançada Download PDF

Info

Publication number
BR122017006632A2
BR122017006632A2 BR122017006632-3A BR122017006632A BR122017006632A2 BR 122017006632 A2 BR122017006632 A2 BR 122017006632A2 BR 122017006632 A BR122017006632 A BR 122017006632A BR 122017006632 A2 BR122017006632 A2 BR 122017006632A2
Authority
BR
Brazil
Prior art keywords
audio signal
gain
segments
initial audio
filter bank
Prior art date
Application number
BR122017006632-3A
Other languages
English (en)
Inventor
Per Hedelin
Arijit Biswas
Michael Schug
Vinay Melkote
Original Assignee
Dolby Laboratories Licensing Corporation
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation, Dolby International Ab filed Critical Dolby Laboratories Licensing Corporation
Publication of BR122017006632A2 publication Critical patent/BR122017006632A2/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Liquid Crystal Substances (AREA)
  • Stereophonic System (AREA)

Abstract

sistema e método de compansão para reduzir o ruído de quantização com o uso de extensão de espectro avançada. modalidades referem-se a um método e sistema de compreensão para reduzir o ruído de codificação em um codec de áudio. um processo de compressão reduz uma faixa dinâmica original de um sinal de áudio inicial através de um processo de compressão que divide o sinal de áudio inicial em uma pluralidade de segmentos com o uso de um formato de janela definido, calcula um ganho de banda larga no domínio de frequência com o uso de uma média baseada não energética de amostras do domínio de frequência do sinal de áudio inicial, e aplica valores de ganho individuais para amplificar os segmentos de intensidade relativamente baixa e atenuar os segmentos de intensidade relativamente alta. o sinal de áudio comprimido é, então, expandido de volta para substancialmente a faixa dinâmica original que aplica valores de ganho inversos para amplificar os segmentos de intensidade relativamente alta e atenuar os segmentos de intensidade relativamente baixa. um banco de filtros qmf é usado para analisar o sinal de áudio inicial para obter uma representação de domínio de frequência.

Description

SISTEMA E MÉTODO DE COMPANSÃO PARA REDUZIR O RUÍDO DE QUANTIZAÇÃO COM O USO DE EXTENSÃO DE ESPECTRO AVANÇADA Dividido do BR112015019176-2, depositado em 11 de agosto de 2015. REFERÊNCIAS CRUZADAS A PEDIDOS RELACIONADOS
[0001] Este pedido reivindica a prioridade sobre os Pedidos de Patente Provisórios n°. U.S. 61/809.028 depositado no dia 5 de abril de 2013 e n°. U.S. 61/877.167 depositado no dia 12 de setembro de 2013, os quais são incorporados a título de referência em sua totalidade.
CAMPO DA INVENÇÃO
[0002] Uma ou mais modalidades referem-se a, geralmente, a um processamento de sinal de áudio, e mais especificamente, para reduzir um ruído de codificação em codecs de áudio com o uso de procedimentos de compressão/expansão (compansão "companding").
ANTECEDENTES
[0003] Diversos formatos de sons digitais populares utilizam procedimentos de compressão de dados com perdas que descartam alguns dos dados para reduzir um armazenamento ou solicitações de taxa de dados. A aplicação de compressão de dados com perdas não reduz apenas a fidelidade de conteúdo de origem (por exemplo, conteúdo de áudio), mas, também pode introduzir uma distorção notável em formato de artefatos de compressão. No contexto de sistemas de codificação de áudio, esses artefatos de som são chamados de ruído de codificação ou de ruído de quantização.
[0004] Os sistemas de áudio digital empregam codecs (componentes de codificador/decodificador) para comprimir e descomprimir dados de áudio, de acordo com um formato de arquivo de áudio definido ou formato de áudio de meio de transmissão. Os algoritmos de implantação de codecs que tentam representar o sinal de áudio com um número mínimo de bits enquanto retém a mais alta fidelidade possível. Os procedimentos de compressão com perdas usados tipicamente em codecs de áudio trabalham com um modelo psicoacústico de percepção de audição humana. Os formatos de áudio envolvem, geralmente, o uso de uma transformada de domínio de tempo/frequência (por exemplo, uma transformada de cosseno discreta modificada - MDCT) e o uso de efeitos de mascaramento, tais como um mascaramento de frequência ou mascaramento temporal, de modo que determinados sons, incluindo qualquer ruído de quantização aparente, fique escondido ou mascarado pelo conteúdo atual.
[0005] A maioria dos sistemas de codificação de áudio é com base em um quadro. No interior de um quadro, os codecs de áudio normalmente formam o ruído de codificação no domínio de frequência, de modo que o mesmo se torne menos audível. Diversos formatos de áudio digital presentes utilizam quadros de tais longas durações que um quadro possa conter sons de diversos níveis ou intensidades diferentes. Visto que o ruído de codificação é geralmente estacionário em um nível acima da evolução de um quadro, o ruído de codificação pode ser mais audível durante partes de baixa intensidade do quadro. Tal efeito pode ser manifestado como uma distorção de pré-eco em que o silêncio (ou sinal de nível baixo) que precede um segmento de intensidade alta é abafado pelo ruído no sinal de áudio decodificado. Tal efeito pode ser mais notável em sons ou impulsos transitórios a partir de instrumentos de percussão, tal como castanholas ou outras fontes de sons de percussão nítidos. Tal distorção é causada tipicamente pelo ruído de quantização introduzido no domínio de frequência que é espalhado na janela inteira de transformada do codec no domínio de tempo.
[0006] As medidas presentes para evitar ou minimizar os artefatos de pré-eco incluem o uso de filtros. Tais filtros, no entanto, introduzem uma distorção de fase e mancha temporal. Outra solução possível inclui o uso de janelas de transformada menores, no entanto, essa abordagem pode reduzir significativamente uma resolução de frequência.
[0007] Não se deve pressupor que a matéria discutida na seção anterior seja a técnica anterior apenas como um resultado da menção na seção anterior. Similarmente, não se deve pressupor que um problema mencionado na seção anterior ou associado à matéria da seção anterior tenha sido reconhecido previamente na técnica anterior. A matéria na seção anterior representa somente diferentes abordagens, as quais por si só também podem ser invenções.
BREVE SUMÁRIO DAS MODALIDADES
[0008] As modalidades são direcionadas a um método de processamento de um sinal de áudio recebido expandindo-se o sinal de áudio a uma faixa dinâmica expandida através de um processo que inclui dividir o sinal de áudio recebido em uma pluralidade de segmentos de tempo com o uso de um formato de janela definido, calcular um ganho de banda larga para cada segmento de tempo no domínio de frequência com o uso de uma média com base em não energia de uma representação de domínio de frequência do sinal de áudio, e aplicar um valor de ganho a cada segmento de tempo para obter o sinal de áudio expandido. Os valores de ganho do ganho de banda larga aplicados a cada segmento de tempo são selecionados para ter o efeito de amplificar os segmentos de uma intensidade relativamente alta e atenuar os segmentos de uma intensidade relativamente baixa. Para esse método, o sinal de áudio recebido compreende um sinal de áudio original que foi comprimido a partir de uma faixa dinâmica original através de um processo de compressão que inclui dividir o sinal de áudio original em uma pluralidade de segmentos de tempo com o uso de um formato de janela definido, calcular um ganho de banda larga no domínio de frequência com o uso de uma média com base em não energia de amostras de domínio de frequência do sinal de áudio inicial e aplicar o ganho de banda larga ao sinal de áudio original. No processo de compressão, os valores de ganho do ganho de banda larga aplicado a cada segmento de tempo são selecionados para ter o efeito de amplificar os segmentos de intensidade relativamente baixa e os segmentos atenuantes de intensidade relativamente alta. O processo de expansão é configurado para restaurar, substancialmente, a faixa dinâmica do sinal de áudio inicial, e o ganho de banda larga do processo de expansão pode ser substancialmente o inverso do ganho de banda larga do processo de compressão.
[0009] Em um sistema que implanta um método de processamento de um sinal de áudio recebido por um processo de expansão, um componente de banco de filtros pode ser usado para analisar o sinal de áudio para obter sua representação de domínio de frequência, e o formato de janela definido por segmentação na pluralidade de segmentos de tempo pode ser o mesmo que o filtro de protótipo para o banco de filtros. De modo semelhante, em um sistema que implanta um método de processamento de um sinal de áudio recebido por um processo de compressão, um componente de banco de filtros pode ser usado para analisar o sinal de áudio original para obter a representação de domínio de frequência, e o formato de janela definido para segmentação na pluralidade de segmentos de tempo pode ser o mesmo que o filtro de protótipo para o banco de filtros. O banco de filtros, em cada caso, pode ser um de um banco de QMF ou uma transformada de Fourier de tempo curto. Nesse sistema, um sinal recebido para o processo de expansão é obtido após a modificação do sinal comprimido por um codificador de áudio que gera um fluxo de bits, e um decodificador que decodifica o fluxo de bits. O codificador e o decodificador podem compreender pelo menos uma parte de um codec de áudio com base em transformada. O sistema pode compreender, adicionalmente, os componentes que processam informações de controle que é recebido através do fluxo de bits e determina um estado de ativação do processo de expansão.
BREVE DESCRIÇÃO DOS DESENHOS
[0010] Nos números de referência similares aos seguintes desenhos são usados para se referirem aos elementos similares. Embora as seguintes Figuras mostrem diversos exemplos, uma ou mais implantações não se limitam aos exemplos mostrados nas Figuras.
[0011] A Figura 1 ilustra um sistema para comprimir e expandir um sinal de áudio em um codec de áudio com base em transformada, sob uma modalidade.
[0012] A Figura 2A ilustra um sinal de áudio dividido em uma pluralidade de segmentos de tempo curto, sob uma modalidade.
[0013] A Figura 2B ilustra o sinal de áudio da Figura 2A após a aplicação de ganho de banda larga sobre cada um dos segmentos de tempo curto, sob uma modalidade.
[0014] A Figura 3A é um fluxograma que ilustra um método para comprimir um sinal de áudio, sob uma modalidade.
[0015] A Figura 3B é um fluxograma que ilustra um método para expandir um sinal de áudio, sob uma modalidade.
[0016] A Figura 4 é um diagrama de blocos que ilustra um sistema para comprimir um sinal de áudio, sob uma modalidade.
[0017] A Figura 5 é um diagrama de blocos que ilustra um sistema para expandir um sinal de áudio, sob uma modalidade.
[0018] A Figura 6 ilustra a divisão de um sinal de áudio em uma pluralidade de segmentos de tempo curto, sob uma modalidade.
DESCRIÇÃO DETALHADA
[0019] Os sistemas e métodos são descritos para o uso de procedimentos de compansão para atingir um formato de ruído temporal de um ruído de quantização em um codec de áudio. Tais modalidades incluem o uso de um algoritmo de compansão implantado no domínio de QMF para alcançar formato temporal de um ruído de quantização. Os processos incluem um controle de codificador do nível de compasão de decodificador desejado, e uma extensão além das aplicações monofônicas a uma compansão de multicanais e estéreo.
[0020] Os aspectos de uma ou mais modalidades descritos no presente documento podem ser implantados em um sistema de áudio que processa sinais de áudio para transmitir através de uma rede que inclui um ou mais computadores ou dispositivos de processamento que executam instruções de software. Qualquer modalidade descrita pode ser usada isoladamente ou em conjunto com as outras em qualquer combinação. Embora diversas modalidades tenham sido motivadas por diversas deficiências da técnica anterior, as quais podem ser discutidas ou mencionadas em um ou mais locais no relatório descritivo, as modalidades não abordam, necessariamente, qualquer uma dessas deficiências. Em outras palavras, as diferentes modalidades podem abordar diferentes deficiências que podem ser discutidas no relatório descritivo. Algumas modalidades podem apenas abordar parcialmente algumas deficiências ou apenas uma deficiência que pode ser discutida no relatório descritivo, e algumas modalidades podem não abordar qualquer umas dessas deficiências.
[0021] A Figura 1 ilustra um sistema de compansão para reduzir um ruído de quantização em um sistema de processamento de áudio com base em codec, sob uma modalidade. A Figura 1 ilustra um sistema de processamento de áudio que é construído ao redor de um codec de áudio que compreende um codificador (ou "codificador de núcleo") 106 e um decodificador (ou "decodificador de núcleo") 112. O codificador 106 codifica um conteúdo de áudio em fluxos de dados ou um sinal para transmitir pela rede 110 em que é decodificada pelo decodificador 112 para uma reprodução ou processamento adicional. Em uma modalidade, o codificador 106 e o decodificador 112 do codec implantam um método de compressão em perdas para reduzir o armazenamento e/ou as solicitações de taxa de dados dos dados de áudio digital, e tal codec pode ser implantado como um MP3, Vorbis, Dolby Digital (AC-3), AAC, ou codec similar. O método de compressão em perdas do codec cria um ruído de codificação que é geralmente estacionário em nível com a evolução de um quadro definido pelo codec. Tal ruído de codificação é, muitas vezes, mais audível durante partes de baixa intensidade de um quadro. O sistema 100 inclui componentes que reduzem o ruído de codificação percebido em sistemas de codificação existentes fornecendo um componente de pré-etapa de compressão 104 anterior ao codificador de núcleo 106 do codec e um componente de pré-etapa de expansão 114 que opera na saída de decodificador de núcleo 112. O componente de compressão 104 é configurado para dividir o sinal de entrada de áudio original 102 em uma pluralidade de segmentos de tempo com o uso de um formato de janela definido, para calcular e aplicar um ganho de banda larga no domínio de frequência com o uso de uma média com base em não energia de amostras de domínio de frequência do sinal de áudio inicial, em que os valores de ganho aplicados a cada segmento de tempo amplificam os segmentos de intensidade relativamente baixa e atenuam os segmentos de intensidade relativamente alta. Essa modificação de ganho tem o efeito de comprimir ou reduzir, significativamente, a faixa dinâmica original do sinal de áudio de entrada 102. O sinal de áudio comprimido é codificado, então, em um codificador 106, transmitido pela rede 110 e decodificado em um decodificador 112. O sinal comprimido decodificado é inserido em um componente de expansão 114, o qual é configurado para realizar a operação inversa da pré-etapa de compressão 104 aplicando-se os valores de ganho inversos a cada segmento de tempo para expandir a faixa dinâmica do sinal de áudio comprimido de volta à faixa dinâmica do sinal de áudio de entrada original 102. Dessa forma, o sinal de saída de áudio 116 compreende um sinal de áudio que tem a faixa dinâmica original, com o ruído de codificação removido através do processo de compansão de pré-etapa e de pós-etapa.
[0022] Conforme mostrado na Figura 1, um componente de compressão ou uma pré-etapa de compressão 104 é configurado para reduzir a entrada de faixa dinâmica do sinal de áudio 102 no codificador de núcleo 106. O sinal de áudio de entrada é dividido em um número de segmentos curtos. O tamanho ou o comprimento de cada segmento curto é uma fração do tamanho de quadro usada pelo codificador de núcleo 106. Por exemplo, um típico tamanho de quadro do codificador de núcleo pode estar na ordem de 40 a 80 milissegundos. Nesse caso, cada segmento curto pode estar na ordem de 1 a 3 milissegundos. O componente de compressão 104 calcula um valor de ganho de banda larga apropriado para comprimir o sinal de áudio de entrada em uma base por segmento. Isso é alcançado pela modificação de segmentos curtos do sinal por um valor de ganho apropriado para cada segmento. Os valores de ganho relativamente maiores são selecionados para amplificar os segmentos de intensidade relativamente baixa, e valores de ganho menores são selecionados para atenuar os segmentos de intensidade alta.
[0023] A Figura 2A ilustra um sinal de áudio dividido em uma pluralidade de segmentos de tempo curto, sob uma modalidade, e a Figura 2B ilustra o mesmo sinal de áudio após a aplicação de ganho de banda larga por um componente de compressão. Conforme mostrado na Figura 2A, o sinal de áudio 202 representa um impulso de som ou transitório, tal como pode ser produzido por um instrumento de percussão (por exemplo, castanholas). O sinal apresenta um pico em uma amplitude, conforme mostrado na plotagem de tensão, V, versus tempo, t. Em geral, a amplitude do sinal é relacionada à energia ou intensidade acústica do som e representa uma medida da potência de som em qualquer ponto de tempo. Quando o sinal de áudio 202 é processado através de um codec de áudio com base em quadro, as porções do sinal são processadas no interior de quadros de transformadas (por exemplo, MDCT) 204. Os típicos sistemas de áudio digital presentes utilizam quadros de duração relativamente longa, de modo que para um som transitório nítido ou de impulso curtos, um único quadro pode incluir sons de intensidade baixa, assim como de intensidade alta. Dessa forma, conforme mostrado na Figura 1, o único quadro de MDCT 204 inclui a porção de impulso (pico) do sinal de áudio assim como uma quantidade relativamente grande de sinal de intensidade baixa antes e após o pico. Em uma modalidade, um componente de compressão 104 divide o sinal em diversos segmentos de tempo curtos 206 e aplica um ganho de banda larga a cada segmento a fim de comprimir a faixa dinâmica do sinal 202. O número e o tamanho de cada segmento curto podem ser selecionados com base em necessidades de aplicação e restrições de sistema. Em relação ao tamanho de um quadro de MDCT individual, o número de segmentos curtos pode estar na faixa de 12 a 64 segmentos e podem compreender tipicamente 32 segmentos, contudo, as modalidades não são tão limitadas.
[0024] A Figura 2B ilustra o sinal de áudio da Figura 2A após a aplicação de ganho de banda larga sobre cada um dos segmentos de tempo curto, sob uma modalidade. Conforme mostrado na Figura 2B, o sinal de áudio 212 tem o mesmo formato em relação ao sinal original 202, no entanto, a amplitude dos segmentos de intensidade baixa foi aumentada pela aplicação de valores de ganho amplificação, e a amplitude da intensidade alta segmentos foi diminuída pela aplicação de valores de ganho atenuantes.
[0025] A saída do decodificador de núcleo 112 é o sinal de áudio de entrada com faixa dinâmica reduzida (por exemplo, sinal 212) mais o ruído de quantização introduzido pelo codificador de núcleo 106. Esse ruído de quantização apresenta um nível quase uniforme através do tempo no interior de cada quadro. O componente de expansão 114 atua no sinal decodificado para restaurar a faixa dinâmica do sinal original. O mesmo usa a mesma resolução de tempo curto com base no tamanho de segmento curto 206 e inverte os ganhos aplicados no componente de compressão 104. Dessa forma, o componente de expansão 114 aplica um pequeno ganho (atenuação) em segmentos que no sinal original tinham uma intensidade baixa e foi amplificada pelo compressor, e aplica um grande ganho (amplificação) em segmentos que no sinal original tinham uma intensidade alta e foi atenuada pelo compressor. O ruído de quantização adicionado pelo codificador de núcleo, o qual tinha um envelope de tempo uniforme, é, dessa forma, conformado simultaneamente pelo ganho de pós-processador para seguir aproximadamente o envelope temporal do sinal original. Esse processamento tornaria, de modo eficaz, o ruído de quantização menos audível durante as passagens silenciosas. Embora o ruído possa ser amplificado durante as passagens de intensidade alta, o mesmo permanece menos audível devido ao efeito de mascaramento do sinal alto do conteúdo de áudio.
[0026] Conforme mostrado na Figura 2A, o processo de compansão modifica segmentos distintos do sinal de áudio individualmente com respectivos valores de ganho. Em determinados casos, isso pode resultar em descontinuidades na saída do componente de compressão que pode causar problemas no codificador de núcleo 106. De modo semelhante, as descontinuidades em um ganho no componente de expansão 114 poderiam resultar em descontinuidades no envelope do ruído conformado, o que poderia resultar em cliques audíveis na saída de áudio 116. Outro problema referente à aplicação de valores de ganho individuais a segmentos curtos do sinal de áudio é com base no fato de que típicos sinais de áudio são uma mistura de diversas fontes individuais. Algumas dessas fontes podem ser estacionárias através do tempo, e algumas podem ser transitórias. Um sinal estacionário é geralmente constante nos parâmetros estatísticos através do tempo, enquanto os sinais transitórios não são geralmente constantes. Com a natureza de banda larga de transitórios, a impressão digital em tal mistura é geralmente mais visível em frequências mais altas. Um cálculo de ganho que tem como base uma energia de curto prazo (RMS) do sinal tende a ser polarizado em direção às frequências baixas mais fortes e, portanto, é dominado pelas fontes estacionárias e exibe uma pequena variação através do tempo. Dessa forma, essa abordagem com base em energia é geralmente ineficaz quando se forma o ruído introduzido pelo codificador de núcleo.
[0027] Em uma modalidade, o sistema 100 calcula e aplica o ganho na compressão e os componentes de expansão em um banco de filtros com um filtro de protótipo curto a fim de solucionar as questões potenciais associadas à aplicação de valores de ganho individuais. O sinal a ser modificado (o sinal original no componente de compressão 104, e a saída do decodificador de núcleo 112 no componente de expansão 114) é analisado, primeiramente, pelo banco de filtros e o ganho de banda larga é aplicado diretamente no domínio de frequência. O efeito correspondente no domínio de tempo é para suavizar naturalmente a aplicação de ganho, de acordo com o formato do filtro de protótipo. Isso soluciona as questões das descontinuidades descritas acima. O sinal de domínio de frequência modificado é convertido de volta, então, ao domínio de tempo através de um banco de filtros de síntese correspondente. Analisar o sinal com um banco de filtros fornece um acesso a esse conteúdo espectral, e permite o cálculo de um ganho que reforça preferencialmente a contribuição devido às altas frequências (ou reforçar a contribuição devido a qualquer conteúdo espectral que é fraco), fornecendo valores de ganho que não são dominados pelos componentes mais fortes no sinal. Isso soluciona o problema associado às fontes de áudio que compreendem uma mistura de diferentes fontes, conforme descrito acima. Em uma modalidade, o sistema calcula o ganho com o uso de uma norma p das magnitudes espectrais em que p é tipicamente menor do que 2 (p<2). Isso possibilita mais ênfase ao conteúdo espectral fraco, conforme comparado quando está com base em energia (p=2).
[0028] Conforme declarado acima, o sistema inclui um filtro de protótipo suaviza a aplicação de ganho. Em geral, um filtro de protótipo é o formato em janela básico em um banco de filtros, o qual é modulado por formas de ondas senoidais para obter as respostas ao impulso para os diferentes filtros de sub-banda nos bancos de filtros. Por exemplo, uma transformada de Fourier de tempo curto (STFT) é um banco de filtros, e cada linha de frequência dessa transformada é uma subbanda do banco de filtros. A transformada de Fourier de tempo curto é implantada multiplicando-se um sinal com um formato de janela (uma janela de amostra N), a qual poderia ser retangular, Hann, KaiserBessel (KBD) derivado, ou algum outro tipo. O sinal em janela é submetido, então, a uma operação transformada de Fourier distinta (DFT) para obter a STFT. O formato de janela, nesse caso, é o filtro de protótipo. A DFT é composta de funções de base senoidal, cada uma com uma frequência diferente. O formato de janela multiplicado por uma função senoidal fornece, então, o filtro para a sub-banda que corresponde àquela frequência. Visto que o formato de janela é o mesmo em todas as frequências, isso se refere a um "protótipo".
[0029] Em uma modalidade, o sistema utiliza um banco de QMF (Filtro Modulado de Quadratura) para o banco de filtros. Em uma implantação particular, o banco de QMF pode ter uma janela pt 64, a qual forma o protótipo. Essa janela modulada pelas funções de cosseno e seno (que correspondem a 64 frequências igualmente espaçadas) forma os filtros de sub-banda para o banco de QMF. Após cada aplicação da função de QMF, a janela é movida por todas as 64 amostras, isto é, a sobreposição entre os segmentos de tempo, nesse caso é de 640 – 64 = 576 amostras. No entanto, embora o formato de janela se estenda em dez segmentos de tempo, nesse caso (640 = 10*64), o lóbulo principal da janela (onde os valores de amostra são muito significativos) é cerca de 128 amostras ao longo. Dessa forma, o comprimento efetivo da janela ainda é relativamente curto.
[0030] Em uma modalidade, o componente de expansão 114 inverte idealmente os ganhos aplicados pelo componente de compressão 104. Embora seja possível transmitir os ganhos aplicados pelo componente de compressão através do fluxo de bits ao decodificador, tal abordagem consumiria tipicamente uma taxa de bits significativa. Em uma modalidade, o sistema 100 estima, em vez disso, os ganhos solicitados pelo componente de expansão 114 diretamente a partir do sinal disponível ao mesmo, isto é, a saída do decodificador 112, o qual não solicita de modo eficaz bits adicionais. O banco de filtros na compressão e os componentes de expansão são selecionados para serem idênticos a fim de calcular ganhos que são inversos um do outro. Além disso, esses bancos de filtros são sincronizados por tempo, de modo que quaisquer atrasos verdadeiros entre a saída do componente de compressão 104 e a entrada ao componente de expansão 114 são múltiplos do passo do banco de filtros. Se o codificado/decodificador de núcleo fosse sem perda e o banco de filtros fornecesse uma reconstrução perfeita, os ganhos na compressão e os componentes de expansão seriam inversos exatos um do outro, dessa forma, permitindo uma reconstrução exata do sinal original. Na prática, no entanto, o ganho aplicado pelo componente de expansão 114 é apenas bem próximo ao inverso do ganho aplicado pelo componente de compressão 104.
[0031] Em uma modalidade, o banco de filtros usado na compressão e os componentes de expansão é um banco de QMF. Em uma aplicação de uso típico, um quadro de áudio de núcleo poderia ser 4096 amostras ao longo de uma sobreposição de 2048 com o quadro vizinho. Em 48 kHz, tal como um quadro, poderiam ser 85,3 milissegundos ao longo. Em contraste, um banco de QMF que é usado pode ter um passo de 64 amostras (que é 1.3 ms ao longo), o qual fornece uma resolução temporal fina para os ganhos. Adicionalmente, o QMF tem um filtro de protótipo suave que tem 640 amostras ao longo que garante que a aplicação de ganho varie suavemente através do tempo. A análise com esse banco de filtros de QMF fornece uma representação lado a lado de tempo-frequência do sinal. Cada intervalo de tempo de QMF é igual a um passo e em cada intervalo de tempo de QMF, há 64 sub-bandas uniformemente espaçadas. Alternativamente, outros bancos de filtros poderiam ser empregados, tal como uma transformada de Fourier de tempo curto (STFT), e tal representação lado a lado de tempo-frequência ainda poderia ser obtida.
[0032] Em uma modalidade, o componente de compressão 104 realiza uma etapa de pré-processamento que representa em escala a entrada de codec. Para essa modalidade, St (k) é uma amostra de banco de filtro de valor complexo em um intervalo de tempo t e frequência bin k. A Figura 6 ilustra a divisão de um sinal de áudio em diversos intervalos de tempo por um alcance de frequências, sob uma modalidade. Para a modalidade do diagrama 600, há 64 frequências bins k, e 32 intervalos de tempo t que produzem uma pluralidade de tempo-frequência lado a lado, conforme mostrado (não necessariamente extraídos através em escala). As pré-etapas de compressão representam em escala a entrada codec a se tornarem S't(k) = St(k)/gt. Nessa equação, gt = (S ̅t/S0)γ é um meio de espaço normalizado.
[0033] Na equação acima, a expressão,
Figure img0001
é o nível absoluta médio/norma 1- e S0 é uma constante adequada. Uma norma p genérica é definida nesse contexto conforme a seguir:
Figure img0002
[0034] Foi mostrado que a norma 1- pode dar resultados melhores do que com o uso da energia (rms/norma 2-). O valor do termo exponente γ está tipicamente na faixa entre 0 e 1, e pode ser escolhido para ser 1/3. A constante S0 garante valores de ganho razoáveis independentemente da plataforma de implantação. Por exemplo, pode ser 1 quando implantado em uma plataforma onde os valores de St(k) podem ser limitados em valor absoluto a 1. Isso poderia ser potencialmente diferente em uma plataforma onde St(k) pode ter um valor absoluto máximo diferente. Isso também poderia ser usado para garantir que o valor de ganho médio através de um grande conjunto de sinais seja próximo de 1. Isto é, poderia ser um valor de sinal intermediário entre um valor de sinal máximo e um valor de sinal mínimo determinados a partir de grandes corpora de conteúdo.
[0035] No processo pós-etapa realizado pelo componente de expansão 114, a saída de codec é expandida por um ganho inverso aplicado pelo componente de compressão 104. Isso solicita uma réplica exata ou não exata do banco de filtro do componente de compressão. Nesse caso, St(k) representa uma amostra de valor complexo desse segundo banco de filtro. O componente de expansão 114 representa em escala a saída de codec para se tornar S't(k) = St(k) . g̃t.
[0036] Na equação acima g̃t é um meio de espaço normalizado dado como:
g̃t = (S ̅t/S0)γ/(1-γ)
e
Figure img0003
[0037] Em geral, o componente de expansão 114 usará a mesma norma p conforme usada no componente de compressão 104. Dessa forma, se o nível absoluto médio é usado para definir S ̅t no componente de compressão 104, S ̅t também é definido o uso da norma 1- (p=1) na equação acima.
[0038] Quando um banco de filtros complexo (que compreende tanto uma base cosseno quanto uma base seno), tal como a STFT ou o QMF complexo é usado na compressão e nos componentes de expansão, em que o cálculo da magnitude, |St(k) |ou St(k) |de uma amostra de sub-banda complexa solicita uma operação de raíz quadrada computacionalmente intensiva. Isso pode ser evitado aproximando a magnitude da amostra de sub-banda complexa em uma variedade de maneiras, por exemplo, resumindo a magnitude das partes real e imaginária.
[0039] Nas equações acima, o valor de K é igual ao número de sub-bandas no banco de filtros, ou inferior. Em geral, a norma p poderia ser calculada com o uso de qualquer subconjunto das sub-bandas no banco de filtros. No entanto, o mesmo subconjunto poderia ser empregado tanto no codificador 106 quanto no decodificador 112. Em uma modalidade, as porções de alta frequência (por exemplo, componentes de áudio acima de 6 kHz) do sinal de áudio podem ser codificadas com uma ferramenta de extensão espectral avançada (A-SPX). Adicionalmente, pode ser desejável usar apenas o sinal acima de 1 kHz (ou uma frequência similar) para guiar o formato de ruído. Em tal caso, apenas aquelas sub-bandas na faixa de 1 kHz a 6 kHz podem ser usadas para calcular a norma p, e, portanto, o valor de ganho. Adicionalmente, através de um ganho que é calculado de um subconjunto de sub-bandas, ainda poderia ser aplicado a um subconjunto de subbandas diferente e possivelmente maior.
[0040] Conforme mostrado na Figura 1, uma função de compansão para formar um ruído de quantização introduzido pelo codificador de núcleo 106 de um codec de áudio é realizada por dois componentes separados 104 e 114 que realizam determinadas funções de compressão de pré-codificador e funções de expansão de pósdecodificador. A Figura 3A é um fluxograma que ilustra um método de comprimir um sinal de áudio em uma componente de compressão de pré-codificador, sob uma modalidade, e a Figura 3B é um fluxograma que ilustra um método para expandir um sinal de áudio em um componente de expansão de pós-decodificador, sob uma modalidade.
[0041] Conforme mostrado na Figura 3A, o processo 300 começa com o componente de compressão que recebe o sinal de áudio de entrada (302). Esse componente divide, então, o sinal de áudio em segmentos de tempo curto (304) e comprime o sinal de áudio a uma faixa dinâmica reduzida aplicando valores de ganho de banda larga a cada um dos segmentos curtos (306). O componente de compressão também implanta uma determinada filtração de protótipo e componentes de banco de filtros de QMF para reduzir ou eliminar quaisquer descontinuidades causadas aplicando-se diferentes valores de ganho a segmentos contíguos, conforme descrito acima (308). Em determinados casos, tais como com base no tipo de conteúdo de áudio ou determinadas características do conteúdo de áudio, a compressão e a expansão do sinal de áudio antes e após os estágios de codificação/decodificação do codec de áudio pode degradar mais do que melhorar a qualidade de áudio de saída. Em tais exemplos, o processo de compansão pode ser desligado, ou modificado para retornar diferentes níveis de compansão (compressão/expansão). Dessa forma, o componente de compressão determina a adequação da função de compansão e/ou o nível ideal de compansão solicitado para a entrada de sinal específica e o ambiente de reprodução de áudio, entre outras variáveis (310). Essa etapa de determinação 310 pode ocorrer em qualquer ponto prático de processo 300, tal como anterior à divisão do sinal de áudio 304 ou da compressão do sinal de áudio 306. Se a compansão é considerada apropriada, os ganhos são aplicados (306), e o codificador codifica, então, o sinal para uma transmissão ao decodificador, de acordo com o formato de dados do codec (312). Determinados dados de controle de compansão, tais como dados de ativação, dados de sincronização, dados de nível de compansão e outros dados de controle podem ser transmitidos como parte do fluxo de bits para um processamento pelo componente de expansão.
[0042] A Figura 3B é um fluxograma que ilustra um método para expandir um sinal de áudio em um componente de expansão de pósdecodificador, sob uma modalidade. Conforme mostrado no processo 350, o estágio de decodificador do codec recebe o fluxo de bits que codifica o sinal de áudio a partir do estágio de codificador (352). O decodificador codifica, então, o sinal codificado, de acordo com o formato de dados de codec (353). O componente de expansão processa, então, o fluxo de bits e aplica quaisquer dados de controle codificado para desligar a expansão ou modificar os parâmetros de expansão com base nos dados de controle (354). O componente de expansão divide o sinal de áudio em segmentos de tempo com o uso de um formato de janela adequado (356). Em uma modalidade, os segmentos de tempo correspondem aos mesmos segmentos de tempo usados pelo componente de compressão. O componente de expansão calcula, então, os valores de ganho apropriados para cada segmento no domínio de frequência (358) e aplica os valores de ganho a cada segmento de tempo para expandir a faixa dinâmica do sinal de áudio de volta à faixa dinâmica original, ou qualquer outra faixa dinâmica apropriada (360).
CONTROLE DE COMPANSÃO
[0043] A compressão e os componentes de expansão que compreendem o compansor de sistema 100 podem ser configurados para aplicar as etapas de pré-processamento e pós-processamento apenas em determinado tempo durante um processamento de sinal de áudio, ou apenas para determinados tipos de conteúdo de áudio. Por exemplo, a compansão pode exibir benefícios para fala e sinais transitórios musicais. No entanto, para outros sinais, tais como compansão de sinais estacionários podem degradar a qualidade de sinal. Dessa forma, conforme mostrado na Figura 3A, um mecanismo de controle de compansão é fornecido como um bloco 310, e os dados de controle são transmitidos a partir do componente de compressão 104 ao componente de expansão 114 para coordenar a operação de compansão. A forma mais simples de tal mecanismo de controle é desligar a função de compansão para os blocos de amostras de áudio onde a aplicação da compansão está degradando a qualidade de áudio. Em uma modalidade, a decisão de compansão ligada/desligada é detectada no codificador e transmitida como elemento de fluxo de bits ao decodificador, de modo que o compressor e o expansor tenham a capacidade de serem ligados/ desligados no mesmo intervalo de tempo de QMF.
[0044] A comutação entre os dois estados levará, geralmente, a uma descontinuidade no ganho aplicado, resultando em artefatos de comutação audíveis ou cliques. As modalidades incluem mecanismos para reduzir ou eliminar esses artefatos. Em uma primeira modalidade, o sistema permite uma comutação da função de compansão ligada e desligada apenas em quadros onde o ganho é próximo a 1. Nesse caso, há apenas uma pequena descontinuidade entre comutando a função de compansão em ligar/desligar. Em uma segunda modalidade, um terceiro modo de fraco, isto é, entre em um modo ligado e desligado é aplicado em um quadro de áudio entre quadros ligados e desligados, e é sinalizado no fluxo de bits. O modo de compansão fraco transita de modo devagar o termo exponente γ do valor de padrão durante uma compansão a 0, a qual é equivalente sem compansão. Como uma alternativa ao modo de compansão fraco intermediário, o sistema pode implantar quadros de início e quadros de paragem que sobre um bloco de amostras de áudio aparecem suavemente um modo fora de compansão em vez de um desligamento abrupto da função de compansão. Em uma modalidade adicional, o sistema é configurado não para desligar somente a compansão, contudo, também, para aplicar um ganho médio. Em determinados casos, a qualidade de áudio dos sinais estacionários tonais pode ser aumentada se um fator de ganho constante é aplicado a um quadro de áudio que parece consideravelmente os fatores de ganho de quadros em compansão adjacente do que um fator de ganho constante de 1,0 em uma compansão fora de situação. Tal fator de ganho pode ser calculado pela média de todos os ganhos de compansão por todo quadro. Um quadro que contém um ganho de compansão médio constante é, dessa forma, sinalizado no fluxo de bits.
[0045] Embora as modalidades sejam descritas no contexto de um canal de áudio monofônico, deve-se notar que em canais de múltipla extensão simples pode ser manuseado pela repetição da abordagem individual em cada canal. No entanto, os sinais de áudio que compreendem dois ou mais canais presentes, determinadas complexidades adicionais são abordadas pelas modalidades do sistema de compansão da Figura 1. A estratégia de compansão deveria depender da similaridade entre os canais.
[0046] Por exemplo, no caso de sinais transitórios produzidos em estéreo, foi observada que a compansão independente dos canais individuais pode resultar em artefatos de imagem audíveis. Em uma modalidade, o sistema determina um valor de ganho único para cada tempo-segmento a partir das amostras de sub-banda de ambos os canais e usos do mesmo valor de ganho para comprimir/expandir os dois sinais. Essa abordagem é geralmente adequada sempre que os dois canais tiverem sinais muito similares, em que a similaridade é definida com o uso uma correlação cruzada, por exemplo. Um detector calcula a similaridade entre os canais e as comutações entre o uso de compansão individual dos canais ou com a compansão conjunta com os canais. As extensões para mais canais dividiriam os canais em grupos de canais com o uso de critérios de similaridade e aplicaria a compansão de união nos grupos. Essas informações de grupo podem ser transmitidas, então, através do fluxo de bits.
IMPLANTAÇÃO DE SISTEMA
[0047] A Figura 4 é um diagrama de blocos que ilustra um sistema para comprimir um sinal de áudio em conjunto com um estágio de codificador de um codec, sob uma modalidade. A Figura 4 ilustra um circuito de hardware ou um sistema que implanta pelo menos uma porção do método de compressão método para usar em um sistema com base em codec, mostrado na Figura 3A. Conforme mostrado em um sistema 400, um sinal de áudio de entrada 401 no domínio de tempo é inserido a um banco de filtros de QMF 402. Esse banco de filtros executa uma operação de análise que separa o sinal de entrada em múltiplos componentes em que cada filtro passa-banda transporta uma sub-banda de frequência do sinal original. A reconstrução do sinal é realizada em uma operação de síntese realizada por um banco de filtros de QMF 410. Na modalidade exemplificativa da Figura 4, tanto a análise quanto a síntese do banco de filtros lidam com as bandas 64. O codificador de núcleo 412 recebe o sinal de áudio a partir do banco de filtros de síntese 410 e gera um fluxo de bits 414 codificando- se o sinal de áudio no formato digital apropriado (por exemplo, MP3, AAC, etc.).
[0048] O sistema 400 inclui um compressor 406 que aplica valores de ganho a cada um dos segmentos curtos que o sinal de áudio foi dividido. Isso produz um sinal de áudio de faixa dinâmica comprimido, tal como mostrado na Figura 2B. Uma unidade de controle de compansão 404 analisa o sinal de áudio para determinar se a compressão, ou a quantidade de compressão deveria ser aplicada com base no tipo de sinal (por exemplo, a fala), ou as características do sinal (por exemplo, estacionário versus transitório), ou outros parâmetros relevantes. A unidade de controle 404 pode incluir um mecanismo de detecção para detectar a característica de culminância temporal do sinal de áudio. Com base na característica detectada do sinal de áudio e de determinados critérios pré-definidos, a unidade de controle 404 envia sinais de controle apropriados ao compressor 406 tanto para desligar a função de compressão quanto para modificar os valores de ganho aplicados aos segmentos curtos.
[0049] Além da compansão, muitas outras ferramentas de codificação também poderiam operar no domínio de QMF. Tal ferramenta é A-SPX (extensão espectral avançada), a qual é mostrada no bloco 408 da Figura 4. A A-SPX é um procedimento que é usado para permitir frequências percentualmente menos importantes para serem codificadas com um esquema de codificação mais rústico do que frequências mais importantes. Por exemplo, uma A-SPX na extremidade de decodificador, as amostras de sub-banda de QMF a partir da frequência mais baixa podem ser reaplicadas em frequências mais altas, e o envelope espectral na banda de alta frequência é conformada, então, com o uso de informações laterais transmitidas a partir do codificador ao decodificador.
[0050] Em um sistema em que tanto a compansão quanto a ASPX são realizadas no domínio de QMF, no codificador, os dados de envelope de A-SPX para as frequências mais altas podem ser extraídos a partir de amostras de sub-banda ainda não comprimidas, conforme mostrado na Figura 4, e a compressão pode ser aplicada apenas em amostras de QMF de frequência mais baixa que correspondem à faixa de frequência do sinal codificado pelo codificador de núcleo 412. No decodificador 502 da Figura 5, após a análise de QMF 504 do sinal decodificado, o processo de expansão 506 é aplicado, primeiramente, e a operação de A-SPX 508 reproduz subsequentemente as amostras de sub-banda mais altas a partir do sinal expandido nas frequências mais baixas.
[0051] Nessa implantação exemplificativa, o banco de filtros de síntese de QMF 410 no codificador e o banco de filtros de análise de QMF no decodificador 504 introduzem em conjunto 640 – 64 + 1 de atraso de amostra (~9 espaços de QMF). O atraso de codec de núcleo nesse exemplo é 3200 amostras (50 espaços de QMF), então, o atraso total é 59 espaços. Esse atraso é contado pelos dados de controle incorporados no fluxo de bits e com o uso do mesmo no decodificador, de modo que tanto o compressor de codificador quanto as operações de expansor de decodificador estão em sincronia.
[0052] De modo alternativo, no codificador, a compressão pode ser aplicada a toda a largura de banda do sinal original. Os dados de envelope A-SPX podem ser subsequentemente extraídos das amostras comprimidas de sub-banda. Em tal caso, o decodificador, após a análise de QMF, primeiro executa a ferramenta de A-SPX para primeiro reconstruir toda o sinal comprimido de largura de banda. A etapa de expansão é, então, aplicada para recuperar o sinal com sua faixa dinâmica original.
[0053] Ainda outra ferramenta que pode operar no domínio de QMF pode ser uma ferramenta de acoplamento avançado (AC) (não mostrada) na Figura 4. Em um sistema de acoplamento avançado, dois canais são codificados como um mono downmix com informações adicionais espaciais de parâmetro que podem ser aplicadas no domínio de QMF no decodificador para reconstruir uma saída de estéreo. Quando o AC e a compansão são usados em conjunto com um com o outro, a ferramenta de AC também pode ser colocada após a etapa de compressão 406 no codificador, em cujo caso seria aplicada antes da etapa de expansão 506 no decodificador. De modo alternativo, as informações paralelas de AC poderiam ser extraídas do sinal de estéreo não comprimido, em cujo caso a ferramenta de AC operaria após a etapa de expansão 506 no decodificador. Um modo híbrido de AC também pode ser suportado, no qual o AC é usado acima de uma certa frequência e o estéreo discreto é usado abaixo dessa frequência; ou, de modo alternativo, o estéreo separado é usado acima da certa frequência e o AC é usado abaixo dessa frequência.
[0054] Conforme mostrado nas Figuras 3A e 3B, o fluxo de bits transmitido entre a etapa codificadora e a etapa decodificadora do codec inclui certos dados de controle. Tais dados de controle constituem informações paralelas que permitem que o sistema comute entre diferentes modos de compansão. Os dados de controle de comutação (para comutar a compansão ligada/desligada) mais, potencialmente, alguns estados intermediários podem adicionar na ordem de 1 ou 2 bits por canal. Outros dados de controle podem incluir um sinal para determinar se todos os canais de um estéreo separado ou uma configuração multicanal usarão fatores de ganho de compansão comuns ou se os mesmos devem ser calculados de modo independente para cada canal. Tais dados podem necessitar apenas de um único bit extrapor canal. Outros elementos similares de dados de controle e seus pesos em bit apropriados podem ser usados dependendo das necessidades e restrições do sistema.
MECANISMO DE DETECÇÃO
[0055] Em uma modalidade, um mecanismo de controle de compansão é incluído como parte do componente de compressão 104 para fornecer o controle da compansão no domínio de QMF. O controle de compansão pode ser configurado com base em um número de fatores, como o tipo de sinal de áudio. Por exemplo, na maior parte das aplicações, a compansão deve ser ligada para sinais de fala e sinais transitórios ou quaisquer outros sinais dentro da classe de sinais temporariamente de pico. O sistema inclui um mecanismo de detecção para detectar uma culminância de um sinal a fim de ajudar a gerar um sinal de controle apropriado para a função do compansor.
[0056] Em uma modalidade, uma medida para culminância temporária TP(k)frame é computada por um binário de frequência k para um codec de núcleo dado e é calculada com o uso da seguinte fórmula:
Figure img0004
[0057] Na equação acima, St (k) é o sinal de sub-banda, e T é o número de encaixes de QMF correspondente a um quadro codificador de núcleo. Em uma implantação exemplificativa, o valor de T pode ser 32. A culminância temporária computada por banda pode ser usada para classificar o conteúdo do som em duas categorias gerais: sinais de música estacionária e sinais de música transitória ou sinais de fala. Se o valor de TP(k)frame for menor que um valor definido (por exemplo, 1,2), o sinal nessa sub-banda do quadro é provavelmente um sinal de música estacionário. Se o valor de TP (k) frame for maior que esse valor, então, o sinal é provavelmente sinais de música transitórios ou sinais de fala. Se o valor for maior que um valor limiar ainda maior (por exemplo, 1,6), o sinal é muito provavelmente um sinal transitório de música puro, por exemplo, castanholas. Além disso, foi observado que, para sinais que ocorrem naturalmente, os valores de culminância temporária obtidos em diferentes bandas foi mais ou menos similar, e essa característica poderia ser empregada para reduzir o número de sub-bandas para as quais o valor de culminância temporária deve ser calculado. Com base nessa observação, o sistema pode implantar um dos dois a seguir.
[0058] Em uma primeira modalidade, o detector executa o processo a seguir. Como uma primeira etapa, o mesmo computa o número de bandas que têm uma culminância temporária maior que 1,6. Como uma segunda etapa, o mesmo, então, computa os principais valores de culminância temporária de bandas em que o mesmo é menor que 1,6. Se o número de bandas encontrado na primeira etapa for maior que 51, ou se o valor principal determinado na segunda etapa for maior que 1,45, o sinal é determinado como sendo um sinal transitório musical e, portanto, a compansão deve ser ligada. De outro modo, é determinado como sendo um sinal para o qual a compansão não deve ser ligada. Tal detector desligará, na maioria das vezes, para sinais de fala. Em algumas modalidades, os sinais de fala serão codificados normalmente por um codificador de fala separado e, então, isso geralmente não é um problema. Entretanto, em certos casos, pode ser desejável ligar a função de compansão também para a fala. Nesse caso, um segundo tipo de detector pode ser preferível.
[0059] Em uma modalidade, esse segundo tipo de detector executa o processo a seguir. Como uma primeira etapa, o mesmo computa o número de bandas que têm uma culminância temporária maior que 1,2. Em uma segunda etapa, o mesmo, então, computa os principais valores de culminância temporária das bandas em que o mesmo é menor que 1,2. O mesmo, então, aplica, a seguinte regra: se o resultado da primeira etapa for maior que 55: ligar a compansão, se o resultado da primeira etapa for menor que 15: desligar a compansão; se o resultado da primeira etapa ficar entre 15 e 55 e o resultado da segunda etapa for maior que 1,16: ligar a compansão; e se o resultado da primeira etapa ficar entre 15 e 55 e o resultado da segunda etapa for menor que 1,16: desligar a compansão. Deve ser notado que os dois tipos de detectores descreveram apenas dois exemplos de muitas soluções possíveis para um algoritmo detector e outros algoritmos similares podem também, ou de modo alternativo, ser usados.
[0060] A função de controle de compansão fornecida pelo elemento 404 da Figura 4 pode ser implantado de qualquer modo apropriado para permitir que a compansão seja usada ou não com base em certos modos operacionais. Por exemplo, a compansão geralmente não é usada no canal de LFE (efeitos de baixa frequência) de um sistema de som surround e também não é usado quando não existe funcionalidade A-SPX (isto é, nenhum QMF) implantada. Em uma modalidade, a função de controle de compansão pode ser fornecida por um programa executado por um circuito ou elementos com base em processador, como o elemento de controle de compansão 404. A seguir está uma sintaxe exemplificativa de um segmento de programa que pode implantar o controle de compansão, sob uma modalidade:
Companding_control(nCh)
{
sync_flag=0;
if (nCh>1){
sync_flag
}
b_needAvg=0
ch_count=sync_flag?1:nCh
for (ch=0; ch<ch_count; ch++){
b_compand_on[ch]
if (!b_compand_on[ch]){
b_needAvg=1;
}
}
if (b_needAvg){
b_compand_avg;
}
}
[0061] Os sinalizadores sync_flag, b_compand_on[ch], e b_compand_avg ou elementos de programa podem estar na ordem de 1 bit de comprimento ou qualquer outro comprimento dependendo das restrições e necessidade do sistema. Deve ser notado que o código de programa ilustrado acima é um exemplo de um modo de implantar uma função de controle de compansão, e outros programas ou componentes de hardware podem ser usados para implantar o controle de compansão de acordo com algumas modalidades.
[0062] Embora as modalidades descritas até este ponto incluam o processo para reduzir ruído de quantização de compansão introduzido por um codificador em um codec, deve ser percebido que os aspectos de tal processo de compansão também pode ser aplicado em sistemas de processamento de sinal que não incluam etapas de codificador e decodificador (codec). Além disso, no caso do processo de compansão ser usado em conjunto com um codec, o codec pode ser com base em transformada ou base não transformada.
[0063] Os aspectos de sistemas descritos no presente documento podem ser implantados em um ambiente em rede apropriado de processamento de som com base em computador para processar arquivos de áudio digitais ou digitalizados. As porções do sistema de áudio adaptativo podem incluir uma ou mais redes que compreendam qualquer número desejado de máquinas individuais, incluindo um ou mais roteadores (não mostrados) que servem para armazenar temporariamente e direcionar os dados transmitidos entre os computadores. Tal rede pode ser montada em vários protocolos em rede diferentes e pode ser a Internet, uma Rede de Área Ampla (WAN), uma Rede de Área Local (LAN) ou qualquer combinação das mesmas.
[0064] Um ou mais dos componentes, blocos, processos ou outros componentes funcionais podem ser implantados através de um programa de computador que controla a execução de um dispositivo de computação com base em processador do sistema. Também deve ser notado que as várias funções reveladas no presente documento podem ser descritas com o uso de qualquer número de combinações de hardware, firmware e/ou como dados e/ou instruções incorporadas em várias mídias legíveis por máquina ou legíveis por computador, em termos de seu comportamento, transferência de registro, componente lógico e/ou outras características. As mídias legíveis por computador, nas quais tais dados formatados e/ou instruções podem ser incorporados incluem, mas sem caráter limitativo, mídias de armazenamento físicas (não transitórios), não voláteis em várias formas, como mídias de armazenamento óptico, magnético ou semicondutor.
[0065] A não ser que o contexto claramente necessite do contrário, ao longo de toda a descrição e das reivindicações, as palavras "compreende", "que compreende" e similares devem ser interpretadas em um sentido inclusivo, em oposição a um sentido exclusivo ou um sentido minucioso; isso é, a saber, em um sentido de "incluindo, mas não limitado a". As palavras com o uso do número singular ou plural também incluem o número plural ou singular respectivamente. Adicionalmente, as palavras "no presente documento", "abaixo no presente documento", "acima", "abaixo" e palavras de importância similar se referem como um todo e não a quaisquer porções particulares dessa aplicação. Quando a palavra "ou" for usada em referência a uma lista de dois ou mais itens, essa palavra cobre todas as seguintes interpretações da palavra: qualquer um dos itens da lista, todos os itens da lista e qualquer combinação dos itens na lista.
[0066] Embora uma ou mais implantações tenham sido descritas a título de exemplo e em termos de modalidades específicas, deve ser entendido que uma ou mais implantações não estão limitadas às modalidades reveladas. Ao contrário, pretende-se cobrir várias modificações e disposições similares que seriam aparentes às pessoas versadas na técnica. Portanto, o escopo das reivindicações anexas deve ser entendido em sua interpretação mais ampla para que englobe todas tais modificações e disposições similares.

Claims (21)

  1. Método de expansão de um sinal de áudio caracterizado pelo fato de que compreende:
    receber um sinal de áudio; e
    expandir o sinal de áudio a uma faixa dinâmica expandida através de um processo de expansão que compreende: dividir o sinal de áudio recebido em uma pluralidade de segmentos, calcular um ganho para cada segmento com o uso de uma média baseada não energética de uma representação de domínio de frequência do sinal de áudio, e aplicar o ganho a cada segmento respectivo para obter um sinal de áudio de faixa dinâmica expandida, em que aplicar o ganho amplifica os segmentos de intensidade relativamente alta e atenua os segmentos de intensidade relativamente baixa.
  2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os segmentos estão em sobreposição.
  3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que um primeiro banco de filtros é usado para analisar o sinal de áudio para obter a representação de domínio de frequência.
  4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o primeiro banco de filtros é um dentre um banco de filtro modulado de quadratura (QMF) ou uma transformada de Fourier de tempo curto.
  5. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o ganho para cada segmento é calculado usando amostras de sub-banda em um subconjunto de sub-bandas no respectivo segmento.
  6. Método para comprimir um sinal de áudio, caracterizado por compreender:
    receber um sinal de áudio inicial; e
    comprimir o sinal de áudio inicial para reduzir, substancialmente, uma faixa dinâmica original do sinal de áudio inicial através de um processo de compressão que compreende dividir o sinal de áudio inicial em uma pluralidade de segmentos, calcular um ganho em um domínio de frequência usando uma média baseada não-energética do sinal de áudio inicial, e aplicar o ganho para cada segmento respectivo para amplificar segmentos de intensidade relativamente baixa e atenuar segmentos de intensidade relativamente alta.
  7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que os segmentos estão em sobreposição e em que um primeiro banco de filtros é usado para analisar o sinal de áudio para obter uma representação de domínio de frequência.
  8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o primeiro banco de filtros é um dentre um banco de filtro modulado de quadratura (QMF) ou uma transformada de Fourier de tempo curto.
  9. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que cada ganho é calculado usando as amostras de subbanda em um subconjunto de sub-bandas em um segmento respectivo.
  10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que o subconjunto de sub-bandas corresponde a toda a faixa de frequência estendida pelo primeiro banco de filtros, e em que o ganho é aplicado no domínio do primeiro banco de filtros.
  11. Aparelho para comprimir um sinal de áudio caracterizado pelo fato de que compreende:
    uma primeira interface que recebe um sinal de áudio inicial; e
    um compressor que comprime o sinal de áudio inicial para reduzir uma faixa dinâmica original do sinal de áudio inicial dividindose o sinal de áudio inicial em uma pluralidade de segmentos, calcular um ganho em um domínio de frequência com o uso de uma média baseada não energética do sinal de áudio inicial, e aplicar o ganho a cada segmento respectivo para amplificar segmentos de intensidade relativamente baixa e atenuar segmentos de intensidade relativamente alta.
  12. Aparelho, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende, adicionalmente, um primeiro banco de filtros que analisa o sinal de áudio para obter uma representação de domínio de frequência e em que o primeiro banco de filtros é um dentre um banco de filtro modulado de quadratura (QMF) ou uma transformada de Fourier de tempo curto.
  13. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de que o ganho é calculado com usando amostras de sub-banda em um subconjunto de sub-bandas em cada segmento respectivo.
  14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que o subconjunto de sub-bandas corresponde a toda a faixa de frequência estendida pelo primeiro banco de filtros, e em que o ganho é aplicado no domínio do primeiro banco de filtros.
  15. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de que compreende, adicionalmente, uma segunda interface que transmite uma versão comprimida do sinal de áudio inicial para um expansor que recebe a versão comprimida do sinal de áudio, e expande a versão comprimida do sinal de áudio para restaurar substancialmente a mesma para uma faixa dinâmica original do sinal de áudio inicial dividindo-se o sinal de áudio inicial em uma pluralidade de segmentos, calcular um ganho em um domínio de frequência com o uso de uma média baseada não energética do sinal de áudio inicial; e aplicar o ganho para cada segmento respectivo da pluralidade de segmentos para amplificar os segmentos de intensidade relativamente alta e atenuar os segmentos de intensidade relativamente baixa.
  16. Aparelho para expandir um sinal de áudio caracterizado pelo fato de que compreende:
    uma primeira interface que recebe um sinal de áudio comprimido; e
    um expansor que expande o sinal de áudio comprimido para restaurar substancialmente sua faixa dinâmica não comprimida original dividindo-se o sinal de áudio inicial em uma pluralidade de segmentos, calcular o ganho em um domínio de frequência com o uso de uma média baseada não energética do sinal de áudio inicial, e aplicar valores de ganho individuais para cada segmento da pluralidade de segmentos para amplificar segmentos de intensidade relativamente alta e atenuar segmentos de intensidade relativamente baixa.
  17. Aparelho, de acordo com a reivindicação 16, caracterizado pelo fato de que compreende, adicionalmente, um primeiro banco de filtros que analisa o sinal de áudio para obter uma representação de domínio de frequência e em que o primeiro banco de filtros é um dentre um banco de filtro modulado de quadratura (QMF) ou uma transformada de Fourier de tempo curto.
  18. Aparelho, de acordo com a reivindicação 17, caracterizado pelo fato de que o ganho compreende um valor de ganho individual para cada segmento, e em que cada valor de ganho individual é calculado usando amostras de sub-banda em um subconjunto de subbandas em cada segmento de tempo respectivo.
  19. Aparelho, de acordo com a reivindicação 18, caracterizado pelo fato de que o subconjunto de sub-bandas corresponde a toda a faixa de frequência estendida pelo primeiro banco de filtros, e em que o ganho é aplicado no domínio do primeiro banco de filtros.
  20. Aparelho, de acordo com a reivindicação 16, caracterizado pelo fato de que compreende, adicionalmente, uma segunda interface que recebe o sinal de áudio comprimido a partir de um compressor que recebe um sinal de áudio inicial e comprime o sinal de áudio inicial para reduzir substancialmente a faixa dinâmica original do sinal de áudio inicial dividindo-se o sinal de áudio inicial em uma pluralidade de segmentos, calculando um ganho de banda larga no domínio de frequência com o uso de uma média baseada não energética do sinal de áudio inicial; e aplica um valor de ganho respectivo a cada segmento da pluralidade de segmentos para amplificar os segmentos de intensidade relativamente baixa e atenuar os segmentos de intensidade relativamente alta.
  21. Meio não transitório legível por computador caracterizado pelo fato de que contém instruções que, quando executadas por um ou mais processadores, realiza o método como definido na reivindicação 1.
BR122017006632-3A 2013-04-05 2014-04-01 Sistema e método de compansão para reduzir o ruído de quantização com o uso de extensão de espectro avançada BR122017006632A2 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361809028P 2013-04-05 2013-04-05
US61/809,028 2013-04-05
US201361877167P 2013-09-12 2013-09-12
US61/877,167 2013-09-12
PCT/US2014/032578 WO2014165543A1 (en) 2013-04-05 2014-04-01 Companding apparatus and method to reduce quantization noise using advanced spectral extension
BR112015019176-2A BR112015019176B1 (pt) 2013-04-05 2014-04-01 método e aparelho de expansão de um sinal de áudio, método e aparelho de compressão de um sinal de áudio, e mídia legível por computador
BR112015019176-2 2014-04-01

Publications (1)

Publication Number Publication Date
BR122017006632A2 true BR122017006632A2 (pt) 2021-06-29

Family

ID=50629038

Family Applications (2)

Application Number Title Priority Date Filing Date
BR122017006632-3A BR122017006632A2 (pt) 2013-04-05 2014-04-01 Sistema e método de compansão para reduzir o ruído de quantização com o uso de extensão de espectro avançada
BR112015019176-2A BR112015019176B1 (pt) 2013-04-05 2014-04-01 método e aparelho de expansão de um sinal de áudio, método e aparelho de compressão de um sinal de áudio, e mídia legível por computador

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR112015019176-2A BR112015019176B1 (pt) 2013-04-05 2014-04-01 método e aparelho de expansão de um sinal de áudio, método e aparelho de compressão de um sinal de áudio, e mídia legível por computador

Country Status (24)

Country Link
US (6) US9947335B2 (pt)
EP (3) EP2981963B1 (pt)
JP (7) JP6026678B2 (pt)
KR (7) KR20220140002A (pt)
CN (8) CN108269585B (pt)
AP (1) AP2015008800A0 (pt)
AU (1) AU2014248232B2 (pt)
BR (2) BR122017006632A2 (pt)
CA (1) CA2900724C (pt)
CL (1) CL2015002278A1 (pt)
DK (1) DK2981963T3 (pt)
EA (1) EA028755B9 (pt)
ES (1) ES2617314T3 (pt)
HK (4) HK1211379A1 (pt)
HU (1) HUE031966T2 (pt)
IL (8) IL300496A (pt)
ME (1) ME02623B (pt)
MX (1) MX342965B (pt)
MY (2) MY197063A (pt)
PL (1) PL2981963T3 (pt)
RU (2) RU2600527C1 (pt)
SG (1) SG11201506134XA (pt)
WO (1) WO2014165543A1 (pt)
ZA (1) ZA201600393B (pt)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014248232B2 (en) 2013-04-05 2015-09-24 Dolby International Ab Companding apparatus and method to reduce quantization noise using advanced spectral extension
US9584911B2 (en) * 2015-03-27 2017-02-28 Cirrus Logic, Inc. Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses
US10861475B2 (en) * 2015-11-10 2020-12-08 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
US10395664B2 (en) 2016-01-26 2019-08-27 Dolby Laboratories Licensing Corporation Adaptive Quantization
WO2017140600A1 (en) * 2016-02-17 2017-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
US9934788B2 (en) * 2016-08-01 2018-04-03 Bose Corporation Reducing codec noise in acoustic devices
EP3651365A4 (en) * 2017-07-03 2021-03-31 Pioneer Corporation SIGNAL PROCESSING DEVICE, CONTROL PROCESS, PROGRAM, AND INFORMATION SUPPORT
RU2691122C1 (ru) * 2018-06-13 2019-06-11 Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) Способ и устройство компандирования звуковых вещательных сигналов
EP3841572A1 (en) * 2018-08-21 2021-06-30 Dolby International AB Coding dense transient events with companding
EP3844749B1 (en) 2018-08-30 2023-12-27 Dolby International AB Method and apparatus for controlling enhancement of low-bitrate coded audio
CN110265043B (zh) * 2019-06-03 2021-06-01 同响科技股份有限公司 自适应有损或无损的音频压缩和解压缩演算方法
RU2731602C1 (ru) * 2019-09-30 2020-09-04 Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) Способ и устройство компандирования с предыскажением звуковых вещательных сигналов
EP4051678A1 (en) 2019-10-28 2022-09-07 Merck Sharp & Dohme Corp. Small molecule inhibitors of kras g12c mutant
CN115485769A (zh) 2020-04-30 2022-12-16 杜比国际公司 动态范围减小的域中增强多声道音频的方法、装置和***
CN115867966A (zh) 2020-06-01 2023-03-28 杜比国际公司 用于确定生成神经网络的参数的方法和装置
CN114095831A (zh) * 2020-08-25 2022-02-25 上海艾为电子技术股份有限公司 多段动态范围控制电路以及音频处理芯片
CN112133319A (zh) * 2020-08-31 2020-12-25 腾讯音乐娱乐科技(深圳)有限公司 音频生成的方法、装置、设备及存储介质
CN117079657B (zh) * 2023-10-16 2024-01-26 中国铁塔股份有限公司 压限处理方法、装置、电子设备及可读存储介质

Family Cites Families (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6026678B2 (ja) 1981-04-30 1985-06-25 株式会社青木技研 電動ドライバ−の制御装置
JPS6026678A (ja) 1983-07-22 1985-02-09 Hiroshi Uchiyama 原油受入配管防蝕法
JPH05292592A (ja) * 1992-04-10 1993-11-05 Toshiba Corp 音質補正装置
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
JP3485786B2 (ja) 1998-02-10 2004-01-13 三洋電機株式会社 音声データの圧縮/伸長装置
TW390104B (en) * 1998-08-10 2000-05-11 Acer Labs Inc Method and device for down mixing of multi-sound-track compression audio frequency bit stream
US6300888B1 (en) 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
US6487257B1 (en) * 1999-04-12 2002-11-26 Telefonaktiebolaget L M Ericsson Signal noise reduction by time-domain spectral subtraction using fixed filters
AU2725201A (en) * 1999-11-29 2001-06-04 Syfx Signal processing system and method
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
JP2003005797A (ja) 2001-06-21 2003-01-08 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法及び装置、並びに符号化及び復号化システム
JP4247037B2 (ja) 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
EP2665294A2 (en) * 2003-03-04 2013-11-20 Core Wireless Licensing S.a.r.l. Support of a multichannel audio extension
AU2003208517A1 (en) 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
WO2004097796A1 (ja) 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
RU2347282C2 (ru) 2003-07-07 2009-02-20 Конинклейке Филипс Электроникс Н.В. Система и способ обработки звукового сигнала
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
CN1677492A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP5101292B2 (ja) * 2004-10-26 2012-12-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整
EP1825712B1 (en) * 2004-12-16 2010-03-03 Widex A/S Hearing aid with feedback model gain estimation
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7956930B2 (en) 2006-01-06 2011-06-07 Microsoft Corporation Resampling and picture resizing operations for multi-resolution video coding and decoding
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
EP2002429B1 (en) * 2006-04-04 2012-11-21 Dolby Laboratories Licensing Corporation Controlling a perceived loudness characteristic of an audio signal
SG136836A1 (en) * 2006-04-28 2007-11-29 St Microelectronics Asia Adaptive rate control algorithm for low complexity aac encoding
CN100543842C (zh) * 2006-05-23 2009-09-23 中兴通讯股份有限公司 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN101089951B (zh) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
HUE043155T2 (hu) * 2006-07-04 2019-08-28 Dolby Int Ab Szûrõátalakítót és szûrõkrompresszort tartalmazó szûrõrendszer, és eljárás a szûrõrendszer mûködtetésére
DK2064918T3 (en) * 2006-09-05 2015-01-26 Gn Resound As A hearing-aid with histogram based lydmiljøklassifikation
BRPI0715559B1 (pt) * 2006-10-16 2021-12-07 Dolby International Ab Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与***
ATE493731T1 (de) * 2007-06-08 2011-01-15 Dolby Lab Licensing Corp Hybridableitung von surround-sound-audiokanälen durch steuerbares kombinieren von umgebungs- und matrixdekodierten signalkomponenten
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
ES2377719T3 (es) * 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
JP5140730B2 (ja) * 2007-08-27 2013-02-13 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 切り換え可能な時間分解能を用いた低演算量のスペクトル分析/合成
JP4854630B2 (ja) * 2007-09-13 2012-01-18 富士通株式会社 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
CN101903944B (zh) * 2007-12-18 2013-04-03 Lg电子株式会社 用于处理音频信号的方法和装置
RU2437247C1 (ru) * 2008-01-01 2011-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки звукового сигнала
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN101262530B (zh) * 2008-04-29 2011-12-07 中兴通讯股份有限公司 一种消除移动终端回音的装置
US8594343B2 (en) * 2008-05-01 2013-11-26 Japan Science And Technology Agency Sound processing apparatus and sound processing method
JP4750153B2 (ja) * 2008-05-28 2011-08-17 独立行政法人科学技術振興機構 音響装置及び音響調整方法
CN101281747A (zh) * 2008-05-30 2008-10-08 苏州大学 基于声道参数的汉语耳语音声调识别方法
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
BR122021003142B1 (pt) * 2008-07-11 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio, e fluxo de áudio
KR101400484B1 (ko) 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
CA2730355C (en) 2008-07-11 2016-03-22 Guillaume Fuchs Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US20110125507A1 (en) * 2008-07-18 2011-05-26 Dolby Laboratories Licensing Corporation Method and System for Frequency Domain Postfiltering of Encoded Audio Data in a Decoder
CN101656580B (zh) * 2008-08-22 2013-03-20 中兴通讯股份有限公司 全速率语音的处理方法和装置
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
CN101359902B (zh) * 2008-09-25 2012-03-21 炬才微电子(深圳)有限公司 一种音频信号的均衡方法及***
JP5245714B2 (ja) * 2008-10-24 2013-07-24 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
TWI416505B (zh) 2008-10-29 2013-11-21 Dolby Int Ab 對源自數位聲頻資料之聲頻信號的信號截割提供保護之方法及設備
JP5270006B2 (ja) 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
US8626516B2 (en) * 2009-02-09 2014-01-07 Broadcom Corporation Method and system for dynamic range control in an audio processing system
TWI662788B (zh) * 2009-02-18 2019-06-11 瑞典商杜比國際公司 用於高頻重建或參數立體聲之複指數調變濾波器組
JP4843691B2 (ja) 2009-03-09 2011-12-21 株式会社東芝 信号特性変化装置
CN101853666B (zh) * 2009-03-30 2012-04-04 华为技术有限公司 一种语音增强的方法和装置
CN101521014B (zh) * 2009-04-08 2011-09-14 武汉大学 音频带宽扩展编解码装置
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
CN102461207B (zh) * 2009-05-29 2015-04-22 夏普株式会社 声音重放装置、声音重放方法和记录介质
US8949114B2 (en) * 2009-06-04 2015-02-03 Optis Wireless Technology, Llc Method and arrangement for estimating the quality degradation of a processed signal
CN101668303B (zh) * 2009-09-24 2012-02-15 武汉中元通信股份有限公司 双频段宽带电台野外联试通信仿真方法与平台
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
MX2012004623A (es) * 2009-10-21 2012-05-08 Dolby Int Ab Aparato y metodo para generar una señal de audio de alta frecuencia usando sobremuestreo adaptivo.
CN101916567B (zh) * 2009-11-23 2012-02-01 瑞声声学科技(深圳)有限公司 应用于双麦克风***的语音增强方法
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing
CN101800520B (zh) * 2010-02-25 2013-05-22 青岛海信移动通信技术股份有限公司 自动增益控制的实现方法及实现***
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US8616516B2 (en) 2010-03-24 2013-12-31 Intertechnique S.A. Assembling device for cabin interior components
CN101867809A (zh) * 2010-04-09 2010-10-20 中国科学院光电技术研究所 基于脉动阵列的高速图像压缩vlsi编码方法及编码器
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
WO2011127832A1 (en) 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US8964993B2 (en) * 2010-04-27 2015-02-24 Yobe, Inc. Systems and methods for enhancing audio content
JP5882895B2 (ja) 2010-06-14 2016-03-09 パナソニック株式会社 復号装置
CN102361506A (zh) * 2011-06-08 2012-02-22 北京昆腾微电子有限公司 无线音频通信***、以及用于发射音频信号的方法和设备
US20130136282A1 (en) * 2011-11-30 2013-05-30 David McClain System and Method for Spectral Personalization of Sound
CN102543086B (zh) * 2011-12-16 2013-08-14 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法
CN102522092B (zh) * 2011-12-16 2013-06-19 大连理工大学 一种基于g.711.1的语音带宽扩展的装置和方法
CN102625220B (zh) * 2012-03-22 2014-05-07 清华大学 一种确定助听设备听力补偿增益的方法
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
AU2014248232B2 (en) * 2013-04-05 2015-09-24 Dolby International Ab Companding apparatus and method to reduce quantization noise using advanced spectral extension
US10861475B2 (en) * 2015-11-10 2020-12-08 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
EP3841572A1 (en) * 2018-08-21 2021-06-30 Dolby International AB Coding dense transient events with companding

Also Published As

Publication number Publication date
IL274358B (en) 2021-05-31
EA028755B9 (ru) 2018-04-30
EA201591533A1 (ru) 2015-12-30
WO2014165543A1 (en) 2014-10-09
HK1254790A1 (zh) 2019-07-26
JP6542717B2 (ja) 2019-07-10
CN106024008B (zh) 2020-01-14
RU2712814C2 (ru) 2020-01-31
IL283098B (en) 2022-06-01
JP2019179254A (ja) 2019-10-17
RU2020100016A (ru) 2021-07-08
CN108269584A (zh) 2018-07-10
US9947335B2 (en) 2018-04-17
SG11201506134XA (en) 2015-09-29
US20160019908A1 (en) 2016-01-21
CN114566182A (zh) 2022-05-31
CN108269586B (zh) 2022-04-05
EP3564953A2 (en) 2019-11-06
JP2022088519A (ja) 2022-06-14
JP2016510439A (ja) 2016-04-07
MY197063A (en) 2023-05-23
CL2015002278A1 (es) 2015-12-11
IL240006A0 (en) 2015-09-24
EP3176786A1 (en) 2017-06-07
US20180197562A1 (en) 2018-07-12
EP3564953A3 (en) 2020-02-26
BR112015019176A2 (pt) 2017-07-18
IL292853B2 (en) 2023-07-01
BR112015019176B1 (pt) 2021-02-09
KR102509345B1 (ko) 2023-03-14
JP2024020311A (ja) 2024-02-14
HK1257807A1 (zh) 2019-11-01
EP3176786B1 (en) 2019-05-08
ZA201600393B (en) 2017-05-31
RU2016116038A (ru) 2018-11-30
EP2981963A1 (en) 2016-02-10
IL274358A (en) 2020-06-30
CN106024008A (zh) 2016-10-12
CA2900724C (en) 2016-09-13
KR101632599B1 (ko) 2016-06-22
IL261514B (en) 2019-05-30
US20200395031A1 (en) 2020-12-17
AU2014248232B2 (en) 2015-09-24
EP3564953B1 (en) 2022-03-23
KR102081043B1 (ko) 2020-02-26
CN114566183A (zh) 2022-05-31
ES2617314T3 (es) 2017-06-16
MX342965B (es) 2016-10-19
AU2014248232A1 (en) 2015-08-06
CA2900724A1 (en) 2014-10-09
JP7383067B2 (ja) 2023-11-17
KR20200028037A (ko) 2020-03-13
JP6838105B2 (ja) 2021-03-03
ME02623B (me) 2017-06-20
IL261514A (en) 2018-10-31
PL2981963T3 (pl) 2017-06-30
EA028755B1 (ru) 2017-12-29
CN104995680B (zh) 2018-04-03
IL292853B1 (en) 2023-03-01
JP2016167081A (ja) 2016-09-15
US10217476B2 (en) 2019-02-26
MY173488A (en) 2020-01-28
CN105933030B (zh) 2018-09-28
HK1254791A1 (zh) 2019-07-26
IL283098A (en) 2021-06-30
KR20230039765A (ko) 2023-03-21
MX2015010478A (es) 2015-12-16
HK1211379A1 (en) 2016-05-20
HUE031966T2 (en) 2017-08-28
US20180197561A1 (en) 2018-07-12
KR20210049963A (ko) 2021-05-06
CN108269584B (zh) 2022-03-25
IL266569B (en) 2020-06-30
KR102088153B1 (ko) 2020-03-12
KR20150098688A (ko) 2015-08-28
JP6026678B2 (ja) 2016-11-16
JP2016191934A (ja) 2016-11-10
DK2981963T3 (en) 2017-02-27
IL300496A (en) 2023-04-01
JP6517723B2 (ja) 2019-05-22
IL266569A (en) 2019-07-31
RU2016116038A3 (pt) 2019-11-11
KR20160075805A (ko) 2016-06-29
EP2981963B1 (en) 2017-01-04
AP2015008800A0 (en) 2015-10-31
IL292853A (en) 2022-07-01
IL240006A (en) 2016-03-31
CN105933030A (zh) 2016-09-07
US10373627B2 (en) 2019-08-06
CN108269585B (zh) 2022-03-25
KR20220140002A (ko) 2022-10-17
US20230049495A1 (en) 2023-02-16
US20190325890A1 (en) 2019-10-24
JP7050976B2 (ja) 2022-04-08
US10679639B2 (en) 2020-06-09
JP2021076872A (ja) 2021-05-20
US11423923B2 (en) 2022-08-23
IL243689A0 (en) 2016-04-21
CN104995680A (zh) 2015-10-21
CN108269586A (zh) 2018-07-10
KR102248008B1 (ko) 2021-05-07
CN108269585A (zh) 2018-07-10
KR20160075804A (ko) 2016-06-29
RU2600527C1 (ru) 2016-10-20

Similar Documents

Publication Publication Date Title
JP7383067B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
RU2801156C2 (ru) Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]
B12B Appeal against refusal [chapter 12.2 patent gazette]