BR112016009563B1 - Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência - Google Patents

Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência Download PDF

Info

Publication number
BR112016009563B1
BR112016009563B1 BR112016009563-4A BR112016009563A BR112016009563B1 BR 112016009563 B1 BR112016009563 B1 BR 112016009563B1 BR 112016009563 A BR112016009563 A BR 112016009563A BR 112016009563 B1 BR112016009563 B1 BR 112016009563B1
Authority
BR
Brazil
Prior art keywords
signal
bandwidth extension
module
frequency domain
noise
Prior art date
Application number
BR112016009563-4A
Other languages
English (en)
Inventor
Sascha Disch
Markus Multrus
Benjamin SCHUBERT
Markus Schnell
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112016009563B1 publication Critical patent/BR112016009563B1/pt

Links

Images

Abstract

EXTENSÃO DE LARGURA DE BANDA DE ÁUDIO ATRAVÉS DA INSERÇÃO DE RUÍDO TEMPORAL PRÉ- FORMADO NO DOMÍNIO DE FREQUÊNCIA. A invenção proporciona um dispositivo decodificador de áudio para decodificação de um fluxo de bits, o dispositivo decodificador de áudio compreendendo: um receptor de fluxo de bits configurado para receber o fluxo de bits e derivar um sinal de áudio codificado do fluxo de bits; um módulo decodificador de núcleo configurado para derivar um sinal de áudio decodificado em um domínio de tempo do sinal de áudio codificado; um gerador de envelope temporal configurado para determinar um envelope temporal do sinal de áudio decodificado; um módulo de extensão de largura de banda configurado para produzir um sinal de extensão de largura de banda de domínio de frequência, em que o módulo de extensão de largura de banda compreende um gerador de ruído configurado para produzir um sinal de ruído no domínio de tempo, em que o módulo de extensão de largura de banda compreende um módulo de pré-formação configurado para formação temporal do sinal de ruído, dependendo do envelope temporal do sinal de áudio decodificado, a fim de produzir um sinal de ruído formado em um sinal de ruído de (...).

Description

[001] Descrição
[002] A invenção se refere à codificação de voz e de áudio e particularmente à extensão de largura de banda de áudio (BWE).
[003] As técnicas de extensão de largura de banda se concentram em melhorar a qualidade perceptível de um codec de áudio, através do alargamento de sua largura de banda de saída efetiva. Em vez de codificar a faixa total de largura de banda com o codificador de núcleo subjacente, codecs usando uma técnica de extensão de largura de banda permitem menor consumo de bits nas faixas de frequências mais altas (HF) perceptualmente menos importantes. Assim, existem mais bits disponíveis para o codificador de núcleo que processa a mais importante faixa de frequências mais baixas (LF) com uma precisão maior. Por essa razão, as técnicas de extensão de largura de banda são comumente usadas em codecs, que precisam realizar qualidade perceptual adequada em baixas taxas de bits.
[004] Em geral, há duas abordagens básicas diferentes de extensão de largura de banda que precisam ser distinguidas: extensão cega da largura de banda e extensão orientada da largura de banda. Em uma extensão cega da largura de banda, nenhuma informação auxiliária adicional é transmitida. Desse modo, o conteúdo em HF a ser inserido no lado do decodificador é gerado usando apenas informação derivada do sinal de LF decodificado do codificador de núcleo. Uma vez que uma transmissão de dispendiosa informação auxiliária não é necessária, técnicas de extensão cega da largura de banda são bem adequadas para codecs operando em taxas de bits mais baixas ou procedimentos de pós-processamento compatíveis com versões anteriores. Por outro lado, a ausência de controlabilidade apenas permite uma extensão de largura de banda efetiva relativamente pequena usando uma extensão cega da largura de banda (por exemplo, 6,4 - 7,0 kHz em [1]). Em contraste com a abordagem cega, em uma extensão orientada da largura de banda, o conteúdo em HF é reconstruído usando parâmetros, que são extraídos no lado do codificador e transmitidos para o decodificador como informação auxiliária no fluxo de bits. Portanto, uma extensão orientada da largura de banda permite um controle menor da reconstrução em HF, renderizando as larguras de banda efetivas mais largas possíveis. Devido ao consumo adicional de bits, técnicas de extensão orientada da largura de banda são usadas, comumente, para codecs operando em taxas de bits mais altas como sistemas incorporando uma extensão cega da largura de banda.
[005] Mais especificamente, há diferentes metodologias para a realização de uma extensão de largura de banda:
[006] Na codificação de voz, usualmente são usados métodos de extensão da largura de banda com base em modelo de filtro - fonte, os quais estão intimamente relacionados com seus codificadores de núcleo subjacentes como, por exemplo, em G.722.2 (AMR-WB) [1]. Em AMR-WB, a largura de banda de saída de 6,4 kHz do codificador de núcleo ACELP (algebric code-excited linear prediction - Predição Linear com Excitação por Código Algébrico) é estendida para 7,0 kHz através da injeção de ruído branco no domínio da excitação. Subsequentemente, a excitação estendida é formada por um filtro derivado do filtro de predição linear (LP) do codificador de núcleo. Dependendo da taxa de bits, o ganho para escalonamento do ruído inserido é estimado usando apenas informação de codificador de núcleo ou é extraído no codificador e transmitido. Esse método de extensão de largura de banda é grandemente dependente de seu esquema de codificação subjacente, visto que está usando seus mecanismos de síntese e, assim, adicionalmente, tem que ser realizado no mesmo domínio.
[007] Uma técnica bem conhecida de extensão de largura de banda independente do codificador de núcleo em codificação de áudio é a replicação de banda espectral (SBR) [2]. Em contraste ao exemplo anterior, a replicação de banda espectral pode ser aplicada independentemente de seu codificador de núcleo subjacente. Como uma primeira etapa, o sinal de entrada é dividido em uma parte de LF e uma parte de HF no lado do codificador, por exemplo, pelo uso de um banco de filtro de análise de filtros de espelho de quadratura (QMF). O sinal de LF é alimentado ao codificador de núcleo enquanto a parte de HF é processada através de replicação de banda espectral. Portanto, os parâmetros descrevendo o envelope de tempo - frequência do sinal de HF, bem como tonalidade /ruído do sinal de HF em relação ao sinal de LF são extraídos e transmitidos. Após a decodificação, o sinal é transformado usando o mesmo tipo de banco de filtros de análise usado no codificador. Para reconstruir o conteúdo de HF o sinal decodificado é copiado, espelhado ou transposto em porções para a faixa de HF, pós-processado para corresponder à tonalidade/ ruído do original e formado, temporariamente, bem como espectralmente, considerando os parâmetros transmitidos. Subsequentemente, o sinal de saída de domínio de tempo é gerado por um banco de filtros de síntese correspondente.
[008] Em contraste com os métodos (semi-)paramétricos observados anteriormente também existem abordagens de múltiplas camadas utilizando múltiplas camadas seletivas de taxas de bits para a extensão de largura de banda. Este princípio está também estreitamente relacionado com esquemas de codificação escalonáveis. Essas técnicas são muitas vezes utilizadas para estender os sistemas de codificação existentes em uma maneira interoperável. Em [3] é apresentada uma super-extensão de largura de banda de banda larga (SWB) para G.711.1 e G.722, que processa a largura de banda adicional (8,014,4 kHz) com um esquema de codificação baseado em transformação discreta de co-seno modificada (MDCT) independente do codificador de núcleo. Esta abordagem permite a reconstrução exata de partes de HF, mas à custa de alto consumo de bits adicionalmente necessário.
[009] Embora as abordagens de extensão de largura de banda mencionadas acima sejam amplamente dispersas nos presentes sistemas de codificação de voz e de áudio, todos revelam dificuldades ou desvantagens, respectivamente.
[010] É um objetivo da presente invenção proporcionar um conceito melhorado para a extensão de largura de banda.
[011] Este objetivo é conseguido por um dispositivo decodificador para decodificar um fluxo de bits, em que o dispositivo decodificador de áudio compreende:
[012] um receptor de fluxo de bits configurado para receber o fluxo de bits e derivar um sinal de áudio codificado do fluxo de bits;
[013] um módulo decodificador de núcleo configurado para derivar um sinal de áudio decodificado em um domínio de tempo do sinal de áudio codificado;
[014] um gerador de envelope temporal configurado para determinar um envelope temporal do sinal de áudio decodificado;
[015] um módulo de extensão de largura de banda configurado para produzir um sinal de extensão de largura de banda de domínio de frequência, em que o módulo de extensão de largura de banda compreende um gerador de ruído configurado para produzir um sinal de ruído no domínio de tempo, em que o módulo de extensão de largura de banda compreende um módulo de pré- formação configurado para formação temporal do sinal de ruído, dependendo do envelope temporal do sinal de áudio decodificado, a fim de produzir um sinal de ruído formado em um sinal de ruído de frequência e em que o módulo de extensão de largura de banda compreende um conversor de tempo para frequência configurado para transformar o sinal de ruído formado em um sinal de ruído de domínio de frequência, em que o sinal de extensão de largura de banda de domínio de frequência depende do sinal de ruído de domínio de frequência;
[016] um conversor de tempo para frequência configurado para transformar o sinal de áudio decodificado em um sinal de áudio decodificado de domínio de frequência;
[017] um combinador configurado para combinar o sinal de áudio decodificado de domínio de frequência e o sinal de extensão de largura de banda de domínio de frequência, a fim de produzir um sinal de áudio de domínio de frequência de largura de banda estendida; e
[018] um conversor de frequência para tempo configurado para transformar o sinal de áudio de domínio de frequência de largura de banda estendida em um sinal de áudio de domínio de tempo de largura de banda estendida.
[019] A invenção proporciona um conceito de extensão de largura de banda que pode ser basicamente aplicado independente da técnica de codificação de núcleo subjacente. Além disso, oferece uma extensão de largura de banda até superfaixas de frequência de banda larga para pontos de operação de baixa taxa de bits, com alta qualidade perceptual especialmente para sinais de voz. Isto é conseguido através da geração de sinais de ruído formado temporalmente no domínio do tempo, que são transformados e inseridos para o sinal de áudio decodificado de domínio de frequência.
[020] O termo sinal de extensão de largura de banda no domínio da frequência refere-se a um sinal que compreende frequências, que não estão contidas no sinal de áudio decodificado.
[021] Em sistemas flexíveis, de sinal adaptativo, que incorporam mais do que um único codificador de núcleo, por exemplo, como contido na codificação unificada de voz e áudio (MPEG-D USAC), artefatos de comutação que ocorrem na zona de transição entre os diferentes codificadores de núcleo, podem ser enfatizados como também a extensão de largura de banda tem de ser comutada ao mesmo tempo. Estes problemas podem ser ultrapassados pela aplicação de uma técnica de extensão de largura de banda independente do codificador de núcleo de acordo com a invenção.
[022] A replicação de banda espectral introduz artefatos que podem ser irritante, especialmente quando a voz é codificada devido à aplicação de patches de componentes de LF para a parte de HF. Esses artefatos surgem devido à correlação de LF- e conteúdo de HF com aplicação de patches, por um lado. Por outro lado, a possível incompatibilidade espectral entre a parte de LF- e a de HF- e leva a sonoridade afiada, distorções harmônicas. Em contraste com isso, o dispositivo de decodificação de acordo com a invenção evita a produção de artefatos e som agudo.
[023] Outra desvantagem da replicação de banda espectral é a possibilidade restrita de manipular a estrutura temporal da parte de HF com aplicação de patches. Devido à necessidade de uma representação paramétrica de tempo - frequência eficiente de taxa de bits do conteúdo, a resolução temporal é limitada. Isso poderia ser desvantajoso, por exemplo, para processamento da voz feminina, onde o passo dos pulsos glóticos é alto e também exibe uma alta variabilidade temporal. O dispositivo decodificador de acordo com a invenção é, em contraste com a replicação de banda espectral, bem adequado para reprodução da voz feminina.
[024] Finalmente, uma extensão de largura de banda com base em várias camadas é capaz de reconstruir conteúdo-HF em uma maneira espectral e temporalmente exata, mas, por outro lado, seu consumo de bits necessário é significativamente maior do que para abordagens paramétricas. O dispositivo decodificador, de acordo com a invenção, proporciona menor consumo de bits compilado para essas abordagens.
[025] Desse modo, a presente invenção proporciona um novo conceito de extensão de largura de banda, que combina os benefícios das técnicas bem conhecidas de extensão de largura de banda, previamente descritas, ao mesmo tempo em que omite suas desvantagens, mais especificamente, um conceito é proporcionado, que possibilita codificação de voz de superbanda larga, de alta qualidade, em baixas taxas de bits, ao mesmo tempo sendo independente do codificador de núcleo subjacente.
[026] A invenção proporciona alta qualidade perceptual para voz para larguras de banda de saída até a faixa de superbanda larga. A extensão de largura de banda de acordo com a invenção é independente de seu codec de núcleo subjacente. Portanto, é - em contraste com a extensão de largura de banda de codificação de voz padrão - adequada para ser usada no topo de um sistema comutado, incorporando esquemas de codificação fundamentalmente diferentes.
[027] Como a mistura do sinal da extensão de largura de banda recentemente proposta e o do decodificador de núcleo é realizada em uma representação- tempo- frequência comparável com a replicação de banda espectral, ambas as técnicas poderiam ser facilmente combinadas em um sistema combinado, onde comutação sem costura em uma base de quadro a quadro ou mistura dentro de um dado quadro seria possível. Como a nova extensão de largura de banda se focaliza principalmente na voz, essa abordagem poderia ser desejável para processar sinais contendo música ou conteúdo misturado. A comutação pode ser controlada através da análise do sinal de núcleo.
[028] De acordo com a invenção, a geração e a subsequente formação de ruído é feita no domínio de tempo, porque no domínio de tempo a resolução temporal pode ser mais elevada do que em soluções, em que o ruído é gerado e formado dentro de uma representação- tempo- frequência, semelhante ao aplicado no processamento de replicação de banda espectral, visto que os bancos de filtros limitam a resolução de tempo, o que é essencial para a reprodução de voz aguda (por exemplo, feminina).
[029] Para evitar os problemas acima mencionados e ainda cumprir os requisitos, a nova extensão de largura de banda executa as seguintes etapas de processamento: em primeiro lugar, um único sinal de ruído é gerado no domínio do tempo, onde o número de amostras surge da taxa de quadros do sistema, bem como da taxa de amostragem escolhida e da largura de banda do sinal de ruído. Subsequentemente, o sinal de ruído é temporalmente pré-formado, com base no envelope temporal do sinal decodificado de codificador de núcleo. Além disso, o sinal de tempo - frequência representado combinado é convertido no sinal de áudio de domínio de tempo de largura de banda estendida, por transformação inversa.
[030] Técnicas de extensão de largura de banda são comumente usadas na codificação de voz e de áudio para melhorar a qualidade perceptual, através do alargamento da largura de banda de saída efetiva. Assim, a maioria dos bits disponíveis pode ser utilizada dentro do codificador de núcleo, permitindo uma maior precisão na faixa de frequências inferiores mais importantes. Embora existam abordagens, algumas das quais ganharam ampla aceitação, todos elas carecem de viabilidade para processamento de voz por um sistema que incorpora múltiplos, codificadores de núcleo comutáveis, com base em diferentes esquemas de codificação. Como a extensão de largura de banda de acordo com a invenção é independente da tecnologia do decodificador de núcleo, a presente invenção propõe uma técnica de extensão de largura de banda, a qual é perfeitamente adequada para a aplicação acima mencionada e outras.
[031] Dentro da extensão de largura de banda de acordo com a invenção, os sinais de extensão totalmente sintéticos podem ser gerados tendo um envelope temporal que pode ser pré-formado, e assim, adaptadas ao sinal de codificador de núcleo subjacente. A formação do envelope temporal do sinal de extensão pode ser feita em uma resolução de tempo significativamente superior ao que está disponível no banco de filtros genuíno ou transformar o domínio empregado no processo de pós-formação de extensão de largura de banda.
[032] De acordo com uma modalidade preferida da invenção é o sinal de extensão de largura de banda de domínio de frequência produzido sem replicação de banda espectral. Por essas características um esforço computacional necessário pode ser minimizado.
[033] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda é configurado de tal maneira, que a formação temporal do sinal de ruído é feita de uma maneira superenfatizada. Em vez de formar o sinal de ruído com base no envelope temporal original do sinal de áudio decodificado; também é possível efetuar esta formação de uma maneira superenfatizada. Isso pode ser realizado através de dispersão do envelope temporal em termos de amplitudes, em outras palavras, pela expansão dinâmica, em particular por modificação do envelope medido para representar pulsos muito mais acentuados do que foram medidos, antes de retirar ganhos de pré- formação em sua base. Embora esta ênfase excessiva não represente o envelope original real, a inteligibilidade de algumas partes do sinal, como por exemplo, vogais, melhora para taxas de bits muito baixas.
[034] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda é configurado de tal maneira, que a formação temporal do sinal de ruído é feita no modo de sub-bandas através da divisão do sinal de ruído em vários sinais de ruído de sub-bandas por um banco de filtros passa-banda e executando uma formação temporal específica em cada um dos sinais de ruído de sub-banda.
[035] Em vez de pré-formar o sinal de ruído de modo uniforme, a formação pode ser feita mais precisamente através da divisão do sinal de ruído em várias sub-bandas de um banco de filtros passa-banda e executar uma formação específica em cada sinal de sub-banda.
[036] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda compreende um seletor de faixa de frequências configurado para definir uma faixa de frequências do sinal de extensão de largura de banda no domínio de frequência. Depois de transformar o sinal de ruído formado em uma representação de tempo-frequência, a largura de banda alvo do sinal de áudio no domínio das frequências de largura de banda estendida pode ser selecionada e, se necessário, deslocada para a sua posição espectral pretendida. Por essas características a faixa de frequências do sinal de áudio no domínio do tempo - largura de banda estendida pode ser escolhida de uma maneira fácil.
[037] De acordo com uma modalidade preferida da invenção compreende o módulo de extensão de largura de banda de um módulo de pós-formação configurado para dar forma temporal e/ou espectral no domínio de frequência do sinal de extensão de largura de banda no domínio de frequência. Com estas características o sinal de extensão de largura de banda no domínio de frequência pode ser adaptado com relação a uma tendência temporal adicional e/ou um envelope espectral para refinamento.
[038] De acordo com uma modalidade preferida da invenção, o receptor de fluxo de bits é configurado para derivar um sinal de informação auxiliária do fluxo de bits, em que o módulo de extensão de largura de banda é configurado para produzir o sinal de extensão de largura de banda no domínio de frequência dependendo do sinal de informação auxiliária. Com outras palavras, a informação auxiliária adicional, que foi extraída dentro do codificador e transmitida através do fluxo de bits, pode ser aplicada para posterior refinamento do sinal de extensão de largura de banda no domínio de frequência. Por essas características, a qualidade percebida do sinal de áudio de domínio de tempo de largura de banda estendida pode ser ainda aumentada.
[039] De acordo com uma modalidade preferida da invenção, o gerador de ruído é configurado para produzir o sinal de ruído dependendo do sinal de informação auxiliária. Nesta modalidade, o gerador de ruído pode ser controlado de maneira a obter um sinal de ruído com uma inclinação espectral, em lugar de ruído branco espectralmente plano, a fim de aperfeiçoar ainda mais a qualidade percebida do sinal de áudio de domínio de tempo de largura de banda estendida.
[040] De acordo com uma modalidade preferida da invenção, o módulo de pré-formação é configurado para formação temporal do sinal de ruído, dependendo do sinal de informação auxiliária. Dentro da pré-formação, a informação auxiliária pode ser usada para, por exemplo, escolher uma certa largura de banda alvo do sinal de decodificador de núcleo, que é usado para pré- formação.
[041] De acordo com uma modalidade preferida da invenção, o módulo de pós-formação é configurado para formação temporal e/ou espectral do sinal de ruído de saída no domínio de frequência, dependendo do sinal de informação auxiliária. Usando a informação auxiliária na pós-formação pode-se assegurar que o envelope de tempo - frequência do sinal de extensão de largura de banda de domínio de frequência segue o envelope original.
[042] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda compreende um gerador de ruído configurado para produzir um outro sinal de ruído em um domínio de tempo, um outro módulo de pré-formação, configurado para formação temporal do sinal de ruído, dependendo do envelope temporal do sinal de áudio decodificado a fim de produzir um outro sinal de ruído formado e um outro conversor de tempo para frequência configurado para transformar o sinal de ruído formado em um outro sinal de ruído de domínio de frequência, em que o sinal de extensão de largura de banda de domínio de frequência depende do sinal de ruído de domínio de frequência. A produção do sinal de extensão de largura de banda de domínio de frequência usando dois ou mais sinais de ruído no domínio de frequência pode levar a um aumento da qualidade percebida do sinal de áudio de domínio de tempo de largura de banda estendida.
[043] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda é configurado de maneira que a formação temporal do sinal de ruído adicional é feito de maneira superenfatizada. Em lugar de formação do sinal de ruído adicional com base no envelope temporal original do sinal de áudio decodificado, também é possível realizar essa formação de maneira superenfatizada. Isso pode ser realizado pela dispersão do envelope temporal em termos de amplitudes antes da derivação de ganhos da pré-forma em sua base. Embora essa superenfatização não representa o envelope original real, a inteligibilidade de algumas porções de sinais, como, por exemplo, vogais, aperfeiçoa taxas de bits muito baixas.
[044] De acordo com a modalidade preferida da invenção, o módulo de extensão de largura de banda é configurado de tal maneira que a formação temporal do sinal de ruído é feito no sentido de sub-banda, dividindo o sinal de ruído adicional em vários outros sinais de ruído de sub-banda de um banco de filtros passa banda e a execução de uma formação temporal específica em cada um dos outros sinais de ruído de sub-banda.
[045] Em vez de pré-formar o outro sinal de ruído de modo uniforme, a formação pode ser feita mais precisamente através da divisão do sinal de ruído adicional em várias sub-bandas de um banco de filtros passa-banda e executar uma formação específica em cada sinal de sub-banda.
[046] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda compreende um gerador de tom configurado para produzir um sinal de tom em um domínio de tempo, um módulo de pré-formação configurado para formação temporal do sinal de tom dependendo do envelope temporal do sinal de áudio decodificado a fim de produzir um sinal de tom formado e um conversor de tempo para frequência configurado para transformar o sinal de tom moldado para formar um sinal de tom de domínio de frequência, onde o sinal de extensão de largura de banda no domínio da frequência depende do sinal de tom no domínio de frequência.
[047] O dito gerador de tons pode ser funcional para produzir todos os tipos de tons, por exemplo, tons senoidais, tons de onda em triângulo e de onda quadrada, tons de dente de serra, pulsos que parecem voz artificial, etc. Além do processamento de sinais de ruído sintéticos, também é possível gerar componentes tonais sintéticas no domínio do tempo que estão em forma temporal e posteriormente transformados em uma representação de frequência. Neste caso, a formação no domínio do tempo, por exemplo, é benéfica, por exemplo, para modelar precisamente o ADSR (ataque, decaimento, sustentação, liberação) fases de tons, que não é possível em uma representação no domínio de frequência comum. O uso, adicionalmente, de um sinal de tom de domínio de frequência pode aumentar ainda mais a qualidade do sinal no domínio do tempo da largura de banda estendida.
[048] De acordo com uma modalidade preferida da invenção, o módulo decodificador de núcleo compreende um decodificador de núcleo no domínio de tempo e um decodificador de núcleo no domínio de frequência, em que o decodificador de núcleo no domínio de tempo ou o decodificador de núcleo no domínio de frequência é usado para derivação do sinal de áudio decodificado do sinal de áudio codificado. Essas características permitem o uso da invenção em um ambiente de voz e de áudio unificado (MPEG-D USAC).
[049] De acordo com uma modalidade preferida da invenção, um extrator de parâmetros de controle é configurado para extração de parâmetros de controle usados pelo módulo decodificador de núcleo do sinal de áudio decodificado e em que o módulo de extensão de largura de banda é configurado para produzir o sinal de extensão de largura de banda de domínio de frequência, dependendo dos parâmetros de controle. Embora o sinal de extensão de largura de banda de domínio de frequência possa ser produzido cegamente com base no envelope de codificador de núcleo ou controlado por parâmetros derivados do sinal de codificador de núcleo, ele também pode ser produzido de maneira parcialmente orientada, por meio de parâmetros extraídos e transmitidos do codificador.
[050] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda compreende um calculador de ganhos de formação configurado para estabelecimento de ganhos de formação para o módulo de pré-formação, dependendo do envelope temporal do sinal de áudio decodificado e em que o módulo de pré-formação é configurado para formação temporal do sinal de ruído, dependendo dos ganhos de formação para o módulo de pré-formação. Essas características permitem a implementação da invenção de maneira fácil.
[051] De acordo com uma modalidade preferida da invenção, o calculador de ganhos de formação para estabelecimento de ganho de formação para o módulo de pré-formação é configurado para estabelecimento de ganhos de formação para o módulo de pré-formação, dependendo dos parâmetros de controle. Essas características permitem a implementação da invenção de maneira fácil.
[052] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda compreende um calculador de ganhos de formação configurado para estabelecimento de ganhos de formação para o outro módulo de pré-formação, dependendo do envelope temporal do sinal de áudio decodificado e em que o outro módulo de pré-formação adicional é configurado para formação temporal do outro sinal de ruído, dependendo dos ganhos de formação para o outro módulo de pré-formação.
[053] De acordo com uma modalidade preferida da invenção, o calculador de ganhos de formação para estabelecimento de ganho de formação para o outro módulo de pré-formação é configurado para estabelecimento de ganhos de formação para o módulo de pré-formação, dependendo dos parâmetros de controle.
[054] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda compreende um calculador de ganhos de formação configurado para estabelecimento de ganhos de formação para o módulo de pré-formação de tons, dependendo do envelope temporal do sinal de áudio decodificado e em que o módulo de pré-formação de tons é configurado para formação temporal do sinal de tom, dependendo dos ganhos de formação para o módulo de pré-formação de tons.
[055] De acordo com uma modalidade preferida da invenção, o calculador de ganhos de formação para estabelecimento de ganhos de formação para o módulo de pré-formação de tons é configurado para estabelecimento de ganhos de formação para o outro módulo de pré-formação, dependendo dos parâmetros de controle.
[056] Em um outro aspecto, o objetivo é alcançado por um método para decodificação de um fluxo de bits, em que o método compreende as etapas de:
[057] recebimento de fluxo de bits e derivação de um sinal de áudio codificado do fluxo de bits usando um receptor de fluxo de bits;
[058] derivação de um sinal de áudio decodificado em um domínio de tempo do sinal de áudio codificado, usando um módulo decodificador de núcleo;
[059] determinação de um envelope temporal do sinal de áudio decodificado, usando um gerador de envelope temporal;
[060] produção de um sinal de extensão de largura de banda no domínio de frequência, usando um módulo de extensão de largura de banda executando as etapas de:
[061] produção de um sinal de ruído no domínio de tempo usando um gerador de ruído do módulo de extensão de largura de banda;
[062] formação temporal do sinal de ruído, dependendo do envelope temporal do sinal de áudio decodificado, a fim de produzir um sinal de ruído formado, usando um módulo de pré-formação do módulo de extensão de largura de banda;
[063] transformação do sinal de ruído formado em um sinal de ruído de domínio de frequência; em que o sinal de extensão de largura de banda de domínio de frequência depende do sinal de ruído de domínio de frequência, usando um conversor de tempo para frequência do módulo de extensão de largura de banda;
[064] transformação de sinal de áudio decodificado em um sinal de áudio decodificado de domínio de frequência usando um outro conversor de frequência para tempo;
[065] combinação do sinal de áudio decodificado de domínio de frequência e do sinal de áudio de domínio de frequência de largura de banda estendida a fim de produzir um sinal de áudio de domínio de frequência de largura de banda estendida usando um combinador; e
[066] transformação de sinal de áudio de domínio de frequência de largura de banda estendida em um sinal de áudio de domínio de tempo de largura de banda estendida, usando um conversor de frequência para tempo.
[067] Em um outro aspecto, o objetivo é alcançado através de um programa de computador executando o método da invenção ao se executar em um processador.
[068] Modalidades preferidas da invenção são discutidas subsequentemente com relação aos desenhos anexos, em que:
[069] A figura 1 ilustra uma primeira modalidade de um dispositivo decodificador de áudio de acordo com a invenção em uma vista esquemática;
[070] A figura 2 ilustra uma segunda modalidade de um dispositivodecodificador de áudio de acordo com a invenção em uma vista esquemática;
[071] A figura 3 ilustra uma terceira modalidade de um dispositivodecodificador de áudio de acordo com a invenção em uma vista esquemática;
[072] A figura 4 ilustra uma quarta modalidade de um dispositivo decodificador de áudio de acordo com a invenção em uma vista esquemática.
[073] A figura 1 ilustra uma primeira modalidade de um dispositivo decodificador de áudio de acordo com a invenção em uma vista esquemática.
[074] O dispositivo decodificador de áudio 1 compreende:
[075] um receptor de fluxo de bits 2 configurado para receber o fluxo de bits BS e derivar um sinal de áudio codificado EAS do fluxo de bits BS;
[076] um módulo decodificador de núcleo 3, configurado para derivação de um sinal de áudio decodificado DAS em domínio de tempo do sinal de áudio codificado EAS;
[077] um gerador de envelope temporal 4, configurado para determinar um envelope temporal TED do sinal de áudio decodificado DAS;
[078] um módulo de extensão de largura de banda 5 configurado para produzir um sinal de extensão de largura de banda de domínio de frequência BEF, em que o módulo de extensão de largura de banda 5 compreende um gerador de ruído 6, configurado para produzir um sinal de ruído NOS em domínio de tempo, em que o módulo de extensão de largura de banda 5 compreende um módulo de pré-formação 7 configurado para formação temporal do sinal de ruído NOS, dependendo do envelope temporal TED do sinal de áudio decodificado DAS a fim de produzir um sinal de áudio formado SNS e em que o módulo de extensão de largura de banda 5 compreende um conversor de tempo para frequência 8, configurado para transformar o sinal de ruído formado SNS em um sinal de ruído de domínio de frequência FNS, em que o sinal de extensão de largura de banda de domínio de frequência BEF depende do sinal de ruído de domínio de frequência FNS;
[079] um conversor de tempo para frequência 9 configurado para transformar o sinal de áudio decodificado DAS em um sinal de áudio decodificado de domínio de frequência FDS;
[080] um combinador 10 configurado para combinar o sinal de áudio decodificado de domínio de frequência FDS e o sinal de extensão de largura de banda de domínio de frequência BEF a fim de produzir um sinal de áudio de domínio de frequência de largura de banda estendida BFS; e
[081] um conversor de frequência para tempo 11, configurado para transformar o sinal de áudio de domínio de frequência de largura de banda estendida BFS em um sinal de áudio de domínio de tempo de largura de banda estendida BAS.
[082] A invenção proporciona um conceito de extensão de largura de banda, que pode ser aplicado, basicamente, independente da técnica de codificação de núcleo subjacente. Além disso, oferece uma extensão de largura de banda até faixas de frequência de superbanda larga para pontos de operação de baixa taxa de bits, com alta qualidade perceptual, especialmente para sinais de voz. Isso é obtido através da geração de sinais de ruído formados temporalmente SNS no domínio de tempo, os quais são transformados e inseridos no sinal de áudio decodificado de domínio de frequência FDS.
[083] Em sistemas de sinais adaptativos flexíveis, incorporando mais de um único codificador de núcleo, por exemplo, como contido na codificação de voz e de áudio unificada (MPEG-D USAC), a comutação de artefatos que ocorrem na transição entre diferentes codificadores de núcleo, poderia ser enfatizada uma vez que também a extensão de largura de banda tem que ser comutada ao mesmo tempo. Esses problemas podem ser vencidos através da aplicação de uma técnica de extensão de largura de banda independente de codificador de núcleo de acordo com a invenção.
[084] A replicação de banda espectral introduz artefatos que poderiam ser irritantes, especialmente quando a voz é codificada devido à aplicação de patches de componentes -LF à parte de HF. Aqueles artefatos se originam devido à correlação de LF e conteúdo de HF com aplicação de patches, por um lado. Por outro lado, o desalinhamento espectral possível entre a parte LF- e HF- leva som agudo, distorções harmônicas. Em contraste, o dispositivo decodificador 1 de acordo com a invenção evita a produção de artefatos e som agudo.
[085] Outra desvantagem de replicação de banda espectral é a falta de possibilidade de manipular a estrutura temporal da parte HF- com aplicação de patches. Devido à necessidade de representação de tempo- frequência paramétrica eficiente de taxa de bits do conteúdo, a resolução temporal é limitada. Isso poderia ser desvantajoso, por exemplo, paras o processamento da voz feminina, onde o passo dos pulsos glóticos é alto e também apresenta uma variabilidade temporal alta. O dispositivo decodificador 1 de acordo com a invenção é, em contraste com a replicação de banda espectral, bem adequado para produção da voz feminina.
[086] Por último, uma extensão de largura de banda com base em várias camadas é capaz de reconstruir conteúdo HF- em uma maneira espectral e temporalmente de forma exata, mas, por outro lado, o seu consumo de bits necessário é significativamente maior do que para as abordagens paramétricas. O dispositivo de decodificação 1 de acordo com a invenção proporciona menor consumo de bits compelido a tais abordagens.
[087] Assim, a presente invenção proporciona um novo conceito de extensão de largura de banda, que combina os benefícios das técnicas de extensão de largura de banda conhecidas, anteriormente descritas banda de largura, enquanto se omitindo as suas desvantagens. Mais especificamente, um conceito é fornecido, que permite codificação de voz de superbanda larga de alta qualidade em baixas taxas de bits, mantendo-se independente codificador de núcleo subjacente 3.
[088] A invenção proporciona a alta qualidade perceptual especialmente para voz para larguras de banda de saída até a faixa de superbanda larga. A extensão de largura de banda de acordo com a invenção baseia-se na inserção de ruído. Além disso, a nova extensão de largura de banda é independente de seu codec de núcleo subjacente. Portanto, é - em contraste com extensão de largura de banda de codificação de voz padrão - adequado para ser usado no topo de um sistema comutado, incorporando esquemas de codificação fundamentalmente diferentes.
[089] Como a mistura do sinal de extensão de largura de banda e do decodificador de núcleo recentemente proposta é realizada em uma representação tempo- frequência comparável à replicação de banda espectral, ambas as técnicas poderiam ser facilmente combinadas em um sistema combinado, onde comutação contínua em uma base de quadro-a-quadro ou de mistura dentro de um determinado quadro seria possível. Como a nova extensão de largura de banda se concentra principalmente na voz, esta abordagem pode ser desejável para o processamento de sinais que contenham músicas ou conteúdo misto. A comutação pode ser controlada tanto pela informação auxiliária transmitida ou pelos parâmetros derivados no decodificador 3 através da análise do sinal de núcleo DAS.
[090] De acordo com a invenção, a geração e a subsequente formação de ruído é feita no domínio do tempo, porque resolução temporal no domínio de tempo pode ser mais elevada do que em soluções, em que o ruído é gerado e moldado dentro de uma representação de tempo-frequência semelhante à aplicada no processamento de replicação de banda espectral, visto que os bancos de filtros limitam a resolução de tempo, o que é essencial para reprodução de voz de alta frequência (por exemplo, feminina).
[091] Para evitar os problemas acima mencionados e ainda cumprir os requisitos, a nova extensão de largura de banda executa as seguintes etapas de processamento: Em primeiro lugar, um único sinal de ruído NOS é gerado no domínio do tempo, onde o número de amostras surge da taxa de quadros do sistema, bem como a taxa de amostragem e a largura de banda do sinal de ruído escolhidas. Subsequentemente, o sinal de ruído NOS é temporalmente pré- formado, com base no envelope temporal TED do sinal do codificador de núcleo codificado. Além disso, o sinal representado de tempo - frequência combinado BFS é convertido para o sinal de áudio do domínio de tempo de largura de banda estendida BAS por transformação inversa.
[092] Técnicas de extensão de largura de banda são comumente usadas na codificação de voz e de áudio para melhorar a qualidade perceptual, ampliando a largura de banda de saída efetiva. Assim, a maioria dos bits disponíveis podem ser utilizados no interior do codificador de núcleo 3, permitindo uma maior precisão na faixa de frequências mais baixa mais importantes. Embora existam abordagens, algumas das quais ganharam ampla aceitação, a todas elas falta viabilidade para processamento de voz por um sistema que incorpora múltiplos codificadores de núcleo comutáveis, com base em diferentes esquemas de codificação. Como a extensão de largura de banda de acordo com a invenção é independente da tecnologia do decodificador de núcleo, a presente invenção propõe uma técnica de extensão de largura de banda, a qual é perfeitamente adequada para a aplicação acima mencionada e outras.
[093] Dentro da extensão de largura de banda de acordo com a invenção, os sinais de extensão totalmente sintéticos podem ser gerados com um envelope temporal que pode ser pré-formado, e, assim, adaptado ao sinal de codificador de núcleo subjacente DAS. A formação do envelope temporal do sinal de extensão SNS pode ser feito em uma resolução de tempo significativamente superior ao que está disponível no banco de filtros genuíno ou transformar o domínio empregado no processo de pós-formação de extensão de largura de banda.
[094] De acordo com a modalidade preferida da invenção, o sinal de extensão de largura de banda no domínio da frequência BEF é produzido sem replicação de banda espectral. Por essas características um esforço computacional necessário pode ser minimizado.
[095] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 está configurado de tal maneira que a formação temporal do sinal de ruído NOS é feito de uma maneira superenfatizada. Em vez de formação do sinal de ruído NOS baseado no envelope temporal original TED do sinal de áudio decodificado DAS; também é possível efetuar esta conformação de uma maneira superenfatizada. Isto pode ser realizado por propagação do envelope temporal TED em termos de amplitudes, antes de derivar ganhos de pré-formação na sua base. Embora esta superenfatização não represente o real envelope original TED, a inteligibilidade de algumas partes do sinal, como por exemplo vogais, é um aperfeiçoamento para taxas de bits muito baixas.
[096] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 está configurado de tal maneira que a formação temporal do sinal de ruído NOS é feito de sub-banda, dividindo o sinal de ruído de NOS em vários outros sinais de ruído de sub-banda por um banco de filtros passa banda e realizando formação temporal específica em cada um dos sinais de ruído de sub-banda.
[097] Em vez de pré-formar o sinal de ruído NOS uniformemente, a formação pode ser feita mais precisamente através da divisão do sinal de ruído NOS em várias sub-bandas por um banco de filtros passa-banda e executar uma formação específica em cada sinal de sub-banda.
[098] Além disso, a invenção se refere a um método para decodificar um fluxo de bits BS, em que o método compreende as etapas de:
[099] recebimento do fluxo de bits BS e derivação de um sinal de áudio codificado EAS do fluxo de bits BS usando um receptor de fluxo de bits 2;
[100] derivação de um sinal de áudio decodificado DAS em um domínio de tempo do sinal de áudio codificado EAS usando um módulo decodificador de núcleo 3;
[101] determinação de um envelope temporal TED do sinal de áudio decodificado DAS usando um gerador de envelope temporal 4;
[102] produção de um sinal de extensão de largura de banda no domínio de frequência BEF usando um módulo de extensão de largura de banda 5 executando as etapas de:
[103] produção de um sinal de ruído NOS no domínio de tempo utilizando um gerador de ruído 6 do módulo de extensão de largura de banda 5,
[104] formação temporal do sinal de ruído NOS dependendo do envelope temporal TED do sinal de áudio decodificado para produzir um sinal de ruído formado SNS usando um módulo de pré-formação 7 do módulo de extensão de largura de banda 5;
[105] transformação do sinal de ruído formado SNS em um sinal de ruído de domínio de frequência FNS; em que o sinal de extensão de largura de banda de domínio de frequência BEF depende do sinal de ruído de domínio de frequência FNS, usando um conversor de tempo para frequência 8 do módulo de extensão de largura de banda 5;
[106] transformação do sinal de áudio decodificado DAS em um sinal de áudio decodificado de domínio de frequência FDS usando um conversor de tempo para frequência 9;
[107] combinação do sinal de áudio decodificado de domínio de frequência FDS e do sinal de extensão de largura de banda de domínio de frequência BEF a fim de produzir um sinal de áudio de domínio de frequência de largura de banda estendida BFS usando um combinador 10; e
[108] transformação do sinal de áudio de domínio de frequência de largura de banda estendida BFS em um sinal de áudio de domínio de tempo de largura de banda estendida BAS, usando um conversor de frequência para tempo 11.
[109] Além disso, a invenção se refere ao programa de computador, ao se executar em um processador, executa o método de acordo com a invenção.
[110] A figura 2 ilustra uma segunda modalidade de um dispositivo decodificador de áudio de acordo com a invenção em uma vista esquemática.
[111] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 compreende um seletor de faixa de frequência 12 configurado para definir uma faixa de frequências do sinal de extensão de largura de banda de domínio de frequência BEF. Após a transformação do sinal de ruído formado SNS em uma representação tempo- frequência FNS, a largura de banda alvo do sinal de áudio de domínio de frequência de largura de banda estendida BEF pode ser selecionada e, se necessário, deslocado para sua posição espectral pretendida. Por essas características, a faixa de frequências do sinal de áudio de domínio de tempo de largura de banda estendida BAS pode ser escolhida de maneira fácil.
[112] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 compreende um módulo de pós-formação configurado para formação temporal e/ou espectral em domínio de frequência do sinal de extensão de largura de banda de domínio de frequência BEF. Por essas características, o sinal de extensão de largura de banda de domínio de frequência BEF pode ser adaptado com relação a uma tendência temporal adicional e/ou um envelope espectral para refinamento.
[113] De acordo com uma modalidade preferida da invenção, o receptor de fluxo de bits 2 é configurado para derivar um sinal de informação auxiliária SIS do fluxo de bits BS, em que o módulo de extensão de largura de banda 5 é configurado para produzir o sinal de extensão de largura de banda de domínio de frequência BEF, dependendo do sinal de informação auxiliária SIS. Com outras palavras, informação auxiliária adicional, que foi extraída dentro do codificador e transmitida via o fluxo de bits BS, pode ser aplicada para novo refinamento do sinal de extensão de largura de banda de domínio de frequência BEF. Por essas características, a qualidade percebida do sinal de áudio de domínio de tempo de largura de banda estendida BAS pode ser ainda aumentada.
[114] De acordo com uma modalidade preferida da invenção, o gerador de ruído 6 é configurado para produzir o sinal de ruído NOS, dependendo do sinal de informação auxiliária SIS. Nesta modalidade, o gerador de ruído 6 pode ser controlado de maneira a obter um sinal de ruído com uma inclinação espectral, em lugar de ruído branco espectralmente plano, a fim de aperfeiçoar ainda mais a qualidade percebida do sinal de áudio de domínio de tempo de largura de banda estendida BAS.
[115] De acordo com uma modalidade preferida da invenção, o módulo de pré-formação 7 é configurado para formação temporal do sinal de ruído NOS, dependendo do sinal de informação auxiliária SIS. Dentro da pré-formação, a informação auxiliária pode ser usada para, por exemplo, escolher uma certa largura de banda alvo do sinal de decodificador de núcleo DAS, que é usado para pré-formação.
[116] De acordo com uma modalidade preferida da invenção, o módulo de pré-formação 13 é configurado para formação temporal e/ou espectral do sinal de extensão de largura de banda de domínio de frequência BEF, dependendo do sinal de informação auxiliária SIS. O uso da informação auxiliária na pós- formação pode assegurar que o envelope de tempo - frequência em bruto do sinal de extensão de largura de banda de domínio de frequência BEF segue o envelope original TED.
[117] A figura 3 ilustra uma terceira modalidade de um dispositivo decodificador de áudio de acordo com a invenção em uma vista esquemática.
[118] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 compreende um outro gerador de ruído 14, configurado para produzir um outro sinal de ruído NOSF em domínio de tempo, um outro módulo de pré-formação 15, configurado para formação temporal do sinal de ruído NOSF, dependendo do envelope temporal TED do sinal de áudio decodificado DAS a fim de produzir um sinal de ruído formado SNSF e um outro conversor de tempo para frequência 16, configurado para transformar o sinal de ruído formado SNSF em um outro sinal de ruído de domínio de frequência, em que o sinal de extensão de largura de banda de domínio de frequência BEF depende do outro sinal de ruído de domínio de frequência FNSF. A produção do sinal de extensão de largura de banda de domínio de frequência BEF usando dois sinais de ruído de domínio de frequência FNS, FNSF pode levar a um aumento da qualidade percebida do sinal de áudio de domínio de tempo de largura de banda estendida BAS.
[119] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 é configurado de tal maneira que a formação temporal do sinal de ruído NOSF é feita de maneira superenfatizada. Isso pode ser realizado pela dispersão do envelope temporal em termos de amplitudes, antes e derivar ganhos de pré-formação em sua base. Embora essa superenfatização não represente o envelope original real, a inteligibilidade de algumas porções de sinais, como, por exemplo, vogais, aperfeiçoa as taxas de bits muito baixas.
[120] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 é configurado de tal maneira que a formação temporal do sinal de ruído NOSF é feita no modo de sub-banda dividindo o outro sinal de ruído NOSF em diversos sinais de ruído de sub-banda por um banco de filtros de passa banda e realizando uma formação temporal especifica em cada um dos sinais de ruído de sub-banda.
[121] Em lugar da pré-formação do outro sinal de ruído uniformemente, a formação pode ser feita mais precisamente pela divisão dos outros sinais de ruído em diversas sub-bandas por um banco de filtros de passa banda e realização de uma formação específica em cada sinal de sub-banda.
[122] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 compreende um gerador de tons 17 configurado para produzir um sinal de tom TOS em um domínio de tempo, um módulo de pré- formação de tom 18 configurado para formação temporal do sinal de ruído do sinal de tom TOS, dependendo do envelope temporal TED do sinal de áudio decodificado DAS a fim de produzir um sinal de tom formado STS e um conversor de tempo para frequência 19 configurado para transformar o sinal de tom formado STS em um sinal de tom de domínio de frequência FTS, em que o sinal de extensão de largura de banda de domínio de frequência BEF depende do sinal de tom de domínio de frequência FTS. Adicional ao processamento de sinais de ruído sintéticos NOS, NOSF, também é possível gerar componentes tonais sintéticos em domínio de tempo que são formados temporalmente e subsequentemente transformados em uma representação de frequência FTS. Neste caso, a formação em domínio de tempo é benéfica, por exemplo, para modelagem, precisamente das fases ADSR (ataque, decaimento, sustentação, liberação) de tons, o que não é possível em uma representação de domínio de frequência comum. O uso adicionalmente de um sinal de tom no domínio de frequência FTS pode ainda aumentar a quantidade do sinal de domínio de tempo de largura de banda estendida BAS.
[123] O sinal de ruído de domínio de frequência FNS, o outro sinal de domínio de frequência FNSF e/ou o sinal de tom de domínio de frequência podem ser combinados por um combinador 20.
[124] A figura 4 ilustra uma quarta modalidade da invenção de um dispositivo decodificador de áudio de acordo com a invenção em uma vista esquemática.
[125] De acordo com uma modalidade preferida da invenção, o módulo decodificador de núcleo 5 compreende um decodificador de núcleo no domínio de tempo 21 e um decodificador de núcleo no domínio de frequência 22 em que o decodificador de núcleo no domínio de tempo 21 ou o decodificador de núcleo no domínio de frequência 22 é selecionável para derivar o sinal de áudio decodificado DAS do sinal de áudio codificado EAS. Essas características permitem o uso da invenção em um ambiente de codificação unificada de voz e de áudio (MPEG-D USAC).
[126] De acordo com uma modalidade preferida da invenção, um extrator de parâmetros de controle 23 é configurado para extrair parâmetros de controle CP usados pelo módulo decodificador de núcleo 3 do sinal de áudio decodificado DAS e em que o módulo de extensão de largura de banda 5 é configurado para produzir o sinal de extensão de largura de banda de domínio de frequência BEF, dependendo dos parâmetros de controle CP. Embora o sinal de extensão de largura de banda de domínio de frequência BEF possa ser produzido cegamente com base no envelope de codificador de núcleo ou controlado por parâmetros derivados do sinal de codificador de núcleo, também pode ser produzido em uma maneira parcialmente orientada, por meio de parâmetros extraídos e transmitidos do codificador.
[127] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 compreende um calculador de ganhos de formação 24 configurados para estabelecimento de ganhos de formação SG para o módulo de pré-formação 7, dependendo do envelope temporal TED do sinal de áudio decodificado DAS e em que o módulo de pré-formação 7 é configurado para formação temporal do sinal de ruído NOS, dependendo dos ganhos de formação SG para o módulo de pré-formação 7. Essas características permitem a implementação da invenção de maneira fácil.
[128] De acordo com uma modalidade preferida da invenção, o calculador de ganhos de formação 24 para estabelecimento de ganhos de formação SG para o módulo de pré-formação 7 é configurado para estabelecimento de ganhos de formação SG para o módulo de pré-formação 7, dependendo dos parâmetros de controle CP.
[129] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 compreende um calculador de ganhos de formação configurado para estabelecimento de ganhos de formação para o módulo de pré-formação 15, dependendo do envelope temporal TED do sinal de áudio decodificado DAS e em que o módulo de pré-formação 14 é configurado para formação temporal do sinal de ruído NOSF, dependendo dos ganhos de formação para o módulo de pré-formação 14.
[130] De acordo com uma modalidade preferida da invenção, o calculador de ganhos de formação para estabelecimento de ganhos de formação para o módulo de pré-formação 15, dependendo dos parâmetros de controle CP.
[131] De acordo com uma modalidade preferida da invenção, o módulo de extensão de largura de banda 5 compreende um calculador de ganhos de formação configurado para estabelecimento de ganhos de formação para o módulo de pré-formação de tom 18, dependendo do envelope temporal TED do sinal de áudio decodificado DAS e em que o módulo de pré-formação de tom 18 é configurado para formação temporal do sinal de ruído do sinal de tom TOS, dependendo dos ganhos de formação para o módulo de pré-formação de tom 18.
[132] De acordo com uma modalidade preferida da invenção, o calculador de ganhos de formação para estabelecimento de ganhos de formação para o módulo de pré-formação de tom 18 é configurado para estabelecimento de ganhos de formação para o outro módulo de pré-formação 18, dependendo dos parâmetros de controle CP.
[133] A figura 4 ilustra uma modalidade preferida da nova extensão de largura de banda passo a passo como uma otimização de um sistema de codificação comutado. O sistema exemplificativo compreende um decodificador de núcleo no domínio de tempo 21 e um decodificador de núcleo no domínio de frequência 22, executando em uma taxa de amostragem interna de 12,8 kHz e 20 ms de enquadramento, cada. Esses determinados resultados de configuração em 256 amostras de saída de decodificador por quadro e uma largura de banda de saída de 6,4 kHz. Pela aplicação da extensão de largura de banda, a largura de banda de saída efetiva do sistema é suposta ser estendida até 14,4 kHz com um sinal de ruído, em uma taxa de amostragem de 32,0 kHz. Portanto, as etapas seguintes podem ser realizadas para cada quadro:
[134] Na etapa de geração de ruído, um quadro de ruído de 8,0 kHz de largura de banda efetiva (14,4 kHz - 6,4 kHz) pode ser obtido através de geração de 20 ms de ruído branco em uma amostragem de 16,0 kHz, resultando em 320 amostras de ruído.
[135] Os parâmetros de extração do decodificador de núcleo, por exemplo, ganho de preditor de longo prazo (LTP) do codificador de voz e frequência fundamental pode ser reutilizado. Além disso, parâmetros de sinal de saída de decodificador de núcleo, por exemplo, controle espectral e taxa de cruzamento zero podem ser extraídos. Além disso, uma decisão quanto a intensidade de pré- formação pode estar baseada em parâmetros de controle, por exemplo, formação forte para alta frequência fundamental e alto ganho de predito a longo prazo (vogal de passo alto) e fraca ou nenhuma formação para centroide espectral elevado e taxa de cruzamento zero (sibilante).
[136] Na etapa de geração de envelope temporal, um filtro de passo alto pode ser usado para remover a parte de CC e frequências muito baixas do sinal de áudio decodificado DAS, amostras de tempo podem ser convertidas em energias e coeficientes de codificação de predição linear (LPC) podem ser calculados a partir das energias.
[137] Na etapa de cálculo de ganhos de formação, os coeficientes de codificação de predição linear podem ser convertidos em resposta de frequência de 320 amostras de comprimento, o que representa o envelope temporal suavizado e as amostras de envelope temporal suavizado, podem ser convertidas em valores de ganhos, considerando intensidade de formação alvo.
[138] Na etapa de pré-formação temporal, os valores de ganho de pré- formação podem ser aplicados às amostras de ruído.
[139] Na etapa de conversão de tempo para frequência, o sinal de áudio decodificado DAS pode ser processado por um banco de filtros de análise de espelho de quadratura, incorporando filtros de 400 Hz de largura de banda e 1,25 ms de salto, o que resulta em uma matriz de tempo para frequência de 20 subbandas de filtros de espelho de quadratura e 16 aberturas por tempo. Além disso, o quadro de ruído pode ser processado por um outro banco de filtro de espelho de quadratura incorporando os mesmos ajustes que para o sinal de saída de decodificador, o que resulta em uma matriz de tempo para frequência de 16 subbandas de filtro de espelho de quadratura e 16 aberturas por tempo.
[140] Na etapa de transposição (seleção de largura de banda) o quadro de ruído pode ser deslocado para uma faixa de frequências alvo e empilhado no topo da matriz de sinal de decodificador para uma matriz de saída T/F de 36 sub-bandas de filtros de espelho de quadratura e 16 aberturas por tempo.
[141] Na etapa de pós-formação temporal e espectral, a tendência temporal correta para porções críticas dos sinais (por exemplo, transientes) pode ser assegurada através de pós-formação temporal de envelope - filtro de espelho de quadratura transposto por meio de informação auxiliária transmitida. Além disso, inclinação espectral original e energia global podem ser aproximadas através de pós-formação espectral de envelope- filtro de espelho de quadratura transposto por meio de informação auxiliária transmitida.
[142] Na etapa de sintetização uma matriz de saída de tempo para frequência de 36 sub-bandas podem ser processadas por um banco de filtros de espelho de quadratura de síntese de 40 sub-bandas, que resulta em um sinal de saída de domínio de tempo de superbanda larga BAS de 32,0 kHz de taxa de amostragem e uma largura de banda efetiva de 14,4 kHz.
[143] Com relação ao decodificador e aos métodos das modalidades descritas, o seguinte será mencionado:
[144] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, está claro que todos esses aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo correspondente a uma etapa do método ou um aspecto de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item correspondente ou característica de um aparelho correspondente.
[145] Dependendo de certos requisitos de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, um EEPROM ou uma memória flash, com sinais de controle legíveis eletronicamente armazenados na mesma, os quais cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja executado.
[146] Algumas modalidades de acordo com a invenção compreendem um suporte de dados que têm sinais de controle legíveis eletronicamente, que são capazes de cooperar com um sistema de computador programável de modo que um dos métodos aqui descritos seja realizado.
[147] Geralmente, as modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, sendo o código de programa operativo para a realização de um dos métodos, quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um meio legível em máquina.
[148] Outras modalidades compreendem o programa de computador para a execução de um dos métodos aqui descritos, os quais são armazenados em um meio legível em máquina ou um meio de armazenamento não transitório.
[149] Em outras palavras, uma modalidade do método da invenção é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador é executado em um computador.
[150] Uma outra modalidade dos métodos da invenção é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legível por computador) que compreende, nele gravado, o programa de computador para a execução de um dos métodos aqui descritos.
[151] Uma outra modalidade do método da invenção é, por conseguinte, uma corrente de dados ou uma sequência de sinais, que representam o programa de computador para a execução de um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais podem ser configurados, por exemplo, para serem transferidos através de uma ligação de comunicação de dados, por exemplo, através da Internet.
[152] Uma outra modalidade compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para executar um dos métodos aqui descritos.
[153] Uma outra modalidade compreende um computador tendo nele instalado o programa de computador para a execução de um dos métodos aqui descritos.
[154] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, uma disposição de portas de campo programáveis pode ser usada para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas modalidades, uma disposição de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos aqui descritos. Geralmente, os métodos são vantajosamente efetuados por qualquer aparelho de hardware.
[155] Embora esta invenção tenha sido descrita em termos de várias modalidades, há alterações, permutações e equivalentes que caem dentro do escopo da presente invenção. Deve também ser notado que existem muitas maneiras alternativas da aplicação dos métodos e composições da presente invenção. Por conseguinte, pretende-se que as reivindicações anexas a seguir sejam interpretadas como incluindo todas as tais alterações, permutações e equivalentes como caindo dentro do verdadeiro espírito e escopo da presente invenção.Sinais de Referência1 dispositivo decodificador de áudio2 receptor de fluxo de bits3 módulo decodificador de núcleo4 gerador de envelope temporal5 módulo de extensão de largura de banda6 gerador de ruído7 módulo de pré-formação8 conversor de tempo para frequência9 conversor de tempo para frequência10 combinador11 conversor de frequência para tempo12 seletor de faixa de frequências13 módulo de pós-formação14 gerador de ruído adicional15 módulo de pré-formação adicional16 conversor adicional de tempo para frequência17 gerador de tons18 módulo de pré-formação de tom19 conversor de tempo para frequência20 combinador 21 decodificador de núcleo no domínio de tempo22 decodificador de núcleo no domínio de frequência23 extrator de parâmetros de controle24 calculador de ganhos de formaçãoBS fluxo de bitsEAS sinal de áudio codificadoDAS sinal de áudio decodificadoTED envelope temporalBEF sinal de extensão de largura de banda de domínio de frequênciaNOS sinal de ruídoSNS sinal de ruído formadoFNS sinal de ruído de domínio de frequênciaFDS sinal de áudio decodificado de domínio de frequênciaBFS sinal de áudio de domínio de frequência largura de bandaestendidaBAS sinal de áudio de domínio de tempo de largura de banda estendidaFSR sinal de ruído de domínio de frequência de faixa de frequências selecionadaSIS sinal de informação auxiliáriaNOSF outro sinal de ruídoSNSF outro sinal de ruído formadoFNSF outro sinal de ruído de domínio de frequênciaTOS sinal de tomSTS sinal de tom formadoFTS sinal de tom de domínio de frequênciaSG ganhos de formaçãoCP parâmetros de controle Referências:[1] Bessette, B.; et al.: “The Adaptive Multirate Wideband Speech Codec (AMR-WB)”, IEEE Transactions on Speech and Audio Processing, Vol. 10, N° 8, novembro de 2002[2] Dietz, M.; et al.: “Spectral Band Replication, a novel approach in audio coding”, Proceedings of the 112th AES Convention, maio de 2002[3] Miao, L.; et al.: “G.711.1 Annex D and G.722 Annex B - New ITU- T Super Wideband Codecs”, IEEE ICASSP 2011, pp. 5232-5235

Claims (23)

1. Dispositivo decodificador de áudio para decodificação de um fluxo de bits (BS), o dispositivo decodificador de áudio (1) caracterizado por compreender:um receptor (2) de fluxo de bits configurado para receber o fluxo de bits (BS) e derivar um sinal de áudio codificado (EAS) do fluxo de bits (BS);um módulo decodificador de núcleo (3) configurado para derivar um sinal de áudio decodificado (DAS) em um domínio de tempo do sinal de áudio codificado (EAS);um gerador de envelope temporal (4) configurado para determinar um envelope temporal (TED) do sinal de áudio decodificado (DAS);um módulo de extensão de largura de banda (5) configurado para produzir um sinal de extensão de largura de banda de domínio de frequência (BEF), em que o módulo de extensão de largura de banda (5) compreende um gerador de ruído (6) configurado para produzir um sinal de ruído (NOS) no domínio de tempo; em que o módulo de extensão de largura de banda (5) compreende um módulo de pré-formação (7), configurado para formação temporal do sinal de ruído (NOS), dependendo do envelope temporal (TED) do sinal de áudio decodificado (DAS), a fim de produzir um sinal de ruído formado (SNS) e em que o módulo de extensão de largura de banda (5) compreende um conversor de tempo para frequência (8) configurado para transformar o sinal de ruído formado (SNS) em um sinal de ruído de domínio de frequência (FNS), em que o sinal de extensão de largura de banda de domínio de frequência (BEF) depende do sinal de ruído de domínio de frequência (FNS);um conversor de tempo para frequência (9) configurado para transformar o sinal de áudio decodificado (DAS) em um sinal de áudio decodificado de domínio de frequência (FDS);um combinador (10) configurado para combinar o sinal de áudio decodificado de domínio de frequência (FDS) e o sinal de extensão de largura de banda de domínio de frequência (BEF), a fim de produzir um sinal de áudio de domínio de frequência de largura de banda estendida (BFS); eum conversor de frequência para tempo (11) configurado para transformar o sinal de áudio de domínio de frequência de largura de banda estendida (BFS) em um sinal de áudio de domínio de tempo de largura de banda estendida (BAS).
2. Dispositivo decodificador de áudio, de acordo com a reivindicação 1, caracterizado por sinal de extensão de largura de banda de domínio de frequência (BEF) ser produzido sem replicação de banda espectral.
3. Dispositivo decodificador de áudio, de acordo com uma das reivindicações 1 ou 2, caracterizado por módulo de extensão de largura de banda (5) ser configurado de tal maneira que a formação temporal do sinal de ruído (NOS) é feita em uma maneira de superenfatização.
4. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por módulo de extensão de largura de banda (5) ser configurado de tal maneira que a formação temporal do sinal de ruído (NOS) é feita no modo de sub-bandas através da divisão do sinal de ruído (NOS) em vários outros sinais de ruído de sub-bandas por um banco de filtros passa-banda e executando uma formação temporal específica em cada um dos sinais de ruído de sub-banda.
5. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por módulo de extensão de largura de banda (5) compreender um seletor de faixa de frequências (12) configurado para definir uma faixa de frequências do sinal de extensão de largura de banda no domínio de frequência (BEF).
6. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por módulo de extensão de largura de banda (5) compreender um módulo de pós-formação configurado para formação espectral e/ou temporal em domínio de frequência do sinal de extensão de largura de banda de domínio de frequência (BEF).
7. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por receptor de fluxo de bits (2) ser configurado para derivar um sinal de informação auxiliária (SIS) do fluxo de bits (BS), em que o módulo de extensão de largura de banda (5) é configurado para produzir o sinal de extensão de largura de banda de domínio de frequência (BEF), dependendo do sinal de informação auxiliária (SIS).
8. Dispositivo decodificador de áudio, de acordo com a reivindicação 7, caracterizado por gerador de ruído (6) ser configurado para produzir o sinal de ruído (NOS), dependendo do sinal de informação auxiliária (SIS).
9. Dispositivo decodificador de áudio, de acordo com uma das reivindicações 7 ou 8, caracterizado por módulo de pré-formação (7) ser configurado para formação temporal do sinal de ruído (NOS), dependendo do sinal de informação auxiliária (SIS).
10. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 7 a 9, caracterizado por módulo de pós-formação (13) ser configurado para formação temporal e/ou espectral do sinal de extensão de largura de banda de domínio de frequência (BEF), dependendo do sinal de informação auxiliária (SIS).
11. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por módulo de extensão de largura de banda (5) compreender um outro gerador de ruído (14) configurado para produzir um outro sinal de ruído (NOSF) no domínio de tempo, um outro módulo de pré- formação (15) configurado para formação temporal do sinal de ruído (NOSF), dependendo do envelope temporal (TED) do sinal de áudio decodificado (DAS), a fim de produzir um outro sinal de ruído formado (SNSF) e um conversor de tempo para frequência (16), configurado para transformar o sinal de ruído formado (SNSF) em um outro sinal de ruído de domínio de frequência (FNSF), em que o sinal de extensão de largura de banda de domínio de frequência (BEF) depende do outro sinal de ruído de domínio de frequência (FNSF).
12. Dispositivo decodificador de áudio, de acordo com a reivindicação 11, caracterizado por módulo de extensão de largura de banda (5) ser configurado de tal maneira que a formação temporal do outro sinal de ruído (NOSF) é feita em uma maneira de superenfatização.
13. Dispositivo decodificador de áudio, de acordo com a reivindicação 11 ou 12, caracterizado por módulo de extensão de largura de banda (5) ser configurado de tal maneira que a formação temporal do outro sinal de ruído (NOSF) é feita no modo de sub-banda através da divisão do outro sinal de ruído (NOSF) em vários outros sinais de ruído de sub-bandas por um banco de filtros passa-banda e executando uma formação temporal específica em cada um dos outros sinais de ruído de sub-banda.
14. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 13, caracterizado por módulo de extensão de largura de banda (5) compreender um gerador de tom (17) configurado para produzir um sinal de tom (TOS) em um domínio de tempo, um módulo de pré-formação de tom (18) configurado para formação temporal do sinal de tom (TOS) dependendo do envelope temporal (TED) do sinal de áudio decodificado (DAS) a fim de produzir um sinal de tom formado (STS) e um conversor de tempo para frequência (19) configurado para transformar o sinal de tom formado (SIS) em um sinal de tom de domínio de frequência (FTS), em que o sinal de extensão de largura de banda no domínio da frequência (BEF) depende do sinal de tom no domínio de frequência (FTS).
15. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 14, caracterizado por módulo de extensão de largura de banda (5) compreender um decodificador de núcleo no domínio de tempo (21) e um decodificador de núcleo no domínio de frequência (22), em que o decodificador de núcleo no domínio de tempo (21) ou o decodificador de núcleo no domínio de frequência (22) é usado para derivar o sinal de áudio decodificado (DAS) do sinal de áudio codificado (EAS).
16. Dispositivo decodificador de áudio, de acordo com a reivindicação 15, caracterizado por extrator de parâmetros de controle (23) ser configurado para extração de parâmetros de controle (CP) usados pelo módulo decodificador de núcleo (3) do sinal de áudio decodificado (DAS) e em que o módulo de extensão de largura de banda (5) é configurado para produzir o sinal de extensão de largura de banda de domínio de frequência (BEF), dependendo dos parâmetros de controle (CP).
17. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 1 a 16, caracterizado por módulo de extensão de largura de banda (5) compreender um calculador de ganhos de formação (24) configurado para estabelecimento de ganhos de formação (SG) para o módulo de pré- formação, (7), dependendo do envelope temporal (TED) do sinal de áudio decodificado (DAS) e em que o módulo de pré-formação (7) é configurado para formação temporal do sinal de ruído (NOS), dependendo dos ganhos de formação (SG) para o módulo de pré-formação (7).
18. Dispositivo decodificador de áudio, de acordo com as reivindicações 16 e 17, caracterizado por calculador de ganhos de formação (24) para estabelecimento de ganhos de formação (SG) para o módulo de pré- formação (7) ser configurado para estabelecimento de ganhos de formação (SG) para o módulo de pré-formação (7), dependendo dos parâmetros de controle (CP).
19. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 11 a 18, caracterizado por módulo de extensão de largura de banda (5) compreender um calculador de ganhos de formação configurado para estabelecimento de ganhos de formação para o outro módulo de pré- formação (15), dependendo do envelope temporal (TED) do sinal de áudio decodificado (DAS) e em que o outro módulo de pré-formação (14) é configurado para formação temporal do outro sinal de ruído (NOSF), dependendo dos ganhos de formação para o outro módulo de pré-formação (14).
20. Dispositivo decodificador de áudio, de acordo com as reivindicações 16 e 19, caracterizado por calculador de ganhos de formação para estabelecimento de ganhos de formação para o outro módulo de pré- formação (15) ser configurado para estabelecimento de ganhos de formação para o outro módulo de pré-formação (15), dependendo dos parâmetros de controle (CP).
21. Dispositivo decodificador de áudio, de acordo com qualquer uma das reivindicações 14 a 20, caracterizado por módulo de extensão de largura de banda (5) compreender um calculador de ganhos de formação configurado para estabelecimento de ganhos de formação para o módulo de pré-formação de tom (18), dependendo do envelope temporal (TED) do sinal de áudio decodificado (DAS) e em que o módulo de pré-formação de tom (18) é configurado para formação temporal do sinal de tom (TOS), dependendo dos ganhos de formação para o módulo de pré-formação de tom (18).
22. Dispositivo decodificador de áudio, de acordo com as reivindicações 16 e 21, caracterizado por calculador de ganhos de formação para estabelecimento dos ganhos de formação para o módulo de pré-formação de tom (18) ser configurado para estabelecimento de ganhos de formação para o outro módulo de pré-formação de tom (18), dependendo dos parâmetros de controle.
23. Método para decodificação de um fluxo de bits (BS), o método caracterizado por compreender as etapas de:recebimento de fluxo de bits (BS) e derivação de um sinal de áudio codificado (EAS) do fluxo de bits (BS) usando um receptor de fluxo de bits (2);derivação de um sinal de áudio decodificado (DAS) em um domínio de tempo do sinal de áudio codificado (EAS), usando um módulo decodificador de núcleo (3);determinação de um envelope temporal (TED) do sinal de áudio decodificado (DAS), usando um gerador de envelope temporal (4);produção de um sinal de extensão de largura de banda no domínio de frequência (BEF), usando um módulo de extensão de largura de banda (5) executando as etapas de:produção de um sinal de ruído (NOS) no domínio de tempo usando um gerador de ruído (6) do módulo de extensão de largura de banda (5); formação temporal do sinal de ruído (NOS), dependendo do envelope temporal (TED) do sinal de áudio decodificado (DAS), a fim de produzir um sinal de ruído formado (SNS), usando um módulo de pré-formação (7) do módulo de extensão de largura de banda (5);transformação do sinal de ruído formado (SNS) em um sinal de ruído de domínio de frequência (FNS); em que o sinal de extensão de largura de banda de domínio de frequência (BEF) depende do sinal de ruído de domínio de frequência (FNS), usando um conversor de tempo para frequência (8) do módulo de extensão de largura de banda (5);transformação do sinal de áudio decodificado (DAS) em um sinal de áudio decodificado no domínio de frequência (FDS), usando um conversor de tempo para frequência (9);combinação do sinal de áudio decodificado de domínio de frequência (FDS) e do sinal de extensão de largura de banda de domínio de frequência (BEF) a fim de produzir um sinal de áudio de domínio de frequência de largura de banda estendida (BFS) usando um combinador (10); etransformação do sinal de áudio de domínio de frequência de largura de banda estendida (BFS) em um sinal de domínio de tempo de largura de banda estendida (BAS) usando um conversor de frequência para tempo (11).
BR112016009563-4A 2013-10-31 2014-10-30 Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência BR112016009563B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP13191127.3 2013-10-31

Publications (1)

Publication Number Publication Date
BR112016009563B1 true BR112016009563B1 (pt) 2021-12-21

Family

ID=

Similar Documents

Publication Publication Date Title
US9805731B2 (en) Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
Erro et al. Harmonics plus noise model based vocoder for statistical parametric speech synthesis
KR101785885B1 (ko) 적응적 대역폭 확장 및 그것을 위한 장치
CN105793924B (zh) 使用错误隐藏提供经解码的音频信息的音频解码器及方法
JP2018510374A (ja) 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
BR122022012700B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
BR122021017287B1 (pt) Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum
BR122023025751A2 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência, um processador de domínio de tempo e um processador cruzado para inicialização contínua
BRPI0910527B1 (pt) codificador e decodificador de áudio para estruturas de codificação e decodificação de sinal de áudio testado
PT2146344T (pt) Esquema de codificação/descodificação de áudio com uma derivação comutável
PT2676270T (pt) Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
BR112015005980B1 (pt) Método para codificar sinais e codificador de áudio
Atti Algorithms and software for predictive and perceptual modeling of speech
AU2013200679B2 (en) Audio encoder and decoder for encoding and decoding audio samples
Suni et al. Lombard modified text-to-speech synthesis for improved intelligibility: submission for the hurricane challenge 2013.
BR112016009563B1 (pt) Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência
Drugman et al. A comparative evaluation of pitch modification techniques
Park et al. Artificial bandwidth extension of narrowband speech signals for the improvement of perceptual speech communication quality
AU2014201331A1 (en) Bandwidth extension encoder, bandwidth extension decoder and phase vocoder
Ho et al. A hybrid sub-band sinusoidal coding scheme
BR122022012597B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo