BRPI0516405B1 - Conformação individual de canal para esquemas bcc e similares - Google Patents
Conformação individual de canal para esquemas bcc e similares Download PDFInfo
- Publication number
- BRPI0516405B1 BRPI0516405B1 BRPI0516405-2A BRPI0516405A BRPI0516405B1 BR PI0516405 B1 BRPI0516405 B1 BR PI0516405B1 BR PI0516405 A BRPI0516405 A BR PI0516405A BR PI0516405 B1 BRPI0516405 B1 BR PI0516405B1
- Authority
- BR
- Brazil
- Prior art keywords
- channel
- envelope
- audio
- channels
- time
- Prior art date
Links
- 230000002123 temporal effect Effects 0.000 claims abstract description 34
- 230000011664 signaling Effects 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 54
- 230000015572 biosynthetic process Effects 0.000 claims description 37
- 238000003786 synthesis reaction Methods 0.000 claims description 36
- 230000001052 transient effect Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 51
- 230000005236 sound signal Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 13
- 230000001934 delay Effects 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 238000007493 shaping process Methods 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 210000002370 ICC Anatomy 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000008571 general function Effects 0.000 description 2
- 238000010988 intraclass correlation coefficient Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 229920006345 thermoplastic polyamide Polymers 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Channel Selection Circuits, Automatic Tuning Circuits (AREA)
- Outer Garments And Coats (AREA)
- Superheterodyne Receivers (AREA)
- Electrophonic Musical Instruments (AREA)
- Time-Division Multiplex Systems (AREA)
- Steroid Compounds (AREA)
Abstract
conformação individual de canal para esquemas bcc e similares. em um codificador de áudio, são gerados códigos de sinalização para um ou mais canais de áudio, caracterizados pelo fato de que um código de sinalização de envelope é gerado pela caracterização de um envelope temporal em um canal de áudio. em um decodificador de áudio, e canal(is) de áudio transmitido(s) são decodificados para gerar c canais de áudio playback, onde c>e<sym>1. os códigos de sinalização recebidos incluem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde ao(s) canal(is) transmitido(s). um ou mais canal(is) transmitido(s) são upmixados para gerar um ou mais canais upmixados. um ou mais canais de playback são sintetizados pela aplicação dos códigos de sinalização ao um ou mais canais upmixados, em que o código de sinalização de envelope é aplicado a um canal upmixado ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal caracterizado de maneira que o envelope temporal ajustado combine substancialmente com o envelope temporal caracterizado.
Description
Referência Cruzada dos Pedidos Anteriores
Este pedido reivindica o beneficio da data de depósito do pedido provisório norte-americano n2 60/620.480, depositado em 20/10/04 como protocolo do agente n2 Allamanche 2-3-184, cujos ensinamentos estão incorporados à presente como referência.
Além disso, o objeto em questão deste pedido refere-
se ao objeto em questão dos seguintes pedidos norte-americanos, cujos ensinamentos estão incorporados à presente como referência:
o Pedido norte-americano número de série 09/848.877, depositado em 04/05/01 como protocolo do agente n2 Faller 5;
o Pedido norte-americano número de série
10/045.458, depositado em 7/11/01 como protocolo do agente n2
Baumgarte 1-6-8, que reivindicou para si próprio o beneficio da data de depósito do pedido provisório norte-americano n2 60/311.565, depositado em 10/08/01;
o Pedido norte-americano número de série
10/155.437, depositado em 24/05/02 como protocolo do agente n2 Baumgarte 2-10;
o Pedido norte-americano número de série 10/246.570, depositado em 18/09/02 como protocolo do agente n2 25 Baumgarte 3-11;
o Pedido norte-americano número de série 10/815.591, depositado em 01/04/04 como protocolo do agente n2
Baumgarte 7-12;
o Pedido norte-americano número
10/936.464, depositado em 08/09/04 como protocolo do de série agente η2
Baumgarte 8-7-15;
o Pedido norte-americano número de série
10/762.100, depositado em 20/01/04 (Faller 13-1) o Pedido norte-americano número de série
10/xxx.xxx, depositado na mesma data deste pedido como protocolo do agente n2 Allamanche 1-2-17-3.
O objeto em questão deste pedido está também relacionado ao objeto em questão descrito nos documentos a seguir.
cujos ensinamentos estão incorporados à presente como referência:
o F.
Baumgarte and C. Faller, Binaural Cue
Coding - Part I: Psychoacoustic fundamentais and design principies,
IEEE Trans. on Speech and Áudio Proc., vol. 11, no. 6, Nov. 2003;
o C. Faller and F.
Baumgarte, Binaural Cue
Coding - Part II: Schemes and applications, ” IEEE Trans. on Speech. and Audio Proc., vol. 11, no. 6, Nov. 2003; e o C. Faller, Coding of spatial audio compatible with different playback formats, Preprint 117th Conv. Aud. Eng.
Soc., October 2004.
Campo da Invenção
A presente invenção se refere à codificação de sinais de áudio e a subsequente síntese de cenas auditivas a partir dos dados de áudio codificados.
Descrição da Técnica Anterior
Quando uma pessoa ouve um sinal de áudio (isto é, sons) gerados por uma determinada fonte de áudio, o sinal de áudio chegará normalmente aos ouvidos esquerdo e direito da pessoa em dois
tempos diferentes e com dois niveis diferentes de áudio (por exemplo, decibéis), em que esses tempos e níveis diferentes são funções das diferenças dos caminhos pelos quais o sinal de áudio percorre para alcançar os ouvidos esquerdo e direito, respectivamente. O cérebro da pessoa interpreta essas diferenças em tempo e nível para dar à pessoa a percepção de que o sinal de áudio recebido está sendo gerado por uma fonte de áudio localizada em uma posição determinada (por exemplo, direção e distância) com relação á pessoa. Uma cena auditiva é o efeito líquido de uma pessoa ouvindo simultaneamente sinais de áudio gerados por uma ou mais diferentes fontes de áudio localizadas em uma ou mais posições diferentes com relação à pessoa.
A existência desse processamento pelo cérebro pode ser usada para sintetizar cenas auditivas, em que sinais de áudio de uma ou mais diferentes fontes de áudio são modificados de propósito para gerar sinais de áudio esquerdo e direito que dão a percepção de
que diferentes fontes de áudio estão localizadas em diferentes posições com relação ao ouvinte.
A Fig. 1 mostra um diagrama de blocos de alto nível de sintetizador convencional binaural 100, que converte um único sinal de fonte de áudio (por exemplo, um sinal mono) nos sinais de áudio esquerdo e direito de um sinal binaural, onde um sinal binaural é definido para ser os dois sinais recebidos pelos tímpanos de um ouvinte. Além do sinal de fonte de áudio, o sintetizador 100 recebe um conjunto de sinalizações espaciais que correspondem à posição desejada da fonte de áudio com relação ao ouvinte. Nas implementações típicas, o conjunto de sinalizações espaciais compreende um valor de diferença de níveis intercanais (ICLD) (que identifica a diferença no nível de áudio entre os sinais de áudio esquerdo e direito como
4.
recebidos pelos ouvidos esquerdo e direito, respectivamente) e um valor de diferença de tempos intercanais (ICTD) (que identifica a diferença no tempo de chegada entre os sinais de áudio esquerdo e direito como recebidos pelos ouvidos esquerdo e direito, respectivamente). Além disso, ou como alternativa, algumas técnicas de síntese envolvem a conformação de uma função de transferência dependente da direção para o som de uma fonte sonora até os também denominada de função de transferência relativa tímpanos, à cabeça
(HRTF) . Ver, por exemplo, J. Blauert, The Psychophysics of Human
Sound Localization, MIT Press, 1983, cujos ensinamentos estão incorporados à presente como referência.
Usando o sintetizador de sinal binaural 100 da Fig.
1, o sinal de áudio mono gerado por uma fonte de sinal único pode ser processado de maneira que, quando é ouvido com fones de ouvido, a fonte sonora é localizada espacialmente pela aplicação de um conjunto adequado de sinalizações espaciais (por exemplo, ICLD, ICTD e/ou HRTF) para gerar o sinal de áudio de cada ouvido. Ver, por exemplo,
D.R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic
Press, Cambridge, MA, 1994.
O sintetizador de sinal binaural 100 da Fig. 1 gera o tipo mais simples de cenas auditivas: aquelas que possuem uma fonte de áudio única posicionada em relação ao ouvinte. Cenas auditivas mais complexas, compreendendo duas ou mais fontes de áudio localizadas em diferentes posições com. relação ao ouvinte podem ser 25 geradas usando um sintetizador de cena auditiva, que é essencialmente implementado usando instâncias múltiplas do sintetizador de sinal binaural, onde cada instância de sintetizador de sinal binaural gera o sinal binaural que corresponde a uma diferente fonte de áudio. Como /7 cada diferente fonte de áudio relação ao ouvinte, é usado um espaciais para gerar o sinal de
5.
U
W « · • V· d
• W » r ·» · · ··· • · · · · ·· ♦ · « · *· • · «·» ♦ · · » .0» f · J < ’>
• « · · tem uma diferente localização com conjunto diferente de sinalizações áudio binaural para cada diferente fonte de áudio.
SUMÁRIO DA INVENÇÃO
De acordo com uma configuração, a presente invenção é um método, equipamento e meio de leitura por máquina para a codificação de canais de áudio. São gerados e transmitidos um ou mais códigos de sinalizações para um ou mais canais de áudio,
.10 caracterizado pelo fato de que pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio.
De acordo com outra configuração, a presente invenção se trata de um equipamento para a codificação de C canais de áudio de entrada para gerar E canal(is) de áudio transmitido(s). O equipamento compreende um analisador envelope, um estimador de códigos e um downmixer. O analisador envelope caracteriza um envelope
temporal de entrada de pelo menos um dos C canais de entrada. 0 estimador de dos C canais entrada para códigos gera códigos de sinalização para dois ou mais de entrada. O gerar os E caracterizado pelo fato de downmixer que o sobre os códigos de sinalização caracterizado para permitir que o faz o downmix dos equipamento transmite
C canais de onde O £31, informações e o envelope temporal decodificador realize a de entrada sintese e a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) .
De acordo com outra configuração, a presente invenção se trata de um fluxo de bits de áudio codificados gerados • * 4 «« · • · pelos canais de áudio de codificação, caracterizado pelo fato de que um ou mais códigos de sinalização são gerados para um ou mais canais de áudio, onde pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope 5 temporal em um dos um ou mais canais de áudio. 0 um ou mais códigos de sinalização e os E canal(is) de áudio transmitido(s) que correspondem ao um ou mais canais de áudio, onde ΕΞΙ1, são codificados no fluxo de bits de áudio codificados.
De acordo com outra configuração, a presente invenção é um fluxo de bits de áudio codificados que compreende um ou mais códigos de sinalização e E canal(is) de áudio transmitido(s). 0 um ou mais códigos de sinalização são gerados para um ou mais canais de áudio, caracterizados pelo fato de que pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio. 0(s) E canal(is) de áudio transmitido(s) correspondem ao um ou mais canais de áudio.
De acordo com outra
configuração, a presente invenção é um método, a decodificação de E equipamento canal(is) de e meio de leitura por máquina para áudio transmitido(s) para gerar C canais de áudio playback, onde ΟΕΞ11. São recebidos os códigos de sinalização que correspondem aos E canal(is) transmitido(s), caracterizados pelo fato de que os códigos de sinalização compreendem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde ao(s) E canal (is) transmitido(s) . Um ou mais dos E canal(is) transmitido(s) são upmixed. para gerar um ou mais canais upmixed. Um ou mais dos C canais de playback são sintetizados aplicando os códigos de sinalização a um ou mais canais upmixed, caracterizados pelo fato de que o código de sinalização de envelope é aplicado a um canal upmixed ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado, baseado no envelope temporal caracterizado de maneira que o envelope temporal ajustado combine substancialmente com o envelope temporal caracterizado.
BREVE DESCRIÇÃO DOS DESENHOS
Outros aspectos, características e vantagens da presente invenção se tornarão mais aparentes a partir da seguinte
e dos desenhos de acompanhamento em que numerais de referência iguais identificam elementos similares ou idênticos.
Fig. 1 mostra um diagrama de blocos de alto nivel sinal binaural convencional;
Fig. 2 mostra um diagrama de blocos de um sistema de processamento de áudio binaural cue coding (BCC) genérico;
Fig.
mostra um diagrama de blocos de um
downmixer que pode ser usado para o downmix da Fig.
2;
Fig. 4 mostra um diagrama de blocos de um sintetizador BCC que pode ser usado para o decodificador da
Fig.
2;
A Fig. 5 mostra um diagrama de blocos do estimador
BCC da Fig. 2, de acordo com uma configuração da presente invenção;
A Fig.
ilustra a geração de dados ICTD e
ICLD para áudio de cinco canais;
A Fig.
ilustra a geração de dados ICC para áudio de cinco canais;
A Fig.
mostra um diagrama de blocos de uma implementação do sintetizador BCC da Fig. 4 que pode ser usado em um *
• · · codificador BCC para gerar um sinal de áudio estéreo ou multicanais, dado um único sinal de soma transmitido s(n) mais as sinalizações espaciais;
Fig. 9 ilustra como ICTD e ICLD variam dentro de uma sub-banda como uma função da frequência;
Fig. 10 mostra um diagrama de blocos de processamento no domínio do tempo que é adicionado a um codificador
BCC, como o codificador da Fig. 2, de acordo com uma configuração da presente invenção;
A Fig. 11 ilustra uma aplicação exemplar no domínio do tempo do processamento TP no contexto do sintetizador BCC da Fig.
4;
As Figs. 12 (a) e (b) mostram possíveis implementações da TPA da
Fig. 10 e da TP da Fig. 11, respectivamente, onde a conformação de envelope é somente aplicada frequências superiores à frequência de corte fTP;
mostra um diagrama de blocos de
processamento no domínio da frequência, adicionado a um codificador
BCC, como o codificador da Fig. 2, de acordo com uma configuração alternativa da presente invenção;
A Fig.
ilustra uma aplicação exemplar no domínio da frequência do processamento
TP no contexto do sintetizador BCC da
Fig. 4;
A Fig. 15 mostra um diagrama de blocos de processamento no domínio da frequência que é adicionado a um codificador BCC, como o codificador da Fig. 2, de acordo com outra configuração alternativa da presente invenção;
A Fig. 16 ilustra outra aplicação exemplar no c//
0 • · domínio da freqüência de processamento TP no contexto do sintetizador
BCC da Fig. 4;
As Figs. 17 (a) — (c) mostram diagramas de blocos de possíveis implementações das TPAs das Figs. 15 e 16
Fig. 16; e
As Figs. 18(a) e (b) ilustram dois e da ITP e TP da modos exemplares de operação do bloco de controle da Fig. 16.
DESCRIÇÃO DETALHADA
Em binaural cue coding (BCC), um codificador codifica C canais de áudio de entrada para gerar E canais de áudio transmitidos, onde OE31. Em particular, dois ou mais dos C canais de entrada são providos em um domínio de freqüência, e um ou mais códigos de sinalização são gerados para cada uma ou mais diferentes bandas de freqüência em freqüência. Além disso, dois ou mais os C canais canais de entrada no domínio de de entrada são downmixados para
gerar os E canais transmitidos.
Em algumas implementações de
downmixing, pelo | menos | um | dos E canais | transmitidos | se | baseia < | em dois | |
ou mais dos C | canais | de | entrada, e | pelo | menos | um | dos E | canais |
transmitidos se | baseia | em | somente um | dos C | canais | de | entrada |
codificador BCC tem dois
Em uma configuração, ou um mais bancos de filtros, um estimador de códigos e um downmixer.
Os dois ou mais bancos de filtros convertem dois ou mais dos de entrada do domínio de tempo para o domínio de freqüência.
O estimador de códigos gera um ou mais mais diferentes bandas de códigos de freqüência sinalização para cada uma nos dois ou mais canais ou de entrada convertidos. O downmixer faz o downmix dos C canais de entrada para gerar os E canais transmitidos, onde
Em decodificação BCC, os E canais de áudio
transmitidos são decodificados para gerar C canais de áudio playback. Em particular, para cada uma ou mais diferentes bandas de frequência, um ou mais dos E canais transmitidos são upmixed em um domínio de frequência para gerarem dois ou mais dos C canais de playback no 5 domínio de frequência, onde ΟΕΞΙ1. Um ou mais códigos de sinalização são aplicados a cada uma ou mais diferentes bandas de frequência nos dois ou mais canais de playback no domínio de frequência para gerar dois ou mais canais modificados, e dois ou mais canais modificados
são convertidos do domínio de frequência para um domínio de tempo. Em determinadas implementações de upmix, pelo menos um dos C canais de playback se baseia em pelo menos um dos E canais transmitidos e pelo menos um código de sinalização, e pelo menos um dos C canais de playback se baseia em somente um dos E canais transmitidos e independente de quaisquer códigos de sinalização.
Em uma configuração, um decodificador BCC tem um upmixer, um sintetizador e um ou mais bancos de filtros inversos. Para cada uma ou mais das diferentes bandas de freqüências, o upmixer
faz o upmix de um ou mais dos E canais transmitidos em um domínio de frequência para gerar dois ou mais dos C canais de playback no domínio de freqüência, onde OE31. 0 sintetizador aplica um ou mais códigos de sinalização a cada uma ou mais diferentes bandas de freqüência nos dois ou mais canais de playback no domínio de freqüência para gerar dois ou mais canais modificados. Um ou mais bancos de filtros inversos convertem os dois ou mais canais modificados do domínio de freqüência para o domínio de tempo.
Dependendo da implementação em particular, um dado canal de playback pode se basear em um único canal transmitido, ao invés de em uma combinação de dois ou mais canais transmitidos. Por
4.
Ζ3 exemplo, quando há somente um de playback se baseia naquele
• · * · · • · · • ♦ · «4 · canal transmitido, cada um dos C canais canal transmitido. Nessas situações, o upmixing corresponde à cópia do canal transmitido correspondente.
Assim, para aplicações onde somente existir um canal transmitido, o upmixer pode ser transmitido para incorporados em exemplo, implementado usando um replicador que copie o canal cada canal de playback.
Os codificadores e/ou vários sistemas ou gravadores/reprodutores gravadores/reprodutores de áudio decodificadores BCC podem ser aplicações, incluindo, por de video digital, digital, computadores, transmissores/receptores por satélite, transmissores/receptores cabo, transmissores/receptores de difusão terrestre, sistemas de entretenimento doméstico e sistemas de iwie theater.
P rocessamento BCC Genérico
A Fig. 2 é um diagrama de blocos de um sistema de processamento de áudio bina ura 1 cue coding (BCC) genérico 200, que compreende um codificador 202 e um decodificador 204. O codificador
202 inclui um downmixer 206 e um estimador BCC 208.
downmixer
206 converte C canais de áudio de entrada xÁ (n) em E canais de áudio transmitidos y± (n) , onde ΟΕΞ1.
Nessa especificação, os sinais expressos usando a variável n são sinais do domínio de tempo, enquanto os sinais expressos usando a variável k são sinais do implementação em particular, no domínio de tempo como no domínio de freqüência. Dependendo da o downmixing pode ser implementado tanto domínio de frequência. O estimador BCC
208 gera códigos BCC a partir dos C canais de áudio de entrada e transmite aqueles códigos BCC tanto como informações colaterais em banda ou fora de banda, relativas aos E canais de áudio transmitidos.
Os códigos BCC típicos incluem uma ou mais das diferenças de tempos intercanais (ICTD), diferenças de níveis intercanais {ICLD) e dados de correlações intercanais (ICC) estimados entre determinados pares de canais de entrada como uma função da freqüência e do tempo. A implementação particular indicará entre quais determinados pares de canais de entrada que os códigos BCC são estimados.
Os dados ICC correspondem à coerência de um sinal binaural, que refere-se à largura percebida da fonte de áudio. Quanto mais larga a fonte de áudio, menor a coerência entre os canais
esquerdo e direito do sinal binaural resultante.
Por exemplo, a coerência do sinal binaural que corresponde à difusão de uma orquestra em um palco de auditório é tipicamente menor que a coerência do sinal binaural que corresponde a um único violino tocando solo.
Em geral, um sinal de áudio com menor coerência é normalmente percebido como mais difundido em um espaço auditivo.
Assim, os dados ICC referem-se tipicamente com a largura aparente da fonte e com o grau de envolvimento do ouvinte.
Ver, por exemplo, J.
Blauert, The Psychophysics of Human Sound Localization,
MIT Press,
1983 .
Dependendo da aplicação em particular, os E canais de áudio transmitidos e os correspondentes transmitidos diretamente ao decodificador 204 códigos BCC podem ser ou armazenados em algum tipo adequado de dispositivo para acesso posterior pelo decodificador
204. Dependendo da situação, o termo transmitindo pode se referir tanto à transmissão direta a um decodificador ou armazenagem para a provisão subsequente a um decodificador. Em qualquer caso, o decodificador 204 recebe os canais de áudio transmitidos e as informações colaterais e realiza o upmixing e a síntese BCC usando os ·♦· códigos BCC para converter os E canais de áudio transmitidos em mais do que os E (tipicamente, mas não necessariamente, C) canais de áudio playback para playback de áudio. Dependendo da implementação em particular, o upmixing pode ser feito tanto no domínio de tempo como 5 no domínio de freqüência.
Além do processamento BCC mostrado na Fig.2, um sistema genérico de processamento de áudio BCC pode incluir outros estágios de codificação e decodificação para comprimir mais os sinais
de áudio no codificador, e então descomprimir os sinais de áudio no decodificador, respectivamente. Esses codecs de áudio podem se basear em técnicas de compressão/descompressão convencionais de áudio, como as baseadas em modulação em código de pulsos (PCM), PCM (DPCM) diferencial ou DPCM (ADPCM) de adaptação.
Quando o downmixer 206 gera um sinal de soma simples (isto é, E=l) , a codificação BCC pode representar sinais de áudio muiticanais em uma taxa de bits somente discretamente maior que o necessário para representar um sinal de áudio mono. Isso ocorre porque contêm que um os dados cerca de
ICTD, ICLD e ICC estimados entre um par de canais duas ordens de magnitude inferior de informações do formato de onda de áudio.
Não somente a baixa taxa de bits da codificação BCC, como também seu aspecto de retro-compatibilidade apresenta interesse.
Um único sinal de soma transmitido corresponde a um downmix mono do sinal original estéreo ou muiticanais. Para os receptores que não suportam reprodução sonora estéreo ou multicanais, ouvir o sinal de soma transmitido é um método válido de apresentação do material de áudio em um equipamento de reprodução mono de baixo desempenho. Portanto, a codificação BCC também pode ser usada para ampliar os serviços existentes que envolvem a difusão de material de áudio mono por áudio muiticanais. Por exemplo, os sistemas existentes de radiodifusão de áudio mono podem ser ressaltados para playback estéreo ou multicanais se as informações colaterais BCC puderem ser 5 integradas no canal existente de transmissão. Existem capacidades análogas ao ser feito o downmix de áudio multicanais para dois sinais de soma que correspondem ao áudio estéreo.
BCC processa sinais de áudio com determinada
resolução de tempo e freqüência. A resolução de freqüência usada é amplamente motivada pela resolução de freqüência do sistema auditivo humano. A psicoacústica sugere que a percepção espacial se baseia muito provavelmente em uma representação de banda critica do sinal acústico de entrada. Essa resolução de freqüência é considerada usando um banco de filtros reversível (por exemplo, baseada na 15 transformada rápida de Fourier (FFT) ou um filtro espelhado em quadratura (QMF)) com sub-bandas com larguras de bandas iguais ou proporcionais à largura crítica de banda do sistema humano de audição.
Downmixing Genérico
Nas implementações preferidas, o(s) sinal (is) de soma transmitido(s) contêm todas as componentes de sinais do sinal de áudio de entrada. O obj etivo é que cada componente de sinal seja totalmente mantida. A simples soma dos canais de entrada de áudio geralmente resulta na amplificação ou na atenuação das componentes do 25 sinal. Em outras palavras, a potência das componentes de sinal em uma soma simples é geralmente maior ou menor do que a soma da potência da componente de sinal correspondente de cada canal. Pode ser usada uma técnica de downmixing que equaliza o sinal de soma, de maneira os =Ζ7
• · · · · · · •· ······ ······· · • · · · que a potência de componentes de sinal no sinal de soma aproximadamente a mesma que a potência correspondente em todos canais de entrada.
A Fig. 3 mostra um diagrama de blocos de downmixer 300 que pode ser usado para o downmixer 206 da Fig. 2 um de acordo com certas implementações do sistema BCC 200. O downmixer 300 tem um banco de filtros (FB) 302 para cada canal de entrada χ2(η)( um bloco downmixing 304, um bloco opcional de escalonamento/retardo 306 e um FB inverso(IFB) 308 para cada canal codificado yi(n).
Cada banco de filtros 302 converte cada quadro (por exemplo, 20 mseg) de um canal de entrada digital correspondente Xí(n) no domínio de tempo em um conjunto de coeficientes de entrada no domínio de freqüência. 0 bloco de downmixing 304 faz o downmix de cada sub-banda de C coeficientes de entrada correspondentes em uma sub-banda correspondente de E coeficientes no domínio de freqüência downmixados. A equação (1) representa o downmix das Â:-ésimas bandas de coeficientes de entrada -->xcW) para gerar ésima sub-banda de coeficientes downmixados (-^1(^)’λ---’Λ;W) suba kcomo segue:
= d(7í | χ2(Λ) | |
_ynW_ | xc(k) |
(D onde é uma matriz de downmixing de valores reais C-por-E.
bloco de escalonamento/retardo opcional 306 compreende um multiplica um conjunto de coeficiente multiplicadores 310, cada downmixado correspondente um dos quais por um • · · ·· • · · · fator de escalonamento (k) para gerar um coeficiente escalado correspondente T/W, motivação para a operação de escalonamento é equivalente à equalização generalizada para downmixing com fatores arbitrários de ponderação para cada canal.
Se os canais de entrada
onde Dor se deriva pela quadratura de cada de matriz na matriz de downmixing C-por-E e a da sub-banda k do canal de entrada i.
Se as sub-bandas não forem independentes, valores de potência do elemento potência então os sinal downmixado serão maiores ou menores do que os computados usando a Equação (2) , devido às amplificações ou cancelamentos de sinais quando as componentes do sinal estiverem em fase ou fora de fase, respectivamente. Para evitar isso, a operação de downmixing da Equação (1) se aplica a sub-bandas seguidas pela operação de escalonamento dos multiplicadores 310. Os fatores de escalonamento (k) (l#i#E) podem ser obtidos usando a
Equação (3) como segue:
¢3) onde é a potência de sub-banda computada pela
Equação ¢2) , e é a potência do sinal de sub-banda downmixado correspondente .
♦ · · • « · ·· • · · · • · · • · ·
Além de, ou ao invés de prover escalonamento opcional, o bloco de escalonamento/retardo 306 pode aplicar opcionalmente retardos aos sinais.
Cada banco de filtros inverso 308 converte um conjunto de coeficientes escalados correspondentes no domínio de freqüência para um quadro de um canal transmitido digital correspondente y± (n).
Apesar da Fig. 3 mostrar todos os C dos canais de
entrada sendo convertidos no domínio de freqüência para subseqüente downmixing, em implementações alternativas, um ou mais (mas inferior a C-l) dos C canais de entrada podem desviar alguns ou todos os processamentos mostrados na Fig. 3 e ser transmitidos como um número equivalente de canais de áudio não modificados. Dependendo da implementação em particular, esses canais de áudio não modificados podem ou não ser usados pelo estimador BCC 208 da Fig. 2 na geração dos códigos BCC transmitidos.
Em uma implementação do downmixer 300 que gera um sinal de soma simples y(n), E=1 e os sinais de cada sub-banda de cada canal de entrada c são adicionados e então multiplicados por um fator e(£), de acordo com a Equação (4) como segue:
o fator e(k) é dado pela Equação (5) como segue: ~C
ΣΡχ.(Α) c=I_________
Px(k)
Pxc(k) onde é uma breve estimativa da potência de *
• · · • ♦ Xt'(^) no índice de tempo kf e é uma breve estimativa da x (k) potência de c . As sub-bandas equalizadas são transformadas novamente para o domínio de tempo resultando no sinal de soma y(n) que é transmitido ao decodificador BCC.
Síntese BCC Genérica
A Fig. 4 mostra um diagrama de blocos sintetizador BCC 400 que pode ser usado para o decodificador
Fig. 2, de acordo com certas implementações do sistema BCC
de | um |
204 | da |
200 . | 0 |
sintetizador BCC 400 tem um banco de filtros
402 para cada canal transmitido yi(n), um bloco de upmixing 404, de retardos 406, de multiplicadores
408, de blocos de correlação
410 e um banco de filtros inverso
412 para cada canal de playback
Cada banco de filtros 402 converte cada quadro de um canal digital e em um conjunto transmitido correspondente yÁ (n) no domínio de tempo de coeficientes de entrada Ιύ(^) no domínio de freqüência. 0 bloco de upmixing 404 faz o upmix de cada sub-banda dos
E coeficientes de canal transmitidos correspondentes em uma sub-banda correspondente de C coeficientes upmixados no domínio de freqüência.
A equação (4) representa o upmixing da k-ésima sub-banda de coeficientes de canais transmitidos (ΐ*!®’^)’··· J/íW) para gerar a Ir-ésima sub-banda de coeficientes upmixados (^1(^)^2(^),---^(.(^)) como segue:
s2(k) | = u«. | .tW |
ÃW. |
(6) onde U/íc é uma matriz de upmixing de valores reais
E-por-C. A realização do upmixing no domínio de freqüência permite
0/
que o upmixing seja aplicado individualmente em cada diferente subbanda .
Cada retardo 406 aplica um valor de retardo di(k) com base no código BCC correspondente para dados ICTD para garantir que os valores ICTD desejados apareçam entre certos pares de canais de playback. Cada multiplicador 408 aplica um fator de escalonamento ad (k) com base no código BCC correspondente para dados ICLD para garantir que os valores ICLD desejados apareçam entre certos pares de
canais de playback. 0 bloco de correlação 410 realiza uma operação de decorrelação A com base nos códigos BCC correspondente para dados ICC para garantir que os valores
ICC desejados apareçam entre certos pares de canais de playback.
Outras descrições das operações de bloco de correlação 410 podem ser encontradas no Pedido de Patente norteamericana N- 10/155,437, depositado em 24/05/02 como Baumgarte 2-10.
15 | A | síntese dos valores | ICLD | pode | ser | menos |
problemática | do que | a síntese dos valores | ICTD | e ICC, | já | que a |
síntese ICLD | envolve | somente o escalonamento | de sinais de | sub- | -banda. |
Como as sinalizações ICLD são as sinalizações direcionais mais comumente usadas, é comumente mais importante que os valores ICLD se aproximem daqueles do sinal de áudio original. Assim, os dados ICLD podem ser estimados entre todos os pares de canais. Os fatores de escalonamento ai(k) (l#i#C) para cada sub-banda são escolhidos de preferência de maneira que a potência de sub-banda de cada canal de playback se aproxime da potência correspondente do canal de áudio de entrada original.
Um objetivo pode ser aplicar relativamente poucas modificações de sinal para a sintetização dos valores ICTD e ICC.
Assim, os dados BCC podem não incluir valores ICTD e ICC para todos
..
β® • · ·· • * · • · « « · ♦ · · · ♦ ♦
·· · β
os pares de canais. Nesse caso, o sintetizador BCC 400 sintetizaria os valores ICTD e ICC somente entre determinados pares de canais.
Cada banco de filtro inverso 412 converte um conjunto de coeficientes sintetizados correspondentes ^/(Λ) no domínio de freqüência para um quadro de um canal digital de playback correspondente x/(n)
Apesar da Fig. 4 mostrar todos os E dos canais transmitidos sendo convertidos para o domínio de freqüência para subseqüente upmixing e processamento BCC, nas implementações alternativas, um ou mais (mas não todos) os E canais transmitidos podem desviar de alguns ou todos os processamentos mostrados na Fig.
4. Por exemplo, um ou mais dos canais transmitidos podem ser canais não modificados que não estejam submetidos a qualquer upmixing. Além disso, para ser um ou mais dos C canais de playback, esses canais não modificados, por sua vez, podem ser, mas não precisam ser, usados como canais de referência para os quais o processamento BCC é aplicado para sintetizar um ou mais de outros canais de playback. Em qualquer caso, esses canais não modificados podem estar sujeitos a retardos para compensar o tempo de processamento envolvido no upmixing e/ou no processamento BCC usado para gerar o restante dos canais de playback.
Deve ser observado que, apesar da Fig. 4 mostrar C canais de playback sendo sintetizados a partir de E canais transmitidos, onde C era também o número de canais de entrada originais, a síntese BCC não se limita a esse número de canais de playback. Em geral, o número de canais de playback pode ser qualquer número de canais, incluindo números maiores ou menores que C e possivelmente mesmo situações em que o número de canais de playback é igual ou menor que o número de canais transmitidos.
Diferenças perceptivelmente relevantes entre canais de áudio
Supondo um sinal de soma simples, BCC sintetiza um sinal de áudio estéreo ou multicanais de maneira que ICTD, ICLD e ICC se aproximam das sinalizações correspondentes do sinal de áudio original. A seguir, será discutido o papel de ICTD, ICLD e ICC com relação aos atributos de imagem espacial auditiva.
conhecimento sobre audição espacial implica que.
para um evento auditivo, ICTD e
ICLD estão relacionados à direção percebida. Ao se considerar as respostas impulsivas binaurais do ambiente (BRIRs) de uma fonte, existe uma relação entre a largura do evento auditivo e o envelopamento do ouvinte e os dados ICC estimados para as partes precoces e posteriores das BRIRs. Entretanto, a relação entre ICC e essas propriedades de sinais gerais (e não somente as BRIRs) não é direta.
Sinais de áudio estéreo e multicanais normalmente
contêm uma mistura complexa de sinais fonte concomitantemente ativos sobrepostos pelas componentes do sinal refletido resultantes da gravação em espaços fechados ou adicionados pelo engenheiro de gravação para a criação artificial de uma impressão espacial.
Diferentes sinais fonte e suas reflexões ocupam diferentes regiões no plano tempo-freqüência. São refletidos pelas ICTD, ICLD e ICC, que variam como uma função do tempo e da frequência. Nesse caso, a 25 relação entre as ICTD, ICLD e ICC instantâneas e as direções do evento auditivo e a impressão espacial não é óbvia. A estratégia de determinadas configurações de BCC é para sintetizar cegamente essas sinalizações, de maneira que se aproximem das sinalizações * 0· • ·· ** · *
• ··
* · * * · *· ·«*··· • e ·♦ ·. · <' » • · · · · · · • · · · correspondentes do sinal de áudio original.
São usados bancos de filtros com sub-bandas de
larguras de bandas iguais a duas vezes à largura de banda retangular equivalente (ERB). Ά audição informal revela que a qualidade de áudio da BCC não melhora de maneira notável ao ser escolhida uma maior resolução de freqüência. Pode ser desejada uma menor resolução de freqüência, já que isso resulta em menos valores ICTD, ICLD e ICC que devem ser transmitidos ao decodifiçador e assim em menor taxa de bits.
Com relação à resolução de tempo, ICTD, ICLD e ICC são consideradas tipicamente em intervalos regulares de tempo. É obtido alto desempenho quando ICTD, ICLD e ICC são considerados aproximadamente a cada 4 a 16 ms. Deve ser observado que, a menos que as sinalizações sejam consideradas em intervalos de tempo muito pequenos, o efeito de precedência não é considerado diretamente. Supondo um par lead-lag clássico de estímulos sonoros, se o lead e o lag caírem em um intervalo de tempo em que seja sintetizado somente um conjunto de sinalizações, então a dominância de localização do lead não será considerada. Apesar disso, BCC obtém qualidade de áudio refletida em uma classificação MUSHRA média de cerca de 87 (isto é, qualidade excelente de áudio) na média e até próximo de 100 para determinados sinais de áudio.
A diferença perceptivelmente pequena geralmente obtida entre o sinal de referência e o sinal sintetizado implica que as sinalizações relacionadas a uma ampla faixa de atributos de imagem espacial auditiva são consideradas implicitamente pela sintetização de ICTD, ICLD e ICC em intervalos regulares de tempo. A seguir, são feitas algumas argumentações sobre como ICTD, ICLD e ICC podem *
j ·· · · ·*··** · ·· · r r · · · c · *··*'· c • · <* ·· ··· • ··· v · refere-ser com uma faixa de atributos de imagem espacial auditiva.
Estimativa de sinalizações espaciais
A seguir é descrito como são estimadas ICTD, ICLD e
ICC. A taxa de bits para a transmissão dessas sinalizações espaciais (quantizadas e codificadas) pode ser de somente alguns kb/s e portanto, com BCC, é possível transmitir sinais de áudio estéreo e multicanais em taxas de bits próximos ao que é necessário para um único canal de áudio.
Fig. 5 mostra um diagrama de blocos de um
estimador BCC
208 da Fig. 2, de acordo com uma configuração da presente invenção.
O estimador BCC
208 compreende bancos de filtros (FB) 502, que podem ser os mesmos bancos de filtros 302 da Fig. 3, e o bloco de e ICC para estimativa 504, que gera sinalizações espaciais ICTD, ICLD cada diferente sub-banda de freqüência gerada pelos bancos de filtros
Estimativa de ICTD, ICLD e ICC para sinais estéreo
As seguintes medidas são usadas para ICTD, ICLD e
ICC para os correspondentes sinais de sub-banda x^^ e ^e dois canais de áudio (por exemplo, estéreo):
o ICTD [amostras]: t12(£)= argmaxlo 12(<2,£)1 (7) com uma breve estimativa da função normalizada de correlação cruzada dada pela Equação (8) como segue:
Φ |9 (d, k)~ i----------------------r (8) onde
absoluto da multicanais
24.
• ♦ • · • · • · • · • · *
« · • 4 • · • · d{ = max{-í/,0} d2 = max {d, O}
ICLD [dB] ¢9) uma breve estimativa da média de (10) o ICC:
cl2(k)= max|®l2(<y,*)|
Deve ser observado (11) que é considerado o valor correlação cruzada normalizada
Estimativa de ICTD, ICLD e é normalmente e ci2(D tem uma
ICC para sinais de áudio
Quando existirem mais do que dois canais de entrada, suficiente definir ICTD e ICLD entre um canal de referência (por exemplo, canal número 1) e os demais canais, como ilustrado na Fig. 6 para o caso de C=5 canais, denotam ICTD e ICLD, respectivamente, entre o canal de referência 1 e o canal c.
De forma oposta à ICTD e ICLD, ICC normalmente tem mais graus de liberdade. Os ICC, como definidas, podem ter valores diferentes entre todos os possíveis pares de canais de entrada. Para C canais, existem 0(01) /2 possíveis pares de canais; por exemplo, para 5 canais, existem 10 pares de canais, como ilustrado na Fig.
(a). Entretanto, tal esquema exige que, para cada sub-banda em cada índice de tempo, os valores ICC 0(0-1)/2 sejam estimados e
transmitidos, resultando em alta complexidade de computação e em alta taxa de bits.
De maneira alternativa, para cada sub-banda, ICTD e
ICLD determinam a direção a que se refere o evento auditivo da componente de sinal correspondente na sub-banda. Um único parâmetro
ICC por sub-banda pode então ser usado para descrever a coerência geral entre todos os canais de áudio. Podem ser obtidos bons resultados pela estimativa e transmissão de sinalizações ICC somente
entre os dois canais com maior energia em cada sub-banda em cada indice de tempo. Isto está ilustrado na Fig. 7 (b) , onde para os instantes de tempo k-1 e k os pares de canais (3, 4) e (1, 2) são os mais fortes, respectivamente. Pode ser usada uma regra heurística para determinar ICC entre os demais pares de canais.
Síntese de sinalizações espaciais
A Fig. 8 mostra um diagrama de blocos de uma implementação do sintetizador BCC 400 da Fig. 4 que pode ser usado em um decodificador BCC para gerar um sinal de áudio estéreo ou
multicanais dado um único sinal de soma transmitido s(n) mais as sinalizações espaciais. 0 sinal de soma s(n) é decomposto em subbandas, onde denota uma dessas sub-bandas. Para a geração das sub-bandas correspondentes de cada um dos canais de saída, são aplicados retardos dc, fatores de escala aCf e filtros hc à sub-banda correspondente do sinal de soma. (Para a simplicidade de notação, o índice de tempo k é ignorado nos retardos, fatores de escala e filtros). As ICTD são sintetizadas por retardos impostos, as ICLD por escalonamento e ICC pela aplicação de filtros de decorrelação. O processamento mostrado na Fig. 8 se aplica de forma independente a cada sub-banda.
2$.
Síntese ICTD
Os retardos dc são determinados a partir das ICTDs τ (k^i ltA 7 , de acordo c^>m_
2< c< C
I (12)
O retardo para o canal de referência, dlf é computado de maneira que a magnitude máxima dos retardos dc seja \3S minimizada. Quanto menos os sinais de sub-banda forem modificados.
menor é o perigo de ocorrência de problemas. Se a taxa de amostragem de sub-banda não proporcionar suficiente tempo-resolução para síntese ♦ 10
ICTD, os retardos poderão ser impostos com maior precisão usando os adequados filtros passa-tudo.
Síntese ICLD
Para que os sinais desejados ICLDs entre o canal de sub-banda de e o canal de saída tenham referência 1, os os fatores de ganho ac devem satisfazer n
Equação (13) como segue:
(13)
Além disso, as sub-bandas de saída são preferivelmente normalizadas de maneira que a soma da potência de todos os canais entrada. Como a de saída seja igual à potência do sinal potência do sinal original total em cada de soma de sub-banda é preservada no sinal de soma, essa normalização resulta na potência de sub-banda absoluta para cada canal de saída, aproximando-se da potência correspondente do sinal de áudio de entrada do codificador original. Dadas essas limitações, os fatores de escala ac são dados pela Equação (14) como segue:
|θΔΖ,υ/10
/20
c = 1
ao contrário (14)
Síntese ICC
Em certas configurações, o objetivo da síntese TCC é reduzir a correlação entre as sub-bandas após os retardos e tendo sido aplicada ao escalonamento, sem afetar ICTD e ICLD. Isto pode ser conseguido projetando os filtros hc na Fig. 8 de maneira que ICTD e
ICLD variem efetivamente como uma função da freqüência, de maneira
que a variação média seja zero em cada sub-banda (banda crítica auditiva).
A Fig. 9 ilustra como ICTD e ICLD variam dentro de uma sub-banda como uma função da freqüência. A amplitude da variação de ICTD e ICLD determina o grau de decorrelação e é controlada como uma função de ICC. Deve ser observado que ICTD varia suavemente (como na Fig. 9 (a)), enquanto ICLD varia randomicamente (como na Fig.
9 (b) ) . Pode-se variar ICLD tão suavemente quanto ICTD, mas isto
resultaria em uma maior coloração dos sinais resultantes de áudio.
Outro método para sintetizar ICC, particularmente adequado para a síntese ICC multicanais, é descrita em mais detalhes em C. Faller, Parametric multi-channel audio coding: Synthesis of coherence cues, IEEE Trans. on Speech and Audio Proc.t 2003, cujos ensinamentos estão incorporados à presente como referência. Como uma função do tempo e da freqüência, quantidades específicas de reverberação posterior artificial são adicionadas a cada um dos canais de saída para a obtenção do desejado ICC. Além disso, pode ser aplicada uma modificação espectral, de maneira que o envelope espectral do sinal resultante se aproxime do envelope espectral do
28.
······· · « · · · · · · • · * · sinal de áudio original.
Outras técnicas de síntese
ICC relativas e não relativas para sinais estéreo (ou pares de canais de áudio) foram apresentadas em E.
Schuij ers, W.
Oomen, B. den
Brinker, and
J.
Breebaart, Advances in parametric coding for high-quality audio, in
Preprint 114th Conv.
Aud. Eng. Soe., Mar. 2003, and J. Engdegard,
H.
Purnhagen,
J. Roden, and L.
Lí1j eryd, Synthetic ambience in parametric stereo coding, in
Preprint Conv. Aud. Eng. Soc. ,
May 2004, cujos ensinamentos estão incorporados à presente como
referência.
BCC C-para-E
Como descrito anteriormente, o BCC pode ser implementado uma variação único canal com de mais do que um canal de transmissão. Foi descrita
BCC que representa C canais de áudio não como um (transmitido), mas como E canais, designados BCC
C-para-E. Existem (pelo menos) duas motivações para BCC C-para-E:
o BCC com um canal de transmissão provê um caminho retro-compatível para a atualização dos sistemas mono
existentes para playback de áudio estéreo ou multicanais. Os sistemas atualizados transmitem o sinal soma downmixado BCC pela infraestrutura mono existente, enquanto também transmite as informações colaterais BCC. BCC C-para-E se aplica à codificação retro-compatível dos E canais de áudio do canal C.
o BCC C-para-E introduz escalabilidade em termos de diferentes graus de redução do número do canais transmitidos.
Espera-se que quanto mais canais de áudio são transmitidos, melhor será a qualidade de áudio.
Os detalhes do processamento de sinal para BCC C para-E, de maneira a definir as sinalizações ICTD, ICLD e ICC estão descritos no pedido norte-americano número de série 10/762.100, depositado em 20/01/04 (Faller 13-1).
Configuração de Canal Individual
Em certas configurações, tanto BCC com um canal de transmissão como BCC C-para-E envolvem algoritmos para síntese de ICTD, ICLD e/ou ICC. Normalmente, é suficiente para sintetizar as sinalizações ICTD, ICLD e/ou ICC a cada cerca de 4 a 30 ms. Entretanto, o fenômeno perceptivo de efeito de precedência implica que existem instantes específicos de tempo quando o sistema auditivo humano avalia sinalizações em resolução de maior tempo (por exemplo, a cada 1 a 10 ms).
Um único banco de filtro estático normalmente não pode fornecer resolução de freqüência suficientemente alta, adequada para a maioria dos instantes de tempo, enquanto proporciona resolução de tempo suficientemente alta em intervalos de tempo quando o efeito de precedência se torna efetivo.
Algumas configurações da presente invenção são dirigidas para um sistema que usa síntese de ICTD, ICLD e/ou ICC com resolução de tempo suficientemente baixa, enquanto adiciona novo processamento para tratar dos instantes de tempo quando é necessária maior resolução de tempo. Além disso, em certas configurações, o sistema elimina a necessidade de tecnologia de mudança de janela adaptativa de sinal, que é normalmente difícil para integrar em uma estrutura de sistema. Em certas configurações, são estimados os envelopes temporais de um ou mais dos canais de áudio de entrada do codificador original. Isto pode ser feito, por exemplo, diretamente pela análise da estrutura de tempo do sinal ou pelo exame da autoAz
u. • · • ♦ • · | • · · • • • | • * · • · • · | • · · • • · • | • • · • • | • · • • · • · | • • • · ··· | • · · · ♦ · · • · · · • · · |
• · ♦ | • | • | • · · | • | • | • · |
correlação do espectro do sinal na frequência. As duas abordagens serão elaboradas em outros dos subsequentes exemplos de implementação. As informações envelopes são transmitidas ao decodificador (como códigos de sinalização de envelope) se perceptivamente necessárias e vantajosas.
Em certas configurações, o decodifiçador aplica certos processamentos para impor esses desejados envelopes temporais em seus canais de áudio de saída:
o Isto pode ser atingido pelo processamento TP,
por exemplo, a manipulação do envelope do sinal pela multiplicação das amostras da amplitude do domínio de tempo do sinal pela função de modificação com variação no tempo. Um processamento similar pode ser aplicado ás amostras espectrais/sub-banda se a resolução de tempo das sub-bandas for suficientemente alta (ao custo de uma resolução de freqüência mais grosseira).
o De maneira alternativa, uma convolução / filtragem da representação usada de maneira análoga á de conformação do ruído de baixa taxa espectral do sinal na freqüência pode ser usada na técnica anterior com o propósito quantização de um codificador de áudio de de bits ou para a ampliação dos sinais codificados de estéreo de intensidade. Isto será preferível se o banco de filtros tiver uma resolução de alta freqüência e, portanto, um tempo de resolução bem menor.
Para a abordagem de convolução/filtragem:
método de conformação de envelope é estendido a partir do estéreo de intensidade para a codificação multicanais
C-para-E.
técnica compreende uma montagem onde a conformação de envelope é controlada pelas informações paramétricas • ·«· · ·«* · ·· * · ··· ·« »·· ·· · · · · · • · ·»«· · ·· ······ « · « · · · ······« · « ··«* » ·· «·*·· «· · * » · · · · ·· · (por exemplo, marcadores binários) geradas pelo codificador, mas na realidade é realizada usando conjuntos de coeficientes de filtro derivados do decodificador.
o Em outra montagem, são transmitidos conjuntos de coeficientes de filtro do decodificador, por exemplo, somente quando perceptivamente necessários e/ou benéficos.
mesmo é também verdade para a abordagem do domínio de tempo /sub-banda. Portanto, podem ser introduzidos critérios (por exemplo, detecção transiente e uma estimativa de tonalidade) para
também controlar a transmissão das informações envelope.
Podem existir situações em que será favorável desabilitar o processamento TP para evitar possíveis problemas. Para ficar do lado da segurança, é uma boa estratégia deixar o processamento temporal desabilitado como padrão (isto é, BCC operaria 15 de acordo com um esquema BCC convencional). 0 processamento adicional é somente habilitado quando se espera que uma maior resolução
temporal dos canais proporcione melhora, por exemplo, quando se espera que o efeito de precedência se torne ativo.
Como declarado anteriormente, este controle de habilitação/desabilitação pode ser obtido por detecção transiente.
Isto é, se um transiente é detectado, então é habilitado o processamento TP. O efeito de precedência é mais eficaz para transientes. A detecção de transientes pode ser usada com vistas à conformação eficaz de não somente simples transientes, mas também de 25 componentes de sinal logo antes e depois do transiente. As possíveis formas de detectar transientes incluem:
o Observar o envelope temporal dos sinais de entrada do codificador BCC ou do(s) sinal(is) de soma BCC * · «· · • « * · «·««·· ··· · · * transmitido(s). Se houver um súbito aumento de potência, então ocorreu um transiente.
o Examinar o ganho da codificação preditiva linear (LPC) como estimada no codificador ou decodificador. Se o ganho de previsão LPC ultrapassar um determinado limite, então poderá ser suposto que o sinal é transiente ou altamente oscilante. A análise LPC é computada na autocorrelação do espectro.
Além disso, para evitar possíveis problemas nos sinais tonais, o processamento TP não é aplicado de preferência
quando a tonalidade do(s) sinal (is) de soma transmitido(s) é alta.
De acordo com certas configurações da presente invenção, os envelopes temporais dos canais de áudio individuais originais são estimados em um codificador BCC para permitir que um decodificador BCC gere canais de saída com envelopes temporais similares (ou perceptivamente similares) aos dos canais de áudio originais. Algumas configurações da presente invenção enfocam o fenômeno do efeito de precedência. Algumas configurações da presente invenção envolvem a transmissão de códigos de sinalização de
envelope, além de outros códigos BCC, como ICLD, ICTD e/ou ICC, como parte das informações colaterais BCC.
Em certas configurações da presente invenção, a resolução de tempo para as sinalizações de envelopes temporais é mais precisa do que a resolução de tempo de outros códigos BCC (por exemplo, ICLD, ICTD, ICC). Isto permite a conformação de envelope a 25 ser realizada no período provido por uma janela de síntese que corresponde ao comprimento de um bloco de um canal de entrada para o qual outros códigos BCC são derivados.
Exemplos de Implementação
33, • ··· · ««» • · · · * • · » ♦♦· • · < · · • V · ·· «·· · · · * « · · ««··*« ·♦· » · * » ♦ · · » • « « de blocos do um codificador
« · • · ♦ · •
A Fig. 10 mostra um diagrama processamento no domínio do tempo que é adicionado a
BCC, como o codificador 202 da Fig. 2, de acordo com uma configuração da presente invenção. Como mostrado na Fig. 10(a), cada analisador de 5 processo temporal (TPA) 1002 estima o envelope temporal de um diferente canal de entrada original xc(n), embora, no geral, qualquer um ou mais dos canais de entrada possa(m) ser analisado(s).
A Fig. 10(b) mostra um diagrama de blocos de uma possível implementação baseada no domínio de tempo de TPA 1002, na
qual as amostras dos sinais de entrada são elevadas ao quadrado (1006) e então filtradas em passa-baixa (1008) para caracterizar o envelope temporal do sinal de entrada. Em configurações alternativas, o envelope temporal pode ser estimado usando uma autocorrelação / método LPC ou por outros métodos, por exemplo, usando uma transformada de Hilbert.
codifica os bloco 1004 da Fig. 10(a) parametriza, quantiza e envelopes temporais estimados antes da transmissão como informações de processamento temporal (TP) (isto é, códigos de
sinalização de envelope) que estão incluídas nas informações colaterais da Fig. 2.
Em uma configuração, um detector (não mostrado) no bloco 1004 determina se o processamento TP a qualidade de áudio, esse bloco 1004 no decodificador melhorará transmitindo informações colaterais TP somente durante aqueles intervalos em que a qualidade de áudio será melhorada pelo processamento TP.
A Fig. 11 ilustra uma aplicação exemplar no domínio de tempo do processamento TP no contexto do sintetizador BCC 400 da
Fig. 4. Nessa configuração, existe um único sinal de soma transmitido s(n), C sinais base são gerados pela replicação daquele sinal de soma e a conformação de envelope é aplicada individualmente a diferentes canais sintetizados. Em configurações alternativas, a ordem dos retardos, o escalonamento e demais processamentos podem ser diferentes. Além disso, em configurações alternativas, a conformação de envelope não se restringe ao processamento de cada canal independentemente. Isto é especialmente verdadeiro para implementações de convolução/baseadas em filtragem que exploram a coerência sobre as frequências de banda para obter informações da boa
estrutura temporal do sinal.
Na Fig. 11 (a), o bloco de decodificaçao 1102 recupera os sinais de envelope temporal a para cada canal de saída das informações colaterais transmitidas TP recebidas do codificador BCC, e cada bloco TP 1104 aplica as informações de envelope 15 correspondentes para conformar o envelope do canal de saída.
A Fig. 11(b) mostra um diagrama de blocos de uma possível implementação baseada no domínio de tempo de TP 1104, onde
as amostras do sinal sintetizado são elevadas ao quadrado (1106) e então filtradas em passa-baixa (1108) para caracterizar o envelope temporal b do canal sintetizado. É gerado um fator de escala (por exemplo, sqrt (a/b)) (1110) e então aplicado (1112) ao canal sintetizado para gerar um sinal de saída com um envelope temporal substancialmente igual ao do canal de entrada original correspondente.
Em implementações alternativas de TPA 1002 da Fig.
e TP 1104 da Fig. 11, os envelopes temporais são caracterizados usando operações de magnitude ao invés de elevar ao quadrado as amostras de sinal. Nessas implementações, a razão a/b pode ser usada &
como fator de corresponder processamento
3S · ♦·♦ · ··· • * # · * · · ♦ . · « · »· ·♦ · · « * escala sem ter que aplicar a operação ·♦ • · de
Apesar da operação de escalonamento a uma implementação
TP, também pode ser
V • · ·· * a *
* ·· » * raiz quadrada.
da Fig. 11(c) baseada no domínio de tempo do implementado o processamento
TP (assim como os processamentos TPA e no domínio de freqüência, como na configuração das Figs. 16-17 (descrita abaixo). Assim, para os objetivos da presente especificação, o termo função de escalonamento deve ser interpretado para cobrir tanto as
operações no domínio de tempo como no domínio de freqüência, como as operações de filtragem das Figs. 17(b) e (c).
Em geral, cada TP 1104 é projetado preferivelmente de maneira que não modifique a potência do sinal (isto é, energia). Dependo da implementação em particular, essa potência de sinal pode ser uma potência de sinal médio de curto tempo em cada canal, por 15 exemplo, com base na potência de sinal total por canal no período definido pela janela síntese ou por alguma outra medida adequada de potência. Assim, pode ser aplicada o escalonamento da síntese ICLD (por exemplo, usando multiplicadores 408) antes ou depois da
conformação de envelope.
Como o escalonamento de banda total dos sinais de saída BCC pode provocar problemas, a conformação de envelope pode ser somente aplicada em freqüências especificadas, por exemplo, freqüências maiores do que uma determinada freqüência de corte (por exemplo, 500 Hz) . Deve ser observado que a variação de 25 freqüência para análise (TPA) pode diferir da variação de freqüência para síntese (TP).
As Figs. 12(a) e (b) mostram possíveis implementações de TPA 1002 da Fig. 10 e TP 1104 da Fig. 11, onde a
36» »·· • · · * · * ·· · r ·· ·· «
• · «
• · • ·
«·· conformação de envelope é somente aplicada em frequências maiores do que a freqüência de corte fTP. Em particular, a Fig. 12 (a) mostra a adição do filtro passa-alta 1202, que filtra as frequências inferiores a antes da caracterização do envelope temporal. A Fig.
12(b) mostra a adição do banco de filtros de duas bandas 1204 tendo uma freqüência de corte de fTP entre as duas sub-bandas, onde somente a parte de alta freqüência é temporalmente conformada. Então, o banco de filtro inverso de duas bandas 1206 recombina a parte de baixa
freqüência com a parte de alta freqüência temporalmente conformada para gerar o canal de saída.
A Fig. 13 mostra um diagrama de blocos do processamento no domínio da freqüência que é adicionado a um codificador BCC, como o codificador 202 da Fig. 2, de acordo com uma configuração alternativa da presente invenção. Como mostrado na Fig.
13(a), o processamento de cada TPA 1302 é aplicado individualmente em uma diferente sub-banda, onde cada banco de filtro (FB) é o mesmo que um correspondente FB 302 da Fig. 3 e o bloco 1304 é uma implementação
de sub-banda análoga ao bloco 1004 da Fig. 10. Em implementações alternativas, as sub-bandas para o processamento TPA podem diferir das sub-bandas BCC. Como mostrado na Fig. 13(b), o TPA 1302 pode ser implementado análogo ao TPA 1002 da Fig. 10.
A Fig. 14 ilustra uma aplicação exemplar do domínio de freqüência do processamento TP no contexto do sintetizador BCC 400 da Fig. 4. O bloco de decodif icação 1402 é análogo ao bloco de decodificação 1102 da Fig. 11, e cada TP 1404 é uma implementação de sub-banda análoga a cada TP 1104 da Fig. 11, como mostrado na Fig.
14(b) .
A Fig. 15 mostra um diagrama de blocos de
processamento no domínio da freqüência que é adicionado ao codificador BCC, como o codificador 202 da Fig. 2, de acordo com outra configuração alternativa da presente invenção. Esse esquema tem a seguinte montagem: As informações de envelope de cada canal de entrada são obtidas pelo cálculo de LPC através da freqüência ¢1502), parametrizada (1504), quantizada (1506) e codificada no fluxo de bits (1508) pelo codificador. A Fig. 17(a) ilustra um exemplo de implementação de TPA 1502 da Fig. 15. As informações colaterais a serem transmitidas ao sintetizador multicanais (decodificador) poderia ser os coeficientes de filtro LPC computados por um método de autocorrelação, pelos coeficientes de reflexão resultantes ou pares espectrais de linha, etc., ou, de maneira a manter pequena a taxa de informações colaterais, os parâmetros obtidos do, por exemplo, ganho de previsão LPC como marcadores binários transientes presentes/não presentes.
A Fig. 16 ilustra outra aplicação exemplar de domínio de freqüência do processamento TP no contexto do sintetizador
BCC 400 da Fig. 4. O processamento de codificação da Fig. 15 e o
processamento de decodificação da Fig. 16 podem ser implementados para formarem um par combinado de uma configuração codificador/decodificador. O bloco de decodificação 1602 é análogo ao bloco de decodificação 1402 da Fig. 14, e cada TP 1604 é análogo a cada TP 1404 da Fig. 14. Nesse sintetizador multicanais, as informações colaterais TP transmitidas são decodificadas e usadas para controlar a conformação de envelope dos canais individuais. Além disso, entretanto, o sintetizador inclui um estágio caracterizador de envelope (TPA) 1606 para a análise dos sinais de soma transmitidos, um TP inverso(ITP) 1608 para o achatamento do envelope temporal de •38··· · ··· cada sinal base, em que os ajustadores de envelope (TP) 1604 impõem um envelope modificado em cada canal de saida. Dependendo da implementação particular, o ITP pode ser aplicado tanto antes como depois do upmixing. Em detalhes, isto é feito usando a abordagem convolução/filtragem, onde a conformação de envelope é obtida pela aplicação dos filtros com base LPC no espectro através da freqüência, como ilustrado nas Figs. 17(a), (b),
ITP e TP, respectivamente. Na Fig.
16, o bloco de controle 1610 'determina se a conformação de envelope deve ou não ser implementada
e, caso positivo, se deve se basear (1) nas informações colaterais TP transmitidas ou (2) de TPA 1606.
As de operação do bloco nos dados de envelope localmente caracterizados
Figs. 18(a) e (b) ilustram dois modos exemplares de controle 1610 da Fig. 16. Na implementação da
Fig. 18(a) , um conjunto de coeficientes de filtro é transmitido ao decodificador, e a conformação de envelope por convolução/filtragem é feita com base nos coeficientes transmitidos.
Se for detectado que a conformação transiente não é benéfica para codificador, então
nenhum dado de filtro é enviado e os filtros são desabilitados . (mostrado na
Fig. 18(a) pela mudança para um conjunto de coeficientes de filtro unitário [1,0...]).
Na implementação da somente é transmitido um marcador transiente/não transiente para cada canal e esse marcador é usado para ativar ou desativar a conformação baseada nos conjuntos de coeficientes de filtro calculados a partir dos sinais downmix transmitidos no decodificador.
Outras Configurações Alternativas
Apesar de a presente invenção ter sido descrita no ·· · · ·*· • · · · ·
• ······ • · ··· * * · • · · · · · · • · · · contexto de esquemas de codificação BCC em que existe um único sinal de soma, a presente invenção também pode ser implementada no contexto de esquemas de codificação BCC tendo dois ou mais sinais de soma. Nesse caso, o envelope temporal para cada diferente sinal de soma 5 base pode ser estimado antes de aplicar a síntese BCC, e diferentes canais de saída BCC podem ser gerados baseados em diferentes envelopes temporais, dependendo de quais sinais de soma foram usados para sintetizar os diferentes canais de saída. Um canal de saída que é sintetizado a partir de dois ou mais diferentes canais de soma 10 poderia ser gerado com base em um envelope temporal eficaz que leva em consideração (por exemplo, por meio de média ponderada) os efeitos relativos dos canais de soma constituintes.
Apesar de presente invenção ter sido descrita no contexto de esquemas de codificação BCC envolvendo códigos ICTD, ICLD e ICC, a presente invenção também pode ser implementada no contexto de outros esquemas de codificação BCC envolvendo somente um ou dois desses três tipos de códigos (por exemplo, ICLD e ICC, mas não ICTD) e/ou um ou mais outros tipos de códigos. Além disso, a seqüência do processamento da síntese BCC e a conformação de envelope podem variar em diferentes implementações. Por exemplo, quando a conformação de envelope é aplicada a sinais no domínio de frequência , como nas Figs. 14 e 16, a conformação de envelope poderia de maneira alternativa ser implementada depois da síntese ICTD (naquelas configurações que empregam síntese ICTD), mas antes da síntese ICLD.
Em outras configurações, a conformação de envelope poderia ser aplicada aos sinais upmixados antes de ser aplicada qualquer outra síntese BCC.
Apesar de a presente invenção ter sido descrita no
40;· • · · · ► · · ♦ * · · • · · * • ·· contexto de codificadores BCC que geram códigos de sinalização de envelope a partir dos canais de entrada originais, em configurações alternativas, os códigos de sinalização de envelope poderíam ser gerados a partir de canais downmixados correspondentes entrada originais. Isto permitiría a implementação de um processador (por exemplo, um codificador de sinalização [cue coder] envelope em separado) que pudesse (1) aceitar a saída de um codificador BCC que gerasse os canais downmixados e determinados códigos BCC (por exemplo, ICLD, ICTD e/ou ICC) temporal (is) de um ou mais dos canais downmixados para adicionar códigos de sinalização de envelope às contexto de sinalização áudio (isto
Apesar de a presente esquemas de codificação invenção ter sido descrita
BCC em que os códigos no de de envelope são transmitidos com um ou mais canais de é, os E canais transmitidos) com outros códigos BCC, em configurações alternativas, os códigos de sinalização de envelope poderíam ser transmitidos, tanto individualmente como com outros códigos BCC, para um local (por exemplo, um decodificador ou um dispositivo de armazenagem) que já tenha os canais transmitidos e possivelmente outros códigos
BCC.
Apesar de a presente invenção ter sido descrita no contexto de esquemas de codificação BCC, a presente invenção também pode ser implementada no contexto de outros sistemas de processamento de áudio em que os sinais de áudio sejam decorrelacionados ou outros processamentos de áudio que precisem de sinais decorrelatos.
Apesar de a presente invenção ter sido descrita no contexto de implementações em que o codificador recebe sinais de áudio de entrada no domínio de tempo e gera sinais de áudio • · •V • · · · • · · • · ·* • · · • · · · • ·· • ♦ ·· ·«· ·« • ·· • « transmitidos no domínio de tempo e o decodificador recebe os sinais de áudio transmitidos no domínio de tempo e gera sinais de áudio playback no domínio de tempo, a presente invenção não é tão limitada.
Por exemplo, em outras implementações, qualquer um ou mais dos sinais de áudio de entrada.
transmitidos e de playback poderiam ser representados em um domínio de frequência.
Os codificadores e/ou decodificadores BCC podem ser usados em conjunto ou incorporados a uma variedade de diferentes aplicações ou sistemas, incluindo sistemas para televisão ou
distribuição de música eletrônica, movie theaters, difusão, streamíng e/ou recepção.
Incluem sistemas para a codificação/decodificação de transmissões por satélite, a cabo, exemplo, compact meio de, por exemplo, meios terrestres, por pela internet, intranets ou meios físicos (por discs, discos digitais versáteis, chips semicondutores, discos rígidos, cartões de memória e similares).
Os codificadores e/ou decodificadores BCC também podem ser empregados jogos e sistemas de jogos, incluindo, por exemplo, produtos em de software interativos que possam interagir com o usuário para seu
entretenimento (jogos de ação, role play, estratégia, aventura, simulações, corridas, esportes, fliperama, j ogos de cartas e de tabuleiro) e/ou para educação que possam ser máquinas, plataformas ou meios. Além disso, decodificadores de áudio ou decodificadores publicados para várias os codificadores e/ou
BCC podem ser incorporados a gravadores/reprodutores a sistemas CD-ROM/DVD. Os codificadores e/ou
BCC também podem ser incorporados a aplicativos de software PC que incorporam decodificação digital (por exemplo, reprodutor, decodificador) e aplicativos de software incorporando propriedades de codificação digital (por exemplo, codificador,
5if •42··· • ♦ • · • ♦ ·· ······· * • * · · · * * * · · · ripper, gravador e jukebox) .
A presente invenção pode ser implementada como processos baseados em circuito, incluindo possível implementação como um único circuito integrado (como um ASIC ou um FPGA), um módulo multi-chip, cartão simples ou um pacote
Como ficaria aparente para um perito no de circuitos multicartões.
assunto, também podem ser implementadas várias funções de elementos de circuitos como etapas de processamento em um programa de software. Esse software pode ser empregado em, por exemplo, um processador de sinal digital, um micro
controlador ou um computador com funções gerais.
A presente invenção pode ser configurada sob a forma de métodos e equipamentos para a prática desses métodos. A presente invenção também pode ser configurada sob a forma de um código de programas configurado em meios tangíveis, como disquetes, CD-ROMs, discos rígidos ou qualquer outro meio de armazenagem com leitura por máquina, caracterizado pelo fato de que, quando o código de programa for carregado e processado por uma máquina, como um computador, máquina se torna um equipamento para a prática da invenção.
presente invenção também pode ser configurada sob a forma de um código de programa, por exemplo, podendo ser armazenada em meio de armazenagem, carregada algum meio ou portador e/ou rodada por uma máquina ou transmitida por de transmissão, como por fiação ou cabeamento óticas ou por radiação eletromagnética, caracterizada pelo fato de que, carregado e rodado por uma máquina, torna um equipamento para a prática quando o código do como um computador, da invenção. Quando programa é a máquina se implementado em um processador com funções gerais, os segmentos do código de programa se combinam com o processador para prover um dispositivo
• •43* *· · ··· ο - » · »» ♦ „ * · ··· ·♦ » · ·♦ * ♦ 4 * ·· exclusivo que opere de forma análoga aos circuitos específicos de lógica.
• 10
Também será compreendido que poderão ser feitas várias alterações nos detalhes, nos materiais e na disposição das peças que foram descritas e ilustradas para explicar a natureza da presente invenção pelos peritos no assunto, sem abandonar o escopo da invenção como mencionada nas reivindicações seguintes.
Apesar das etapas das reivindicações de método a seguir, se houverem, serem mencionadas em uma determinada seqüência com a rotulagem correspondente, a menos que os textos das reivindicações indicarem uma determinada seqüência para a implementação de alguma ou de todas essas etapas, essas etapas não necessariamente devem ser limitadas à implementação nessa seqüência em particular.
Claims (39)
1. Método para a codificação de canais de áudio, compreendendo: geração de dois ou mais códigos de sinalização para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização ser um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de sinalização ainda compreendem um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferença de tempo intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e onde o envelope temporal é definido para o correspondente canal de áudio em um domínio do tempo ou individualmente para diferentes sub-bandas de sinais do correspondente canal de áudio em um domínio de sub-banda; e transmitir os dois ou mais códigos de sinalização.
2. Método de acordo com a reivindicação 1, caracterizado por compreender ainda a transmissão de E canal(is) de áudio transmitido(s) correspondendo ao um ou mais canais de áudio, onde E>1.
3. Método de acordo com a reivindicação 2, caracterizado por:
um ou mais canais de áudio compreende (m) C canais de áudio de entrada, onde OE; e
Petição 870190056730, de 19/06/2019, pág. 8/19
2/12 os C canais de entrada são downmixados para gerar o(s) E canal(is) transmitido(s).
4. Método de acordo com a reivindicação 1, caracterizado pelos dois ou mais códigos de sinalização serem transmitidos para permitir que o decodificador realize a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) baseado nos dois ou mais códigos de sinalização, onde o(s) E canal(is) de áudio transmitido(s) corresponde(m) ao um ou mais canais de áudio, onde E>1.
5. Método de acordo com a reivindicação 4, caracterizado pela conformação de envelope ajustar um envelope temporal de um sinal sintetizado gerado pelo decodificador para combinar o envelope temporal definido.
6. Método de acordo com a reivindicação 1, caracterizado pelo envelope temporal ser definido somente para frequências especificadas do canal de áudio correspondente.
7. Método de acordo com a reivindicação 1, caracterizado pelo envelope temporal ser definido somente para frequências do canal de áudio correspondente acima de uma determinada frequência de corte.
8. Método de acordo com a reivindicação 1, caracterizado pelo domínio de sub-bandas corresponder a um banco de filtros espelhados em quadratura (QMF).
9. Método de acordo com a reivindicação 1, caracterizado por compreender ainda a determinação de habilitar ou desabilitar a caracterização.
10. Método de acordo com a reivindicação 9,
Petição 870190056730, de 19/06/2019, pág. 9/19
3/12 caracterizado por compreender ainda a geração e a transmissão de um marcador de habilitar/desabilitar com base na determinação para instruir o decodificador se implementar ou não a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s) correspondente(s) ao um ou mais canais de áudio, onde E>1.
11. Método de acordo com a reivindicação 9, caracterizado pela determinação se basear na análise de um canal de entrada para detectar transientes no canal de áudio, de maneira que a caracterização seja habilitada se a ocorrência de um transiente for detectada.
12. Método de acordo com a reivindicação 1, caracterizado pela etapa de geração do código de sinalização de envelope incluir a quadratura (1006) ou a formação de uma filtragem de magnitude e passa-baixa (1008) de amostras de sinais do canal de áudio ou de sinais de sub-bandas do canal de áudio, de maneira a definir o envelope temporal.
13. Método de acordo com a reivindicação 1 ou 12, caracterizado pelo fato de que a etapa de geração compreende ainda a etapa de parametrização, quantização e codificação de um envelope temporal estimado.
14. Equipamento para a codificação de canais de áudio, o equipamento compreendendo: meios para a geração de dois ou mais códigos de sinalização para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização é um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de
Petição 870190056730, de 19/06/2019, pág. 10/19
4/12 sinalização compreendem ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), onde uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e onde o envelope temporal é definido para o canal de áudio correspondente em um domínio do tempo ou individualmente para diferentes sub-bandas de sinais do correspondente canal de áudio em um domínio de subbanda; e meios para a transmissão de informação sobre os dois ou mais códigos de sinalização.
15. 0 equipamento de acordo com a reivindicação 14, caracterizado pelo equipamento ser operacional para a codificação de C canais de áudio de entrada para gerar o(s) E canal(is) de áudio transmitido(s):
em que os meios para gerar compreendem analisador de envelope adaptado para definir o envelope temporal de entrada de pelo menos um dos C canais de entrada;
em que os meios para gerar compreendem ainda um estimador de códigos adaptado para gerar os códigos de sinalização para dois ou mais dos C canais de entrada; e em que o equipamento compreende ainda um downmixer adaptado para o downmix dos C canais de entrada para gerar o(s) E canal(is) transmitido(s), onde Of^l, em que os meios de transmissão estão
Petição 870190056730, de 19/06/2019, pág. 11/19
5/12 adaptados para transmitir as informações sobre os dois ou mais códigos de sinalização para permitir que um decodificador faça a síntese e a conformação de envelope durante a decodificação do(s) E canal(is) transmitido(s).
16. 0 Equipamento de acordo com a reivindicação 15, caracterizado por:
o equipamento é um sistema selecionado de um grupo que consiste de um gravador digital de vídeo, um gravador digital de áudio, um computador, um transmissor por satélite, um transmissor a cabo, um transmissor de difusão terrestre, um sistema de entretenimento doméstico e um sistema de movie theater; e o sistema compreende o analisador envelope, o estimador de códigos e o downmixer.
17. Dotado de um código de programa, caracterizado por, quando o código de programa for feito por uma máquina, a máquina implementa o método de acordo com a reivindicação 1.
18. Fluxo de bits de áudio codificados, tendo:
dois ou mais códigos de sinalização gerados para um ou mais canais de áudio, caracterizado por pelo menos um código de sinalização ser um código de sinalização de envelope gerado pela caracterização de um envelope temporal em um dos um ou mais canais de áudio, em que os dois ou mais códigos de sinalização compreende(m) ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo
Petição 870190056730, de 19/06/2019, pág. 12/19
6/12 associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização, e em que o envelope temporal é definido para o correspondente canal de áudio em um domínio do tempo ou individualmente para diferentes subbandas de sinal do correspondente canal de áudio em um domínio de sub-banda; e os dois ou mais códigos de sinalização e o(s) E canal(is) de áudio transmitido(s) correspondentes ao um ou mais canais de áudio, onde E>1, são codificados no fluxo de bits de áudio codificados.
19. 0 fluxo de bits de áudio codificados de acordo com a reivindicação 18, compreendendo ainda E canal(is) de áudio transmitido(s), caracterizado por:
o(s) E canal(is) de áudio transmitido(s) corresponde(m) ao um ou mais canais de áudio.
20. Método para a decodif icação de E canal(is) de áudio transmitido(s) para gerar C canais de áudio playback, onde Of^l, o método compreendendo:
receber códigos de sinalização correspondentes ao(s)
E canal(is) transmitido(s), caracterizado pelos códigos de sinalização compreenderem um código de sinalização de envelope correspondente a um envelope temporal definido de um canal de áudio correspondente ao(s) E canal(is) transmitido(s), em que o dois ou mais códigos de sinalização compreendem ainda um ou mais códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de
Petição 870190056730, de 19/06/2019, pág. 13/19
7/12 diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código de sinalização(s);
fazer o upmixing de um ou mais do(s) E canal(is) transmitido(s) para gerar um ou mais canais upmixed; e sintetizar um ou mais dos C canais de playback pela aplicação dos códigos de sinalização ao um ou mais canais upmixed, em que o código de sinalização de envelope é aplicado a um canal upmixed ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal definido pelo escalonamento de domínio de tempo ou por amostras de sinal no domínio de sub-banda, usando um fator de escalonamento de maneira que o envelope temporal ajustado combine com o envelope temporal definido.
21. Método de acordo com a reivindicação 20, caracterizado pelo código de sinalização de envelope corresponder a um envelope temporal definido em um canal de entrada original usado para gerar o(s) E canal(is) transmitido(s).
22. Método de acordo com a reivindicação 21, caracterizado pela síntese compreender a síntese ICC de posterior reverberação.
23. Método de acordo com a reivindicação 21, caracterizado pelo envelope temporal do sinal sintetizado ser ajustado antes da síntese ICLD.
Petição 870190056730, de 19/06/2019, pág. 14/19
8/12
24. Método de acordo com a reivindicação 20, caracterizado por:
o envelope temporal do sinal sintetizado ser definido; e o envelope temporal do sinal sintetizado ser ajustado com base tanto no envelope temporal definido correspondendo ao código de sinalização de envelope quanto no envelope temporal definido do sinal sintetizado.
25. Método de acordo com a reivindicação 24, caracterizado por:
ser gerada uma função de escalonamento com base no envelope temporal definido correspondente ao código de sinalização de envelope e o envelope temporal definido do sinal sintetizado; e a função de escalonamento ser aplicada ao sinal sintetizado.
26. Método de acordo com a reivindicação 20, compreendendo ainda o ajuste de um canal transmitido com base no envelope temporal caracterizado para gerar um canal achatado, definido pelo fato de que o upmixing e a síntese são aplicados ao canal achatado para gerar um correspondente canal de playback.
27. Método de acordo com a reivindicação 20, compreendendo ainda o ajuste de um canal upmixed baseado no envelope temporal caracterizado para gerar um canal achatado, definido pelo fato de que a síntese é aplicada ao canal achatado para gerar um correspondente canal de playback.
28. Método de acordo com a reivindicação 20,
Petição 870190056730, de 19/06/2019, pág. 15/19
9/12 caracterizado pelo o envelope temporal do sinal sintetizado ser ajustado para somente frequências especificadas.
29. Método de acordo com a reivindicação 28, caracterizado pelo envelope temporal do sinal sintetizado ser ajustado para somente frequências acima de uma frequência especificada de corte.
30. Método de acordo com a reivindicação 20, caracterizado pelos envelopes temporais serem ajustados individualmente para diferentes sub-bandas de sinais no sinal sintetizado.
caracterizado pelo envelope temporal do sinal sintetizado ser ajustado em um domínio de tempo.
33. Método de acordo com a reivindicação 20, caracterizado por compreender ainda a determinação da habilitação ou a desabilitação do ajuste do envelope temporal do sinal sintetizado.
34. Método de acordo com a reivindicação 33, caracterizado pela determinação se basear em um marcador habilitar/desabilitar gerado por um codificador de áudio que gerou o(s) E canal(is) transmitido(s).
35. Método de acordo com a reivindicação 33, caracterizado pela determinação se basear na análise do(s) E canal(is) transmitido(s) para detectar transientes, como o ajuste ser habilitado se a ocorrência de um transiente for
Petição 870190056730, de 19/06/2019, pág. 16/19
10/12 detectada.
36. Método de acordo com a reivindicação 20, caracterizado por compreender ainda:
definir um envelope temporal de um canal transmitido; e determinar se usar (1) o envelope temporal definido correspondente ao código de sinalização de envelope ou (2) o envelope temporal definido do canal transmitido para ajustar o envelope temporal do sinal sintetizado.
37. Método de acordo com a reivindicação 20, caracterizado pela potência em uma janela especificada do sinal sintetizado após o ajuste do envelope temporal ser igual à potência em uma janela correspondente do sinal sintetizado antes do ajuste.
38. Método de acordo com a reivindicação 37, caracterizado pela janela especificada corresponder a uma janela síntese associada a um ou mais códigos de sinalização não-envelope.
39. Equipamento para a decodificação de E canal(is) de áudio transmitido(s) para gerar C canais de áudio playback, onde Of^l, o equipamento compreendendo:
meios para a recepção dos códigos de sinalização correspondentes ao(s) E canal(is) transmitido(s), definidos pelos códigos de sinalização compreenderem um código de sinalização de envelope que corresponde a um envelope temporal caracterizado de um canal de áudio que corresponde aos E canais transmitidos, em que o dois ou mais códigos de sinalização compreendem ainda um ou mais dos
Petição 870190056730, de 19/06/2019, pág. 17/19
11/12 códigos de correlação intercanais (ICC), códigos de diferença de níveis intercanais (ICLD) e códigos de diferenças de tempos intercanais (ICTD), em que uma primeira resolução de tempo associada ao código de sinalização de envelope é mais precisa do que uma segunda resolução de tempo associada ao(s) outro(s) código(s) de sinalização;
meios para o upmix de um ou mais dos E canais transmitidos para gerar um ou mais canais upmixados; e meios para a sintetização de um ou mais dos C canais de playback pela aplicação dos códigos de sinalização ao um ou mais canais upmixados, em que o código de sinalização de envelope é aplicado a um canal upmixado ou a um sinal sintetizado para ajustar um envelope temporal do sinal sintetizado baseado no envelope temporal definido pelo domínio de tempo de escalonamento ou por amostras do sinal de domínio de sub-banda usando um fator de escalonamento de maneira que o envelope temporal ajustado combine com o envelope temporal definido.
40. Equipamento de acordo com a reivindicação 39, caracterizado por:
o equipamento é um sistema selecionado do grupo que consiste de um gravador digital de video, um gravador digital de áudio, um computador, um receptor por satélite, um receptor a cabo, um receptor de difusão terrestre, um sistema de entretenimento doméstico e um sistema de movie theater; e o sistema compreende o receptor, o upmixer, o sintetizador e o ajustador envelope.
Petição 870190056730, de 19/06/2019, pág. 18/19
12/12
41. Um meio legível de computador,
reivindicação 20.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62048004P | 2004-10-20 | 2004-10-20 | |
US60/620,480 | 2004-10-20 | ||
US11/006,482 US7720230B2 (en) | 2004-10-20 | 2004-12-07 | Individual channel shaping for BCC schemes and the like |
US11/006,482 | 2004-12-07 | ||
PCT/EP2005/009618 WO2006045371A1 (en) | 2004-10-20 | 2005-09-07 | Individual channel temporal envelope shaping for binaural cue coding schemes and the like |
Publications (3)
Publication Number | Publication Date |
---|---|
BRPI0516405A BRPI0516405A (pt) | 2008-09-02 |
BRPI0516405A8 BRPI0516405A8 (pt) | 2018-07-31 |
BRPI0516405B1 true BRPI0516405B1 (pt) | 2019-09-17 |
Family
ID=36180779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0516405-2A BRPI0516405B1 (pt) | 2004-10-20 | 2005-09-07 | Conformação individual de canal para esquemas bcc e similares |
Country Status (21)
Country | Link |
---|---|
US (1) | US7720230B2 (pt) |
EP (1) | EP1803117B1 (pt) |
JP (1) | JP4664371B2 (pt) |
KR (1) | KR100924576B1 (pt) |
CN (1) | CN101044551B (pt) |
AT (1) | ATE424606T1 (pt) |
AU (1) | AU2005299068B2 (pt) |
BR (1) | BRPI0516405B1 (pt) |
CA (1) | CA2582485C (pt) |
DE (1) | DE602005013103D1 (pt) |
DK (1) | DK1803117T3 (pt) |
ES (1) | ES2323275T3 (pt) |
HK (1) | HK1106861A1 (pt) |
IL (1) | IL182236A (pt) |
MX (1) | MX2007004726A (pt) |
NO (1) | NO338919B1 (pt) |
PL (1) | PL1803117T3 (pt) |
PT (1) | PT1803117E (pt) |
RU (1) | RU2339088C1 (pt) |
TW (1) | TWI318079B (pt) |
WO (1) | WO2006045371A1 (pt) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI393121B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
US8019087B2 (en) * | 2004-08-31 | 2011-09-13 | Panasonic Corporation | Stereo signal generating apparatus and stereo signal generating method |
US20060106620A1 (en) * | 2004-10-28 | 2006-05-18 | Thompson Jeffrey K | Audio spatial environment down-mixer |
KR100682915B1 (ko) * | 2005-01-13 | 2007-02-15 | 삼성전자주식회사 | 다채널 신호 부호화/복호화 방법 및 장치 |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US8768691B2 (en) * | 2005-03-25 | 2014-07-01 | Panasonic Corporation | Sound encoding device and sound encoding method |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
EP1905002B1 (en) * | 2005-05-26 | 2013-05-22 | LG Electronics Inc. | Method and apparatus for decoding audio signal |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
US8111830B2 (en) * | 2005-12-19 | 2012-02-07 | Samsung Electronics Co., Ltd. | Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener |
KR100644715B1 (ko) * | 2005-12-19 | 2006-11-10 | 삼성전자주식회사 | 능동적 오디오 매트릭스 디코딩 방법 및 장치 |
WO2007083952A1 (en) * | 2006-01-19 | 2007-07-26 | Lg Electronics Inc. | Method and apparatus for processing a media signal |
CN102693727B (zh) * | 2006-02-03 | 2015-06-10 | 韩国电子通信研究院 | 用于控制音频信号的渲染的方法 |
EP1984913A4 (en) | 2006-02-07 | 2011-01-12 | Lg Electronics Inc | DEVICE AND METHOD FOR CODING / DECODING A SIGNAL |
KR101358700B1 (ko) * | 2006-02-21 | 2014-02-07 | 코닌클리케 필립스 엔.브이. | 오디오 인코딩 및 디코딩 |
KR100773562B1 (ko) * | 2006-03-06 | 2007-11-07 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
WO2007107670A2 (fr) * | 2006-03-20 | 2007-09-27 | France Telecom | Procede de post-traitement d'un signal dans un decodeur audio |
US8027479B2 (en) | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
US8417532B2 (en) | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8126721B2 (en) | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8041578B2 (en) | 2006-10-18 | 2011-10-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
KR101111520B1 (ko) * | 2006-12-07 | 2012-05-24 | 엘지전자 주식회사 | 오디오 처리 방법 및 장치 |
FR2911426A1 (fr) * | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
PL2118889T3 (pl) | 2007-03-05 | 2013-03-29 | Ericsson Telefon Ab L M | Sposób i sterownik do wygładzania stacjonarnego szumu tła |
US8504377B2 (en) * | 2007-11-21 | 2013-08-06 | Lg Electronics Inc. | Method and an apparatus for processing a signal using length-adjusted window |
US8548322B2 (en) * | 2008-02-29 | 2013-10-01 | Telefonaktiebolaget L M Ericsson (Publ) | Channel power estimation means |
WO2009125046A1 (en) * | 2008-04-11 | 2009-10-15 | Nokia Corporation | Processing of signals |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
KR101418661B1 (ko) * | 2009-10-20 | 2014-07-14 | 돌비 인터네셔널 에이비 | 다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림 |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
FR2961980A1 (fr) * | 2010-06-24 | 2011-12-30 | France Telecom | Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique |
IL295473B2 (en) * | 2010-07-02 | 2023-10-01 | Dolby Int Ab | After–selective bass filter |
WO2012105886A1 (en) * | 2011-02-03 | 2012-08-09 | Telefonaktiebolaget L M Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
WO2013149671A1 (en) * | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Multi-channel audio encoder and method for encoding a multi-channel audio signal |
PL2880654T3 (pl) | 2012-08-03 | 2018-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder i sposób realizacji uogólnionej parametrycznej koncepcji kodowania przestrzennych obiektów audio dla przypadków wielokanałowego downmixu/upmixu |
US9818412B2 (en) * | 2013-05-24 | 2017-11-14 | Dolby International Ab | Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder |
EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830334A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP3806498B1 (en) | 2013-09-17 | 2023-08-30 | Wilus Institute of Standards and Technology Inc. | Method and apparatus for processing audio signal |
US10204630B2 (en) | 2013-10-22 | 2019-02-12 | Electronics And Telecommunications Research Instit Ute | Method for generating filter for audio signal and parameterizing device therefor |
CN108922552B (zh) | 2013-12-23 | 2023-08-29 | 韦勒斯标准与技术协会公司 | 生成用于音频信号的滤波器的方法及其参数化装置 |
US9832585B2 (en) | 2014-03-19 | 2017-11-28 | Wilus Institute Of Standards And Technology Inc. | Audio signal processing method and apparatus |
EP3128766A4 (en) | 2014-04-02 | 2018-01-03 | Wilus Institute of Standards and Technology Inc. | Audio signal processing method and device |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
TWI587286B (zh) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
US10672408B2 (en) | 2015-08-25 | 2020-06-02 | Dolby Laboratories Licensing Corporation | Audio decoder and decoding method |
AU2017219696B2 (en) | 2016-02-17 | 2018-11-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
CN107818790B (zh) * | 2017-11-16 | 2020-08-11 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种多路音频混音方法及装置 |
CN112262433B (zh) | 2018-04-05 | 2024-03-01 | 弗劳恩霍夫应用研究促进协会 | 用于估计通道间时间差的装置、方法或计算机程序 |
GB2584630A (en) * | 2019-05-29 | 2020-12-16 | Nokia Technologies Oy | Audio processing |
Family Cites Families (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4236039A (en) * | 1976-07-19 | 1980-11-25 | National Research Development Corporation | Signal matrixing for directional reproduction of sound |
CA1268546C (en) * | 1985-08-30 | 1990-05-01 | STEREO VOICE SIGNAL TRANSMISSION SYSTEM | |
DE3639753A1 (de) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
DE3943880B4 (de) * | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
AU653582B2 (en) * | 1991-01-08 | 1994-10-06 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
DE4209544A1 (de) * | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
DE4236989C2 (de) * | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
US5371799A (en) * | 1993-06-01 | 1994-12-06 | Qsound Labs, Inc. | Stereo headphone sound source localization system |
US5463424A (en) * | 1993-08-03 | 1995-10-31 | Dolby Laboratories Licensing Corporation | Multi-channel transmitter/receiver system providing matrix-decoding compatible signals |
JP3227942B2 (ja) | 1993-10-26 | 2001-11-12 | ソニー株式会社 | 高能率符号化装置 |
DE4409368A1 (de) * | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
JP3277679B2 (ja) * | 1994-04-15 | 2002-04-22 | ソニー株式会社 | 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置 |
JPH0969783A (ja) | 1995-08-31 | 1997-03-11 | Nippon Steel Corp | オーディオデータ符号化装置 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5771295A (en) * | 1995-12-26 | 1998-06-23 | Rocktron Corporation | 5-2-5 matrix system |
JP3793235B2 (ja) * | 1996-02-08 | 2006-07-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 2チャネル伝送及び1チャネル伝送に適合するnチャネル伝送 |
US7012630B2 (en) * | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
US5825776A (en) * | 1996-02-27 | 1998-10-20 | Ericsson Inc. | Circuitry and method for transmitting voice and data signals upon a wireless communication channel |
US5889843A (en) * | 1996-03-04 | 1999-03-30 | Interval Research Corporation | Methods and systems for creating a spatial auditory environment in an audio conference system |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US6697491B1 (en) * | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
JP3707153B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
SG54379A1 (en) * | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
SG54383A1 (en) * | 1996-10-31 | 1998-11-16 | Sgs Thomson Microelectronics A | Method and apparatus for decoding multi-channel audio data |
US5912976A (en) * | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6111958A (en) * | 1997-03-21 | 2000-08-29 | Euphonics, Incorporated | Audio spatial enhancement apparatus and methods |
US5946352A (en) * | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
US5860060A (en) * | 1997-05-02 | 1999-01-12 | Texas Instruments Incorporated | Method for left/right channel self-alignment |
US6108584A (en) * | 1997-07-09 | 2000-08-22 | Sony Corporation | Multichannel digital audio decoding method and apparatus |
DE19730130C2 (de) * | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6021389A (en) * | 1998-03-20 | 2000-02-01 | Scientific Learning Corp. | Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
TW444511B (en) | 1998-04-14 | 2001-07-01 | Inst Information Industry | Multi-channel sound effect simulation equipment and method |
JP3657120B2 (ja) * | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
JP2000152399A (ja) * | 1998-11-12 | 2000-05-30 | Yamaha Corp | 音場効果制御装置 |
US6408327B1 (en) * | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6282631B1 (en) * | 1998-12-23 | 2001-08-28 | National Semiconductor Corporation | Programmable RISC-DSP architecture |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6823018B1 (en) * | 1999-07-28 | 2004-11-23 | At&T Corp. | Multiple description coding communication system |
US6434191B1 (en) * | 1999-09-30 | 2002-08-13 | Telcordia Technologies, Inc. | Adaptive layered coding for voice over wireless IP applications |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6614936B1 (en) * | 1999-12-03 | 2003-09-02 | Microsoft Corporation | System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding |
US6498852B2 (en) * | 1999-12-07 | 2002-12-24 | Anthony Grimani | Automatic LFE audio signal derivation system |
US6845163B1 (en) * | 1999-12-21 | 2005-01-18 | At&T Corp | Microphone array for preserving soundfield perceptual cues |
US6782366B1 (en) * | 2000-05-15 | 2004-08-24 | Lsi Logic Corporation | Method for independent dynamic range control |
US6850496B1 (en) * | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
US6973184B1 (en) * | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
US7236838B2 (en) * | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
JP3426207B2 (ja) | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
TW510144B (en) | 2000-12-27 | 2002-11-11 | C Media Electronics Inc | Method and structure to output four-channel analog signal using two channel audio hardware |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US6934676B2 (en) * | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7668317B2 (en) * | 2001-05-30 | 2010-02-23 | Sony Corporation | Audio post processing in DVD, DTV and other audio visual products |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
ATE315823T1 (de) | 2002-02-18 | 2006-02-15 | Koninkl Philips Electronics Nv | Parametrische audiocodierung |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
EP1500083B1 (en) | 2002-04-22 | 2006-06-28 | Koninklijke Philips Electronics N.V. | Parametric multi-channel audio representation |
CN1650528B (zh) | 2002-05-03 | 2013-05-22 | 哈曼国际工业有限公司 | 多信道下混频设备 |
US6940540B2 (en) * | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
DE60317203T2 (de) * | 2002-07-12 | 2008-08-07 | Koninklijke Philips Electronics N.V. | Audio-kodierung |
KR101001170B1 (ko) * | 2002-07-16 | 2010-12-15 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
JP2005533271A (ja) | 2002-07-16 | 2005-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
RU2005120236A (ru) | 2002-11-28 | 2006-01-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Кодирование аудиосигнала |
JP4431568B2 (ja) * | 2003-02-11 | 2010-03-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声符号化 |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
US20060171542A1 (en) | 2003-03-24 | 2006-08-03 | Den Brinker Albertus C | Coding of main and side signal representing a multichannel signal |
US20050069143A1 (en) * | 2003-09-30 | 2005-03-31 | Budnikov Dmitry N. | Filtering for spatial audio rendering |
DE602004030594D1 (de) * | 2003-10-07 | 2011-01-27 | Panasonic Corp | Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7653533B2 (en) * | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
-
2004
- 2004-12-07 US US11/006,482 patent/US7720230B2/en active Active
-
2005
- 2005-09-07 ES ES05792350T patent/ES2323275T3/es active Active
- 2005-09-07 BR BRPI0516405-2A patent/BRPI0516405B1/pt active IP Right Grant
- 2005-09-07 JP JP2007537133A patent/JP4664371B2/ja active Active
- 2005-09-07 CA CA2582485A patent/CA2582485C/en active Active
- 2005-09-07 RU RU2007118679/09A patent/RU2339088C1/ru active
- 2005-09-07 AT AT05792350T patent/ATE424606T1/de active
- 2005-09-07 MX MX2007004726A patent/MX2007004726A/es active IP Right Grant
- 2005-09-07 KR KR1020077008410A patent/KR100924576B1/ko active IP Right Grant
- 2005-09-07 WO PCT/EP2005/009618 patent/WO2006045371A1/en active Application Filing
- 2005-09-07 DK DK05792350T patent/DK1803117T3/da active
- 2005-09-07 AU AU2005299068A patent/AU2005299068B2/en active Active
- 2005-09-07 PT PT05792350T patent/PT1803117E/pt unknown
- 2005-09-07 DE DE602005013103T patent/DE602005013103D1/de active Active
- 2005-09-07 CN CN2005800357018A patent/CN101044551B/zh active Active
- 2005-09-07 EP EP05792350A patent/EP1803117B1/en active Active
- 2005-09-07 PL PL05792350T patent/PL1803117T3/pl unknown
- 2005-10-19 TW TW094136500A patent/TWI318079B/zh active
-
2007
- 2007-03-21 NO NO20071493A patent/NO338919B1/no unknown
- 2007-03-27 IL IL182236A patent/IL182236A/en active IP Right Grant
- 2007-12-28 HK HK07114229.7A patent/HK1106861A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
PT1803117E (pt) | 2009-06-15 |
KR20070061872A (ko) | 2007-06-14 |
CA2582485A1 (en) | 2006-05-04 |
AU2005299068A1 (en) | 2006-05-04 |
US7720230B2 (en) | 2010-05-18 |
CA2582485C (en) | 2012-05-15 |
IL182236A0 (en) | 2007-09-20 |
ES2323275T3 (es) | 2009-07-10 |
CN101044551B (zh) | 2012-02-08 |
RU2339088C1 (ru) | 2008-11-20 |
ATE424606T1 (de) | 2009-03-15 |
DK1803117T3 (da) | 2009-06-22 |
BRPI0516405A8 (pt) | 2018-07-31 |
NO338919B1 (no) | 2016-10-31 |
WO2006045371A1 (en) | 2006-05-04 |
BRPI0516405A (pt) | 2008-09-02 |
IL182236A (en) | 2011-08-31 |
HK1106861A1 (en) | 2008-03-20 |
EP1803117B1 (en) | 2009-03-04 |
TWI318079B (en) | 2009-12-01 |
EP1803117A1 (en) | 2007-07-04 |
AU2005299068B2 (en) | 2008-10-30 |
KR100924576B1 (ko) | 2009-11-02 |
DE602005013103D1 (de) | 2009-04-16 |
JP2008517333A (ja) | 2008-05-22 |
NO20071493L (no) | 2007-05-22 |
CN101044551A (zh) | 2007-09-26 |
TW200628001A (en) | 2006-08-01 |
PL1803117T3 (pl) | 2009-08-31 |
JP4664371B2 (ja) | 2011-04-06 |
US20060083385A1 (en) | 2006-04-20 |
MX2007004726A (es) | 2007-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0516405B1 (pt) | Conformação individual de canal para esquemas bcc e similares | |
JP4625084B2 (ja) | バイノーラルキュー符号化方法等のための拡散音の整形 | |
KR101236259B1 (ko) | 오디오 채널들을 인코딩하는 방법 및 장치 | |
AU2005324210C1 (en) | Compact side information for parametric coding of spatial audio | |
KR101215868B1 (ko) | 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치 | |
KR101215872B1 (ko) | 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩 | |
BRPI0518507B1 (pt) | Informações auxiliares compactas para a codificação paramétrica de áudio espacial |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06T | Formal requirements before examination [chapter 6.20 patent gazette] | ||
B15K | Others concerning applications: alteration of classification |
Ipc: G10L 19/008 (2013.01) |
|
B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 17/09/2019, OBSERVADAS AS CONDICOES LEGAIS. (CO) 10 (DEZ) ANOS CONTADOS A PARTIR DE 17/09/2019, OBSERVADAS AS CONDICOES LEGAIS |