ES2650747T3

ES2650747T3 - Codificación de audio de dominio de frecuencia que soporta conmutación de longitud de transformada

Info

Publication number: ES2650747T3
Application number: ES14738865.6T
Authority: ES
Inventors: Sascha Dick; Christian Helmrich; Andreas HÖLZER
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-15
Publication date: 2018-01-22
Anticipated expiration: 2034-07-15
Also published as: RU2016105704A; HK1254315A1; CA2918849A1; AU2014295313B2; ZA201601115B; US20190189138A1; JP7311940B2; JP6560320B2; US20210233545A1; JP2018055117A; MX2016000913A; AU2014295313A1; EP3961621B1; EP4191581B1; EP3961621A1; CN105593934A; PT3961621T; CN105593934B; CN110739001B; CN110739001A

Abstract

Decodificador de audio de dominio de frecuencia que soporta conmutación de longitud de transformada, que comprende un extractor de coeficiente de dominio de frecuencia (12) configurado para extraer coeficientes de dominio de frecuencia (24) de tramas de una señal de audio a partir de una corriente de datos; un extractor de factor de escala (14) configurado para extraer los factores de escala de la corriente de datos; un transformador inverso (16) configurado para someter los coeficientes de dominio de frecuencia de las tramas, escaladas según los factores de escala, a la transformación inversa para obtener porciones de dominio de tiempo de la señal de audio; un combinador (18) configurado para combinar las porciones de dominio de tiempo para obtener la señal de audio, en la que el transformador inverso responde a una señalización dentro de las tramas de la señal de audio de modo que, dependiendo de la señalización, forma una transformada al disponer secuencialmente los coeficientes de dominio de frecuencia de una trama respectiva, escalados según los factores de escala, de una manera no desentrelazada y someter la transformada única a una transformación inversa de una primera longitud de transformada o formar más de una transformada al desentrelazar los coeficientes de dominio de frecuencia de la trama respectiva, escalados según los factores de escala, y someter cada una de más de una transformada a una transformación inversa de una segunda longitud de transformada, más corta que la primera longitud de transformada,

Description

imagen1

imagen2

imagen3

imagen4

imagen5

imagen6

[0032] La Figura 2 muestra entonces que el desentrelazador activable 38 responde a la señalización 34 para la trama actual a efectos de, si la trama actual está señalizada por la señalización 34 como una trama de transformada dividida, desentrelazar los coeficientes de dominio de frecuencia de entrada, para obtener dos 5 transformadas, a saber una transformada delantera 50 y una transformada trasera 52, y dejar los coeficientes de dominio de frecuencia entrelazados para dar como resultado una única transformada 54 en caso de que la señalización 34 indique que la trama actual es una trama de transformada larga. En el caso de un desentrelazado, el desentrelazador 38 forma una transformada única a partir de 50 y 52, una primera transformada corta a partir de los coeficientes de dominio de frecuencia que tienen índices pares, y la otra transformada corta a partir de los 10 coeficientes de dominio de frecuencia en posiciones de índices impares. Por ejemplo, los coeficientes de dominio de frecuencia de índice par podrían formar la transformada delantera (cuando se empieza con el índice 0), mientras que los otros forman la transformada trasera. Las transformadas 50 y 52 están sometidas a transformación inversa de longitud de transformada más corta, resultando en porciones del dominio de tiempo 56 y 58, respectivamente. El combinador 18 de la Figura 1 posiciona correctamente las porciones del dominio de tiempo 56 y 58 en el tiempo, 15 particularmente la porción de dominio de tiempo 56 resultante de la transformada delantera 50 situada en frente de la porción del dominio de tiempo 58 resultante de la porción trasera 52, y lleva a cabo el proceso de superposición y adición entre las mismas y con porciones de dominio de tiempo que resultan de tramas anteriores y sucesivas de la señal de audio. En el caso de no desentrelazado, los coeficientes de dominio de frecuencia que llegan al entrelazador 38 constituyen la transformada larga 54 tal como son, y la fase de transformación inversa 40 lleva a

20 cabo una transformada inversa sobre la misma para resultar en una porción de dominio de tiempo 60 que abarca, y se extiende más allá del intervalo de tiempo completo de la trama actual 26. El combinador 18 combina la porción de dominio de tiempo 60 con respectivas porciones de dominio de tiempo resultantes de tramas anteriores y sucesivas de la señal de audio.

25 [0033] El decodificador de audio de dominio de frecuencia descrito hasta aquí permite la conmutación de longitud de transformada de una manera que es compatible con los decodificadores de audio de dominio de frecuencia que no responden a la señalización 34. En particular, tales decodificadores “anticuados” supondrían erróneamente que las tramas que son actualmente señaladas por la señalización 34 como del tipo de transformada dividida, serían de un tipo de transformada larga. Es decir, erróneamente dejarían los coeficientes de dominio de

30 frecuencia de tipo dividido entrelazados y llevarían a cabo una transformación inversa de la longitud de transformada larga. Sin embargo, la calidad resultante de las tramas afectadas de la señal de audio reconstruida seguiría siendo bastante razonable.

[0034] A su vez, la penalización en cuanto a la eficiencia de codificación es también bastante razonable. La

35 penalización de la eficiencia de codificación resulta de no tener en cuenta la señalización 34 como los coeficientes de dominio de frecuencia y los factores de escala se codifican sin tomar en cuenta el significado variante de los coeficientes y explotar esta variación para incrementar la eficiencia de codificación. Sin embargo, esta última penalización es comparativamente pequeña en comparación con la ventaja de permitir una retro-compatibilidad. Esta última afirmación también es cierta con respecto a la restricción para activar y desactivar el llenado de ruido 40,

40 la predicción de estéreo compleja 42 y la decodificación de MS 46 meramente con porciones espectrales continuas (bandas de factor de escala) en el estado desentrelazado definido por los índices 0 a N– 1 en la Figura 2. La oportunidad de renderizar el control de estas herramientas de codificación específicamente para el tipo de trama (por ejemplo, que tiene dos niveles de ruido) posiblemente podría proporcionar ventajas, pero las ventajas están sobrecompensadas por la ventaja de tener una retro-compatibilidad.

45 [0035] La Figura 2 muestra que el decodificador de la Figura 1 podría estar configurado incluso para soportar la codificación TNS mientras que, sin embargo, mantener la retro-compatibilidad con decodificadores que son insensibles con respecto a la señalización 34. En particular, la Figura 2 ilustra la posibilidad de llevar a cabo el filtrado inverso de TNS después de cualquier predicción de estéreo compleja 42 y de decodificación de MS 46, en

50 caso de haberlas. Con el fin de mantener la retro-compatibilidad, el transformador inverso 16 está configurado para llevar a cabo el filtrado TNS 62 sobre una secuencia de N coeficientes independientemente de la señalización 34 mediante la utilización de respectivos coeficientes TNS 64. Mediante esa medida, la corriente de datos 20 codifica los coeficientes de TNS 64 equitativamente, de manera independiente de la señalización 34. Es decir, el número de coeficientes de TNS y la manera de codificarlos son los mismos. Sin embargo, el transformador inverso 16 está

55 configurado para aplicar los coeficientes TNS 64 de manera diferente. En el caso de que la trama actual sea una trama de transformada larga, el filtrado inverso de TNS se lleva a cabo sobre la transformada larga 54, es decir, estando los coeficientes de dominio de frecuencia en secuencia en el estado entrelazado, y en el caso de que la trama actual esté señalizada por la señalización 34 como trama de transformada dividida, el transformador inverso 16 invierte los filtros de TNS 62 una concatenación de transformada delantera 50 y de transformada trasera 52, es

8

imagen7

imagen8

coeficientes de la MDCT de primera vez colocados en índices pares y con los coeficientes de la MDCT de segunda vez colocados en índices impares (en donde la indexación comienza en cero), pero un decodificador que no es capaz de gestionar transformadas de parada–arranque no haría sido capaz de analizar correctamente la corriente de datos. Es decir, debido a los diferentes contextos utilizados para la codificación por entropía, los coeficientes de

5 dominio de frecuencia sirven para tal transformada de parada–arranque, una sintaxis variada racionalizada sobre las transformadas a la mitad, cualquier decodificador incapaz de soportar ventanas de parada–arranque habría tenido que pasar por alto las respectivas tramas de ventana de parada–arranque.

[0046] Volviendo brevemente a la realización anteriormente descrita, esto significa que el decodificador de la

10 Figura 1 podría ser, más allá de la descripción anticipada hasta el momento, capaz de soportar alternativamente mayor longitud de transformada, es decir, una subdivisión de determinadas tramas 26 en incluso más de dos transformadas mediante una señalización que extiende la señalización 34. Sin embargo, en cuanto a la yuxtaposición de subdivisiones de transformada de tramas 26, aparte de la transformada dividida activada mediante la señalización 34, el extractor de coeficiente de FD 12 y el extractor de factor de escala 14 serían sensibles a esta

15 señalización por el hecho de que su modo de operación cambiaría en dependencia de dicha señalización adicional, además de la señalización 34. Además, una transmisión racionalizada de los coeficientes de TNS, los parámetros de MS y los parámetros de predicción complejos, adaptados al tipo de transformada señalizada distinto del tipo de transformada dividida según 56 y 59, necesitaría que cada decodificador tuviera que ser capaz de responder, es decir, entender, la selección de señalización entre estos “tipos de transformada conocida” o tramas que incluyen el

20 tipo de transformada larga según 60, y otros tipos de transformada tales como uno que subdivide las tramas en ocho transformadas cortas como en el caso de AAC, por ejemplo. En este caso, esta “señalización conocida” identificaría las tramas para las que la señalización 34 señala el tipo de transformada dividida, como tramas del tipo de transformada larga de tal manera que los decodificadores no capaces de entender la señalización 34 tratarían estas tramas como tramas de transformada larga en lugar de tramas de otros tipos, tales como tramas de tipo 8

25 transformadas cortas.

[0047] Volviendo a la descripción de una posible extensión de XHE–AAC, ciertas restricciones operativas podrían proporcionarse para incorporar una herramienta de TS en esta infraestructura de codificación. Por ejemplo, se podría permitir el uso de TS solamente en una ventana de largo–arranque o de parada–arranque de FD. Es decir, 30 se podría requerir que la secuencia de ventana de elemento de sintaxis subyacente sea igual a 1. Además, debido a la señalización semi-retro-compatible, puede ser un requisito que la TS pueda aplicarse solamente cuando el noiseFilling (llenado de ruido) del elemento de sintaxis sea uno en el contenedor de sintaxis UsacCoreConfig(). Cuando se señala que la TS está activa, todas las herramientas de FD excepto TNS y MDCT inversa operan en el conjunto entrelazado (largo) de coeficientes de TS. Esto permite la reutilización de la compensación de banda de

35 factor de escala y tablas del codificador aritmético de transformada larga así como también de las formas de ventanas y las longitudes de solapamiento.

[0048] En lo que sigue, se presentan los términos y definiciones que se utilizan seguidamente a efectos de explicar cómo podría ampliarse el estándar USAC descrito en [4] para ofrecer la funcionalidad de TS retro

40 compatible, en el que a veces se hace referencia a secciones dentro de ese estándar para el lector interesado.

[0049] Un nuevo elemento de datos podría ser:

split_transform bandera binaria que indica si se utiliza TS en la trama y canal actuales

45 [0050] Nuevos elementos de ayuda podrían ser:

window_sequence tipo de secuencia de ventana de FD para la trama y canal actuales (sección 6.2.9) noise_offset compensación de llenado de ruido para modificar factores de escala de bandas

50 cuantificadas en cero (sección 7.2) noise_level nivel de llenado de ruido que representa amplitud de ruido de espectro añadido (sección 7.2) half_transform_length una mitad de coreCoderFrameLength (ccfl, la longitud de transformada, sección 6.1.1) half_lowpass_line una mitad del número de líneas de MDCT transmitidas para el canal actual.

55 [0051] La decodificación de una transformada de arranque (parada) de FD utilizando división de transformada (TS) en la infraestructura de USAC podría llevarse a cabo en etapas puramente secuenciales, del siguiente modo:

Primero, podría llevarse a cabo una decodificación de split_transform y half_lowpass_line.

11

imagen9

imagen10

imagen11

imagen12

}

[0082] El pseudo-espectro resultante se utiliza para la decodificación estéreo (ISO/IEC 23003–3:2012 sección 7.7) y para actualizar dmx_re_prev[ ] (ISO/IEC 23003–3:2012 sección 7.7.2) y en el caso en que tns_on_lr == 0, los

5 espectros de longitud completa decodificados en estéreo son desentrelazados de nuevo mediante la repetición del proceso de la sección. Finalmente, se calculan las dos MDCT inversas con ccfl y la window_shape del canal de la trama actual y la última.

[0083] El procesamiento para TS sigue la descripción dada en ISO/IEC 23003–3:2012 sección “7.9 Filterbank 10 and block switching”. Deben tomarse en cuenta las siguientes adiciones.

[0084] Los coeficientes de TS en spec[ ] son desentrelazados mediante un búfer auxiliar (helper buffer[ ]) con N, la longitud de ventana basada en el valor de window_sequence:

15 para(i=0,i2=0;i<N/2;i+=1,i2+=2){ spec[0][i] = spec[i2]; /* aislar 1ra ventana */ buffer[i] = spec[i2+1]; /* aislar 2da ventana */ } para (i= 0;i < N/2; i+= 1){

20 spec[1][i] = buffer[i]; /* copiar 2da ventana */ }

[0085] La IMDCT para el espectro de TS de media longitud se define entonces como:

N

imagen13−1

4π





4

2

1

para

0

≤

n

<

N

2



⎜

k

+



( 0 )

∑

spec [(0,1)][ ]cos

k

+

=

x

imagen14

n n

imagen15

⎟

⎜

⎟

(0,1),

n

2

N

k =0

[0086] Las etapas subsiguientes de formación de ventanas y de conmutación de bloques se definen en las siguientes subsecciones.

30 [0087] La división de transformada con STOP_START_SEQUENCE sería similar a la siguiente descripción:

[0088] Una STOP_START_SEQUENCE en combinación con división de transformada se representó en la Figura 2. Comprende dos ventanas de media longitud sobrepuestas y añadidas 56, 58 con una longitud de N_l/2 que es de 1024 (960, 768). N_s se establece en 256 (240, 192) respectivamente.

35 [0089] Las ventanas (0,1) para las dos IMDCT de media longitud se dan del siguiente modo:

_ /2 −N

Nl _s

0.0, para0 ≤n<

4 _ /2 −N_s _ /2 −N_s Nl /2

Nl Nl _ +N_s

W (n− ), para ≤n<

(0,1), LEFT N ,_s

4 44 _ /2 +N_s 3 _/2 −N_s

Nl Nl

1.0, para ≤n<

     ⎪⎪  

W () n

(0,1)

=

44 3 _/2 −N_s 3 _/2 +N_s

Nl Nl

−

N

≤

Ns 3_

Nl /2

<

s para

n

−

⎪⎪

W

(0,1), RIGHT N ,_s

(n

+

),

_

4 4

24

3 _/2 +N_

Nl s

≤

n<Nl /2

⎪⎪

0.0,

para

_

4

16

imagen16

N _l /2 − N _ s

0.0, para 0 ≤ n <

4 N _l /2 − N _ sN _l /2 − N _ sN _ l /2 + N _ s

W (n − ), para ≤ n <

1, LEFT N ,_ s

4 44 N _l /2 + N _ s 3N _l /2 − N _ s

1.0, para ≤ n <

     ⎪⎪  

W1( )

n

=

44 3N _l /2 − N _ s 3N _l /2 + N _ s

−

N

≤

Ns 3N _l /2

<

s para

n

−

W

1, RIGHT N ,_ s

⎪⎪

(

n

),

_

+

_

44

24

3N _l /2 + N _ s

≤

n

⎪⎪

0.0,

< Nl /2

para

_

4

[0093] Las mitades de ventana izquierda/derecha vienen dadas por:

( ), si windown _shape == 1

W W ( ), si window_

n shape == 0

SIN LEFT N s

⎧⎨

KBD LEFT N s

,

W ()

n

1, LEFT N s

_

=

,

_

,

_

⎧W ( ), si window_shape == 1

n

KBD RIGHT N , s

W ()

n

(0,1), , s

RIGHT N

⎨

=

W ( ), si window_shape == 0

n

SIN RIGHT N , s

_

[0094] La tercera ventana es igual a la mitad izquierda de una LONG_START_WINDOW:

10

W ( n ), para 0 ≤ n < N _ l /2

LEFT N l

=

⎧⎨

W ()

,

_

n

2

1.0, para N _ l /2 ≤ n < N _ l

con

( ), si windown _shape_previous_block == 1

W W ( ), si window__== 0

n shape_previousblock

SIN LEFT N l

⎧⎨

KBD LEFT N , l

W ()

n

LEFT N l

=

,

_

,

_

[0095] El solapamiento y adición entre las dos ventanas de media longitud que resultan en valores

%

Z

,

intermedios de dominio de tiempo puestos en ventanas in se describen del siguiente modo. En este caso, N_l se establece en 2048 (1920, 1536), N_s se establece en 256 (240, 192) respectivamente.

20

18

imagen17

imagen18

imagen19

imagen20

imagen21

Claims

imagen1

imagen2