ES2874629T3 - Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes - Google Patents

Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes Download PDF

Info

Publication number
ES2874629T3
ES2874629T3 ES17707591T ES17707591T ES2874629T3 ES 2874629 T3 ES2874629 T3 ES 2874629T3 ES 17707591 T ES17707591 T ES 17707591T ES 17707591 T ES17707591 T ES 17707591T ES 2874629 T3 ES2874629 T3 ES 2874629T3
Authority
ES
Spain
Prior art keywords
audio frame
error concealment
concealment unit
energy
lost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17707591T
Other languages
English (en)
Inventor
Jérémie Lecomte
Adrian Tomasek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2874629T3 publication Critical patent/ES2874629T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

Unidad de ocultación de error (100, 1402 a 1405) para proporcionar una información de audio de ocultación de error (107, 1407) para ocultar una pérdida de una trama de audio en una información de audio codificada, en la que la unidad de ocultación de error está configurada para proporcionar una información de audio de ocultación de error basada en una trama de audio decodificada apropiadamente anterior a una trama de audio perdida, en la que la unidad de ocultación de error está configurada para realizar un desvanecimiento (920) usando diferentes factores de amortiguamiento (1404a a 1404g) para bandas de frecuencia diferentes (1403a a 1403g) de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, caracterizada porque la unidad de ocultación de error está configurada para adaptar uno o más factores de amortiguamiento, con el fin de desvanecer una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y que tiene una energía por compartimento espectral comparativamente mayor más rápida que una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y que tiene una energía por compartimento espectral comparativamente inferior.

Description

DESCRIPCIÓN
Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes
1. Campo técnico
Las realizaciones según la invención crean unidades de ocultación de error para proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio o más tramas de audio en una información de audio codificada.
Las realizaciones según la invención crean decodificadores de audio para proporcionar una información de audio decodificada basándose en una información de audio codificada, comprendiendo los decodificadores unidades de ocultación de error.
Algunas realizaciones según la invención crean métodos para proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada.
Algunas realizaciones según la invención crean programas informáticos para realizar uno de dichos métodos.
Algunas realizaciones están relacionadas con un uso de un factor de amortiguamiento adaptable para códecs de audio en el dominio de la frecuencia.
2. Antecedentes de la invención
En años recientes ha existido una demanda creciente de una transmisión y almacenamiento digitales de contenidos de audio. Sin embargo, los contenidos de audio a menudo se transmiten por canales poco fiables, lo cual conlleva el riesgo de que se pierdan unidades de datos (por ejemplo, paquetes) que comprenden una o más tramas de audio (por ejemplo, en forma de una representación codificada, como, por ejemplo, una representación en el dominio de la frecuencia codificada o una representación en el dominio del tiempo codificada). En algunas situaciones, sería posible solicitar una repetición (reenvío) de tramas de audio perdidas (o de unidades de datos, como paquetes, que comprenden una o más tramas de audio perdidas). Sin embargo, esto normalmente conllevaría un retraso sustancial y, por lo tanto, se requeriría un almacenamiento temporal de tramas de audio considerable. En otros casos, es muy difícil solicitar una repetición de tramas de audio perdidas.
Con el fin de obtener una calidad de audio buena, o al menos aceptable, dado el caso en el que las tramas de audio se pierden sin proporcionar almacenamiento temporal considerable (lo cual consumiría una gran cantidad de memoria y también degradaría sustancialmente las capacidades en tiempo real de la codificación de audio) es deseable tener conceptos para tratar la pérdida de una o más tramas de audio. En particular, es deseable tener conceptos que lleven consigo una buena calidad de audio, o al menos una calidad de audio aceptable, incluso en el caso de que las tramas de audio se pierdan.
En el pasado, se han desarrollado algunos conceptos de ocultación de error, que pueden emplearse en diferentes conceptos de codificación de audio. Una técnica de ocultación convencional en el códec de audio avanzado (AAC) es la sustitución de ruido. Funciona en el dominio de la frecuencia y es adecuada para elementos ruidosos y musicales.
También se han desarrollado técnicas de desvanecimiento para reducir la intensidad de las tramas sustituyentes (o valores espectrales). Estas técnicas a menudo se basan en el escalamiento de la trama sustituyente por un coeficiente predeterminado (factor de amortiguamiento). Normalmente, el factor de amortiguamiento se representa como un valor entre 0 y 1: cuanto menor sea el factor de amortiguamiento, más fuerte será el desvanecimiento.
En el caso de pérdidas de paquetes, los códecs de voz y audio usualmente se desvanecen hacia cero o ruido de fondo para evitar artefactos de repetición molestos. En el G.719 [1], por ejemplo, las señales sintetizadas se escalan de manera decreciente con un factor de 0,5 y, entonces, se usan como los coeficientes de transformación reconstruidos para la trama actual. Para todos los decodificadores de la familia AAC como [2], el espectro ocultado se desvanece
con un factor de amortiguamiento constante igual a J vÓ ,5 = 07071, cuando no se permite un retraso adicional. Este factor de amortiguamiento se aplica en el espectro completo sin importar las características de la señal.
Sin embargo, especialmente para señales de voz o transitorias, una técnica de desvanecimiento de este tipo no es completamente satisfactoria. Cuando la primera trama perdida se encuentra justo después del final de la palabra, la sustitución de ruido implicará la repetición de la trama de audio decodificada apropiadamente anterior, es decir, la trama en la que la palabra finalizó: una parte no útil de la voz (que no contiene información) se repetirá, lo que implica ecos posteriores molestos. Véase, por ejemplo, la figura 10 (con eco) en comparación con la figura 11 (donde no está presente eco). Las figuras 10 y 11 representan frecuencia en las ordenadas y tiempo en las abscisas (en cientos de ms o hms).
Este eco es una consecuencia directa, inevitable de la repetición de la trama de audio decodificada apropiadamente.
Sería preferible superar un deterioro técnico de este tipo. El G.729.1 [3] y EVS [4] proponen técnicas de desvanecimiento adaptables, que dependen de la estabilidad de las características de la señal. Un factor de desvanecimiento depende de los parámetros de la última clase de supertrama recibida buena y el número de supertramas borradas consecutivas. Además, el factor depende de la estabilidad del filtro LP para supertramas SIN VOZ (llevándose a cabo una clasificación entre las tramas CON VOZ y SIN VOZ). Puesto que no existen características de la señal disponibles en los decodificadores AAC como AAC-ELd [5], el códec amortigua la señal ocultada de manera ciega con un factor fijo, que puede conducir a los artefactos de repetición molestos comentados anteriormente.
En algunas condiciones se ha encontrado que pueden generarse artefactos molestos por huecos en la representación espectral.
Es necesaria una solución para superar o al menos reducir la incidencia de al menos algunos de los deterioros de la técnica anterior.
El documento WO 2014/123471 A1 da a conocer una técnica para controlar la ocultación de pérdida de trama de audio. Un método de ocultación se modifica cuando se detecta una condición particular. Se sugieren diversos grados de atenuación.
El documento EP0747884 da a conocer una técnica para realizar una atenuación de ganancia de libro de códigos durante los borrados de trama.
3. Sumario de la invención
La invención se define en las reivindicaciones independientes.
Según realizaciones de la invención, se proporciona una unidad de ocultación de error para proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada. La unidad de ocultación de error se configura para proporcionar una información de audio de ocultación de error usando una ocultación en el dominio de la frecuencia basándose en una trama de audio decodificada apropiadamente anterior a una trama de audio perdida. La unidad de ocultación de error se configura para desvanecer una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes.
Según realizaciones de la invención, también se proporciona una unidad de ocultación de error para proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada. La unidad de ocultación de error se configura para proporcionar una información de audio de ocultación de error por una trama de audio perdida basándose en una trama de audio decodificada apropiadamente anterior a la trama de audio perdida. La unidad de ocultación de error puede configurarse para derivar uno o más factores de amortiguamiento basándose en características de una representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. La unidad de ocultación de error se configura para realizar un desvanecimiento usando el/los factor(es) de amortiguamiento.
Se ha observado que, en consecuencia, los problemas causados por artefactos de ecos posteriores pueden superarse usando una técnica basada en el análisis de las características de una representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. Las características de la señal proporcionan información exacta sobre la energía de la señal, que puede usarse para clasificar la información de audio y para amortiguar la trama de audio ocultada según una clasificación de este tipo.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para derivar el factor de amortiguamiento basándose en características de una representación en el dominio del tiempo decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Por ejemplo, es posible reconocer que la trama de audio decodificada apropiadamente anterior contiene el final de una palabra o voz (o, en general, una disminución de energía con el tiempo) simplemente basándose en los aspectos de una representación en el dominio del tiempo de este tipo. También, pueden derivarse diferentes características de la trama de audio decodificada (como una modulación temporal, un carácter transitorio y otras, con buena precisión a partir de la representación decodificada).
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para realizar un análisis de la representación en el dominio del tiempo codificada y para derivar el factor de amortiguamiento basándose en el análisis.
En consecuencia, es posible derivar directamente el factor de amortiguamiento analizando la representación en el dominio del tiempo decodificada. El análisis de la representación decodificada normalmente es mucho más exacto que la estimación de características de la señal usando parámetros de entrada de la decodificación. En este caso, el análisis no se realiza en el codificador.
De manera alternativa, algunas características de la señal se calculan en el codificador y se envían en el flujo de bits sobre el cual el decodificador determinará entonces el factor de amortiguamiento.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para derivar el factor de amortiguamiento basándose en una tendencia de la energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
En efecto, se ha observado que es posible determinar la naturaleza de la trama de audio decodificada apropiadamente (la cual "sustituirá" a la trama recibida incorrectamente) analizando su tendencia de energía. Puesto que la voz (y otra información de audio prevista tal como música) generalmente implica más energía que el ruido, la disminución de la energía en una trama puede usarse como un índice de la aparición del final de una palabra. Por tanto, es posible desvanecer la información de audio de manera diferente basándose en la naturaleza determinada de la trama de audio decodificada apropiadamente anteriormente. Aplicando diferentes desvanecimientos a tramas de diferente naturaleza, es posible reducir la aparición de artefactos de eco posteriores.
Se ha reconocido que la representación decodificada (la cual puede tomar la forma de una representación en el dominio del tiempo) representa una evolución temporal de la señal de audio más estrechamente que una representación codificada, y que, por lo tanto, es ventajoso derivar un factor de amortiguamiento (o incluso múltiples factores de amortiguamiento) basándose en las características de la representación decodificada (en el que las características de la representación decodificada pueden, por ejemplo, derivarse por un análisis de la representación decodificada).
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para calcular una energía de una primera porción de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, o de una versión ponderada de la misma, y calcular una energía de una segunda porción de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, o de una versión ponderada de la misma. Un inicio de la primera porción de la representación decodificada precede temporalmente a un inicio de la segunda porción de la representación decodificada, o un promedio de los valores de tiempo de la primera porción precede temporalmente a un promedio de los valores de tiempo de la segunda porción. La unidad de ocultación de error puede configurarse para calcular el factor de amortiguamiento dependiendo de la energía de la primera porción y dependiendo de la energía de la segunda porción.
En consecuencia, es posible calcular una tendencia de energía (por ejemplo, representada por un valor de tendencia de energía): si una porción temporalmente anterior de la trama tiene más energía que una porción posterior de la trama, el final de la voz (o, en general, una disminución de la energía con el tiempo) puede determinarse con un grado suficiente de certeza. Especialmente, la primera porción de la trama puede contener la segunda porción (o viceversa). El promedio en el tiempo de la primera porción precede al promedio en el tiempo de la segunda porción (por ejemplo, el centro de la primera porción precede temporalmente al centro de la segunda porción).
En particular, la segunda porción de la representación decodificada puede contener un último intervalo de las muestras de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. La primera porción de la representación decodificada puede contener todas las muestras de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, o un intervalo de las muestras de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida que se superpone a la segunda porción de modo que al menos algunas de las muestras de la primera porción precedan a todas las muestras de la segunda porción.
En consecuencia, uno de los fundamentos que subyacen a las realizaciones de la presente invención se basa en la observación de que los artefactos de repetición molestos se producen principalmente cuando la trama perdida va detrás del final de la voz: en lugar de reproducir silencio o ruido, un fragmento de una palabra se repite de manera inútil. Esta es una de las razones por las que las realizaciones de la invención se basan en el reconocimiento de que una trama perdida (o la primera de una secuencia de tramas perdidas consecutivas) es la trama que va detrás del final de una palabra (o voz), por ejemplo, reconociendo que la última trama de audio decodificada apropiadamente es la trama que va detrás del final de una palabra (o voz), o, de manera más general, una trama en la cual el nivel de energía ha caído bruscamente. (En algunos casos, donde la trama es más larga, como de 80 ms, aunque la pérdida de trama aparezca a la mitad del camino durante la disminución de energía puede existir algún tipo de eco posterior).
Es posible calcular un cociente entre:
- una energía en una porción final de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, o en una porción final de una versión escalada de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, y
- una energía total en la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, o en la versión escalada de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, para obtener el factor de amortiguamiento.
Aunque la primera porción puede contener todas las muestras de la trama, la segunda porción podría contener únicamente las muestras de la segunda mitad de la misma trama (o algo de la segunda mitad de las reivindicaciones); dividiendo un valor relacionado con la energía asociada con la segunda porción con un valor relacionado con la energía asociada con la primera porción (toda la trama, por ejemplo), puede obtenerse un valor (cuando la primera porción comprende toda la trama, el valor puede ser de entre 0 y 1 y puede expresarse como un porcentaje): cuanto menor sea el valor (o el porcentaje), más probable es que la trama contenga el final de una palabra (o una disminución substancial de energía con el tiempo).
En algunas realizaciones, un cociente igual a cero podría implicar que no está presente energía en las muestras de la segunda porción, indicando que las muestras de la segunda porción contienen "silencio" como información única.
Según una realización, una tendencia de energía temporal (fac) puede calcularse usando la fórmula:
Figure imgf000005_0001
en la que el valor L es la longitud de trama en las muestras, xk es (un valor basado en) el valor de la señal muestreada, wk es un factor de ponderación y c es un valor entre 0,5 y 0,9, preferiblemente entre 0,6 y 0,8, más preferiblemente entre 0,65 y 0,75, e incluso más preferiblemente de 0,7. El valor L puede ser la longitud de trama en las muestras (por ejemplo, un número tal como 1024), xk puede ser el valor de la señal muestreada, wk puede ser un factor de ponderación y c puede ser un valor entre 0,5 y 0,9, preferiblemente 0,6 y 0,8, más preferiblemente entre 0,65 y 0,75, e incluso más preferiblemente 0,7.
Especialmente,
Figure imgf000005_0002
tiene en cuenta una energía integral de las últimas muestras de la trama (en
Figure imgf000005_0003
particular, ponderada por una ventana), mientras que se refiere a una energía integral asociada con toda la trama.
También puede calcularse un factor de ponderación que verifique la siguiente condición:
Figure imgf000005_0004
Se ha observado que un factor de ponderación apropiado es:
Figure imgf000005_0005
donde d es un valor entre 0,4 y 0,6, preferiblemente entre 0,49 y 0,51, más preferiblemente entre 0,499 y 0,501, e incluso más preferiblemente 0,5; donde h es un valor entre 0,15 y 0,25, preferiblemente entre 0,19 y 0,21, más preferiblemente 0,199 y 0,201, e incluso más preferiblemente 0,2; y donde g es un valor entre 0,05 y 0,15, preferiblemente entre 0,09 y 0,11, y más preferiblemente 0,1.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para reducir el factor de amortiguamiento con respecto a una trama de audio ocultada anterior y para desvanecer al menos una trama de audio ocultada posterior, tras la trama de audio ocultada anteriormente usando el factor de amortiguamiento reducido.
La solución es particularmente ventajosa cuando múltiples tramas consecutivas se decodifican incorrectamente. De esta manera, la señal de audio se amortiguará apropiadamente.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para realizar el desvanecimiento según una disminución de tiempo más que exponencial por al menos tres tramas de audio ocultadas consecutivas.
Se ha observado que es preferible una disminución de tiempo más que exponencial para factores de amortiguamiento asociados al desvanecimiento y permite obtener un buen intercambio entre la elegancia del desvanecimiento y la necesidad de reducir la intensidad de la información de audio. En particular, se ha observado que se obtiene una disminución particularmente apropiada multiplicando de manera iterativa el factor de amortiguamiento anterior por 0,9 en la segunda trama perdida consecutiva, por 0,75 en la tercera trama perdida consecutiva, por 0,5 para la tercera trama perdida consecutiva, por 0,2 en la cuarta y todas las tramas perdidas consecutivas.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para determinar un valor de tendencia de energía que describa cuantitativamente una tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. La unidad de ocultación de error también puede configurarse para usar el valor de tendencia de energía, o una versión escalada del mismo, para definir el factor de amortiguamiento.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para fijar el factor de amortiguamiento en un valor predeterminado, menor que un valor de tendencia de energía actual, si el valor de tendencia de energía actual se encuentra dentro de un intervalo predeterminado que indique una disminución de energía comparativamente pequeña con el tiempo.
En consecuencia, si la tendencia de energía temporal es cercana a 1 (o, al menos, mayor que un umbral que puede ser (1/2)1/2), puede determinarse con un grado suficiente de certeza que la trama de audio decodificada apropiadamente no contiene el final de la voz (o de cualquier modo no es una trama de audio en la cual la energía disminuye repentinamente). Por tanto, es posible usar un valor de amortiguamiento fijo.
Según un aspecto de la invención, la ocultación de error puede configurarse para determinar el factor de amortiguamiento de manera que el factor de amortiguamiento sea igual a un valor de tendencia de energía actual, o varíe linealmente con el valor de tendencia de energía variable, si el valor de tendencia de energía actual se encuentra fuera del intervalo predeterminado e indica una disminución de energía comparativamente más grande con el tiempo.
En consecuencia, si la tendencia de energía temporal es menor que el umbral (por ejemplo, el cual puede ser 1/21/2), puede determinarse con un grado suficiente de certeza que la trama de audio decodificada apropiadamente contiene el final de una palabra (o voz). Por tanto, es posible usar un valor de amortiguamiento reducido para acelerar el desvanecimiento, evitando de este modo el eco posterior según la invención.
Según un aspecto de la invención, la ocultación de error puede configurarse para:
- fijar el factor de amortiguamiento en un primer valor predeterminado (el cual puede ser, por ejemplo, un valor entre 0,95 o 0,97 y 1), lo cual indica un amortiguamiento más pequeño que un segundo valor predeterminado (el
- ± 10%
cual puede ser, por ejemplo, ’ 2 ), si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar al ruido, y/o
- fijar el factor de amortiguamiento en el segundo valor predeterminado, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar a la voz no finalizando la voz en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, y/o
- fijar el factor de amortiguamiento en un valor basándose en el valor de tendencia de energía o una versión escalada del mismo, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar a la voz disminuyendo o terminando la voz en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Clasificando la trama de audio decodificada apropiadamente (por ejemplo, como ruido/voz que finaliza en la trama/voz que continúa), pueden realizarse tres desvanecimientos diferentes:
- desvanecimiento pequeño o ningún desvanecimiento en absoluto para ruido (como preferible para ruido);
- desvanecimiento medio cuando la voz no finaliza en la trama de audio decodificada apropiadamente (en ausencia de riesgo de eco molesto);
- desvanecimiento fuerte cuando la voz termina en la trama de audio decodificada apropiadamente (disminuyendo, por tanto, los efectos del eco molesto).
La ocultación de error está configurada para determinar diferentes factores de amortiguamiento para diferentes bandas de frecuencia.
Según un aspecto de la invención, la unidad de ocultación de error está configurada0 para derivar el factor de amortiguamiento de manera que el factor de amortiguamiento refleje una extrapolación de una evolución temporal de un nivel de energía en una porción final de la última trama de audio decodificada apropiadamente anterior a la trama de audio perdida hacia la trama de audio perdida.
Según un aspecto de la invención, la unidad de ocultación de error está configurada para escalar una representación espectral de la trama de audio anterior a la trama de audio perdida usando el factor de amortiguamiento, con el fin de derivar una representación espectral ocultada de la trama de audio perdida.
Según un aspecto de la invención, la unidad de ocultación de error está configurada para escalar una representación espectral de la trama de audio anterior a la trama de audio perdida usando el factor de amortiguamiento, con el fin de derivar una representación espectral ocultada de la trama de audio perdida.
Según un aspecto de la invención, la unidad de ocultación de error está configurada para realizar una transformación del dominio espectral al dominio del tiempo, con el fin de obtener la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Según realizaciones de la invención, se proporciona un método de información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada, que comprende las siguientes etapas:
- derivar un factor de amortiguamiento basándose en las características de una representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, y
- realizar un desvanecimiento usando el factor de amortiguamiento.
El método puede usarse en combinación con cualquiera de los aspectos de la invención comentados anteriormente.
Según realizaciones de la invención, se proporciona un programa informático para realizar el método de la invención y/o para controlar las realizaciones del producto de la invención comentadas anteriormente cuando el programa informático se ejecuta en un ordenador.
Según realizaciones de la invención, se proporciona un decodificador de audio para proporcionar información de audio decodificada basándose en información de audio codificada, comprendiendo el decodificador de audio una unidad de ocultación de error tal como se comentó anteriormente o implementando un método tal como se comentó anteriormente.
Según la invención, se proporciona una unidad de ocultación de error para proporcionar información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada, en el que la unidad de ocultación de error está configurada para proporcionar una información de audio de ocultación de error basándose en una trama de audio decodificada apropiadamente anterior a una trama de audio perdida. La unidad de ocultación de error está configurada para realizar un desvanecimiento usando factores de amortiguamiento diferentes para bandas de frecuencia diferentes.
Se ha observado que es posible usar factores de amortiguamiento diferentes para bandas diferentes de la misma representación espectral de la trama de audio. En consecuencia, es posible evitar la aparición de artefactos molestos debido a huecos espectrales, debido a que es posible, por ejemplo, aplicar un factor de amortiguamiento diferente a una banda de frecuencia (o un compartimento espectral) que sea similar al ruido que a una banda de frecuencia (o un compartimento espectral) que sea similar a la voz (o que contenga principalmente voz).
De este modo, pueden adaptarse factores de amortiguamiento a las características de señal de diferentes bandas de frecuencia o de diferentes compartimentos espectrales, o a una evolución temporal de la energía en bandas de frecuencia o compartimentos espectrales diferentes.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para derivar los factores de amortiguamiento basándose en características de una representación en el dominio espectral de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para adaptar uno o más factores de amortiguamiento, con el fin, por ejemplo, de desvanecer bandas de frecuencia con voz de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida más rápido que las bandas de frecuencia sin voz o similares al ruido de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Adaptando el desvanecimiento a cada banda de frecuencia (o compartimento espectral), es posible obtener un comportamiento de desvanecimiento óptimo: en particular, las bandas espectrales asociadas a la voz pueden amortiguarse más rápido que las bandas espectrales asociadas al ruido, reduciendo de este modo la molestia para una persona que escucha la información de audio decodificada.
Según la invención, la unidad de ocultación de error se configura para adaptar uno o más factores de amortiguamiento, con el fin de desvanecer una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y que tiene una energía comparativamente mayor por compartimento espectral más rápido que una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y que tiene una energía comparativamente más baja por compartimento espectral.
Según un fundamento de la invención, se espera que las bandas con energía comparativamente mayor por compartimento espectral contengan más información de voz que de ruido. Por lo tanto, se propone aumentar el amortiguamiento de estas bandas relacionadas con voz, mientras se desvanece solo lentamente las bandas de frecuencia de baja energía (similares al ruido).
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para fijar un factor de amortiguamiento, para al menos una banda de frecuencia, basándose en una comparación entre un valor de energía asociado a al menos una banda de frecuencia en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y un umbral.
La comparación con un umbral permite realizar una prueba sencilla (pero importante) cuyo resultado es, entre otros, la determinación de que se espera que la banda contenga información relacionada o bien con voz o bien con ruido.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para usar un factor de amortiguamiento predeterminado para al menos una banda de frecuencia si el valor de energía asociado con la al menos una banda de frecuencia es menor que el umbral. La unidad de ocultación de error puede configurarse para usar un factor de amortiguamiento que es menor que un factor de amortiguamiento predeterminado para la al menos una banda de frecuencia si el valor de energía asociado a al menos una banda de frecuencia es mayor que el umbral.
En consecuencia, las bandas de mayor energía se amortiguarán más rápido que las bandas de menor energía, reduciendo por tanto las molestias al oyente.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para usar un factor de amortiguamiento que representa un desvanecimiento comparativamente más lento para la al menos una banda de frecuencia si el valor de energía asociado a la al menos una banda de frecuencia es menor que el umbral. La unidad de ocultación de error puede configurarse para usar un factor de amortiguamiento que representa un desvanecimiento comparativamente más rápido para la al menos una banda de frecuencia si el valor de energía asociado a la al menos una banda de frecuencia es mayor que el umbral.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para definir el factor de amortiguamiento como un valor predeterminado si el valor de energía asociado a la al menos una banda de frecuencia es menor que el umbral. La unidad de ocultación de error puede configurarse, si el valor de energía asociado a la al menos una banda de frecuencia es mayor que el umbral, para derivar el factor de amortiguamiento para la al menos una banda de frecuencia basándose en un valor de tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, con el fin de desvanecer la al menos una banda de frecuencia más rápido que donde el valor de energía asociado a la al menos una banda de frecuencia es menor que el umbral.
No solo es posible amortiguar bandas de mayor energía (que se espera que estén relacionadas con voz) más rápido que las bandas de menor energía, sino que también es posible desvanecer las bandas según la evolución de la trama de audio decodificada apropiadamente. Si, por ejemplo, la evolución de energía de la trama de audio decodificada apropiadamente indica que la última es una trama en la cual una palabra (o voz) ha finalizado, es preferible aumentar el amortiguamiento de las bandas de mayor energía, las cuales se espera que estén relacionadas con voz. En consecuencia, los artefactos de eco molestos pueden evitarse cuando la trama de audio decodificada apropiadamente contenga el final de una palabra.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para definir umbrales diferentes para bandas de frecuencia diferentes.
Puede esperarse que una banda con muchos compartimentos pero baja intensidad, por ejemplo, esté asociada con ruido. Por el contrario, puede esperarse que una banda con alta energía esté asociada con voz. Por lo tanto, puede obtenerse una distinción entre estas bandas que realizan comparaciones diferentes con umbrales diferentes para bandas diferentes.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para fijar un umbral basándose en un valor de energía, o un valor de energía promedio, o un valor de energía esperado de la al menos una banda de frecuencia.
Puede esperarse que una banda con baja energía, por ejemplo, esté asociada con ruido. Por el contrario, puede esperarse que una banda con alta energía esté asociada con voz. Por lo tanto, puede obtenerse una distinción entre estas bandas eligiendo, para cada banda, un umbral que depende del valor de energía, o un valor de energía promedio, o un valor de energía esperado de la banda.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para fijar el umbral basándose en una relación entre un valor de energía de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y un número de líneas espectrales en el espectro completo de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para fijar el umbral basándose en una tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
La tendencia de energía temporal puede contener información de si la trama de audio decodificada apropiadamente contiene información si el final de una palabra se encuentra en la trama o no. Es preferible amortiguar más rápido las tramas posteriores a las tramas de audio que contienen el final de una palabra, para evitar artefactos de eco molestos. Por tanto, puede ser preferible elegir el umbral basándose en la tendencia de energía temporal. Cuanto mayor sea la probabilidad de que la palabra termine en la trama decodificada apropiadamente (tendencia de energía cercana a 0), menor será el umbral, más rápido será el amortiguamiento de la banda.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para fijar el umbral para una iésima banda de frecuencia usando la fórmula:
umbral^ = nuevaEnergíaPorLínea • noDeL\neast
El valor noDeLíneasi puede ser el número de líneas en la iésima banda de frecuencia, y
fac
nuevaEnergíaPorLínea = noDeüneasTotales • energmtotal
El valor fac puede ser una cantidad que representa la tendencia de energía temporal en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, o un valor de amortiguamiento derivado de una cantidad que representa la tendencia de energía temporal en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. El valor energíatotai puede ser una energía total sobre todas las bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. El valor noDeLíneasTotaies puede ser un número total de líneas espectrales de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para realizar una desvanecimiento usando factores de amortiguamiento diferentes para bandas de factor de escala diferentes. Los factores de escala diferentes para escalar valores espectrales cuantificados de manera inversa pueden asociarse con bandas de factor de escala diferentes.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para escalar una representación espectral de la trama de audio anterior a la trama de audio perdida usando los factores de amortiguamiento, con el fin de derivar una representación espectral ocultada de la trama de audio perdida.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para escalar bandas de frecuencia diferentes de una representación espectral de la trama de audio anterior a la trama de audio perdida usando factores de amortiguamiento diferentes, para desvanecer de ese modo los valores espectrales de las bandas de frecuencia diferentes con velocidades de desvanecimiento diferentes, con el fin de derivar una representación espectral ocultada de la trama de audio perdida.
En consecuencia, es posible obtener una ocultación apropiada en la que las bandas que contienen información tal como voz se amortiguan más que aquellas que contienen ruido.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para:
- fijar el factor de amortiguamiento asociado con una banda de frecuencia dada en un primer valor predeterminado (por ejemplo, entre 0,95 y 1), lo cual indica un amortiguamiento menor que un segundo valor predeterminado (por ejemplo, alrededor de 1/21/2), si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar al ruido, y/o
- fijar el factor de amortiguamiento asociado con la banda de frecuencia dada en el segundo valor predeterminado, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida similar a la voz no finalizando la voz en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, y/o
- fijar el factor de amortiguamiento asociado con la banda de frecuencia dada en un valor basado en el valor de tendencia de energía o una versión escalada del mismo, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar a la voz disminuyendo o finalizando la voz en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Por ejemplo, es posible distinguir bandas que contienen información tal como voz (o información de audio prevista tal como música) y aquellas que contienen ruido. Las bandas que contienen información de audio prevista pueden amortiguarse más rápido que aquellas que contienen ruido. En el caso de que la trama de audio decodificada anteriormente contenga el final de una palabra (o voz o de todas formas una información de audio prevista), el amortiguamiento se aumenta comparativamente (por ejemplo, reduciendo el factor de amortiguamiento).
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para comparar una energía en una banda de frecuencia dada con un umbral. La unidad de ocultación de error puede configurarse para proporcionar un factor de escalamiento para la banda de frecuencia dada que se deriva basándose en una tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida si la energía en la banda de frecuencia dada es mayor que el umbral. La unidad de ocultación de error puede configurarse para fijar el factor de amortiguamiento en un primer valor predeterminado, que indica un amortiguamiento menor que un segundo valor predeterminado, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida se reconoce como similar al ruido, y si la energía en la banda de frecuencia dada es menor que el umbral. La unidad de ocultación de error puede configurarse para fijar el factor de amortiguamiento en el segundo valor predeterminado, si se reconoce la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, siendo no similar al ruido.
Según un aspecto de la invención, la unidad de ocultación de error puede configurarse para realizar una transformación del dominio espectral al dominio del tiempo, con el fin de obtener una representación decodificada de una trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Las realizaciones de la invención también se relacionan con un método para proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada, comprendiendo el método:
- proporcionar una información de audio de ocultación de error basándose en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida; y
- realizar un desvanecimiento usando factores de amortiguamiento diferentes para bandas de frecuencia diferentes.
El método de la invención puede implementar uno o más de los aspectos comentados anteriormente.
Las realizaciones de la invención también se relacionan con un programa informático para realizar los métodos de la invención cuando el programa informático se ejecuta en un ordenador y/o para implementar los aspectos del producto comentados anteriormente.
Las realizaciones de la invención también se relacionan con un decodificador de audio que comprende una unidad de ocultación de error tal como se comentó anteriormente.
El decodificador de audio puede configurarse para escalar valores espectrales de bandas de factor de escala diferentes de una representación espectral de la trama de audio anterior a la trama de audio perdida usando factores de escala diferentes.
Los aspectos comentados anteriormente pueden combinarse entre sí.
4. Breve descripción de las figuras
Las realizaciones de la presente invención se describirán posteriormente tomando como referencia las figuras adjuntas, en las que:
la figura 1 muestra un diagrama esquemático de bloques de una unidad de ocultación según la invención;
la figura 2 muestra un diagrama esquemático de bloques de un decodificador de audio según una realización de la presente invención;
la figura 3 muestra un diagrama esquemático de bloques de un decodificador de audio según otra realización según la presente invención;
la figura 4 muestra un diagrama esquemático de bloques de una ocultación en el dominio de la frecuencia según una realización de la invención;
la figura 5 muestra datos de un cálculo de un valor de tendencia de energía según una realización de la invención; la figura 6 muestra datos de una subdivisión de una trama usada para calcular la tendencia de energía según una realización de la invención;
la figura 7 muestra diagramas de un peso ("ventana de hann modificada") usado para calcular el valor de tendencia de energía según una realización de la invención;
la figura 8 muestra realizaciones de medios usados para calcular el factor de amortiguamiento según una realización de la invención;
la figura 9 muestra realizaciones de los métodos de ocultación de la invención;
las figuras 10 a 11 muestran ejemplos comparativos de diagramas de señal;
la figura 12 muestra un ejemplo de definición de umbrales según una realización de la invención;
la figura 13 muestra ejemplos comparativos de diagramas de señal;
las figuras 14 a 15 muestran realizaciones de medios usados para calcular el factor de amortiguamiento según una realización de la invención;
la figura 16 muestra realizaciones de métodos de ocultación de la invención.
5. Descripción de las realizaciones
En la presente sección, las realizaciones de la invención se comentan con referencia a los dibujos.
5.1 Unidad de ocultación de error según la figura 1
La figura 1 muestra un diagrama esquemático de bloques de una unidad de ocultación de error 100 según la invención. La unidad de ocultación de error 100 proporciona una información de audio de ocultación de error 107 para ocultar una pérdida de una trama de audio en una información de audio codificada. La unidad de ocultación de error 100 se introduce mediante información de audio, tal como una versión espectral (o representación) 101 de una trama de audio decodificada apropiadamente. Además, la unidad de ocultación de error 100 se introduce mediante información de audio, tal como la versión en el dominio del tiempo 102 (o representación) de una trama de audio decodificada apropiadamente (en particular, la misma trama de audio decodificada apropiadamente cuyo valor espectral se introduce como 101). Puede usarse una versión procesada posteriormente 102' en lugar de la señal en el dominio del tiempo 102 (a continuación en el presente documento, solo se hace referencia a la señal en el dominio del tiempo 102 por razones de brevedad, a pesar de que es posible representar la invención usando la versión procesada posteriormente 102').
La unidad de ocultación de error 100 está configurada para derivar un factor de amortiguamiento 103 basándose en las características de la representación decodificada 102 de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
La unidad de ocultación de error 100 está configurada para realizar un desvanecimiento usando el factor de amortiguamiento 103.
Un ejemplo de desvanecimiento puede implementarse por un escalador 104, para escalar la versión espectral 101 de la trama de audio decodificada apropiadamente usando el factor de amortiguamiento 103.
Puede implementarse un determinador del factor de amortiguamiento 110 para derivar el factor de amortiguamiento 103 basándose en la versión en el dominio del tiempo 102 de la trama de audio decodificada apropiadamente. El determinador del factor de amortiguamiento 110 puede derivar el factor de amortiguamiento 103 basándose en las características de la representación decodificada en el dominio del tiempo 102 de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Puede usarse un analizador de tendencia de energía 111 para realizar un análisis de la trama de audio decodificada apropiadamente 102. Según algunas implementaciones, puede analizarse la tendencia de la energía en la trama. Puede usarse un mapeador (o calculador) del factor de amortiguamiento 112 para escalar el factor de amortiguamiento (por ejemplo, cuando se obtienen múltiples tramas de datos incorrectas consecutivas).
Además, por medio de un sumador de ruido 117, puede sumarse opcionalmente ruido a la versión escalada 105 de la representación en el dominio de la frecuencia 101, para derivar la representación en el dominio de la frecuencia 107 de la trama ocultada.
Debe observarse que, según una realización de la unidad de ocultación de error 100, la representación espectral 101 de la trama decodificada apropiadamente se divide opcionalmente en bandas diferentes; el escalador 104 adopta una pluralidad de factores de escala, uno para cada una de las bandas
5.2 Unidad de ocultación de error según la figura 2
La figura 2 muestra un diagrama esquemático de bloques de un decodificador de audio 200, según una realización de la presente invención. El decodificador de audio 200 recibe una información de audio codificada 210, la cual puede, por ejemplo, comprender una trama de audio codificada en una representación en el dominio de la frecuencia. La información de audio codificada 210 se recibe, en principio, a través de un canal poco fiable, de manera que se produce una pérdida de trama de vez en cuando. El decodificador de audio 200 proporciona, además, basándose en la información de audio codificada 210, la información de audio decodificada 212.
El decodificador de audio 200 puede comprender una decodificación/procesamiento 220, que proporciona la información de audio decodificada basándose en la información de audio codificada en ausencia de una pérdida de trama.
El decodificador de audio 200 comprende, además, una ocultación de error 230 (que puede representarse por la unidad de ocultación de error 100), proporcionando una información de audio de ocultación de error 232. La ocultación de error 230 está configurada para proporcionar la información de audio de ocultación de error 232 (105, 107) para ocultar una pérdida de una trama de audio.
En otras palabras, la decodificación/procesamiento 220 puede proporcionar una información de audio decodificada 222 para tramas de audio que se codifican en forma de una representación en el dominio de la frecuencia, es decir, en forma de una representación codificada, cuyos valores codificados describen las intensidades en diferentes compartimentos de frecuencia. Dicho de manera diferente, la decodificación/procesamiento 220 puede, por ejemplo, comprender un decodificador de audio en el dominio de la frecuencia, que deriva un conjunto de valores espectrales de la información de audio codificada 210 y realiza una transformación del dominio de la frecuencia al dominio del tiempo para derivar de ese modo una representación en el dominio del tiempo que constituye la información de audio decodificada 222 o que forma la base para proporcionar la información de audio decodificada 122 en el caso de que exista procesamiento posterior adicional.
Además, debe observarse que el decodificador de audio 200 puede complementarse por cualquiera de las características y funcionalidades descritas a continuación, ya sea individualmente o tomadas en combinación.
La ocultación de error 230 desvanece diferentes bandas con diferentes factores de amortiguamiento, según la invención.
5.3 Decodificador de audio según la figura 3
La figura 3 muestra un diagrama esquemático de bloques de un decodificador de audio 300, según una realización de la invención.
El decodificador de audio 300 está configurado para recibir una información de audio codificada 310 y para proporcionar, basándose en el mismo, una información de audio decodificada 312. El decodificador de audio 300 comprende un analizador de flujo de bits 320 (que puede diseñarse también como un "destructor de formato de flujo de bits" o "analizador sintáctico de flujo de bits"). El analizador de flujo de bits 320 recibe la información de audio codificada 310 y proporciona, basándose en la misma, una representación en el dominio de la frecuencia 322 y posiblemente información de control adicional 324. La representación en el dominio de la frecuencia 322 puede, por ejemplo, comprender valores espectrales codificados 326, factores de escala codificados 328 y, opcionalmente, una información secundaria adicional 330 que puede, por ejemplo, controlar etapas de procesamiento específicas, como, por ejemplo, un relleno de ruido, un procesamiento intermedio o un procesamiento posterior. El decodificador de audio 300 también comprende una decodificación delp valor espectral 340 que está configurada para recibir los valores espectrales codificados 326, y para proporcionar, basándose en los mismos, un conjunto de valores espectrales decodificados 342. El decodificador de audio 300 también puede comprender una decodificación de factor de escala 350, que puede estar configurada para recibir los factores de escala codificados 328 y para proporcionar, basándose en los mismos, un conjunto de factores de escala decodificados 352.
De manera alternativa a la decodificación del factor de escala, puede usarse una conversión de LPC al factor de escala 354, por ejemplo, en el caso de que la información de audio codificada comprenda una información de LPC codificada, en lugar de una información de factor de escala. Sin embargo, en algunos modos de codificación (por ejemplo, en el modo de decodificación TCX del decodificador de audio USAC o en el decodificador de audio EVS) puede usarse un conjunto de coeficientes LPC para derivar un conjunto de factores de escala en el lado del decodificador de audio. Esta funcionalidad puede lograrse por la conversión de LPC al factor de escala 354.
El decodificador de audio 300 también puede comprender un escalador 360, que puede estar configurado para aplicar el conjunto de factores escalados 352 al conjunto de valores espectrales 342, para obtener de ese modo un conjunto de valores espectrales decodificados escalados 362. Por ejemplo, una primera banda de frecuencia que comprende múltiples valores espectrales decodificados 342 puede escalarse usando un primer factor de escala y una segunda banda de frecuencia que comprende múltiples valores espectrales decodificados 342 puede escalarse usando un segundo factor de escala. En consecuencia, se obtiene el conjunto de valores espectrales decodificados escalados 362. El decodificador de audio 300 puede comprender, además, un procesamiento opcional 366, que puede aplicar algún procesamiento a los valores espectrales decodificados escalados 362. Por ejemplo, el procesamiento opcional 366 puede comprender un relleno de ruido o alguna otra operación.
El decodificador de audio 300 también puede comprender una transformación del dominio de la frecuencia al dominio del tiempo 370, la cual se configura para recibir los valores espectrales decodificados escalados 362, o una versión procesada 378 de los mismos, y para proporcionar una representación en el dominio del tiempo 372 asociada con un conjunto de valores espectrales decodificados escalados 362. Por ejemplo, la transformación del dominio de la frecuencia al dominio del tiempo 370 puede proporcionar una representación en el dominio del tiempo 372, la cual está asociada con una trama o subtrama del contenido de audio. Por ejemplo, la transformación del dominio de la frecuencia al dominio el tiempo puede recibir un conjunto de coeficientes MDCT (que pueden considerarse como valores espectrales decodificados escalados) y proporcionar, basándose en los mismos, un bloque de muestras en el dominio del tiempo, que pueden formar la representación en el dominio del tiempo 372.
El decodificador de audio 300 puede comprender opcionalmente un procesamiento posterior 376, que puede recibir la representación en el dominio del tiempo 372 y modificar de algún modo la representación en el dominio del tiempo 372, para obtener de ese modo una versión procesada posteriormente 378 de la representación en el dominio del tiempo 372.
Según la invención, el decodificador de audio 300 comprende una ocultación de error 380 (que puede representarse por una de las unidades de ocultación 100 o 230). La ocultación de error 380 recibe los valores espectrales decodificados 362 (que pueden representar los valores 101) o su versión procesada posteriormente 368.
La ocultación de error 380 también puede recibir la representación en el dominio del tiempo 372 (que puede representar el valor 102) de la transformación del dominio de la frecuencia al dominio del tiempo o los valores procesados posteriormente 378 (que pueden representar el valor 102') del procesamiento posterior opcional 376. Sin embargo, en una realización en la que la ocultación de error aplica factores de amortiguamiento diferentes a bandas de frecuencia diferentes, pero no deriva uno o más factores de amortiguamiento basándose en una representación decodificada de una trama de audio decodificada apropiadamente, puede no ser necesario que la ocultación de error 380 reciba las señales 372, 378.
Además, la ocultación de error 380 proporciona una información de audio de ocultación de error 382 para una o más tramas de audio perdidas. Si una trama de audio se perdió, de manera que, por ejemplo, no estén disponibles valores espectrales codificados 326 para dicha trama de audio (o subtrama de audio), la ocultación de error 380 puede proporcionar la información de audio de ocultación de error. La información de audio de ocultación de error puede ser una representación en el dominio de la frecuencia de un contenido de audio (que puede proporcionarse al transformador del dominio de la frecuencia al dominio del tiempo 370) o una representación en el dominio del tiempo del contenido de audio (que puede proporcionarse a una combinación de señal 390).
Debe observarse que la ocultación de error 380 puede, por ejemplo, realizar la funcionalidad de la unidad de ocultación de error 100 y/o la ocultación de error 230 descrita anteriormente. La ocultación de error 380 puede enviar una señal de ocultación en el dominio del tiempo 382 a la combinación de señal 390, o una señal de ocultación en el dominio de la frecuencia 382' a la transformación del dominio de la frecuencia al dominio del tiempo 370.
Con respecto a la ocultación de error, debe observarse que la ocultación de error no ocurre al mismo tiempo que la decodificación de la trama. Por ejemplo, si la trama n es buena, entonces se realiza una decodificación normal, y al final se guarda alguna variable que ayudará si se tiene que ocultar la siguiente trama, entonces si la trama n+1 se pierde, se recupera la función de ocultación que aporta la variable procedente de la trama buena anterior. También se actualizan algunas variables para ayudar a la pérdida de la siguiente trama o en la recuperación a la siguiente trama buena.
El decodificador de audio 300 también comprende una combinación de señal 390, que está configurada para recibir la representación en el dominio del tiempo 372 (o la representación en el dominio del tiempo procesada posteriormente 378 en el caso de que exista un procesamiento posterior 376). Además, la combinación de señal 390 puede recibir la información de audio de ocultación de error 382, que normalmente también es una representación en el dominio del tiempo de una señal de audio de ocultación de error proporcionada para una trama de audio perdida. La combinación de señal 390 puede, por ejemplo, combinar las representaciones en el dominio del tiempo asociadas con tramas de audio posteriores. En el caso de que existan tramas de audio decodificadas apropiadamente posteriores, la combinación de señal 390 puede combinar (por ejemplo, superponer y sumar) las representaciones en el dominio del tiempo asociadas con estas tramas de audio decodificadas apropiadamente posteriores. Sin embargo, si una trama de audio se pierde, la combinación de señal 390 puede combinar (por ejemplo, superponer y sumar) la representación en el dominio del tiempo asociada con la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y la información de audio de ocultación de error asociada con la trama de audio perdida, para tener de ese modo una transición uniforme entre la trama de audio recibida apropiadamente y la trama de audio perdida. De forma similar, la combinación de señal 390 puede configurarse para combinar (por ejemplo, superponer y sumar) la información de audio de ocultación de error asociada con la trama de audio perdida y la representación en el dominio del tiempo asociada con otra trama de audio decodificada apropiadamente posterior a la trama de audio perdida (u otra información de audio de ocultación de error asociada con otra trama de audio perdida en el caso de que se pierdan múltiples tramas de audio consecutivas).
En consecuencia, la combinación de señal 390 puede proporcionar una información de audio decodificada 312, de manera que la representación en el dominio del tiempo 372, o una versión procesada posteriormente 378 de la misma, se proporciona para tramas de audio decodificadas apropiadamente, y de manera que la información de audio de ocultación de error 382 se proporciona para tramas de audio perdidas, en la que se realiza normalmente una operación de superposición y suma entre la información de audio (independientemente de si se proporciona por la transformación del dominio de la frecuencia al dominio del tiempo 370 o por la ocultación de error 380) de tramas de audio posteriores. Puesto que algunos códecs tienen algún repliegue en la parte de superposición y suma que necesita eliminarse, opcionalmente puede crearse algún repliegue artificial en la mitad de una trama que se ha creado para realizar la superposición y suma.
Debe observarse que la funcionalidad del decodificador de audio 300 es similar a la funcionalidad del decodificador de audio 200 según la figura 2. Además, debe observarse que el decodificador de audio 300 según la figura 3 puede complementarse por cualquiera de las características y funcionalidades descritas en el presente documento. En particular, la ocultación de error 380 puede complementarse por cualquiera de las características y funcionalidades descritas en el presente documento con respecto a la ocultación de error.
En una realización, la ocultación de error 380 puede realizar una ocultación en bandas de factor de escala, por ejemplo, tal como se describe a continuación tomando como referencia la figura 14. En este caso, los factores de amortiguamiento pueden proporcionarse o no basándose en las características de la representación decodificada de la trama de audio decodificada apropiadamente.
5.4 Desvanecimiento y ocultación de error en el dominio de la frecuencia
En el presente documento, se proporciona alguna información relacionada con la ocultación en el dominio de la frecuencia tal como puede representarse o usarse por la unidad de ocultación de error 100. Por ejemplo, la funcionalidad descrita a continuación puede obtenerse, en parte o por completo, en el escalador 104.
Una función de ocultación en el dominio de la frecuencia aumenta el retraso de un decodificador por una trama. La ocultación en el dominio de la frecuencia funciona sobre los datos espectrales, por ejemplo, justo antes de la conversión de frecuencia a tiempo final. En el caso de que se daña una sola trama, la ocultación puede interpolar entre la última (o una de las últimas) trama buena (trama de audio decodificada apropiadamente) y la primera trama buena para crear los datos espectrales para la trama perdida. La trama anterior puede procesarse por la conversión de frecuencia a tiempo (por ejemplo, la transformación del dominio de la frecuencia al dominio del tiempo 370). Si se dañan múltiples tramas, la ocultación implementa primero un desvanecimiento basándose en valores espectrales ligeramente modificados de la última trama buena. Tan pronto como estén disponibles tramas buenas, la ocultación se desvanece en los nuevos datos espectrales.
Se describe una ocultación en el dominio de la frecuencia en la figura 4. En la etapa 401 se determina (por ejemplo, basándose en CRC o una estrategia similar) si la información de audio actual contiene una trama decodificada apropiadamente. Si el resultado de la determinación es positivo, se usa un valor espectral de la trama decodificada apropiadamente como información de audio apropiada en 402. El espectro también se registra en una memoria temporal 403 para uso futuro.
Si el resultado de la determinación es negativo (trama dañada), en la etapa 404 se usa una representación espectral registrada anteriormente 405 de la trama de audio decodificada apropiadamente anterior (guardada en una memoria temporal en la etapa 403 en un ciclo anterior) para "sustituir" la trama de audio dañada (y descartada).
En particular, una copiadora y el escalador 407 copia y escala valores espectrales de los compartimentos de frecuencia (o compartimentos espectrales) 405a, 405b, ..., en el intervalo de frecuencia de la representación espectral decodificada apropiadamente registrada anteriormente 405 de la trama de audio decodificada apropiadamente anterior, para obtener valores de los compartimento de frecuencia (o compartimentos espectrales) 406a, 406b, ..., que van a usarse en lugar de la trama de audio dañada.
Cada uno de los valores espectrales puede multiplicarse por un valor de escalamiento común, o por un coeficiente respectivo (o factor de amortiguamiento) según la información específica llevada por la banda. Asimismo, puede sumarse opcionalmente ruido en los valores espectrales 406.
Además, puede usarse uno o más factores de amortiguación 410 para amortiguar la señal para reducir iterativamente la fuerza de la señal en el caso de ocultaciones consecutivas.
En particular, se usan diferentes factores de amortiguamiento 410 en algunas realizaciones para amortiguar de manera diferente bandas diferentes (por ejemplo, bandas de factor de escala).
Para concluir, la copiadora y el escalador 407 pueden representar el escalador 104, y la etapa 404 también puede comprender opcionalmente la funcionalidad del insertador de ruido 107.
5.5 Análisis de la tendencia de energía temporal de la trama de audio decodificada apropiadamente
Según realizaciones de la invención, es posible derivar los factores de amortiguamiento (por ejemplo, en 110, 230, 380 o 404) basándose en las características de una representación en el dominio del tiempo decodificada (por ejemplo, 102, 102', 372, 378) de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
La figura 5 muestra un ejemplo del analizador de tendencia de energía 500 que puede representar el analizador 111. El analizador de tendencia de energía 500 comprende una porción de memoria (por ejemplo, memoria temporal) 501 en la que se almacenan las muestras de la representación en el dominio del tiempo de una trama de audio decodificada apropiadamente. El número de muestras puede ser de 1024 según algunas realizaciones. Cada campo de la memoria temporal almacena el valor de una muestra.
Una primera porción 502 puede estar formada por un cierto número de muestras o también todas las muestras. Una segunda porción 503 puede estar formada por un cierto número de muestras, por ejemplo, el último 30% de las muestras (por ejemplo, aproximadamente 307 muestras de 1024), o un subconjunto de las muestras de la segunda mitad de la trama. El promedio en tiempo de la primera porción 502 precede al promedio en tiempo de la segunda porción 503. Un número importante de las muestras de la primera porción 502 puede preceder a la mayoría de las muestras de la segunda porción 503.
En 504, puede calcularse un valor 504' relacionado con la energía de la segunda porción 503 (o que representa la energía de la segunda porción 503). Los valores de ponderación 507 obtenidos por un bloque de ponderación 506 también pueden aplicarse a la segunda porción 503. Por ejemplo, el calculador de tendencia de energía puede comprender (por ejemplo, calculando una diferencia o un cociente) los valores 504', 505', para derivar un valor de tendencia de energía
En 505, puede calcularse un valor 505' relacionado con la energía de la primera porción 505.
Puede usarse una calculadora de tendencia de energía 508 para obtener un valor de tendencia de energía 509 y puede usarse, por ejemplo, para calcular el factor de amortiguamiento.
Según algunas realizaciones, aunque la ocultación se realiza con el fin de usar factores de amortiguamiento diferentes para bandas espectrales diferentes de la representación en el dominio de la frecuencia de la trama de audio decodificada apropiadamente, el valor de tendencia de energía no varía para bandas diferentes de la misma trama. En su lugar, puede calcularse un solo valor de tendencia de energía para una trama dada.
5.6 La primera y la segunda porción de la trama
Con el fin de obtener (o elegir) la primera y la segunda porción de la trama (por ejemplo, para el cálculo del valor de tendencia de energía), pueden usarse varias estrategias.
La figura 6(a) muestra que la primera porción 502 está formada por un intervalo inicial de muestras, mientras que la segunda porción 503 contiene todas las muestras de la trama. En realizaciones alternativas, la primera porción está formada por un grupo de muestras que se toman solo en un intervalo inicial de la trama, mientras que la segunda porción está formada por un grupo de muestras tomadas en toda la trama (no solo en el intervalo inicial).
La figura 6(b) muestra que la primera porción 502 contiene todas (o casi todas) las muestras de la trama, mientras que la segunda parte 503 está formada por un intervalo (o grupo) final de muestras. Por ejemplo, la primera porción 502 puede contener 1024 muestras y la segunda porción 503 solo el último 30% de las muestras.
La figura 6(c) muestra que la primera porción 502 contiene muestras iniciales de la trama, mientras que la segunda porción 503 contiene un intervalo (o grupo) final de muestras.
La figura 6(d) muestra una realización en la que las porciones primera y segunda son dos intervalos diferentes (o grupos de muestras tomados solo de dos intervalos diferentes) de manera que la mayoría (o un grupo significativo) de las muestras de la primera porción precede a la mayoría (o un grupo significativo) de las muestras de la segunda porción.
Si cada una de las muestras se asocia con un tiempo t0, ti, t2 ... tL (siendo t0 y tL respectivamente el primer y último instante de muestra de la trama, por ejemplo, la primera y 1024a muestra de la trama), y una porción de la trama está formada generalmente por un intervalo de instantes de tiempo que comienza en el instante kniciai y finaliza en el instante kfinai, el promedio en tiempo del primer intervalo se proporciona por
Y1 kfinai
k=k-iniciai k
promedio =
kfinai — kinicial
Por ejemplo, el promedio en tiempo de la segunda porción 503 en la figura 6(a) y el promedio en tiempo de la primera porción 502 en la figura 6(b) se encuentra exactamente en la mitad de la trama.
La realización de la figura 6(b) se considera la realización preferida, y se hará referencia a esta en los siguientes párrafos.
5.7 La tendencia de energía temporal
Un valor de tendencia de energía temporal (por ejemplo, 509) puede calcularse (por ejemplo, en la calculadora de tendencia 508) usando la fórmula:
r
f a c =
Figure imgf000016_0001
yJ L k ^ ixk
donde L es la longitud de trama (por ejemplo, de la trama de audio decodificada apropiadamente) en muestras, Xk es el valor de señal muestreada (por ejemplo, un valor de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida), wk es un factor de ponderación y c es un valor entre 0,5 y 0,9, preferiblemente entre 0,6 y 0,8, más preferiblemente entre 0,65 y 0,75, e incluso más preferiblemente 0,7. ¿Jk=c'L k~c'L k tiene en cuenta una energía integral de la segunda porción (por ejemplo, el intervalo final) de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida;
L,k-i k tiene en cuenta una energía integral asociada a la primera porción de la trama de audio decodificada apropiadamente (en este caso, la trama completa tal como se indica en la figura 6(b)).
Definiendo la primera porción y la segunda porción de la trama de audio tal como en la figura 6(b), el valor de tendencia de energía temporal fac es un valor entre 0 y 1. En ese caso, la tendencia de energía temporal fac puede estar prevista como un porcentaje: si toda la energía está distribuida en el último intervalo de la trama, el porcentaje de la tendencia de energía será del 100%. Si toda la energía está distribuida al inicio de la trama, la tendencia de energía será del 0%.
Puede calcularse también un factor de ponderación que verifique la siguiente condición para verificar la siguiente ecuación:
Figure imgf000017_0001
Se ha observado que un factor de ponderación apropiado es:
Figure imgf000017_0002
donde d es un valor entre 0,4 y 0,6, preferiblemente entre 0,49 y 0,51, más preferiblemente entre 0,499 y 0,501, e incluso más preferiblemente 0,5; donde h es un valor entre 0,15 y 0,25, preferiblemente entre 0,19 y 0,21, más preferiblemente 0,199 y 0,201, e incluso más preferiblemente 0,2; y donde g es un valor entre 0,05 y 0,15, preferiblemente entre 0,09 y 0,11, y más preferiblemente 0,1.
En otras palabras, los valores de ventana wk pueden normalizarse.
La figura 7 muestra una representación gráfica 700 del factor de ponderación.
El valor de tendencia de energía describe cuantitativamente una tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. Su valor, o una versión escalada (o limitada) del mismo, puede usarse para definir un factor de amortiguamiento (por ejemplo, 103 o 410).
5.8.1 Cálculo del factor de amortiguamiento
La figura 8(a) muestra un ejemplo de la calculadora de factor de amortiguamiento 800 que puede representar la calculadora 112. En el bloque 804, el valor de tendencia de energía 801 (por ejemplo, 509) se compara con un umbral 802. Se obtiene un factor de amortiguamiento 803 (que puede representar los valores 103 o 410).
El factor de amortiguamiento 803 puede fijarse (por ejemplo, por el bloque 804) en un valor predeterminado, menor que un valor de tendencia de energía actual (por ejemplo, indicando un amortiguamiento mayor o una disminución de energía con el tiempo cuando se compara con el valor de tendencia de energía), si el valor de tendencia de energía actual se encuentra dentro de un intervalo predeterminado que indica una disminución de energía comparativamente pequeña con el tiempo.
El factor de amortiguamiento 803 también puede fijarse igual a un valor de tendencia de energía actual 801, o puede o varía linealmente con el valor de tendencia de energía variable 801, si el valor de tendencia de energía actual 801 se encuentra fuera del intervalo predeterminado e indica una disminución de energía comparativamente mayor con el tiempo.
Especialmente, puesto que se definen factores de amortiguamiento diferentes para bandas diferentes, puede obtenerse un factor de amortiguamiento diferente 803 para cada banda de la trama de audio decodificada apropiadamente. Por ejemplo, puede definirse un umbral diferente 802 para cada banda de frecuencia.
La figura 8(b) muestra, como un ejemplo adicional, una determinación 810 de un factor de amortiguamiento llevado a cabo usando el valor de tendencia de energía (por ejemplo, 509 u 801). En 811, se realiza un análisis del valor de tendencia de energía. El análisis puede contemplar el cálculo del valor de tendencia de energía temporal según uno de los ejemplos comentados anteriormente.
Si se reconoce que la trama de audio decodificada apropiadamente contiene principalmente ruido, se realiza un amortiguamiento pequeño (o ningún amortiguamiento en absoluto) en 812, por ejemplo, definiendo un factor de amortiguamiento en 0,98 o 1.
Si se reconoce que la trama de audio decodificada apropiadamente contiene principalmente voz pero una palabra no se termina en la trama de audio decodificada apropiadamente (o que el valor de tendencia de energía indica una disminución de energía comparativamente más pequeña con el tiempo), se lleva a cabo un amortiguamiento reducido (medio) en 813, por ejemplo, definiendo un factor de amortiguamiento 0,7071.
Si se reconoce que la trama de audio decodificada apropiadamente contiene voz que termina en la misma trama (o que el valor de tendencia de energía indica una disminución de energía significativa en la trama de audio decodificada apropiadamente), se lleva a cabo un amortiguamiento rápido en 814. Donde el valor de tendencia de energía temporal se calcula tal como anteriormente (y la porción primera y segunda de la trama se definen de manera similar a la realización de la figura 6(b)), también es posible definir el factor de amortiguamiento 803 como el mismo valor (o valor escalado) del valor de tendencia de energía 801 (o 509).
Básicamente, es posible llevar a cabo realizaciones en las que el factor de amortiguamiento refleja una extrapolación de una evolución temporal de un nivel de energía en una porción final de la última trama de audio decodificada apropiadamente anterior a la trama de audio perdida hacia la trama de audio perdida.
Especialmente, puesto que se definen factores de amortiguamiento diferentes para bandas diferentes, las etapas 811 a 814 pueden realizarse para cada banda de la trama de audio decodificada apropiadamente.
5.8.2 Disminución del factor de amortiguamiento
Es posible configurar la unidad de ocultación de error de modo que, en el caso de que se pierdan múltiples tramas consecutivas, el factor de amortiguamiento decaiga, por ejemplo, tras una disminución más que exponencial.
La figura 8(c) muestra una variante de la figura 8(a) en la que un escalador 807 proporciona una versión escalada 803' del factor de amortiguamiento 803. Mientras que el bloque de comparación 804 funciona comparando el valor de tendencia de energía 801 con el umbral 802, el factor de amortiguamiento 803 se memoriza en una memoria temporal 804. Cuando se pierden dos tramas consecutivas, el factor de amortiguamiento memorizado en la memoria temporal 804 (que se usa para la primera trama perdida o para la trama anterior) se multiplica por un factor contenido en una tabla de consulta 805, con el fin de obtener el factor de amortiguamiento para la segunda trama perdida o, de manera general, para las tramas posteriores o la actual.
Para pérdidas de tramas consecutivas, el factor de amortiguamiento de la trama actual fac puede depender de la anterior fac-1:
0,9, para noPerdidas = = 2
0,75, para noPerdidas = = 3
fac f a c - ! • 0,5, para noPerdidas = = 4
. 0,2, para noPerdidas > 4
donde noPerdidas es el número de tramas perdidas consecutivas. Esto conduce a menos ecos posteriores debido a un desvanecimiento más rápido.
Especialmente, puesto que se definen factores de amortiguamiento diferentes para bandas diferentes, pueden aplicarse disminuciones diferentes a bandas de frecuencia diferentes.
5.9 Métodos de la invención
La figura 9(a) muestra un método de ocultación de error 900 para proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada, que comprende las siguientes etapas:
en 910, derivar un factor de amortiguamiento (por ejemplo, el factor de amortiguamiento 103, 803 u 803') basándose en las características de una representación decodificada (por ejemplo, 102) de la trama de audio decodificada apropiadamente (por ejemplo, contenida en 501) anterior a la trama de audio perdida, y
en 920, realizar un desvanecimiento (por ejemplo, en 811 a 814) usando el factor de amortiguamiento.
La figura 9(b) muestra una variante 900b en la que, antes de la etapa 910, se realiza una etapa 905 en la que se analiza el valor de tendencia de energía de la trama de audio decodificada apropiadamente.
Especialmente, puesto que se definen factores de amortiguamiento diferentes para bandas diferentes, los métodos se repiten (por ejemplo, por iteración) para bandas diferentes de la trama de audio decodificada apropiadamente.
6. Operación de una realización de la invención y resultados experimentales
Está destinada a desvanecer una trama ocultada según la invención.
La figura 10 muestra un diagrama 1000 con la vista espectral de una señal en la cual algunas tramas indicadas con los números 1002 y 1003 se ocultan con una técnica tradicional. Aunque en la trama decodificada apropiadamente anterior la voz ha terminado, se interpreta un eco molesto artificialmente.
Especialmente para señales de voz o transitorias, un factor de amortiguamiento estático no es suficiente. Por ejemplo, si la primera trama perdida está a la derecha después de un final de palabra, esto conduce a ecos posteriores molestos (véase la figura izquierda a continuación). Para evitar esto, el factor de amortiguamiento tiene que adaptarse a la señal actual. Según G.729.1 [3] y EVS [4], se propone un desvanecimiento adaptable, que depende de la estabilidad de las características de la señal. Por tanto, el factor depende de los parámetros de la última clase de supertrama recibida buena y el número de supertramas borradas consecutivas. Además, el factor depende de la estabilidad del filtro LP para supertramas SIN v Oz . Puesto que no existen características de señal disponibles en los decodificadores AAC como el ACC-ELC [5], el códec amortigua la señal ocultada de manera ciega con un factor fijo, lo cual conduce a los artefactos de repetición molestos descritos anteriormente.
Para resolver el problema en una realización, se observa el valor de tendencia de la energía temporal de la última trama buena sintetizada x (por ejemplo, de una trama de audio decodificada apropiadamente), para calcular un nuevo factor de amortiguamiento fac para la primera trama perdida. La evolución del nivel de energía con el tiempo en la última trama x se extrapola para la siguiente trama, que determinará el factor de amortiguamiento. Por lo tanto, el factor de amortiguamiento se calcula fijando la energía de las últimas muestras de x con relación a la energía de la trama buena anterior completa x:
Figure imgf000019_0001
donde L es la longitud de trama y wk es una ventana de hann modificada:
0 < k < 0.1 L
Figure imgf000019_0002
k > 01 - L
La forma de la ventana está diseñada de tal manera que
4 X fc= 0.7 -L Wfc
= 1
En comparación con [1], donde el factor de amortiguamiento estático de 0,7071 siempre se aplicará al espectro completo, el factor de amortiguamiento calculado fac se usará si es inferior al valor predeterminado de 0,7071; de lo contrario, se usará fac = 0,7071. En algunos casos tenemos algún conocimiento anterior acerca de las características de señal que pueden ser la estabilidad energética de la señal o una clase de señal que diga que si la señal tiene una característica con voz, ruidosa o de inicio. Entonces (por ejemplo, si la trama de audio decodificada apropiadamente anterior a la trama de audio perdida se clasifica como ruidosa) algunas veces es beneficioso desvanecerla más lenta, usando el factor de amortiguamiento calculado. Por ejemplo, si la señal es realmente ruidosa, se desea mantener la energía constante, lo cual ayuda especialmente a la pérdida de una sola trama. Finalmente, el factor de amortiguamiento puede maximizarse por 1, para evitar artefactos de alta energía crecientes.
En el estado de la técnica [1], el espectro se escala por un factor constante de 0,7071 durante múltiples pérdidas de trama. En el enfoque de la invención, el factor de amortiguamiento adaptable solo se usa en la primera trama ocultada. Para pérdidas de tramas consecutivas, el factor de amortiguamiento de la trama actual (fac) dependerá de la anterior (fac-1):
0,9, noPerdidas = = 2
0,75, noPerdidas = = 3
fac f ac- i 0,5, noPerdidas = = 4
. 0,2, noPerdidas > 4
donde noPerdidas es el número de tramas perdidas consecutivas. Esto conduce a menos ecos posteriores debido a un desvanecimiento más rápido (o un índice que describe si la trama actual es la segunda, tercera, cuarta, ... , trama perdida de una secuencia de tramas perdidas).
Tal como puede verse en la figura 11, las áreas 1002 y 1003 (que en la técnica anterior se habrían visto afectadas por ecos molestos) ahora se han "pulido" de manera ventajosa.
7. Realizaciones adicionales de la presente divulgación
La figura 14 muestra una ocultación de error 1400 en la que se amortiguan de manera diferente bandas (o compartimentos) de frecuencia diferentes de la misma trama de audio decodificada apropiadamente. Aunque es posible, no es estrictamente necesario representar la figura 1 o 3 para representar la figura 14.
Con referencia a las figuras 2 y 4, se obtiene una unidad de ocultación de error con el objetivo de proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada. La unidad de ocultación de error está configurada para proporcionar una información de audio de ocultación de error basándose en una trama de audio decodificada apropiadamente anterior a una trama de audio perdida. La unidad de ocultación de error está configurada para realizar un desvanecimiento usando factores de amortiguamiento diferentes para bandas de frecuencia diferentes.
Se escalan diferentes compartimientos memorizados en porciones de memoria diferentes (por ejemplo, memorias temporales) 405a, 405b, ..., 405g por factores de amortiguamiento diferentes 1408a, 1408b, ..., 1408g (los factores de amortiguamiento que multiplican los valores de compartimento en los escaladores 407a, 407b, ..., 407g), para obtener diferentes compartimentos memorizados en porciones de memoria diferentes 406a, 406b, ..., 406g de una información de audio de ocultación.
Según una realización, es posible derivar los factores de amortiguamiento diferentes basándose en las características de una representación en el dominio espectral de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
La figura 14 muestra que la representación FD de una trama de audio decodificada apropiadamente se subdivide en el bloque 1402 entre bandas de frecuencia diferentes 1403a, 1403b, ..., 1403g. El uno o más valores de compartimento espectral de cada banda se escalan en 1404a, 1404b, ..., 1404g. Posteriormente, los valores de las bandas se componen entre sí y se transforman en el bloque 1406 (que puede ser el mismo del bloque 370 comentado anteriormente) y pueden usarse como información de audio de ocultación 1407.
El bloque 1402 no existe en realidad y, en una realización sencilla, solo representa un agrupamiento lógico de valores de compartimento espectral. De manera similar, el bloque 1405 no existe en realidad, pero representa una combinación lógica de valores espectrales modificados (escalados).
Es posible adaptar uno o más factores de amortiguamiento, con el fin de desvanecer bandas de frecuencia con voz (o bandas de frecuencia que tienen una energía comparativamente alta) de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida más rápido que bandas de frecuencia sin voz o similares al ruido de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Según la invención, los factores de amortiguamiento 1408a, 1408b, ..., 1408g se adaptan, con el fin de desvanecer una o más bandas de frecuencia (es decir, una iésima banda del espectro completo) de la trama de audio decodificada apropiadamente y que tiene una energía comparativamente mayor por compartimento espectral más rápido que una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y que tiene una energía comparativamente menor por compartimento espectral.
Tal como puede verse en la figura 15(a), en un bloque de comparación 1504 es posible fijar un factor de amortiguamiento 1503, para al menos una banda de frecuencia 1403a, 1403b, ..., 1403g, basándose en una comparación entre un valor de energía 1501 asociado con la al menos una banda de frecuencia en la trama de audio decodificada apropiadamente y un umbral 1502.
Según una realización, es posible usar un factor de amortiguamiento predeterminado para la al menos una banda de frecuencia si el valor de energía asociado con la al menos una banda de frecuencia es menor que el umbral. Es posible usar un factor de amortiguamiento que sea más pequeño que un factor de amortiguamiento predeterminado (que puede, en general, indicar un amortiguamiento más fuerte o un desvanecimiento más rápido) para la al menos una banda de frecuencia si el valor de energía asociado con la al menos una banda de frecuencia es mayor que el umbral.
Según una realización, es posible usar un factor de amortiguamiento que represente un desvanecimiento comparativamente más lento para la al menos una banda de frecuencia si el valor de energía asociado con la al menos una banda de frecuencia es menor que el umbral. La unidad de ocultación de error puede configurarse para usar un factor de amortiguamiento que representa un desvanecimiento comparativamente más rápido para la al menos una banda de frecuencia si el valor de energía asociado a la al menos una banda de frecuencia es mayor que el umbral.
Según una realización, es posible definir el factor de amortiguamiento como un valor predeterminado si el valor de energía asociado con la al menos una banda de frecuencia es menor que el umbral. Si el valor de energía asociado con la al menos una banda de frecuencia es mayor que el umbral, es posible derivar el factor de amortiguamiento para la al menos una banda de frecuencia basándose en un valor de tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, con el fin de desvanecer la al menos una banda de frecuencia más rápido que donde el valor de energía asociado con la al menos una banda de frecuencia es menor que el umbral.
La figura 15(b) muestra una determinación 1510 llevada a cabo comparando un valor relacionado con la energía de una banda (por ejemplo, una iésima banda del espectro de la trama de audio decodificada apropiadamente) con un umbral (por ejemplo, el umbral 1502). En 1511, se realiza una determinación. La determinación puede contemplar el cálculo de un valor de tendencia de energía temporal en la iésima banda de frecuencia según uno de los ejemplos comentados anteriormente (véanse también las figuras 5 y 8(b) anteriores y los pasajes relacionados en la descripción).
Si se reconoce que la iésima banda de la trama de audio decodificada apropiadamente contiene ruido (por ejemplo, el valor relacionado con la energía de la banda se encuentra por debajo del umbral), se lleva a cabo un amortiguamiento pequeño (o ningún amortiguamiento en absoluto) en 1512, por ejemplo, definiendo un factor de amortiguamiento en un valor comprendido entre 0,95 y 1.
Si se reconoce que la iésima banda contiene voz pero no se terminó una palabra en la trama de audio decodificada apropiadamente (o la disminución de energía con el tiempo es menor que un umbral predeterminado), se lleva a cabo un amortiguamiento reducido 1513, por ejemplo, definiendo un factor de amortiguamiento de 0,7071.
En particular, si se reconoce que la iésima banda de la trama de audio decodificada apropiadamente contiene un elemento de voz que termina en la misma trama, se lleva a cabo un amortiguamiento fuerte en 1514. Donde el valor de tendencia de energía temporal se calcula como anteriormente (y las porciones primera y segunda de la trama se definen de manera similar a la realización de la figura 6(b)), también es posible definir el factor de amortiguamiento como el mismo valor (o un valor escalado) del valor de tendencia de energía 801 para la banda i.
No es necesario, sin embargo, limitar la invención solo a dos factores de amortiguamiento (tal como se usa en 1512 o 1513). También es posible definir tener más de dos factores predeterminados: por ejemplo, un valor similar a 0,7071 como un amortiguamiento medio (1513); 0,9 para bandas menores; 0,95 para bandas medias; 0,98 para bandas mayores como un factor de amortiguamiento pequeño (1512), o 0,9 si la clase de señal es CON VOZ y 0,95 si la clase de señal es SIN VOZ como un factor de amortiguamiento pequeño (1512), etc.
Tal como puede verse en la figura 15(c), es posible definir diferentes umbrales 1501 i, 1501 (i+1), etc., para bandas de frecuencia diferentes i, i+1, etc., para obtener factores de amortiguamiento diferentes 1503i, 1503(i+1), etc. Un ejemplo se proporciona en la figura 12, en la cual el umbral varía según la frecuencia, lo que implica que los valores relacionados con la energía de bandas diferentes (o bandas de factor de escala) se comparan con umbrales diferentes.
En particular, es posible fijar el umbral basándose en un valor de energía, o un valor de energía promedio, o un valor de energía esperado de la al menos una banda de frecuencia.
Según una realización, es posible fijar el umbral basándose en una relación entre un valor de energía de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y un número de líneas espectrales en el espectro completo de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
El umbral puede basarse en un valor de tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
El umbral para la iésima banda de frecuencia puede obtenerse usando la fórmula:
umbral^ = nuevaEnergíaPorLínea • node líneas¡
donde noDeLíneasi es el número de líneas en la iésima banda de frecuencia,
en el que
fac
nuevaEnergíaPorLínea • energíatotal
noDeLineasT ótales
El valor fac representa el valor de tendencia de energía temporal en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, o un valor de amortiguamiento derivado de una cantidad que representa el valor de tendencia de energía temporal en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. El valor energíatotal es una energía total sobre todas las bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida. El valor noDeLíneasTotales es un número total de líneas espectrales de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
Las bandas pueden ser bandas de factor de escala, cuyos valores espectrales se escalan usando factores de escala diferentes. Se asocian factores de escala diferentes para escalar valores espectrales cuantificados de manera inversa con bandas de factor de escala diferentes. Es posible escalar una representación espectral de la trama de audio anterior a la trama de audio perdida usando los factores de amortiguamiento, con el fin de derivar una representación espectral ocultada de la trama de audio perdida.
Es posible escalar bandas de frecuencia diferentes de una representación espectral de la trama de audio anterior a la trama de audio perdida usando factores de amortiguamiento diferentes, para desvanecer de ese modo los valores espectrales de las bandas de frecuencia diferentes con velocidades de desvanecimiento diferentes, con el fin de derivar una representación espectral ocultada de la trama de audio perdida.
Tomando la figura 15(b) como referencia, es posible, para cada iésima banda de la trama decodificada apropiadamente:
- en 1512, fijar el factor de amortiguamiento asociado con la iésima banda de frecuencia a un primer valor predeterminado, el cual indica un amortiguamiento menor que un segundo valor predeterminado, si en 1511 se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la última trama de audio es similar al ruido, y/o
- en 1513, fijar el factor de amortiguamiento asociado con la iésima banda de frecuencia en el segundo valor predeterminado, si en 1511 se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar a la voz, no finalizando la voz en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, y/o
- en 1514, fijar el factor de amortiguamiento asociado a la iésima banda de frecuencia en un valor basándose en el valor de la tendencia de energía o una versión escalada del mismo, si en 1511 se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar a la voz, disminuyendo o finalizando la voz en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida;
- en 1515, se elige una nueva banda i+1, y el procedimiento anterior se repite para la nueva banda.
Según una realización, la unidad de ocultación de error está configurada para comparar una energía en una iésima banda de frecuencia dada con un umbral (por ejemplo, 1502), y
- la unidad de ocultación de error proporciona un factor de escalamiento para la iésima banda de frecuencia dada que se derivó basándose en un valor de tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida si la energía en la iésima banda de frecuencia dada es mayor que el umbral; y
- la unidad de ocultación de error fija el factor de amortiguamiento en un primer valor predeterminado (por ejemplo, en 1512), lo cual indica un amortiguamiento menor que un segundo valor predeterminado, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida se reconoce como similar al ruido, y si la energía en la iésima banda de frecuencia dada es menor que el umbral; y/o
- la unidad de ocultación de error está configurada para fijar el factor de amortiguamiento en el segundo valor predeterminado, si se reconoce la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, como no similar al ruido.
Según una realización, la unidad de ocultación de error realiza una transformación del dominio espectral al dominio del tiempo (por ejemplo, en 1406), con el fin de obtener una representación decodificada (por ejemplo, 1407) de una trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
La figura 16(a) muestra un método de ocultación de error 1600 para proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada, en la que una representación espectral de una trama de audio decodificada apropiadamente se subdivide en 1, 2, ..., i, etc., bandas, comprendiendo el método las siguientes etapas:
- en 1605, elegir una primera banda 1 (por ejemplo, i:=1);
- en 910, derivar un factor de amortiguamiento basándose en las características de una representación decodificada de una trama de audio decodificada apropiadamente anterior a la trama de audio perdida para la banda i;
- en 920, realizar un desvanecimiento usando el factor de amortiguamiento para la banda i;
- en 1630, elegir una nueva banda i+1;
- repetir este procedimiento para todas las bandas de la vista espectral de la trama de audio decodificada apropiadamente.
La figura 16(b) muestra una variante 1600b en la que, antes de la etapa 910 (véase la figura 16(a)), se realiza una etapa 905 en la que se analiza el valor de tendencia de energía de la trama de audio decodificada apropiadamente.
En los métodos 1600 y 1600b, los números de referencia de los métodos 900 y 900b se mantienen para permitir apreciar la similitud entre las realizaciones diferentes del método.
8. Operación de una realización de la invención y resultados experimentales
Según un aspecto de la invención, se encuentra en el presente documento que es ventajoso desvanecer una trama ocultada desvaneciendo bandas diferentes de una señal usando factores de amortiguamiento diferentes.
Se ha encontrado que no siempre es deseable amortiguar cada parte de la señal con la misma velocidad. Por ejemplo, en el caso de voz con ruido de fondo, se desea desvanecer la parte con voz de la señal sin desvanecer demasiado el ruido de fondo para evitar artefactos molestos procedentes de los huecos en el espectro. Por lo tanto, el factor de amortiguamiento se aplica de manera diferente en regiones de frecuencia diferentes de la señal en algunas realizaciones. Esto podría hacerse basándose en factores de LPC o de escala.
Una aplicación es una banda de factor de escala que depende del amortiguamiento explicado a continuación (véase también la figura 12).
Para evitar vacíos de energía/huecos espectrales en bandas de factor de escala de baja energía (SFB), que pueden aparecer en el método del estado de la técnica, el factor de amortiguamiento se aplicará a lo largo de la banda de factor de escala. Si la energía de una SFB es mayor que un determinado umbral, se usará el factor de amortiguamiento adaptado fac (que puede obtenerse, por ejemplo, tal como se describe en la sección 5.7). Por otra parte, se aplicará el factor de amortiguamiento predeterminado de 0,7071 (1/21/2) (véase, por ejemplo, la figura 12). En algunos casos, es beneficioso desvanecer los SFB, que son menores que el umbral, incluso más lentamente; de modo que esas partes no se conviertan en cero, lo que significa que la señal se desvanece hacia un ruido blanco de desvanecimiento.
El umbral puede, por ejemplo, depender del número de líneas en cada banda. Esto significa que, para la SFB i, el umbral es:
umbralí = nuevaEnergíaPorLínea • nodeLíneaSi
donde noDeLíneasi es el número de líneas en la iésima SFB y
nuevaEnergmPorünea = noDeüneasTotales • energíatotal
donde noDeLíneasTotales es el número de líneas totales en el espectro completo y energíatotal es la energía total sobre todas las SFB.
Puede proporcionarse un ejemplo por los resultados de las figuras 13(a) y (b) (ordenada: tiempo en cientos de ms o hms; abscisa: frecuencia), en los cuales un gráfico 1300a de una señal no amortiguada se compara con un gráfico 1300b de una señal amortiguada. Las regiones de mayor amortiguamiento 1301 (principalmente voz, en particular las tramas en las que la voz ha terminado) se muestran en la posición contraria a las regiones sin cambio 1302 (principalmente ruido no amortiguado). En particular, la región de mayor amortiguamiento 1301 que se produciría en la figura 13(a) se amortigua apropiadamente en la figura 13(b), reduciendo por tanto los ecos molestos. Por el contrario, no se amortigua el ruido de las regiones 1302, tal como se prefiera.
9. Conclusiones
Se describe un desvanecimiento adaptable para la ocultación de pérdida de paquetes en códecs de audio en el dominio de la frecuencia.
En el caso de pérdidas de paquetes, los códecs de voz y audio usualmente se desvanecen hacia cero o ruido de fondo para evitar artefactos de repetición molestos. Para todos los decodificadores de la familia AAC, el espectro ocultado se desvanece con un factor de amortiguamiento constante sin importar las características de la señal. Especialmente para señales de voz o transitorias, un factor de amortiguamiento estático puede no ser suficiente. Por tanto, las realizaciones según la invención calculan un factor de amortiguamiento adaptable que depende del valor de tendencia de energía temporal de la última trama buena. Además, se aplica un amortiguamiento adaptable por frecuencia sobre el espectro ocultado para evitar huecos molestos en el espectro.
Pueden usarse realizaciones, por ejemplo, en los campos técnicos ELD, XLD, DRM o MPEG-H, por ejemplo, en combinación con decodificadores de audio de ese tipo.
10. Comentarios adicionales
En el caso de pérdidas de paquetes, los códecs de voz y audio usualmente se desvanecen hacia cero o ruido de fondo para evitar artefactos de repetición molestos.
Para todos los decodificadores de la familia AAC, el espectro ocultado se desvanece con un factor de amortiguamiento constante sin importar las características de la señal.
Especialmente para señales de voz o transitorias, un factor de amortiguamiento estático no es suficiente.
Por tanto, se proporciona una herramienta para calcular un factor de amortiguamiento adaptable, que depende de la tendencia de energía temporal de la última trama buena.
Además, se aplica un amortiguamiento adaptable por frecuencia sobre el espectro ocultado para evitar huecos molestos en el espectro.
11. Alternativas de implementación
Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De manera análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente. Algunas o todas las etapas del método pueden ejecutarse por (o usando) un aparato de hardware, como, por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunas o más de las etapas del método más importantes pueden ejecutarse por un aparato de este tipo.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene señales de control legibles electrónicamente almacenadas en el mismo, que actúan conjuntamente (o son capaces de actuar conjuntamente) con un sistema informático programable de manera que se realice el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que son capaces de actuar conjuntamente con un sistema informático programable, de manera que se realice uno de los métodos descritos en el presente documento.
Generalmente, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, funcionando el código de programa para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede, por ejemplo, almacenarse en un soporte legible por máquina.
Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un soporte legible por máquina.
En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional de los métodos de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento. El soporte de datos, el medio de almacenamiento digital o el medio grabado son normalmente tangibles y/o no transitorios.
Una realización adicional del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para realizar uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales puede, por ejemplo, configurarse para transferirse mediante una conexión de comunicación de datos, por ejemplo, mediante Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para o adaptado para realizar uno de los métodos descritos en el presente documento.
Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.
Una realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónica u ópticamente) un programa informático para realizar uno de los métodos descritos en el presente documento a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa informático al receptor.
En algunas realizaciones, puede usarse un dispositivo lógico programable (por ejemplo, una matriz de puertas de campo programable) para realizar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas de campo programable puede actuar conjuntamente con un microprocesador con el fin de realizar uno de los métodos descritos en el presente documento. Generalmente, los métodos se realizan preferiblemente por cualquier aparato de hardware.
El aparato descrito en el presente documento puede implementarse usando un aparato de hardware, o usando un ordenador, o usando una combinación de un aparato de hardware y un ordenador.
Los métodos descritos en el presente documento pueden realizarse usando un aparato de hardware, o usando un ordenador, o usando una combinación de un aparato de hardware y un ordenador.
Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes para otros expertos en la técnica. Se pretende, por lo tanto, que solo estén limitadas por el alcance de las reivindicaciones de patente pendientes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
12. Bibliografía
[1 ] 3GPP TS 26.402 "Enhanced aacPlus general audio codec; Additional decoder tools (Release 11)",
[2] J. Lecomte, et al, "Enhanced time domain packet loss concealment in switched speech/audio codec", presentada a IEEE ICASSP, Brisbane, Australia, abril de 2015.
[3] WO 2015063045 A1
[4] "Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation", 2014, PCT/EP2014/062589
[5] "Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse "synchronization", 2014, PCT/EP2014/062578

Claims (35)

REIVINDICACIONES
1. Unidad de ocultación de error (100, 1402 a 1405) para proporcionar una información de audio de ocultación de error (107, 1407) para ocultar una pérdida de una trama de audio en una información de audio codificada,
en la que la unidad de ocultación de error está configurada para proporcionar una información de audio de ocultación de error basada en una trama de audio decodificada apropiadamente anterior a una trama de audio perdida,
en la que la unidad de ocultación de error está configurada para realizar un desvanecimiento (920) usando diferentes factores de amortiguamiento (1404a a 1404g) para bandas de frecuencia diferentes (1403a a 1403g) de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida,
caracterizada porque la unidad de ocultación de error está configurada para adaptar uno o más factores de amortiguamiento, con el fin de desvanecer una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y que tiene una energía por compartimento espectral comparativamente mayor más rápida que una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y que tiene una energía por compartimento espectral comparativamente inferior.
2. Unidad de ocultación de error según la reivindicación 1, en la que la unidad de ocultación de error está configurada para derivar los factores de amortiguamiento basándose en las características de una representación en el dominio espectral (1401) de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
3. Unidad de ocultación de error según una de las reivindicaciones 1 o 2, en la que la unidad de ocultación de error está configurada para adaptar uno o más factores de amortiguamiento, con el fin de desvanecer bandas de frecuencia con voz de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida más rápido que bandas de frecuencia similares al ruido o sin voz de la trama de audio decodificada apropiadamente anterior a la trama perdida.
4. Unidad de ocultación de error según una de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para fijar un factor de amortiguamiento, para al menos una banda de frecuencia, basándose en una comparación entre un valor de energía (1501 i) asociado a la al menos una banda de frecuencia en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y un umbral (1502i).
5. Unidad de ocultación de error según la reivindicación 4, en la que la unidad de ocultación de error está configurada para usar un factor de amortiguamiento predeterminado para la al menos una banda de frecuencia si el valor de energía asociado a la al menos una banda de frecuencia es inferior al umbral y/o
en la que la unidad de ocultación de error está configurada para usar un factor de amortiguamiento que es menor que un factor de amortiguamiento predeterminado para la al menos una banda de frecuencia si el valor de energía asociado a la al menos una banda de frecuencia es mayor que el umbral.
6. Unidad de ocultación de error según la reivindicación 4 o 5, en la que la unidad de ocultación de error está configurada para usar un factor de amortiguamiento que representa un desvanecimiento comparativamente más lento para la al menos una banda de frecuencia si el valor de energía asociado a la al menos una banda de frecuencia es inferior al umbral, y/o
en la que la unidad de ocultación de error está configurada para usar un factor de amortiguamiento que representa un desvanecimiento comparativamente más rápido para la al menos una banda de frecuencia si el valor de energía asociado a la al menos una banda de frecuencia es mayor que el umbral.
7. Unidad de ocultación de error según una de las reivindicaciones 4 a 6, en la que la unidad de ocultación de error está configurada para definir el factor de amortiguamiento como un valor predeterminado si el valor de energía asociado a la al menos una banda de frecuencia es inferior al umbral,
en la que la unidad de ocultación de error está configurada, si el valor de energía asociado a la al menos una banda de frecuencia es mayor que el umbral, para derivar el factor de amortiguamiento para la al menos una banda de frecuencia basándose en una tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, con el fin de desvanecer la al menos una banda de frecuencia más rápido que donde el valor de energía asociado a la al menos una banda de frecuencia es inferior al umbral.
8. Unidad de ocultación de error según una de las reivindicaciones 4 a 7, en la que la unidad de ocultación de error está configurada para definir diferentes umbrales para bandas de frecuencia diferentes.
9. Unidad de ocultación de error según una de las reivindicaciones 5 a 8, en la que la unidad de ocultación de error está configurada para fijar el umbral basándose en un valor de energía, o un valor de energía promedio, o un valor de energía esperado de la al menos una banda de frecuencia.
10. Unidad de ocultación de error según una de las reivindicaciones 4 a 9, en la que la unidad de ocultación de error está configurada para fijar el umbral basándose en una relación entre un valor de energía de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y un número de líneas espectrales en la al menos una banda de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
11. Unidad de ocultación de error según una de las reivindicaciones 4 a 10, en la que la unidad de ocultación de error está configurada para fijar el umbral basándose en una tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
12. Unidad de ocultación de error según una de las reivindicaciones 4 a 11, en la que la unidad de ocultación de error está configurada para fijar el umbral para una iésima banda de frecuencia usando la fórmula:
umbral^ = nuevaEnergíaPorLínea • noDeLíneast
donde noDeLíneasi es el número de líneas en la iésima banda de frecuencia,
en la que
nuevaEnergíaPorLínea = noDeüneasTotales • energíatotal
en la que fac es una cantidad que representa la tendencia de energía temporal en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, o una valor de amortiguamiento derivado de una cantidad que representa la tendencia de energía temporal en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida;
en la que energíatotal es una energía total sobre todas las bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida; y
en la que noDeLíneasTotales es el número total de líneas espectrales de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
13. Unidad de ocultación de error según una de las reivindicaciones 1 a 12, en la que la unidad de ocultación de error está configurada para realizar un desvanecimiento usando factores de amortiguamiento diferentes para bandas de factor de escala diferentes,
en la que se asocian factores de escala diferentes para escalar valores espectrales cuantificados de manera inversa con bandas de factor de escala diferentes.
14. Unidad de ocultación de error según una de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para escalar una representación espectral de la trama de audio anterior a la trama de audio perdida usando los factores de amortiguamiento, con el fin de derivar una representación espectral ocultada de la trama de audio perdida.
15. Unidad de ocultación de error según una de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para escalar bandas de frecuencia diferentes de una representación espectral de la trama de audio anterior a la trama de audio perdida usando factores de amortiguamiento diferentes, para desvanecer de este modo los valores espectrales de las bandas de frecuencia diferentes con velocidades de desvanecimiento diferentes, con el fin de derivar una representación espectral ocultada de la trama de audio perdida.
16. Unidad de ocultación de error según una de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada:
para fijar el factor de amortiguamiento asociado a una banda de frecuencia dada en un primer valor predeterminado, lo cual indica un amortiguamiento menor que un segundo valor predeterminado, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar al ruido, y/o
para fijar el factor de amortiguamiento asociado a la banda de frecuencia dada en el segundo valor predeterminado, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar a la voz no finalizando la voz en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, y/o
para fijar el factor de amortiguamiento asociado a la banda de frecuencia dada en un valor basado en el valor de tendencia de energía o una versión escalada del mismo, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida es similar a la voz disminuyendo o finalizando la voz en la trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
17. Unidad de ocultación de error según una de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para comparar una energía en una banda de frecuencia dada con un umbral, y
en la que la unidad de ocultación de error está configurada para proporcionar un factor de escalamiento para la banda de frecuencia dada que se deriva basándose en una tendencia de energía temporal de la representación decodificada de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida si la energía en la banda de frecuencia dada es mayor que el umbral; y
en la que la unidad de ocultación de error está configurada para fijar el factor de escalamiento en un primer valor predeterminado, que indica un amortiguamiento menor que un segundo valor predeterminado, si se reconoce, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida se reconoce como similar al ruido, y si la energía en la banda de frecuencia dada es menor que el umbral; y/o
en la que la unidad de ocultación de error está configurada para fijar el factor de escalamiento en un segundo valor predeterminado, si se reconoce que la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, preferiblemente basándose en una información de flujo de bits o basándose en un análisis de señal, no es similar al ruido.
18. Unidad de ocultación de error según una de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para realizar una transformación del dominio espectral al dominio del tiempo, con el fin de obtener una representación decodificada de una trama de audio decodificada apropiadamente anterior a la trama de audio perdida.
19. Unidad de ocultación de error (1402 a 1045) según cualquiera de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para proporcionar una información de audio de ocultación de error (1407) usando una ocultación en el dominio de la frecuencia basada en una trama de audio decodificada apropiadamente anterior a una trama de audio perdida.
20. Unidad de ocultación de error según cualquiera de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para usar una representación en el dominio de la frecuencia (1401) de dicha trama de audio decodificada apropiadamente.
21. Unidad de ocultación de error según cualquiera de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para fijar un factor de amortiguamiento (1503i), para al menos una banda de frecuencia, basándose en una comparación (1504, 1504i) entre un umbral (1502, 1502i) y un valor de energía (1501, 1501 i) asociado a la al menos una banda de frecuencia en la trama de audio decodificada apropiadamente.
22. Unidad de ocultación de error según la reivindicación 21, en la que la unidad de ocultación de error está configurada para fijar (1512, 1513) un factor de amortiguamiento predeterminado como consecuencia de que el umbral sea mayor que el valor de energía asociado a la al menos una banda de frecuencia.
23. Unidad de ocultación de error según cualquiera de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para fijar un factor de amortiguamiento (1514) adaptado a la al menos una banda de frecuencia e inferior al factor de amortiguamiento predeterminado como consecuencia de que el umbral sea inferior al valor de energía asociado a la al menos una banda de frecuencia.
24. Unidad de ocultación de error según cualquiera de las reivindicaciones 21 a 23, en la que la unidad de ocultación de error está configurada para fijar el umbral, para al menos una banda de frecuencia, basándose en al menos una o una combinación de los siguientes parámetros:
el número de líneas de frecuencia en la banda de frecuencia;
una energía promedio para cada línea promediada para la trama completa; y
el factor de amortiguamiento calculado anteriormente para la banda de frecuencia.
25. Unidad de ocultación de error según la reivindicación 24, en la que la unidad de ocultación de error está configurada para fijar el umbral para que sea proporcional a al menos uno de dichos parámetros.
26. Unidad de ocultación de error según cualquiera de las reivindicaciones anteriores, en la que la unidad de ocultación de error está configurada para fijar, para al menos una banda de frecuencia, el factor de amortiguamiento basándose en las características de una representación en el dominio del tiempo (102, 372) de la trama de audio decodificada apropiadamente.
27. Unidad de ocultación de error según la reivindicación 26, en la que la unidad de ocultación de error está configurada para definir el factor de amortiguamiento basándose en la tendencia de energía temporal (509, 801) de la representación en el dominio del tiempo de la trama de audio decodificada apropiadamente.
28. Unidad de ocultación de error según la reivindicación 26 o 27, en la que dichas características incluyen un término que tiene en cuenta los niveles de energía de un primer grupo (502) de muestras de la trama de audio decodificada apropiadamente con respecto a los niveles de energía de un segundo grupo (503) de muestras de la misma trama de audio decodificada apropiadamente,
en la que al menos una primera muestra de grupo es posterior a todas las segundas muestras de grupo, y/o en la que al menos una primera muestra de grupo precede a todas las segundas muestras de grupo, y/o en la que el promedio de tiempo del primer grupo (502) precede al promedio de tiempo del segundo grupo (503).
29. Unidad de ocultación de error según cualquiera de las reivindicaciones 26 a 28, en la que la unidad de ocultación de error está configurada para desvanecer al menos una de las tramas de audio ocultadas posteriores reduciendo (807) el factor de amortiguamiento con respecto a la trama de audio ocultada anterior.
30. Unidad de ocultación de error según cualquiera de las reivindicaciones anteriores, en la que las bandas de frecuencia son bandas de factor de escala, cuyos valores espectrales se escalan usando factores de escala diferentes.
31. Método (1630, 1600b) para proporcionar una información de audio de ocultación de error (212, 312) para ocultar una pérdida de una trama de audio en una información de audio codificada, comprendiendo el método: proporcionar una información de audio de ocultación de error basada en una trama de audio decodificada apropiadamente anterior a la trama de audio perdida; y
realizar un desvanecimiento usando factores de amortiguamiento diferentes para bandas de frecuencia diferentes de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida, caracterizado por desvanecer una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y tener una energía por compartimento espectral comparativamente mayor más rápido que una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y tener una energía por compartimento espectral comparativamente inferior.
32. Programa informático para realizar el método según la reivindicación 31, cuando el programa informático se ejecuta en un ordenador.
33. Decodificador de audio (200, 300) para proporcionar una información de audio decodificada basándose en información de audio codificada, comprendiendo el decodificador de audio una unidad de ocultación de error según una de las reivindicaciones 1 a 30.
34. Decodificador de audio según la reivindicación 33, en el que el decodificador de audio está configurado para escalar valores espectrales de bandas de factor de escala diferentes de una representación espectral de la trama de audio anterior a la trama de audio perdida usando factores de escala diferentes.
35. Método (1630, 1600b) para proporcionar una información de audio de ocultación de error para ocultar una pérdida de una trama de audio en una información de audio codificada, comprendiendo el método:
realizar una ocultación en el dominio de la frecuencia para proporcionar un componente de información de audio de ocultación de error;
desvanecer las tramas de audio ocultadas según factores de amortiguamiento diferentes para bandas de frecuencia diferentes de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida,
caracterizado por desvanecer una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y tener una energía por compartimento espectral comparativamente mayor más rápido que una o más bandas de frecuencia de la trama de audio decodificada apropiadamente anterior a la trama de audio perdida y tener una energía por compartimento espectral comparativamente inferior.
ES17707591T 2016-03-07 2017-03-03 Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes Active ES2874629T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16159033 2016-03-07
EP16171443 2016-05-25
PCT/EP2017/055106 WO2017153299A2 (en) 2016-03-07 2017-03-03 Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands

Publications (1)

Publication Number Publication Date
ES2874629T3 true ES2874629T3 (es) 2021-11-05

Family

ID=58185547

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17707591T Active ES2874629T3 (es) 2016-03-07 2017-03-03 Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes

Country Status (11)

Country Link
US (1) US10706858B2 (es)
EP (1) EP3427257B1 (es)
JP (1) JP6826126B2 (es)
KR (1) KR102192998B1 (es)
CN (1) CN109313905B (es)
BR (1) BR112018068098A2 (es)
CA (1) CA3016949C (es)
ES (1) ES2874629T3 (es)
MX (1) MX2018010754A (es)
RU (1) RU2711108C1 (es)
WO (1) WO2017153299A2 (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10225395B2 (en) * 2015-12-09 2019-03-05 Whatsapp Inc. Techniques to dynamically engage echo cancellation
MX2018010753A (es) * 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Método de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio.
WO2017153300A1 (en) * 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
WO2020165265A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
EP3928312A1 (en) * 2019-02-21 2021-12-29 Telefonaktiebolaget LM Ericsson (publ) Methods for phase ecu f0 interpolation split and related controller
EP3984026A1 (en) 2019-06-13 2022-04-20 Telefonaktiebolaget LM Ericsson (publ) Time reversed audio subframe error concealment
CN114387989B (zh) * 2022-03-23 2022-07-01 北京汇金春华科技有限公司 语音信号处理方法、装置、***及存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
US6675054B1 (en) * 1998-04-20 2004-01-06 Sun Microsystems, Inc. Method and apparatus of supporting an audio protocol in a network environment
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
SE527669C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
US9047860B2 (en) * 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
US20070282601A1 (en) 2006-06-02 2007-12-06 Texas Instruments Inc. Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和***
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
WO2008126347A1 (ja) 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
DE102007018484B4 (de) * 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
WO2009008220A1 (ja) 2007-07-09 2009-01-15 Nec Corporation 音声パケット受信装置、音声パケット受信方法、およびプログラム
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
RU2475868C2 (ru) * 2008-06-13 2013-02-20 Нокиа Корпорейшн Способ и устройство для маскирования ошибок кодированных аудиоданных
EP2975610B1 (en) * 2010-11-22 2019-04-24 Ntt Docomo, Inc. Audio encoding device and method
JP5694745B2 (ja) * 2010-11-26 2015-04-01 株式会社Nttドコモ 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
JP5849106B2 (ja) * 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
US9047863B2 (en) * 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
EP2874149B1 (en) * 2012-06-08 2023-08-23 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
JP6139685B2 (ja) * 2012-09-13 2017-05-31 エルジー エレクトロニクス インコーポレイティド 損失フレーム復元方法及びオーディオ復号化方法とそれを利用する装置
KR102238376B1 (ko) * 2013-02-05 2021-04-08 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
EP3011561B1 (en) * 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved signal fade out in different domains during error concealment
SG11201510463WA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
CN104282309A (zh) * 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理***
KR101854296B1 (ko) * 2013-10-31 2018-05-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
PT3288026T (pt) 2013-10-31 2020-07-20 Fraunhofer Ges Forschung Descodificador áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation

Also Published As

Publication number Publication date
CA3016949C (en) 2021-08-31
RU2711108C1 (ru) 2020-01-15
WO2017153299A3 (en) 2017-10-19
CN109313905B (zh) 2023-05-23
BR112018068098A2 (pt) 2019-01-15
EP3427257B1 (en) 2021-05-05
KR102192998B1 (ko) 2020-12-18
JP2019511740A (ja) 2019-04-25
MX2018010754A (es) 2019-01-14
EP3427257A2 (en) 2019-01-16
JP6826126B2 (ja) 2021-02-03
CA3016949A1 (en) 2017-09-14
KR20180122660A (ko) 2018-11-13
US20190005966A1 (en) 2019-01-03
WO2017153299A2 (en) 2017-09-14
CN109313905A (zh) 2019-02-05
US10706858B2 (en) 2020-07-07

Similar Documents

Publication Publication Date Title
ES2874629T3 (es) Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes
ES2870959T3 (es) Unidad de ocultación de error, decodificador de audio y método relacionado y programa informático que usa características de una representación decodificada de una trama de audio decodificada apropiadamente
ES2902587T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo
ES2805744T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
ES2797092T3 (es) Técnicas de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio