ES2872024T3 - Dispositivo y método para reducir ruido de cuantificación en un decodificador de dominio de tiempo - Google Patents

Dispositivo y método para reducir ruido de cuantificación en un decodificador de dominio de tiempo Download PDF

Info

Publication number
ES2872024T3
ES2872024T3 ES19170370T ES19170370T ES2872024T3 ES 2872024 T3 ES2872024 T3 ES 2872024T3 ES 19170370 T ES19170370 T ES 19170370T ES 19170370 T ES19170370 T ES 19170370T ES 2872024 T3 ES2872024 T3 ES 2872024T3
Authority
ES
Spain
Prior art keywords
excitation
frequency
domain excitation
energy
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19170370T
Other languages
English (en)
Inventor
Tommy Vaillancourt
Milan Jelinek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge EVS LLC
Original Assignee
VoiceAge EVS LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51421394&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2872024(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by VoiceAge EVS LLC filed Critical VoiceAge EVS LLC
Application granted granted Critical
Publication of ES2872024T3 publication Critical patent/ES2872024T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

Un dispositivo (100) para reducir ruido de cuantificación en una señal de sonido sintetizada a partir de una excitación en dominio de tiempo de CELP decodificada (e(n)), siendo el dispositivo caracterizado porque comprende: un primer convertidor (122) para convertir la excitación en dominio de tiempo de CELP decodificada (e(n)) en una excitación en dominio de frecuencia (fe(k)); un constructor (130) de máscara que responde a la excitación en dominio de frecuencia (fe(k)) para producir una máscara de ponderación (Gm), comprendiendo el constructor de máscara: un normalizador (131) de energía espectral para normalizar una energía de la excitación en dominio de frecuencia (fe(k)) de tal manera que los tonos tengan un valor superior a 1.0 y valles un valor inferior a 1.0 usando la siguiente relación: **(Ver fórmula)** donde k = 0, ..., L - 1, L representa una longitud de una transformada de frecuencia usada para convertir la excitación en dominio de tiempo de CELP decodificada (e(n)) en la excitación en dominio de frecuencia (fe(k)), EBIN(k) representa una energía de una acumulación de frecuencia (k) del espectro de la excitación en dominio de frecuencia (fe(k)), max(EBIN) representa una energía acumulada de frecuencia máxima, En(k) representa un espectro de energía normalizado, y X representa un desplazamiento usado para normalizar la energía de la excitación en dominio de frecuencia (fe(k)) entre X y (1 + X), en donde X = 0.925; medios para procesar el espectro de energía normalizado En(k) de la excitación en dominio de frecuencia (fe(k)) a través de una función de potencia para obtener un espectro de energía escalado, en donde la función de potencia es una potencia de 8; medios para limitar el espectro de energía escalado a un límite máximo de 5 para obtener un espectro de energía escalado limitado; un promediador (132) de energía para suavizar el espectro de energía escalado limitado a lo largo del eje de frecuencia desde frecuencias bajas a altas usando un filtro de promedio; y un suavizador (134) de energía para procesar el espectro del promediador (132) de energía a lo largo del eje de dominio de tiempo para suavizar los valores de energía acumulada de una trama a otra y producir una máscara de ponderación de amplificación/atenuación promediada en tiempo; y en donde el dispositivo comprende además: un modificador (136) para modificar la excitación en dominio de frecuencia (fe(k)) para aumentar dinámica espectral mediante aplicación de la máscara de ponderación (Gm) a la excitación en dominio de frecuencia (fe(k)); y un segundo convertidor (138) para convertir la excitación en dominio de frecuencia modificada (f'e(k)) en una excitación en dominio de tiempo de CELP modificada (e'td).

Description

DESCRIPCIÓN
Dispositivo y método para reducir ruido de cuantificación en un decodificador de dominio de tiempo
Campo técnico
La presente divulgación se relaciona con el campo de procesamiento de sonido. Más específicamente, la presente divulgación se relaciona con reducir ruido de cuantificación en una señal de sonido.
Antecedentes
Los códecs conversacionales de estado de la técnica representan con una muy buena calidad señales de conversación limpias a tasas de bits de aproximadamente 8kbps y se acercan a la transparencia a una tasa de bits de 16kbps. Para mantener esta alta calidad de conversación a baja tasa de bits generalmente se usa un esquema de codificación multimodal. Usualmente la señal de entrada se divide entre diferentes categorías que reflejan su característica. Las diferentes categorías incluyen por ejemplo conversación de voz, conversación sin voz, inicios de voz, etc. El códec usa entonces diferentes modos de codificación optimizados para estas categorías.
Los códecs basados en modelos de conversación usualmente no generan señales de audio genéricas tal como música. Por consiguiente, algunos códecs de conversación implementados no representan música con buena calidad, especialmente a bajas tasas de bits. Cuando se despliega un códec, es difícil modificar el codificador debido al hecho de que el flujo de bits está estandarizado y cualquier modificación al flujo de bits rompería la interoperabilidad del códec.
Por lo tanto, hay una necesidad de mejorar generación de contenido musical de códecs basados en modelos de conversación, por ejemplo códecs basados en predicción lineal (LP). La técnica anterior sobre la modificación de señales de excitación para mejorar la calidad de las señales de audio decodificadas a partir de señales codificadas basadas en LP incluye Publicación de Solicitud de Patente de los Estados Unidos US 2011/0046947 A1 de Vaillancourt et al., con fecha del 24 de febrero de 2011, y Kang, George S .: "Improvement of the Excitation Source in the NarrowBand Linear Prediction Vocoder", IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 33(2), abril de 1985.
Resumen
De acuerdo con la presente divulgación, se proporciona un dispositivo para reducir ruido de cuantificación en una señal contenida en una excitación en dominio de tiempo decodificada por un decodificador de dominio de tiempo, como se define en la reivindicación 1.
La presente divulgación también se relaciona con un método para reducir ruido de cuantificación en una señal contenida en una excitación en dominio de tiempo decodificada por un decodificador de dominio de tiempo, como se define en la reivindicación 14.
Las características anteriores y otras se harán más evidentes tras la lectura de la siguiente descripción no restrictiva de realizaciones ilustrativas de la misma, que se dan solamente a modo de ejemplo con referencia a los dibujos acompañantes.
Breve descripción de los dibujos
Realizaciones de la divulgación se describirán solamente a modo de ejemplo con referencia a los dibujos acompañantes, en los cuales:
La figura 1 es un diagrama de flujo que muestra operaciones de un método para reducir ruido de cuantificación en una señal contenida en una excitación en dominio de tiempo decodificada por un decodificador de dominio de tiempo de acuerdo con una realización;
Las figuras 2a y 2b, denominadas colectivamente como figura 2, son un diagrama esquemático simplificado de un decodificador que tiene capacidades de postprocesamiento en dominio de frecuencia para reducir ruido de cuantificación en señales de música y otras señales de sonido; y
La figura 3 es un diagrama de bloques simplificado de una configuración de ejemplo de componentes de hardware que forman el decodificador de la figura 2.
Descripción detallada
Diversos aspectos de la presente divulgación abordan generalmente uno o más de los problemas de mejorar la generación de contenido musical de códecs basados en modelos de conversación, por ejemplo códecs basados en predicción lineal (LP), reduciendo el ruido de cuantificación en una señal de música. Debe tenerse en cuenta que las enseñanzas de la presente divulgación también pueden aplicarse a otras señales de sonido, por ejemplo señales de audio genéricas distintas de música.
Las modificaciones al decodificador pueden mejorar la calidad percibida en el lado de receptor. La presente divulga un enfoque para implementar, en el lado de decodificador, un postprocesamiento en dominio de frecuencia para señales de música y otras señales de sonido que reduce el ruido de cuantificación en el espectro de la síntesis decodificada. El postprocesamiento se puede implementar sin ningún retraso de codificación adicional.
El principio de eliminación en dominio de frecuencia del ruido de cuantificación entre los armónicos de espectro y el postprocesamiento de frecuencia usado en este documento se basa en la publicación de Patente PCT WO 2009/109050 A1 de Vaillancourt et al., con fecha del 11 de septiembre de 2009 (de aquí en adelante "Vaillancourt'050"), cuya divulgación se incorpora por referencia en este documento. En general, tal postprocesamiento de frecuencia se aplica a la síntesis decodificada y requiere un aumento del retraso de procesamiento con el fin de incluir un proceso de superposición y adición para obtener una ganancia de calidad significativa. Además, con el postprocesamiento tradicional en dominio de frecuencia, más corto es el retraso agregado (es decir más corta es la ventana de transformada), menos el postprocesamiento es efectivo debido a la resolución de frecuencia limitada. De acuerdo con la presente divulgación, el postprocesamiento de frecuencia logra una resolución de frecuencia más alta (se usa una transformada de frecuencia más larga), sin agregar retraso a la síntesis. Adicionalmente, la información presente en la energía de espectro de tramas pasadas se explota para crear una máscara de ponderación que se aplica al espectro de trama actual para recuperar, es decir mejorar, información espectral perdida en el ruido de codificación. Para lograr este postprocesamiento sin agregar retraso a la síntesis, en este ejemplo, se usa una ventana trapezoidal simétrica. Está centrado en la trama actual donde la ventana es plana (tiene un valor constante de 1), y se usa la extrapolación para crear la señal futura. Aunque el postprocesamiento podría aplicarse generalmente directamente a la señal de síntesis de cualquier códec, la presente divulgación introduce una realización ilustrativa en la cual el postprocesamiento se aplica a la señal de excitación en una estructura del códec de Predicción Lineal Excitada por Código (CELP), que se describe en la Especificación Técnica (TS) 26.190 del Programa de Asociación de 3ra Generación (3GPP), titulada "Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding Functions", disponible en el sitio web del 3GPP, cuyo contenido completo se incorpora en este documento por referencia. La ventaja de trabajar en la señal de excitación en lugar de en la señal de síntesis es que cualquier discontinuidad potencial introducida por el postprocesamiento se suaviza mediante la aplicación subsecuente del filtro de síntesis de CELP.
En la presente divulgación, se usa AMR-WB con una frecuencia de muestreo interna de 12.8 kHz con propósitos de ilustración. Sin embargo, la presente divulgación se puede aplicar a otros decodificadores de conversación de baja tasa de bits donde la síntesis se obtiene mediante una señal de excitación filtrada a través de un filtro de síntesis, por ejemplo un filtro de síntesis de LP. También se puede aplicar en códecs multimodales donde la música se codifica con una combinación de excitación en dominio de tiempo y frecuencia. Las siguientes líneas resumen la operación de un postfiltro. Una descripción detallada de una realización ilustrativa que usa AMR-WB sigue luego.
En primer lugar, se decodifica el flujo de bits completo y se procesa la síntesis de trama actual a través de un clasificador de primera etapa similar al que se divulga en la publicación de Patente PCT WO 2003/102921 A1 de Jelinek et al., con fecha del 11 de diciembre de 2003, en la publicación de Patente PCT WO 2007/073604 A1 de Vaillancourt et al., con fecha del 5 de julio de 2007 y en la Solicitud Internacional PCT PCT/CA2012/001011 presentada el 1 de noviembre de 2012 a nombre de Vaillancourt et al. (de aquí en adelante "Vaillancourt'011"), cuyas divulgaciones se incorporan por referencia en este documento. Para el propósito de la presente divulgación, este clasificador de primera etapa analiza la trama y separa las tramas INACTIVAS y tramas SIN VOZ, por ejemplo tramas que corresponden a la conversación SIN VOZ activa. Todas las tramas que no están categorizadas como tramas INACTIVAS o como tramas SIN VOZ en la primera etapa se analizan con un clasificador de segunda etapa. El clasificador de segunda etapa decide si se aplica el postprocesamiento y en qué medida. Cuando no se aplica el postprocesamiento, solo se actualizan las memorias relacionadas con postprocesamiento.
Para todas las tramas que no están categorizadas como tramas INACTIVAS o como tramas de conversación SIN VOZ activas por el clasificador de primera etapa, se forma un vector usando la excitación decodificada pasada, la excitación decodificada de trama actual y una extrapolación de la excitación futura. La longitud de la excitación decodificada pasada y la excitación extrapolada es la misma y depende de la resolución deseada de la transformada de frecuencia. En este ejemplo, la longitud de la transformada de frecuencia usada es 640 muestras. La creación de un vector con la excitación pasada y la extrapolada permite aumentar la resolución de frecuencia. En el presente ejemplo, la longitud de la excitación pasada y la extrapolada es la misma, pero la simetría de ventana no es necesariamente requerida para que el postfiltro funcione de manera eficiente.
La estabilidad de energía de la representación de frecuencia de la excitación concatenada (incluyendo la excitación decodificada pasada, la excitación decodificada de trama actual y la extrapolación de la excitación futura) se analiza luego con el clasificador de segunda etapa para determinar la probabilidad de estar en presencia de música. En este ejemplo, la determinación de estar en presencia de música se realiza en un proceso de dos etapas. Sin embargo, la detección de música se puede realizar de diferentes formas, por ejemplo, se podría realizar en una única operación antes de la transformada de frecuencia, o incluso determinar en el codificador y transmitir en el flujo de bits.
El ruido de cuantificación interarmónicos se reduce de manera similar como en Vaillancourt'050 estimando la relación señal a ruido (SNR) por acumulación de frecuencia y aplicando una ganancia en cada acumulación de frecuencia dependiendo de su SNR. Sin embargo en la presente divulgación, la estimación de energía de ruido se hace de manera diferente a lo que se enseña en Vaillancourt'050.
Luego se usa un procesamiento adicional que recupera la información perdida en el ruido de codificación y aumenta además la dinámica del espectro. Este proceso comienza con la normalización entre 0 y 1 del espectro de energía. Luego se agrega un desplazamiento constante al espectro de energía normalizado. Finalmente, se aplica una potencia de 8 a cada acumulación de frecuencia del espectro de energía modificado. El espectro de energía escalado resultante se procesa a través de una función de promedio a lo largo del eje de frecuencia, desde las frecuencias bajas hasta las frecuencias altas. Finalmente, se realiza un suavizado a largo plazo del espectro a lo largo del tiempo de acumulación por acumulación.
Esta segunda parte del procesamiento da como resultado una máscara donde los picos corresponden a información importante de espectro y los valles corresponden al ruido de codificación. Esta máscara se usa luego para filtrar el ruido y aumentar la dinámica espectral aumentando ligeramente la amplitud de acumulaciones de espectro en las regiones pico mientras que se atenúa la amplitud de acumulaciones en los valles, aumentando por lo tanto la relación pico a valle. Estas dos operaciones se hacen usando una resolución de alta frecuencia, pero sin agregar retraso a la síntesis de salida.
Después de que se mejora la representación de frecuencia del vector de excitación concatenado (su ruido reducido y su dinámica espectral aumentada), se realiza la transformada de frecuencia inversa para crear una versión mejorada de la excitación concatenada. En la presente divulgación, la parte de la ventana de transformada que corresponde a la trama actual es sustancialmente plana, y solo las partes de la ventana aplicadas a la señal de excitación pasada y extrapolada necesitan ser ahusadas. Esto hace posible extirpar la trama actual de la excitación mejorada después de la transformada inversa. Esta última manipulación es similar a multiplicar la excitación mejorada en dominio de tiempo con una ventana rectangular en la posición de la trama actual. Aunque esta operación no se podría hacer en el dominio de síntesis sin agregar artefactos de bloque importantes, esto se puede hacer alternativamente en el dominio de excitación, debido a que el filtro de síntesis de LP ayuda a suavizar la transición de un bloque a otro como se muestra en Vaillancourt'011.
Descripción de la realización ilustrativa de AMR-WB
El postprocesamiento descrito aquí se aplica a la excitación decodificada del filtro de síntesis de LP para señales como música o conversación reverberante. Una decisión sobre la naturaleza de la señal (conversación, música, conversación reverberante, y similares) y una decisión sobre aplicar el postprocesamiento pueden ser señaladas por el codificador que envía hacia un descodificador información de clasificación como una parte de un flujo de bits de AMR-WB. Si este no es el caso, alternativamente se puede hacer una clasificación de señal en el lado de decodificador. Dependiendo de la complejidad y la compensación de fiabilidad de clasificación, el filtro de síntesis se puede aplicar opcionalmente en la excitación actual para obtener una síntesis temporal y un mejor análisis de clasificación. En esta configuración, la síntesis se sobrescribe si la clasificación da como resultado una categoría donde se aplica el postfiltrado. Para minimizar la complejidad agregada, la clasificación también se puede hacer en la síntesis de tramas pasadas, y el filtro de síntesis se aplicaría una vez, después del postprocesamiento.
Con referencia ahora a los dibujos, la figura 1 es un diagrama de flujo que muestra operaciones de un método para reducir ruido de cuantificación en una señal contenida en una excitación en dominio de tiempo decodificada por un decodificador de dominio de tiempo de acuerdo con una realización. En la figura 1, una secuencia 10 comprende una pluralidad de operaciones que pueden ejecutarse en orden variable, siendo algunas de las operaciones posiblemente ejecutadas al mismo tiempo, siendo algunas de las operaciones opcionales. En la operación 12, el descodificador en dominio de tiempo recupera y descodifica un flujo de bits producido por un codificador, incluyendo el flujo de bits información de excitación en dominio de tiempo en la forma de parámetros usables para reconstruir la excitación en dominio de tiempo. Para esto, el decodificador de dominio de tiempo puede recibir el flujo de bits a través de una interfaz de entrada o leer el flujo de bits desde una memoria. El decodificador de dominio de tiempo convierte la excitación en dominio de tiempo decodificada en una excitación en dominio de frecuencia en la operación 16. Antes de convertir la señal de excitación del dominio de tiempo al dominio de frecuencia en la operación 16, la futura excitación en dominio de tiempo puede extrapolarse, en la operación 14, de tal manera que una conversión de la excitación en dominio de tiempo en una excitación en dominio de frecuencia se vuelve sin retraso. Es decir, se realiza un mejor análisis de frecuencia sin la necesidad de un retraso extra. Con este fin la señal de excitación en dominio de tiempo pasada, actual y futura prevista puede concatenarse antes de la conversión al dominio de frecuencia. El decodificador de dominio de tiempo produce entonces una máscara de ponderación para recuperar información espectral perdida en el ruido de cuantificación, en la operación 18. En la operación 20, el decodificador de dominio de tiempo modifica la excitación en dominio de frecuencia para aumentar la dinámica espectral mediante aplicación de la máscara de ponderación. En la operación 22, el decodificador de dominio de tiempo convierte la excitación en dominio de frecuencia modificada en una excitación en dominio de tiempo modificada. El decodificador de dominio de tiempo puede entonces producir una síntesis de la excitación en dominio de tiempo modificada en la operación 24 y generar una señal de sonido a partir de una síntesis de la excitación en dominio de tiempo decodificada y de la síntesis de la excitación en dominio de tiempo modificada en la operación 26.
El método ilustrado en la figura 1 puede adaptarse usando varias características opcionales. Por ejemplo, la síntesis de la excitación en dominio de tiempo decodificada puede clasificarse en uno de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación, en el cual el segundo conjunto de categorías de excitación comprende categorías INACTIVO o SIN VOZ mientras que el primer conjunto de categorías de excitación comprende una categoría OTRO. Se puede aplicar una conversión de la excitación en dominio de tiempo decodificada en una excitación en dominio de frecuencia a la excitación en dominio de tiempo decodificada clasificada en el primer conjunto de categorías de excitación. El flujo de bits recuperado puede comprender información de clasificación utilizable para clasificar la síntesis de la excitación en dominio de tiempo decodificada ya sea en el primer conjunto o segundo conjunto de categorías de excitación. Para generar la señal de sonido, se puede seleccionar una síntesis de salida como la síntesis de la excitación en dominio de tiempo decodificada cuando la excitación en dominio de tiempo se clasifica en el segundo conjunto de categorías de excitación, o como la síntesis de la excitación en dominio de tiempo modificada cuando la excitación en dominio de tiempo se clasifica en el primer conjunto de categorías de excitación. La excitación en dominio de frecuencia puede ser analizada para determinar si la excitación en dominio de frecuencia contiene música. En particular, la determinación de que la excitación en dominio de frecuencia contiene música puede depender de comparar una desviación estadística de las diferencias de energía espectral de la excitación en dominio de frecuencia con un umbral. La máscara de ponderación puede ser producida usando promedio de tiempo o promedio de frecuencia o una combinación de ambos. Se puede estimar una relación señal a ruido para una banda seleccionada de la excitación en dominio de tiempo decodificada y se puede realizar una reducción de ruido en dominio de frecuencia con base en la relación señal a ruido estimada.
Las figuras 2a y 2b, denominadas colectivamente como figura 2, son un diagrama esquemático simplificado de un decodificador que tiene capacidades de postprocesamiento en dominio de frecuencia para reducir ruido de cuantificación en señales de música y otras señales de sonido. Un decodificador 100 comprende varios elementos ilustrados en las figuras 2a y 2b, estando estos elementos interconectados por flechas como se muestra, estando algunas de las interconexiones ilustradas usando conectores A, B, C, D y E que muestran cómo algunos elementos de la figura 2a están relacionados con otros elementos de la figura 2b. El decodificador 100 comprende un receptor 102 que recibe un flujo de bits de AMR-WB de un codificador, por ejemplo a través de una interfaz de comunicación por radio. Alternativamente, el decodificador 100 puede estar conectado operativamente a una memoria (no se muestra) que almacena el flujo de bits. Un demultiplexor 103 extrae de los parámetros de excitación en dominio de tiempo de flujo de bits para reconstruir una excitación en dominio de tiempo, una información de retraso de tono y una información de detección de actividad de voz (VAD). El decodificador 100 comprende un decodificador 104 de excitación en dominio de tiempo que recibe los parámetros de excitación en dominio de tiempo para decodificar la excitación en dominio de tiempo de la trama actual, una memoria 106 de búfer de excitación pasada, dos (2) filtros 108 y 110 de síntesis de LP, un clasificador 112 de señal de primera etapa que comprende un estimador 114 de clasificación de señal que recibe la señal de VAD y un punto 116 de prueba de selección de clase, un extrapolador 118 de excitación que recibe la información de retraso de tono, un concatenador 120 de excitación, un módulo 122 de transformada en división por ventanas y frecuencia, un analizador de estabilidad de energía como un clasificador 124 de señal de segunda etapa, un estimador 126 de nivel de ruido por banda, un reductor 128 de ruido, un constructor 130 de máscara que comprende un normalizador 131 de energía espectral, un promediador 132 de energía y un suavizador 134 de energía, un modificador 136 de dinámica espectral, un convertidor 138 de dominio de frecuencia a tiempo, un extractor 140 de excitación de trama, un sobreescritor 142 que comprende un punto 144 de prueba de decisión que controla un conmutador 146, y un filtro de eliminación de énfasis y remuestreador 148. Una decisión de sobrescritura tomada por el punto 144 de prueba de decisión determina, con base en una clasificación INACTIVA o SIN VOZ obtenida del clasificador 112 de señal de primera etapa y en una categoría de señal de sonido eoAT obtenida del clasificador 124 de señal de segunda etapa, si una señal 150 de síntesis central del filtro 108 de síntesis de LP, o una señal 152 de síntesis modificada, es decir mejorada del filtro 110 de síntesis de LP, se alimenta al filtro de eliminación de énfasis y al remuestreador 148. Una salida del filtro de eliminación de énfasis y remuestreador 148 se alimenta a un convertidor 154 de digital a analógico (D/A) que proporciona una señal analógica, amplificada por un amplificador 156 y proporcionada además a un altavoz 158 que genera una señal de sonido audible. Alternativamente, la salida del filtro de eliminación de énfasis y el remuestreador 148 se puede transmitir en formato digital sobre una interfaz de comunicación (no se muestra) o almacenar en formato digital en una memoria (no se muestra), en un disco compacto, o en cualquier otro medio de almacenamiento digital. Como otra alternativa, la salida del convertidor 154 de D/A puede proporcionarse a una pieza auricular (no se muestra), ya sea directamente o a través de un amplificador. Como aún otra alternativa, la salida del convertidor 154 de D/A puede registrase en un medio analógico (no se muestra) o transmitirse a través de una interfaz de comunicación (no se muestra) como una señal analógica.
Los siguientes párrafos proporcionan detalles de operaciones realizadas por los diversos componentes del decodificador 100 de la figura 2.
1) Clasificación de primera etapa
En la realización ilustrativa, se realiza una clasificación de primera etapa en el decodificador en el clasificador 112 de primera etapa, en respuesta a parámetros de la señal de VAD del demultiplexor 103. La clasificación de primera etapa de decodificador es similar como en Vaillancourt'011. Los siguientes parámetros se usan para la clasificación en el estimador 114 de clasificación de señal del decodificador: una correlación normalizada rx, una medida de inclinación espectral et, un contador de estabilidad de tono pc, una energía relativa de trama de la señal en el extremo de la trama actual Es, y un contador de cruce por cero zc. El cálculo de estos parámetros, que se usan para clasificar la señal, se explica a continuación.
La correlación normalizada rx se calcula en el extremo de la trama con base en la señal de síntesis. Se usa el retraso de tono de la última subtrama.
La correlación normalizada rx se calcula de manera sincrónica en tono como
Figure imgf000006_0001
donde T es el retraso de tono de la última subtrama, t=L-T, y L es el tamaño de trama. Si el retraso de tono de la última subtrama es mayor que 3N/2 (N es el tamaño de subtrama), T se establece en el retraso de tono promedio de las dos últimas subtramas.
La correlación rx se calcula usando la señal de síntesis x(i). Para retrasos de tono inferiores al tamaño de subtrama (64 muestras) la correlación normalizada se calcula dos veces en instantes t=L-T yt=L-2T, y rxse da como el promedio de los dos cálculos.
El parámetro de inclinación espectral et contiene la información sobre la distribución de frecuencia de energía. En la presente realización ilustrativa, la inclinación espectral en el decodificador se estima como el primer coeficiente de autocorrelación normalizado de la señal de síntesis. Se calcula con base en las últimas 3 subtramas como
Figure imgf000006_0002
donde x(i) es la señal de síntesis, N es el tamaño de subtrama, y L es el tamaño de trama (N=64 y L=256 en esta realización ilustrativa).
El contador de estabilidad de tono evalúa la variación del período de tono. Se calcula en el decodificador como sigue:
Figure imgf000006_0003
Los valores p0, p1, p2 y p3 corresponden al retraso de tono de bucle cerrado de las 4 subtramas.
La energía relativa de trama Es se calcula como una diferencia entre la energía de trama actual en dB y su promedio a largo plazo
Figure imgf000006_0004
donde la energía de trama Ef es la energía de la señal de síntesis Ssalida en dB calculado en tono de manera sincrónica en el extremo de la trama como
Figure imgf000006_0005
donde L=256 es la longitud de trama y T es el retraso de tono promedio de las dos últimas subtramas. Si T es menor que el tamaño de subtrama entonces T se establece en 2T (la energía calculada usando dos períodos de tono para retrasos de tono cortos).
La energía promediada a largo plazo se actualiza en tramas activas usando la siguiente relación:
E„ =0.99El l 0.01Ef ( 6 ) El último parámetro es el parámetro de cruce por cero zc calculado en una trama de la señal de síntesis. En esta realización ilustrativa, el contador de cruce por cero zc cuenta el número de veces que el signo de señal cambia de positivo a negativo durante ese intervalo.
Para hacer la clasificación de primera etapa más robusta, los parámetros de clasificación se consideran en conjunto formando una función de mérito fm. Para este propósito, los parámetros de clasificación se escalan primero usando una función lineal. Considerar un parámetro px, su versión escalada se obtiene usando
Figure imgf000007_0001
El parámetro de estabilidad de tono escalado se recorta entre 0 y 1. Los coeficientes de función kp y cp se han encontrado experimentalmente para cada uno de los parámetros. Los valores usados en esta realización ilustrativa se resumen en la Tabla 1.
Tabla 1: Parámetros de Clasificación de Primera Etapa de Señal en el decodificador y los coeficientes de sus respectivas funciones de escalamiento
Figure imgf000007_0003
La función de mérito se ha definido como
Figure imgf000007_0002
donde el superíndice s indica la versión escalada de los parámetros.
Se hace entonces la clasificación (punto 116 de prueba de selección de clase) usando la función de mérito fm y siguiendo las reglas resumidas en la Tabla 2.
Tabla 2: Reglas de Clasificación de Señales en el decodificador
Figure imgf000007_0004
Además de esta clasificación de primera etapa, la información sobre la detección de actividad de voz (VAD) por el codificador puede ser transmitida en el flujo de bits como es el caso con el ejemplo ilustrativo basado en AMR-WB. De este modo, se envía un bit en el flujo de bits para especificar si el codificador considera o no la trama actual como contenido activo (VAD = 1) o contenido INACTIVO (ruido de fondo, VAD = 0). Cuando el contenido se considera INACTIVO, entonces la clasificación se sobrescribe como SIN VOZ. El esquema de clasificación de primera etapa también incluye una detección de AUDIO GENÉRICA. La categoría de AUDIO GENÉRICO incluye música, conversación reverberante y también puede incluir música de fondo. Se usan dos parámetros para identificar esta categoría. Uno de los parámetros es la energía de trama total Ef como se formula en la Ecuación (5).
Primero, el módulo determina la diferencia de energía
Figure imgf000008_0001
de dos tramas adyacentes, específicamente la diferencia _ p 0-0
entre la energía de la trama actual U /T y la energía de la trama previa f ' Luego la diferencia de energía promedio Edf sobre las últimas 40 tramas se calcula usando la siguiente relación:
Figure imgf000008_0002
Luego, el módulo determina una desviación estadística de la variación de energía ce sobre las últimas quince (15) tramas usando la siguiente relación:
Figure imgf000008_0003
En una realización práctica de la realización ilustrativa, el factor de escalamiento p fue encontrado experimentalmente y se estableció en aproximadamente 0.77. La desviación resultante ce da una indicación en la estabilidad de energía de la síntesis decodificada. Típicamente, la música tiene una mayor estabilidad de energía que la conversación.
El resultado de la clasificación de primera etapa se usa además para contar el número de tramas Nuv entre dos tramas clasificadas como SIN VOZ. En la realización práctica, solo se cuentan las tramas con la energía Ef superior a -12dB. Generalmente, el contador Nuv se inicializa a 0 cuando una trama se clasifica como SIN VOZ. Sin embargo, cuando una trama se clasifica como SIN VOZ y su energía Ef es mayor que -9dB y la energía promedio a largo plazo Elt, es inferior a 40dB, entonces el contador se inicializa a 16 con el fin de dar una ligera desviación hacia la decisión musical. De lo contrario, si la trama se clasifica como SIN VOZ pero la energía promedio a largo plazo Elt es superior a 40 dB, el contador se reduce en 8 con el fin de converger hacia la decisión de conversación. En la realización práctica, el contador está limitado entre 0 y 300 para señal activa; el contador también está limitado entre 0 y 125 para la señal INACTIVA con el fin de obtener una convergencia rápida a la decisión de conversación cuando la siguiente señal activa es efectivamente conversación. Estos rangos no son limitantes y también se pueden contemplar otros rangos en una realización particular. Para este ejemplo ilustrativo, la decisión entre señal activa e INACTIVA se deduce de la decisión de actividad de voz (VAD) incluida en el flujo de bits.
Un promedio a largo plazo Nuv se deriva de este contador de tramas SIN VOZ para la señal activa como sigue: Nuvlt = 0.9 ■ Nuvlt+ 0.1 ■ Nuv
Figure imgf000008_0004
( 11 )
y para señal INACTIVA como sigue:
—t — (í-il
Nm - 0.95 • Nm ( 12)
donde t es el índice de tramas. El siguiente pseudocódigo ilustra la funcionalidad del contador SIN VOZ y su promedio a largo plazo:
si (SIN VOZ 8l E j > 9 í/Z?)
s¡ ( E i , -40 )
-V,, = 16
más
K . = K ~ *
si no (E f > 12)
Figure imgf000009_0001
Vf, = max ( m in (300, N uv), 0)
si (VAD=0 )
/v., =o.93 77..,
= m in ( 125 , J V j
más
Ñ , =0.9-~Ñm+0,l-Nm
Adicionalmente, cuando el promedio a largo plazo Nuv es muy alto y la desviación oe también es alta en una cierta trama (Nuv > 140 y oe > 5 en el ejemplo actual), lo que significa que es poco probable que la señal actual sea música, el promedio a largo plazo se actualiza de manera diferente en esa trama. Se actualiza de tal manera que converja al valor de 100 y desvíe la decisión hacia la conversación. Esto se hace como se muestra a continuación:
Figure imgf000009_0002
Este parámetro sobre promedio a largo plazo del número de tramas entre las tramas clasificadas SIN VOZ se usa para determinar si la trama debe considerarse como AUDIO GENÉRICO o no. Cuanto más las tramas SIN VOZ estén cerca en tiempo, es más probable que la señal tenga características de conversación (menos probablemente es una señal de AUDIO GENÉRICA). En el ejemplo ilustrativo, el umbral para decidir si una trama se considera como AUDIO GENÉRICO Ga se define como sigue:
Una trama es GA s i; Nuv > 100 y A'£ <12 (14)
El parámetro definido en la ecuación (9), se usa en (14) para evitar clasificar la gran variación de energía como AUDIO GENÉRICO.
El postprocesamiento realizado sobre la excitación depende de la clasificación de la señal. Para algunos tipos de señales el módulo de postprocesamiento no se ingresa en absoluto. La siguiente tabla resume los casos donde se realiza el postprocesamiento.
Tabla 3: Categorías de señales para modificación de excitación
Figure imgf000009_0003
Figure imgf000010_0005
Cuando se ingresa al módulo de postprocesamiento, se realiza otro análisis de estabilidad de energía, que se describe a continuación, sobre la energía espectral de excitación concatenada. De manera similar como en Vaillancourt'050, este segundo análisis de estabilidad de energía da una indicación en cuanto a dónde el espectro debe iniciar el postprocesamiento y en qué medida debe aplicarse.
2) Creación del vector de excitación
Para aumentar la resolución de frecuencia, se usa una transformada de frecuencia más larga que la longitud de trama. Para hacerlo, en la realización ilustrativa, se crea un vector de excitación concatenado ec(n) en concatenador 120 de excitación al concatenar las últimas 192 muestras de la excitación de trama previa almacenada en la memoria 106 de búfer de excitación pasada, la excitación decodificada de la trama actual e(n) del decodificador 104 de excitación en dominio de tiempo, y una extrapolación de 192 muestras de excitación de la trama futura ex(n) del extrapolador 118 de excitación. Esto se describe a continuación donde Lw es la longitud de la excitación pasada así como la longitud de la excitación extrapolada, y L es la longitud de trama. Esto corresponde a 192 y 256 muestras respectivamente, dando la longitud total Lc= 640 muestras en la realización ilustrativa:
Figure imgf000010_0001
En un decodificador de CELP, la señal de excitación en dominio de tiempo e(n) es dada por
e(ri) — bv(n ) gc{n)
donde v(n) es la contribución de libro de códigos adaptativo, b es la ganancia de libro de códigos adaptativo, c(n) es la contribución de libro de códigos fijo, y g es la ganancia de libro de códigos fijo. La extrapolación de las futuras muestras de excitación ex(n) se calcula en el extrapolador 118 de excitación extendiendo periódicamente la señal de excitación de trama actual e(n) desde el descodificador 104 de excitación en dominio de tiempo usando el tono de fracción decodificado de la última subtrama de la trama actual. Dada la resolución fraccional del retraso de tono, se realiza un muestreo ascendente de la excitación de trama actual usando una función sinc en ventana de Hamming de 35 muestras de longitud.
3) División por ventanas
En el módulo 122 de transformada en división por ventanas y frecuencia, antes de la transformada de tiempo a frecuencia se realiza una división por ventanas en la excitación concatenada. La ventana seleccionada w(n) tiene una parte superior plana que corresponde a la trama actual, y disminuye con la función Hanning a 0 en cada extremo. La siguiente ecuación representa la ventana usada:
0.5
Figure imgf000010_0002
n = —L , ... — 1
Figure imgf000010_0003
1.0 n - 0,...,L-1
Figure imgf000010_0004
Cuando se aplica a la excitación concatenada, se obtiene en la realización práctica una entrada a la transformada de frecuencia que tiene una longitud total Lc =640 muestras (Lc = 2Lw L). La excitación concatenada en ventana ewc (n) se centra en la trama actual y se representa con la siguiente ecuación:
Figure imgf000011_0001
4) Transformada de frecuencia
Durante la fase de postprocesamiento en dominio de frecuencia, la excitación concatenada se representa en un dominio de transformada. En esta realización ilustrativa, la conversión de tiempo a frecuencia se logra en el módulo 122 de transformada en división por ventanas y frecuencia usando un DCT de tipo II que da una resolución de 10Hz pero se puede usar cualquier otra transformada. En caso de que se use otra transformada (o una longitud de transformada diferente), la resolución de frecuencia (definida anteriormente), el número de bandas y el número de acumulaciones por bandas (se definen además a continuación) pueden necesitar ser revisados en consecuencia. La representación de frecuencia de la excitación de CELP en dominio de tiempo concatenada y en ventana fe se da a continuación:
Figure imgf000011_0002
Donde ewc(n), es la excitación en dominio de tiempo concatenada y en ventana y Lc es la longitud de la transformada de frecuencia. En esta realización ilustrativa, la longitud de trama L es 256 muestras, pero la longitud de la transformada de frecuencia Lc es 640 muestras para una frecuencia de muestreo interna correspondiente de 12.8 kHz.
5) Análisis de energía por banda y por acumulación
Después del DCT, el espectro resultante se divide en bandas de frecuencia críticas (la realización práctica usa 17 bandas críticas en el rango de frecuencia 0-4000 Hz y 20 bandas de frecuencia críticas en el rango de frecuencia 0­ 6400 Hz). Las bandas de frecuencia críticas que se usan son lo más cercanas posible a lo que se especifica en J. D. Johnston, "Transform coding of audio signal using perceptual noise criteria", IEEE J. Select. Áreas Comun., Vol. 6, pp.
314-323, feb. de 1988, cuyo contenido se incorpora en este documento por referencia, y sus límites superiores se definen como sigue:
Cb= {100, 200, 300, 400, 510, 630, 770, 920, 1080, 1270, 1480, 1720, 2000, 2320, 2700, 3150, 3700, 4400, 5300, 6400} Hz.
El DCT de 640 puntos da como resultado una resolución de frecuencia de 10 Hz (6400Hz/640pts). El número de acumulaciones de frecuencia por banda de frecuencia crítica es
Mcb= {10, 10, 10, 10, 11, 12, 14, 15, 16, 19, 21, 24, 28, 32, 38, 45, 55, 70, 90, 110}.
La energía espectral promedio por banda de frecuencia crítica EB(i) se calcula como sigue:
Figure imgf000011_0003
donde /e(h) representa el h'ésima acumulación de frecuencia de una banda crítica y ji es el índice de la primera acumulación en la i-ésima banda crítica dado por
ji= {0, 10, 20, 30, 40, 51, 63, 77, 92, 108, 127, 148, 172, 200, 232, 270, 315, 370, 440, 530}.
El análisis espectral también calcula la energía del espectro por acumulación de frecuencia, Ee/w(k) usando la siguiente relación:
Figure imgf000012_0001
Finalmente, el análisis espectral calcula una energía espectral total Ec de la excitación concatenada como la suma de las energías espectrales de las primeras 17 bandas de frecuencia críticas usando la siguiente relación:
Figure imgf000012_0002
6) Clasificación de segunda etapa de la señal de excitación
Como se describe en Vaillancourt'050, el método para mejorar la señal de sonido genérica decodificada incluye un análisis adicional de la señal de excitación diseñada para maximizar además la eficiencia de la reducción de ruido interarmónicos al identificar cuál trama es bien adecuada para la reducción de ruido intertonos.
El clasificador 124 de señal de segunda etapa no solo separa además la excitación concatenada decodificada en categorías de señales de sonido, sino que también da instrucciones al reductor 128 de ruido interarmónicos con respecto al nivel máximo de atenuación y la frecuencia mínima donde puede iniciar la reducción.
En el ejemplo ilustrativo presentado, el clasificador 124 de señal de segunda etapa se ha mantenido lo más simple posible y es muy similar al clasificador de tipo de señal descrito en Vaillancourt'050. La primera operación consiste en realizar un análisis de estabilidad de energía de manera similar a como se hace en las ecuaciones (9) y (10), pero usando como entrada la energía espectral total de la excitación concatenada Ec como se formula en la Ecuación (21):
Figure imgf000012_0003
donde Ed representa la diferencia promedio de las energías de los vectores de excitación concatenados de dos tramas
■» í — 1}
adyacentes, representa la energía de la excitación concatenada de la trama actual t, y L<-, representa la energía de la excitación concatenada de la trama previa t-1. El promedio se calcula sobre las últimas 40 tramas.
Luego, se calcula una desviación estadística ce de la variación de energía sobre las últimas quince (15) tramas usando la siguiente relación:
Figure imgf000012_0004
donde, en la realización práctica, el factor de escalamiento p se encuentra experimentalmente y se establece en aproximadamente 0.77. La desviación resultante ce se compara con cuatro (4) umbrales flotantes para determinar hasta qué punto se puede reducir ruido entre armónicos. La salida de este clasificador 124 de señal de segunda etapa se divide en cinco (5) categorías de señales de sonido ecAT, denominadas categorías de señales de sonido 0 a 4. Cada categoría de señal de sonido tiene su propia sintonización de reducción de ruido intertonos.
Las cinco (5) categorías de señales de sonido 0-4 se pueden determinar cómo se indica en la siguiente Tabla.
Tabla 4: característica de salida del clasificador de excitación
Figure imgf000012_0005
Figure imgf000013_0001
La categoría de señal de sonido 0 es una categoría de señal de sonido no tonal, no estable que no es modificada por la técnica de reducción de ruido intertonos. Esta categoría de la señal de sonido decodificada tiene la mayor desviación estadística de la variación de energía espectral y en general comprende señal de conversación.
La categoría de señal de sonido 1 (la mayor desviación estadística de la variación de energía espectral después de categoría 0) se detecta cuando la desviación estadística ac de la variación de energía espectral es menor que el Umbral 1 y la última categoría de señal de sonido detectada es > 0. Entonces la reducción máxima de ruido de —■y Hz cuantificación de la excitación tonal decodificada dentro de la banda de frecuencia 920 a (6400 Hz en este ejemplo, donde Fs es la frecuencia de muestreo) está limitada a una reducción de ruido máxima Rmax de 6 dB.
La categoría de señal de sonido 2 se detecta cuando la desviación estadística ac de la variación de energía espectral es menor que Umbral 2 y la última categoría de señal de sonido detectada es > 1. Entonces la reducción máxima del As
ruido de cuantificación de la excitación tonal decodificada dentro de la banda de frecuencia 920 a 2 Hz está limitada a un máximo de 9 dB.
La categoría de señal de sonido 3 se detecta cuando la desviación estadística ac de variación de energía espectral es menor que el Umbral 3 y la última categoría de señal de sonido detectada es > 2. Entonces la reducción máxima de
ruido de cuantificación de la excitación tonal decodificada dentro de la banda de frecuencia 770 a 2 Hz está limitada a un máximo de 12 dB.
La categoría de señal de sonido 4 se detecta cuando la desviación estadística ac de variación de energía espectral es menor que el Umbral 4 y cuando la última categoría de tipo de señal detectada es > 3. Entonces la reducción máxima Ü
de ruido de cuantificación de la excitación tonal decodificada dentro de la banda de frecuencia 630 a 2 Hz está limitada a un máximo de 12 dB.
Los umbrales flotantes 1-4 ayudan a prevenir una clasificación incorrecta de tipo de señal. Típicamente, la señal de sonido tonal decodificada que representa la música obtiene una desviación estadística mucho menor de su variación de energía espectral que la conversación. Sin embargo, incluso la señal de música puede contener un segmento de desviación estadística más alta, y de manera similar la señal de conversación puede contener segmentos con una desviación estadística más baja. Sin embargo es poco probable que los contenidos de conversación y música cambien regularmente de uno a otro en una base de trama. Los umbrales flotantes agregan histéresis de decisión y actúan como refuerzo del estado previo para prevenir sustancialmente cualquier clasificación errónea que podría dar como resultado un rendimiento subóptimo del reductor 128 de ruido interarmónicos.
Los contadores de tramas consecutivas de la categoría de señal de sonido 0, y los contadores de tramas consecutivas de la categoría de señal de sonido 3 o 4, se usan para disminuir o aumentar respectivamente los umbrales.
Por ejemplo, si un contador cuenta una serie de más de 30 tramas de categoría de señal de sonido 3 o 4, todos los umbrales flotantes (1 a 4) se incrementan en un valor predefinido con el propósito de permitir que más tramas sean consideradas como categoría de señal de sonido 4.
Lo contrario también es verdadero con la categoría de señal de sonido 0. Por ejemplo, si se cuenta una serie de más de 30 tramas de la categoría de señal de sonido 0, todos los umbrales flotantes (1 a 4) se reducen con el propósito de permitir que más tramas sean consideradas como categoría de señal de sonido 0. Todos los umbrales flotantes 1-4 están limitados a valores máximos y mínimos absolutos para asegurar que el clasificador de señal no esté bloqueado en una categoría fija.
En el caso de borrado de trama, todos los umbrales 1-4 se restablecen a sus valores mínimos y la salida del clasificador de segunda etapa se considera como no tonal (categoría de señal de sonido 0) durante tres (3) tramas consecutivas (incluyendo la trama pérdida).
Si la información de un Detector de Actividad de Voz (VAD) está disponible y no está indicando actividad de voz (presencia de silencio), la decisión del clasificador de segunda etapa se fuerza a la categoría de señal de sonido 0 (ecAT = 0).
7) Reducción de ruido interarmónicos en el dominio de excitación
La reducción de ruido intertonos o interarmónicos se realiza en la representación de frecuencia de la excitación concatenada como una primera operación de la mejora. La reducción del ruido de cuantificación intertonos se realiza en el reductor 128 de ruido escalando el espectro en cada banda crítica con una ganancia de escalamiento gs limitada entre una ganancia mínima y una máxima gmin y gmax. La ganancia de escalamiento se deriva de una relación señal a ruido (SNR) estimada en esa banda crítica. El procesamiento se realiza sobre la base acumulada de frecuencia y no sobre la base de banda crítica. De este modo, la ganancia de escalamiento se aplica a todas las acumulaciones de frecuencia, y se deriva de la SNR calculada usando la energía acumulada dividida por una estimación de la energía de ruido de la banda crítica que incluye esa acumulación. Esta característica permite preservar la energía en frecuencias cercanas a armónicos o tonos, evitando de este modo sustancialmente distorsión, mientras que reduce considerablemente el ruido entre los armónicos.
La reducción de ruido intertonos se realiza de una manera por acumulación en las 640 acumulaciones. Después de haber aplicado la reducción de ruido intertonos en el espectro, se realiza otra operación de mejora de espectro. Luego el DCT inverso se usa para reconstruir la señal de excitación concatenada mejorada e'td como se describe más adelante.
La ganancia de escalamiento mínima gmin se deriva de la máxima reducción de ruido intertonos permitida en dB, Rmax. Como se describió anteriormente, la segunda etapa de clasificación hace que la reducción máxima permitida varíe entre 6 y 12 dB. De este modo la ganancia de escalamiento mínima es dada por
Figure imgf000014_0001
La ganancia de escalamiento se calcula en relación con la SNR por acumulación. Luego la reducción de ruido por acumulación se realiza como se mencionó anteriormente. En el ejemplo actual, el procesamiento por acumulación se aplica en todo el espectro hasta la frecuencia máxima de 6400 Hz. En esta realización ilustrativa, la reducción de ruido inicia en la sexta banda crítica (es decir no se realiza reducción inferior a 630 Hz). Para reducir cualquier impacto negativo de la técnica, el clasificador de segunda etapa puede empujar la banda crítica de partida hasta la octava banda (920 Hz). Esto significa que la primera banda crítica en la cual se realiza la reducción de ruido está entre 630Hz y 920 Hz, y puede variar sobre una base de trama. En una implementación más conservadora, la banda mínima donde inicia la reducción de ruido se puede establecer más alta.
El escalamiento para una cierta acumulación de frecuencia k se calcula como una función de SNR, dada por
g s(k) = ylks SNR{k) cs , delimitado por gmin < g s < g t (25)
Usualmente, gmax es igual a 1 (es decir no se permite amplificación), luego se determinan los valores de ks y cs tales como gs = gmin para SNR = 1dB, y gs =1 para SNR = 45dB. Es decir, para SNRs de 1 dB y menos, el escalamiento está limitado a gmin y para SNR de 45 dB y más, no se realiza reducción de ruido (gs =1). De este modo, dados estos dos puntos finales, los valores de ks y cs en la Ecuación (25) están dados por
* , = ( ! - * m¡n)/44 v cs = (45 g min- l)/44 (26)
Si gmax se establece en un valor superior a 1, entonces permite que el proceso amplifique ligeramente los tonos que tienen la energía más alta. Esto se puede usar para compensar el hecho de que el códec de CELP, usado en la realización práctica, no coincide perfectamente con la energía en el dominio de frecuencia. Este es generalmente el caso para señales diferentes de la conversación de voz.
La SNR por acumulación en una cierta banda crítica i se calcula como
Figure imgf000014_0002
donde ¿i™® y Ebin M denotar la acumulación de energía por frecuencia para el análisis espectral de trama pasada y la actual, respectivamente, como se calcula en la Ecuación (20), Nb(í) denota la energía de ruido estimada de la banda crítica i, ji es el índice de la primera acumulación en la ¡-ésima banda crítica, y Mb(í) es el número de acumulaciones en la banda crítica i como se definió anteriormente.
El factor de suavización es adaptativo y se hace inversamente relacionado con la ganancia en sí misma. En esta realización ilustrativa el factor de suavización es dado por ags = 1 - gs. Es decir, la suavización es más fuerte para ganancias menores gs. Este enfoque evita sustancialmente la distorsión en segmentos de SNR altos precedidos por tramas de SNR bajas, como es el caso para inicios de voz. En la realización ilustrativa, el procedimiento de suavización puede adaptarse rápidamente y usar ganancias de escalamiento más bajas en el inicio.
En caso de procesamiento por acumulación en una banda crítica con índice i, después de determinar la ganancia de escalamiento como en la Ecuación (25), y usando SNR como se define en las Ecuaciones (27), el escalamiento real se realiza usando una ganancia de escalamiento suavizada ge/w,LP actualizada en cada análisis de frecuencia como sigue
Figure imgf000015_0001
La suavización temporal de las ganancias evita sustancialmente las oscilaciones de energía audible mientras que controlar la suavización usando ags evita sustancialmente la distorsión en los segmentos de SNR altos precedidos por tramas de SNR bajas, como es el caso para los inicios o ataques de voz.
El escalamiento en la banda crítica i se realiza como
Figure imgf000015_0002
donde ji es el índice de la primera acumulación en la banda crítica i y Mb(í) es el número de acumulaciones en esa banda crítica.
Las ganancias de escalamiento suavizadas gB/w,Lp(k) se establecen inicialmente en 1. Cada vez que se procesa una trama de sonido no tonal ecAT =0, los valores de ganancia suavizada se restablecen a 1.0 para reducir cualquier posible reducción en la siguiente trama.
Nótese que en cada análisis espectral, las ganancias de escalamiento suavizadas gB/w,Lp(k) se actualizan para todas las acumulaciones de frecuencia en todo el espectro. Nótese que en el caso de señal de baja energía, la reducción de ruido intertonos está limitada a -1.25 dB. Esto sucede cuando la energía de ruido máxima en todas las bandas críticas, max(NB(i)), i = 0, ..., 20, es menor o igual a 10.
8) Estimación de ruido de cuantificación intertonos
En esta realización ilustrativa, la energía de ruido de cuantificación intertonos por banda de frecuencia crítica se estima en el estimador 126 de nivel de ruido por banda como la energía promedio de esa banda de frecuencia crítica excluyendo la energía de acumulación máxima de la misma banda. La siguiente fórmula resume la estimación de la energía de ruido de cuantificación para una banda específica i:
Figure imgf000015_0003
donde ji es el índice de la primera acumulación en la banda crítica i, Mb(í) es el número de acumulaciones en esa banda crítica, Eb(í) es la energía promedio de una banda i, EB/w(h ji) es la energía de una acumulación particular y Nb(í) es la energía de ruido estimada resultante de una banda particular i. En la ecuación de estimación de ruido (30), q(i) representa un factor de escalamiento de ruido por banda que se encuentra experimentalmente y puede modificarse dependiendo de la implementación donde se use el postprocesamiento. En la realización práctica, el factor de escalamiento de ruido se establece de tal manera que se pueda eliminar más ruido en bajas frecuencias y menos ruido en altas frecuencias como se muestra a continuación:
q ={10,10,10,10,10,10,11,11,11,11,11,11,11,11,11,15, 15, 15, 15, 15}.
9) Aumento de dinámica espectral de la excitación
La segunda operación del postprocesamiento de frecuencia proporciona una capacidad para recuperar información de frecuencia que se pierde dentro del ruido de codificación. Los códecs de CELP, especialmente cuando se usan a tasas de bits bajas, no son muy eficientes para codificar correctamente el contenido de frecuencia superior a 3.5-4 kHz. La idea principal aquí es aprovechar el hecho de que el espectro de música a menudo no cambia sustancialmente de una trama a otro. Por lo tanto se puede hacer un promedio a largo plazo y se puede eliminar algo del ruido de codificación. Las siguientes operaciones se realizan para definir una función de ganancia dependiente de frecuencia. Esta función se usa luego para mejorar además la excitación antes de convertirla de vuelta al dominio de tiempo.
a. Normalización por acumulación de la energía de espectro
La primera operación consiste en crear en el constructor 130 de máscara una máscara de ponderación con base en la energía normalizada del espectro de la excitación concatenada. La normalización se hace en el normalizador 131 de energía espectral de tal manera que los tonos (o armónicos) tengan un valor superior a 1.0 y los valles un valor inferior a 1.0. Para hacerlo, el espectro de energía acumulada Ee/w(k) se normaliza entre 0.925 y 1.925 para obtener el espectro de energía normalizado En(k) usando la siguiente ecuación:
Figure imgf000016_0001
donde Ee/w(k) representa la energía acumulada como calculada en la ecuación (20). Dado que la normalización se realiza en el dominio de energía, muchas acumulaciones tienen valores muy bajos. En la realización práctica, el desplazamiento 0.925 se ha elegido de tal manera que solo una pequeña parte de las acumulaciones de energía normalizadas tendrían un valor inferior a 1.0. Una vez que se hace la normalización, el espectro de energía normalizado resultante se procesa a través de una función de potencia para obtener un espectro de energía escalado. En este ejemplo ilustrativo, se usa una potencia de 8 para limitar los valores mínimos del espectro de energía escalado a alrededor de 0.5 como se muestra en la siguiente fórmula:
Ep(k) = En(k f k = 0....639 ( 32)
donde En(k) es el espectro de energía normalizado y Ep(k) es el espectro de energía escalado. Se puede usar una función de potencia más agresiva para reducir adicionalmente el ruido de cuantificación, por ejemplo se puede elegir una potencia de 10 o 16, posiblemente con un desplazamiento más cercano a uno. Sin embargo, intentar eliminar demasiado ruido también puede dar como resultado la pérdida de información importante.
El uso de una función de potencia sin limitar su salida llevaría rápidamente a la saturación para valores de espectro de energía superiores a 1. Un límite máximo del espectro de energía escalado se fija de este modo en 5 en la realización práctica, creando una relación de aproximadamente 10 entre los valores máximo y mínimo de energía normalizados. Esto es útil dado que una acumulación dominante puede tener una posición ligeramente diferente de una trama a otra de tal manera que es preferible que una máscara de ponderación sea relativamente estable de una trama a la siguiente trama. La siguiente ecuación muestra cómo se aplica la función:
M * ) =min(5’/í:p(*)) k = 0, ...,639
(33)
donde Epl(k) representa el espectro de energía escalado limitado y Ep(k) es el espectro de energía escalado como se define en la ecuación (32).
b. Suavización del espectro de energía escalado a lo largo del eje de frecuencia y el eje de tiempo
Con las dos últimas operaciones, comienza a tomar forma la posición de los pulsos más enérgicos. Aplicar potencia de 8 en las acumulaciones del espectro de energía normalizado es una primera operación para crear una máscara eficiente para aumentar la dinámica espectral. Las siguientes dos (2) operaciones mejoran además esta máscara de espectro. En primer lugar el espectro de energía escalado se suaviza en el promediador 132 de energía a lo largo del eje de frecuencia desde las frecuencias bajas a las frecuencias altas usando un filtro de promedio. Luego, el espectro resultante se procesa en el suavizador 134 de energía a lo largo del eje de dominio de tiempo para suavizar los valores de acumulación de trama a trama.
La suavización del espectro de energía escalado a lo largo del eje de frecuencia se puede describir con la siguiente función:
Finalmente, la suavización a lo largo del eje de tiempo da como resultado una máscara de ponderación de amplificación/atenuación promediada en tiempo Gm para ser aplicada al espectro. f - La máscara de ponderación, también denominada máscara de ganancia, se describe con la siguiente ecuación:
Figure imgf000017_0001
donde Epi es el espectro de energía escalado suavizado a lo largo del eje de frecuencia, t es el índice de trama, y Gm es la máscara de ponderación promediada en tiempo.
Se ha elegido una tasa de adaptación más lenta para las frecuencias más bajas para evitar sustancialmente la oscilación de ganancia. Se permite una tasa de adaptación más rápida para frecuencias más altas dado que es más probable que las posiciones de los tonos cambien rápidamente en la parte más alta del espectro. Con el promedio realizado en el eje de frecuencia y la suavización a largo plazo realizada a lo largo del eje de tiempo, el vector final obtenido en (35) se usa como una máscara de ponderación para ser aplicada directamente en el espectro mejorado
de la excitación concatenada fe de la ecuación (29).
10) Aplicación de la máscara de ponderación al espectro de excitación concatenado mejorado
La máscara de ponderación definida anteriormente se aplica de manera diferente por el modificador 136 de dinámica espectral dependiendo de la salida del clasificador de excitación de segunda etapa (valor de eoAT mostrado en la tabla 4). La máscara de ponderación no se aplica si la excitación se clasifica como categoría 0 (eoAT = 0; es decir alta probabilidad de contenido de conversación). Cuando la tasa de bits del códec es alta, el nivel de ruido de cuantificación es en general más bajo y varía con la frecuencia. Eso significa que la amplificación de tonos puede ser limitada dependiendo de las posiciones de pulsos dentro del espectro y la tasa de bits codificada. Usando otro método de codificación que CELP, por ejemplo si la señal de excitación comprende una combinación de componentes codificados en dominio de tiempo y de frecuencia, el uso de la máscara de ponderación podría ser ajustado para cada caso particular. Por ejemplo, la amplificación de pulsos puede ser limitada, pero el método aún puede ser usado como una reducción de ruido de cuantificación.
Para los primeros 1 kHz (las primeras 100 acumulaciones en la realización práctica, la máscara es aplicada si la excitación no está clasificada como categoría 0 (eoAT^0). La atenuación es posible pero no se realiza sin embargo ninguna amplificación en este rango de frecuencia (valor máximo de la máscara está limitado a 1.0).
Si más de 25 tramas consecutivas se clasifican como categoría 4 (eoAT = 4; es decir alta probabilidad de contenido musical), pero no más de 40 tramas, entonces la máscara de ponderación se aplica sin amplificación para todas las acumulaciones restantes (acumulaciones 100 a 639) (la ganancia máxima Gmax0 está limitada a 1.0, y no hay limitación en la ganancia mínima).
Cuando más de 40 tramas se clasifican como categoría 4, para las frecuencias entre 1 y 2 kHz (acumulaciones 100 a 199 en la realización práctica) la ganancia máxima Gmax1 se establece en 1.5 para tasas de bits inferiores a 12650 bits por segundo (bps). De lo contrario, la ganancia máxima Gmax1 se establece en 1.0. En esta banda de frecuencia, la ganancia mínima Gmn se fija en 0.75 solo si la tasa de bits es superior a 15850 bps; de lo contrario no hay limitación en la ganancia mínima.
Para la banda de 2 a 4 kHz (acumulaciones 200 a 399 en la realización práctica), la ganancia máxima Gmax2 está limitada a 2.0 para tasas de bits inferiores a 12650 bps, y está limitada a 1.25 para las tasas de bits iguales a o superiores a 12650 bps e inferiores a 15850 bps. De lo contrario, la ganancia máxima Gmax2 está limitada a 1.0. Aún en esta banda de frecuencia, la ganancia mínima Gmin2 se fija en 0.5 solo si la tasa de bits es superior a 15850 bps, de lo contrario no hay limitación en la ganancia mínima.
Para la banda de 4 a 6.4 kHz (acumulaciones 400 a 639 en la realización práctica), la ganancia máxima Gmax3 está limitada a 2.0 para tasas de bits inferiores a 15850 bps y a 1.25 en caso contrario. En esta banda de frecuencia, la ganancia mínima Gmin3 se fija en 0.5 solo si la tasa de bits es superior a 15850 bps, de lo contrario no hay limitación en la ganancia mínima. Debe anotarse que otras sintonizaciones de la ganancia máxima y la mínima podrían ser apropiadas dependiendo de las características del códec.
El siguiente pseudocódigo muestra cómo el espectro final de la excitación concatenada / " e es afectado cuando se
aplica la máscara de ponderación Gm al espectro mejorado fe ■ Nótese que la primera operación de la mejora de espectro (como se describe en sección 7) no es absolutamente necesaria para realizar esta segunda operación de mejora de modificación de ganancia por acumulación.
Figure imgf000018_0001
36)
Aquí fe representa el espectro de la excitación concatenada previamente mejorada con la función relacionada con SNR ge/w,LP(k) de la ecuación (28), Gm es la máscara de ponderación calculada en la ecuación (35), Gmax y Gmin son las ganancias máxima y mínima por rango de frecuencia como se definió anteriormente, t es el índice de trama con t=0 que corresponde a la trama actual, y finalmente fe es el espectro mejorado final de la excitación concatenada.
11) Transformada de frecuencia inversa
Después de que se completa la mejora en dominio de frecuencia, se realiza una transformada inversa de frecuencia a tiempo en el convertidor 138 de dominio de frecuencia a tiempo con el fin de obtener la excitación mejorada en dominio de tiempo de vuelta. En esta realización ilustrativa, la conversión de frecuencia a tiempo se logra con el mismo DCT de tipo II que se usa para la conversión de tiempo a frecuencia. La excitación modificada en dominio de tiempo e'td se obtiene como
Figure imgf000018_0002
y Lc es la longitud del vector de excitación concatenado.
12) Filtrado de síntesis y sobrescritura de la síntesis de CELP actual
Dado que no es deseable agregar retraso a la síntesis, se ha decidido evitar el algoritmo de superposición y adición en la construcción de la realización práctica. La realización práctica toma la longitud exacta de la excitación final e/ usada para generar la síntesis directamente a partir de la excitación concatenada mejorada, sin superposición como se muestra en la siguiente ecuación:
Figure imgf000018_0003
Aquí Lw representa la longitud en división por ventanas aplicada en la excitación pasada antes de la transformada de frecuencia como se explica en la ecuación (15). Una vez que se hace la modificación de excitación y se extrae la longitud adecuada de la excitación mejorada, modificada en dominio de tiempo desde el convertidor 138 de dominio de frecuencia a tiempo del vector concatenado usando el extractor 140 de excitación de trama, la excitación en dominio de tiempo modificada se procesa a través del filtro 110 de síntesis para obtener la señal de síntesis mejorada para la trama actual. Esta síntesis mejorada se usa para sobrescribir la síntesis decodificada originalmente del filtro 108 de síntesis con el fin de aumentar la calidad de percepción. La decisión de sobrescribir es tomada por el sobreescritor 142 que incluye un punto 144 de prueba de decisión que controla el conmutador 146 como se describió anteriormente en respuesta a la información del punto 116 de prueba de selección de clase y del clasificador 124 de señal de segunda etapa.
La figura 3 es un diagrama de bloques simplificado de una configuración de ejemplo de componentes de hardware que forman el descodificador de la figura 2. Un descodificador 200 puede ser implementado como una parte de un terminal móvil, como una parte de un reproductor multimedia portátil, o en cualquier dispositivo similar. El decodificador 200 comprende una entrada 202, una salida 204, un procesador 206 y una memoria 208.
La entrada 202 está configurada para recibir el flujo de bits 102 de AMR-WB. La entrada 202 es una generalización del receptor 102 de la figura 2. Los ejemplos de implementación no limitantes de la entrada 202 comprenden una interfaz de radio de un terminal móvil, una interfaz física tal como por ejemplo un puerto de bus universal en serie (USB) de un reproductor multimedia portátil, y similares. La salida 204 es una generalización del convertidor 154 de D/A, amplificador 156 y altavoz 158 de la figura 2 y puede comprender un reproductor de audio, un altavoz, un dispositivo de registro, y similares. Alternativamente, la salida 204 puede comprender una interfaz conectable a un reproductor de audio, a un altavoz, a un dispositivo de registro, y similares. La entrada 202 y la salida 204 pueden ser implementadas en un módulo común, por ejemplo un dispositivo de entrada/salida en serie.
El procesador 206 está conectado operativamente a la entrada 202, a la salida 204, y a la memoria 208. El procesador 206 está realizado como uno o más procesadores para ejecutar instrucciones de código en apoyo de las funciones del decodificador 104 de excitación en dominio de tiempo, de los filtros 108 y 110 de síntesis de LP, del clasificador 112 de señal de primera etapa y sus componentes, del extrapolador 118 de excitación, del concatenador 120 de excitación, del módulo 122 de transformada en división por ventanas y frecuencia, del clasificador 124 de señal de segunda etapa, del estimador 126 de nivel de ruido por banda, del reductor 128 de ruido, del constructor 130 de máscara y sus componentes, del modificador 136 de dinámica espectral, del convertidor 138 de dominio espectral a tiempo, del extractor 140 de excitación de trama, del sobreescritor 142 y sus componentes, y del filtro de eliminación de énfasis y remuestreador 148.
La memoria 208 almacena resultados de diversas operaciones de postprocesamiento. Más particularmente, la memoria 208 comprende la memoria 106 de búfer de excitación pasada. En algunas variantes, los resultados de procesamiento intermedio de las diversas funciones del procesador 206 pueden ser almacenados en la memoria 208. La memoria 208 puede comprender además una memoria no transitoria para almacenar instrucciones de código ejecutables por el procesador 206. La memoria 208 también puede almacenar una señal de audio del filtro de eliminación de énfasis y remuestreador 148, proporcionando la señal de audio almacenada a la salida 204 tras solicitud del procesador 206.
Los expertos normales en la técnica se darán cuenta de que la descripción del dispositivo y método para reducir ruido de cuantificación en una señal de música u otra señal contenida en una excitación en dominio de tiempo decodificada por un decodificador de dominio de tiempo son solo ilustrativos y no están previstos ser de alguna forma limitantes. Otras realizaciones se sugerirán fácilmente por sí mismas a tales personas con experiencia normal en la técnica que tienen el beneficio de la presente divulgación. Adicionalmente, el dispositivo y método divulgados pueden ser personalizados para ofrecer soluciones valiosas a necesidades y problemas existentes para mejorar la generación de contenido musical de los códecs basados en predicción lineal (LP).
En el interés de claridad, no se muestran y describen todas las características de rutina de las implementaciones del dispositivo y método. Por supuesto, se apreciará que en el desarrollo de cualquier implementación real tal del dispositivo y método para reducir ruido de cuantificación en una señal de música contenida en una excitación en dominio de tiempo decodificada por un decodificador de dominio de tiempo, puede ser necesario tomar numerosas decisiones específicas de implementación con el fin de lograr los objetivos específicos del desarrollador, tales como cumplimiento con restricciones relacionadas con aplicación, sistema, red y negocio, y que estos objetivos específicos variarán de una implementación a otra y de un desarrollador a otro. Además, se apreciará que un esfuerzo de desarrollo podría ser complejo y consumir mucho tiempo, pero sin embargo sería una tarea de rutina de ingeniería para los expertos normales en el campo del procesamiento de sonido que tienen el beneficio de la presente divulgación.
De acuerdo con la presente divulgación, los componentes, operaciones de proceso, y/o estructuras de datos descritos en este documento pueden ser implementados usando diversos tipos de sistemas operativos, plataformas informáticas, dispositivos de red, programas de ordenador, y/o máquinas de propósito general. Además, los expertos normales en la técnica reconocerán que también se pueden usar dispositivos de una naturaleza de propósito menos general, tales como dispositivos cableados, arreglos de puertas programables en campo (FPGAs), circuitos integrados de aplicación específica (ASICs), o similares. Cuando un método que comprende una serie de operaciones de proceso es implementado por un ordenador o una máquina y esas operaciones de proceso pueden almacenarse como una serie de instrucciones legibles por la máquina, pueden almacenarse en un medio tangible.
Aunque la presente divulgación ha sido descrita anteriormente por medio de realizaciones no restrictivas, ilustrativas de la misma, estas realizaciones pueden ser modificadas a voluntad dentro del alcance de las reivindicaciones anexas.

Claims (26)

REIVINDICACIONES
1. Un dispositivo (100) para reducir ruido de cuantificación en una señal de sonido sintetizada a partir de una excitación en dominio de tiempo de CELP decodificada (e(n)), siendo el dispositivo caracterizado porque comprende:
un primer convertidor (122) para convertir la excitación en dominio de tiempo de CELP decodificada (e(n)) en una excitación en dominio de frecuencia (fe(k));
un constructor (130) de máscara que responde a la excitación en dominio de frecuencia (fe(k)) para producir una máscara de ponderación (Gm), comprendiendo el constructor de máscara:
un normalizador (131) de energía espectral para normalizar una energía de la excitación en dominio de frecuencia (fe(k)) de tal manera que los tonos tengan un valor superior a 1.0 y valles un valor inferior a 1.0 usando la siguiente relación:
Figure imgf000021_0001
donde k = 0, ..., L -1, L representa una longitud de una transformada de frecuencia usada para convertir la excitación en dominio de tiempo de CELP decodificada (e(n)) en la excitación en dominio de frecuencia (fe(k)), Ee/w(k) representa una energía de una acumulación de frecuencia (k) del espectro de la excitación en dominio de frecuencia (fe(k)), max(Ee/w) representa una energía acumulada de frecuencia máxima, En(k) representa un espectro de energía normalizado, y X representa un desplazamiento usado para normalizar la energía de la excitación en dominio de frecuencia (fe(k)) entre X y (1 X), en donde X = 0.925; medios para procesar el espectro de energía normalizado En(k) de la excitación en dominio de frecuencia (fe(k)) a través de una función de potencia para obtener un espectro de energía escalado, en donde la función de potencia es una potencia de 8;
medios para limitar el espectro de energía escalado a un límite máximo de 5 para obtener un espectro de energía escalado limitado;
un promediador (132) de energía para suavizar el espectro de energía escalado limitado a lo largo del eje de frecuencia desde frecuencias bajas a altas usando un filtro de promedio; y
un suavizador (134) de energía para procesar el espectro del promediador (132) de energía a lo largo del eje de dominio de tiempo para suavizar los valores de energía acumulada de una trama a otra y producir una máscara de ponderación de amplificación/atenuación promediada en tiempo; y
en donde el dispositivo comprende además:
un modificador (136) para modificar la excitación en dominio de frecuencia (fe(k)) para aumentar dinámica espectral mediante aplicación de la máscara de ponderación (Gm) a la excitación en dominio de frecuencia (fe(k)); y un segundo convertidor (138) para convertir la excitación en dominio de frecuencia modificada (f'e(k)) en una excitación en dominio de tiempo de CELP modificada (e'td).
2. Un dispositivo de acuerdo con la reivindicación 1, que comprende:
un primer filtro (108) de síntesis de LP para producir una señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)); y
un clasificador (112) de la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) en uno de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación; en donde,
el segundo conjunto de categorías de excitación comprende categorías INACTIVO o SIN VOZ; y
el primer conjunto de categorías de excitación comprende una categoría OTRO.
3. Un dispositivo de acuerdo con la reivindicación 2, en donde el primer convertidor (122) convierte la excitación en dominio de tiempo de CELP decodificada (e(n)) cuando la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) se clasifica en el primer conjunto de categorías de excitación.
4. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 2 o 3, en donde el clasificador (112) de la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) en uno del primer conjunto de categorías de excitación y el segundo conjunto de categorías de excitación usa información de clasificación transmitida desde un codificador a un decodificador de CELP y recuperada en el decodificador de CELP de un flujo de bits decodificado.
5. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 2 a 4, que comprende un segundo filtro (110) de síntesis de LP para producir una señal (152) de síntesis mejorada de la excitación en dominio de tiempo de CELP modificada (e'td).
6. Un dispositivo de acuerdo con la reivindicación 5, que comprende un filtro de eliminación de énfasis y remuestreador (148) para generar una señal de sonido a partir de una de la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) y de la señal (152) de síntesis mejorada de la excitación en dominio de tiempo de CELP modificada (e'td).
7. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 5 a 6, que comprende un clasificador (112, 124) de dos etapas para seleccionar una señal de síntesis de salida como:
la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) cuando la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) se clasifica en el segundo conjunto de categorías de excitación; y
la señal (152) de síntesis mejorada de la excitación en dominio de tiempo de CELP modificada (e'td) cuando la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) se clasifica en el primer conjunto de categorías de excitación.
8. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 1 a 7, que comprende un analizador (124) de la excitación en dominio de frecuencia (fe(k)) para determinar si la excitación en dominio de frecuencia (fe(k)) contiene música.
9. Un dispositivo de acuerdo con la reivindicación 8, en donde el analizador (124) de la excitación en dominio de frecuencia (fe(k)) determina que la excitación en dominio de frecuencia (fe(k)) contiene música comparando una desviación estadística de diferencias de energía espectral oe de la excitación en dominio de frecuencia (fe(k)) con un umbral.
10. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 1 a 9, que comprende un extrapolador de excitación para evaluar una excitación de tramas futuras (ex(n)), para uso en la conversión sin retraso de la excitación en dominio de frecuencia modificada en una excitación en dominio de tiempo de CELP modificada.
11. Un dispositivo de acuerdo con la reivindicación 10, en donde el extrapolador (118) de excitación concatena excitaciones en dominio de tiempo pasadas, actuales y extrapoladas (e(n)).
12. Un dispositivo de acuerdo con la reivindicación 1, en donde el suavizador (134) de energía produce la máscara de ponderación de amplificación/atenuación promediada en tiempo (Gm) usando la siguiente relación:
Figure imgf000022_0001
donde Epl(k) es el espectro de energía escalado suavizado a lo largo del eje de frecuencia, t es un índice de trama, k = 0, ..., Lm -1 es una primera porción de la longitud L de la transformada de frecuencia y k = Lm, ..., L -1 es una segunda porción de la longitud de la transformada de frecuencia.
13. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 1 a 12, que comprende un reductor (128) de ruido para estimar una relación señal a ruido en una banda seleccionada de la excitación en dominio de tiempo de CELP decodificada (e(n)) y para realizar una reducción de ruido en dominio de frecuencia con base en la relación señal a ruido.
14. Un método para reducir ruido de cuantificación en una señal de sonido sintetizada a partir de una excitación en dominio de tiempo de CELP decodificada (e(n)), siendo el método caracterizado porque comprende:
convertir (16) la excitación en dominio de tiempo de CELP decodificada (e(n)) en una excitación en dominio de frecuencia (fe(k));
producir (18), en respuesta a la excitación en dominio de frecuencia (fe(k)), una máscara de ponderación (Gm), en donde producir la máscara de ponderación (Gm) comprende;
normalizar (131) una energía de la excitación en dominio de frecuencia (fe(k)) de tal manera que los tonos tengan un valor superior a 1.0 y valles un valor inferior a 1.0 usando la siguiente relación:
donde k = 0, ..., L -1, L representa una longitud de una transformada de frecuencia usada para convertir la excitación en dominio de tiempo de CELP decodificada (e(n)) en la excitación en dominio de frecuencia (fe(k)), Ebin (k) representa una energía de un acumulación de frecuencia (k) del espectro de la excitación en dominio de frecuencia (fe(k)), max(EBiw) representa una energía acumulada de frecuencia máxima, En(k) representa un espectro de energía normalizado, y X representa un desplazamiento usado para normalizar la energía de la excitación en dominio de frecuencia (fe(k)) entre X y (1 X), en donde X = 0.925;
procesar el espectro de energía normalizado En(k) de la excitación en dominio de frecuencia (fe(k)) a través de una función de potencia para obtener un espectro de energía escalado, en donde la función de potencia es una potencia de 8;
limitar el espectro de energía escalado a un límite máximo de 5 para obtener un espectro de energía escalado limitado; suavizar (132) el espectro de energía escalado limitado a lo largo del eje de frecuencia desde frecuencias bajas a altas usando un filtro de promedio; y
procesar (134) el espectro de energía escalado limitado suavizado a lo largo del eje de frecuencia a lo largo del eje de dominio de tiempo para suavizar los valores de energía acumulada de trama a trama y producir una máscara de ponderación de amplificación/atenuación promediada en tiempo (Gm); y
en donde el método comprende además:
modificar (20) la excitación en dominio de frecuencia (fe(k)) para aumentar dinámica espectral mediante aplicación de la máscara de ponderación (Gm) a la excitación en dominio de frecuencia (fe(k)); y
convertir (22) la excitación en dominio de frecuencia modificada (f'e(k)) en una excitación en dominio de tiempo de CELP modificada (e'td).
15. Un método de acuerdo con la reivindicación 14, que comprende:
procesar la excitación en dominio de tiempo de CELP decodificada (e(n)) a través de un filtro (108) de síntesis de LP para producir una señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)); y
clasificar la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) en uno de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación;
en donde,
el segundo conjunto de categorías de excitación comprende categorías INACTIVO o SIN VOZ; y
el primer conjunto de categorías de excitación comprende una categoría OTRO.
16. Un método de acuerdo con la reivindicación 15, que comprende convertir la excitación en dominio de tiempo de CELP decodificada (e(n)) en la excitación en dominio de frecuencia cuando la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) se clasifica en el primer conjunto de categorías de excitación.
17. Un método de acuerdo con una cualquiera de las reivindicaciones 15 o 16, que comprende usar información de clasificación transmitida desde un codificador a un decodificador de CELP y recuperada en el decodificador de CELP desde un flujo de bits decodificado para clasificar la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) en el uno del primer conjunto de categorías de excitación y el segundo conjunto de categorías de excitación.
18. Un método de acuerdo con una cualquiera de las reivindicaciones 15 a 17, que comprende producir una señal (152) de síntesis mejorada de la excitación en dominio de tiempo de CELP modificada (e'td).
19. Un método de acuerdo con la reivindicación 18, que comprende generar una señal de sonido a partir de una de la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) y de la señal (152) de síntesis mejorada de la excitación en dominio de tiempo de CELp modificada (e'td).
20. Un método de acuerdo con una cualquiera de las reivindicaciones 18 o 19, que comprende seleccionar una síntesis de salida como:
la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) cuando la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) se clasifica en el segundo conjunto de categorías de excitación; y
la señal (152) de síntesis mejorada de la excitación en dominio de tiempo de CELP modificada (e'td) cuando la señal (150) de síntesis central de la excitación en dominio de tiempo de CELP decodificada (e(n)) se clasifica en el primer conjunto de categorías de excitación.
21. Un método de acuerdo con una cualquiera de las reivindicaciones 14 a 20, que comprende analizar la excitación en dominio de frecuencia (fe(k)) para determinar si la excitación en dominio de frecuencia (fe(k)) contiene música.
22. Un método de acuerdo con la reivindicación 21, que comprende determinar que la excitación en dominio de frecuencia (fe(k)) contiene música comparando una desviación estadística de diferencias de energía espectral oe de la excitación en dominio de frecuencia (fe(k)) con un umbral.
23. Un método de acuerdo con una cualquiera de las reivindicaciones 14 a 22, que comprende evaluar una excitación extrapolada de tramas futuras (ex(n)), para uso en la conversión sin retraso de la excitación en dominio de frecuencia de CELP modificada en una excitación en dominio de tiempo modificada.
24. Un método de acuerdo con la reivindicación 23, que comprende concatenar excitaciones en dominio de tiempo pasadas, actuales y extrapoladas (e(n)).
25. Un método de acuerdo con la reivindicación 14, en donde producir la máscara de ponderación de amplificación/atenuación promediada en tiempo (Gm) comprende usar la siguiente relación:
Figure imgf000024_0001
donde Epl(k) es el espectro de energía escalado suavizado a lo largo del eje de frecuencia, t es un índice de trama, k = 0, ..., Lm - 1 es una primera porción de la longitud L de la transformada de frecuencia y k = Lm, ..., L - 1 es una segunda porción de la longitud de la transformada de frecuencia.
26. Un método de acuerdo con una cualquiera de las reivindicaciones 14 a 25, que comprende:
estimar una relación señal a ruido en una banda seleccionada de la excitación en dominio de tiempo de CELP decodificada (e(n)); y
realizar una reducción de ruido en dominio de frecuencia con base en la relación señal a ruido estimada.
ES19170370T 2013-03-04 2014-01-09 Dispositivo y método para reducir ruido de cuantificación en un decodificador de dominio de tiempo Active ES2872024T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361772037P 2013-03-04 2013-03-04

Publications (1)

Publication Number Publication Date
ES2872024T3 true ES2872024T3 (es) 2021-11-02

Family

ID=51421394

Family Applications (2)

Application Number Title Priority Date Filing Date
ES21160367T Active ES2961553T3 (es) 2013-03-04 2014-01-09 Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo
ES19170370T Active ES2872024T3 (es) 2013-03-04 2014-01-09 Dispositivo y método para reducir ruido de cuantificación en un decodificador de dominio de tiempo

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES21160367T Active ES2961553T3 (es) 2013-03-04 2014-01-09 Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo

Country Status (20)

Country Link
US (2) US9384755B2 (es)
EP (4) EP2965315B1 (es)
JP (4) JP6453249B2 (es)
KR (1) KR102237718B1 (es)
CN (2) CN105009209B (es)
AU (1) AU2014225223B2 (es)
CA (1) CA2898095C (es)
DK (3) DK3848929T3 (es)
ES (2) ES2961553T3 (es)
FI (1) FI3848929T3 (es)
HK (1) HK1212088A1 (es)
HR (2) HRP20231248T1 (es)
HU (2) HUE054780T2 (es)
LT (2) LT3537437T (es)
MX (1) MX345389B (es)
PH (1) PH12015501575B1 (es)
RU (1) RU2638744C2 (es)
SI (2) SI3848929T1 (es)
TR (1) TR201910989T4 (es)
WO (1) WO2014134702A1 (es)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
HUE054780T2 (hu) * 2013-03-04 2021-09-28 Voiceage Evs Llc Kvantálási zaj csökkentésére szolgáló eszköz és módszer idõtartomány dekóderben
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP2887350B1 (en) * 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
US9484043B1 (en) * 2014-03-05 2016-11-01 QoSound, Inc. Noise suppressor
TWI543151B (zh) * 2014-03-31 2016-07-21 Kung Lan Wang Voiceprint data processing method, trading method and system based on voiceprint data
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US9972334B2 (en) * 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
CN111201565A (zh) 2017-05-24 2020-05-26 调节股份有限公司 用于声对声转换的***和方法
JP6816277B2 (ja) * 2017-07-03 2021-01-20 パイオニア株式会社 信号処理装置、制御方法、プログラム及び記憶媒体
EP3428918B1 (en) * 2017-07-11 2020-02-12 Harman Becker Automotive Systems GmbH Pop noise control
DE102018117556B4 (de) * 2017-07-27 2024-03-21 Harman Becker Automotive Systems Gmbh Einzelkanal-rauschreduzierung
JP7123134B2 (ja) 2017-10-27 2022-08-22 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. デコーダにおけるノイズ減衰
CN108388848B (zh) * 2018-02-07 2022-02-22 西安石油大学 一种多尺度油气水多相流动力学特性分析方法
CN109240087B (zh) * 2018-10-23 2022-03-01 固高科技股份有限公司 实时改变指令规划频率抑制振动的方法和***
RU2708061C9 (ru) * 2018-12-29 2020-06-26 Акционерное общество "Лётно-исследовательский институт имени М.М. Громова" Способ оперативной инструментальной оценки энергетических параметров полезного сигнала и непреднамеренных помех на антенном входе бортового радиоприёмника с телефонным выходом в составе летательного аппарата
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
CN116670754A (zh) * 2020-10-08 2023-08-29 调节公司 用于内容审核的多阶段自适应***

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
JP4230414B2 (ja) 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
IL135630A0 (en) * 1997-12-08 2001-05-20 Mitsubishi Electric Corp Method and apparatus for processing sound signal
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
EP1619666B1 (en) 2003-05-01 2009-12-23 Fujitsu Limited Speech decoder, speech decoding method, program, recording medium
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
US7490036B2 (en) 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
PT2102619T (pt) * 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
JP2010529511A (ja) * 2007-06-14 2010-08-26 フランス・テレコム 符号器の量子化ノイズを復号化中に低減するための後処理方法及び装置
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US8271273B2 (en) * 2007-10-04 2012-09-18 Huawei Technologies Co., Ltd. Adaptive approach to improve G.711 perceptual quality
CA2715432C (en) 2008-03-05 2016-08-16 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
US8665914B2 (en) * 2008-03-14 2014-03-04 Nec Corporation Signal analysis/control system and method, signal control apparatus and method, and program
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
WO2011044700A1 (en) * 2009-10-15 2011-04-21 Voiceage Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
MX2012004648A (es) * 2009-10-20 2012-05-29 Fraunhofer Ges Forschung Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing.
CA2862715C (en) * 2009-10-20 2017-10-17 Ralf Geiger Multi-mode audio codec and celp coding adapted therefore
JP5323144B2 (ja) * 2011-08-05 2013-10-23 株式会社東芝 復号装置およびスペクトル整形方法
CA2851370C (en) 2011-11-03 2019-12-03 Voiceage Corporation Improving non-speech content for low rate celp decoder
HUE054780T2 (hu) * 2013-03-04 2021-09-28 Voiceage Evs Llc Kvantálási zaj csökkentésére szolgáló eszköz és módszer idõtartomány dekóderben

Also Published As

Publication number Publication date
US9384755B2 (en) 2016-07-05
WO2014134702A1 (en) 2014-09-12
CA2898095A1 (en) 2014-09-12
US9870781B2 (en) 2018-01-16
JP6790048B2 (ja) 2020-11-25
TR201910989T4 (tr) 2019-08-21
MX2015010295A (es) 2015-10-26
JP6453249B2 (ja) 2019-01-16
MX345389B (es) 2017-01-26
JP2021015301A (ja) 2021-02-12
PH12015501575A1 (en) 2015-10-05
JP2023022101A (ja) 2023-02-14
US20160300582A1 (en) 2016-10-13
FI3848929T3 (fi) 2023-10-11
DK3848929T3 (da) 2023-10-16
AU2014225223A1 (en) 2015-08-13
ES2961553T3 (es) 2024-03-12
SI3537437T1 (sl) 2021-08-31
EP2965315A4 (en) 2016-10-05
AU2014225223B2 (en) 2019-07-04
EP4246516A3 (en) 2023-11-15
LT3537437T (lt) 2021-06-25
KR20150127041A (ko) 2015-11-16
EP3537437A1 (en) 2019-09-11
EP3848929A1 (en) 2021-07-14
EP4246516A2 (en) 2023-09-20
DK3537437T3 (da) 2021-05-31
JP2019053326A (ja) 2019-04-04
HUE063594T2 (hu) 2024-01-28
CN111179954B (zh) 2024-03-12
US20140249807A1 (en) 2014-09-04
RU2015142108A (ru) 2017-04-11
LT3848929T (lt) 2023-10-25
SI3848929T1 (sl) 2023-12-29
HRP20211097T1 (hr) 2021-10-15
CA2898095C (en) 2019-12-03
EP3848929B1 (en) 2023-07-12
DK2965315T3 (da) 2019-07-29
KR102237718B1 (ko) 2021-04-09
JP2016513812A (ja) 2016-05-16
EP2965315B1 (en) 2019-04-24
CN105009209B (zh) 2019-12-20
EP3537437B1 (en) 2021-04-14
EP2965315A1 (en) 2016-01-13
HUE054780T2 (hu) 2021-09-28
JP7427752B2 (ja) 2024-02-05
JP7179812B2 (ja) 2022-11-29
HRP20231248T1 (hr) 2024-02-02
CN111179954A (zh) 2020-05-19
RU2638744C2 (ru) 2017-12-15
PH12015501575B1 (en) 2015-10-05
HK1212088A1 (en) 2016-06-03
CN105009209A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
ES2872024T3 (es) Dispositivo y método para reducir ruido de cuantificación en un decodificador de dominio de tiempo
JP7177185B2 (ja) 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス
EP1997101B1 (en) Method and system for reducing effects of noise producing artifacts
ES2484794T3 (es) Pos-filtro selectivo
CN110111801B (zh) 音频编码器、音频解码器、方法及编码音频表示
RU2584461C2 (ru) Помехоустойчивая классификация режимов кодирования речи
ES2687249T3 (es) Decisión no sonora/sonora para el procesamiento de la voz
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
JP2021502597A (ja) 一時的ノイズシェーピング