ES2961553T3 - Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo - Google Patents

Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo Download PDF

Info

Publication number
ES2961553T3
ES2961553T3 ES21160367T ES21160367T ES2961553T3 ES 2961553 T3 ES2961553 T3 ES 2961553T3 ES 21160367 T ES21160367 T ES 21160367T ES 21160367 T ES21160367 T ES 21160367T ES 2961553 T3 ES2961553 T3 ES 2961553T3
Authority
ES
Spain
Prior art keywords
excitation
time domain
domain excitation
frequency
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21160367T
Other languages
English (en)
Inventor
Tommy Vaillancourt
Milan Jelinek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge EVS LLC
Original Assignee
VoiceAge EVS LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51421394&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2961553(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by VoiceAge EVS LLC filed Critical VoiceAge EVS LLC
Application granted granted Critical
Publication of ES2961553T3 publication Critical patent/ES2961553T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

La presente divulgación se refiere a un dispositivo y un método para reducir el ruido de cuantificación en una señal contenida en una excitación en el dominio del tiempo decodificada por un decodificador en el dominio del tiempo. La excitación en el dominio del tiempo decodificada se convierte en una excitación en el dominio de la frecuencia. Se produce una máscara de ponderación para recuperar la información espectral perdida en el ruido de cuantificación. La excitación en el dominio de la frecuencia se modifica para aumentar la dinámica espectral mediante la aplicación de la máscara de ponderación. La excitación modificada en el dominio de la frecuencia se convierte en una excitación modificada en el dominio del tiempo. El método y el dispositivo se pueden utilizar para mejorar la representación de contenido musical de códecs basados en predicción lineal (LP). Opcionalmente, una síntesis de la excitación en el dominio del tiempo decodificada puede clasificarse en uno de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación, incluyendo el segundo conjunto categorías INACTIVAS o SORDAS, incluyendo el primer conjunto una OTRA categoría. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo
Campo técnico
[0001] La presente divulgación se refiere al campo del procesamiento de sonido. Más específicamente, la presente divulgación se refiere a la reducción del ruido de cuantificación en una señal de sonido.
Antecedentes
[0002] Los códecs conversacionales más modernos representan señales de voz limpias de muy buena calidad a una tasa de bits de aproximadamente 8 kbps y se acercan a la transparencia a una tasa de bits de 16 kbps. Para mantener esta alta calidad de voz a una tasa de bits baja, generalmente se utiliza un esquema de codificación multimodal. Normalmente la señal de entrada se divide en diferentes categorías que reflejan sus características. Las diferentes categorías incluyen, por ejemplo, voz sonora, voz sorda, inicios sonoros, etc. Luego, el códec utiliza diferentes modos de codificación optimizados para estas categorías.
[0003] Los códecs basados en modelos de voz normalmente no reproducen bien señales de audio genéricas tales como la música. En consecuencia, algunos códecs de voz implementados no representan música con buena calidad, especialmente a tasas de bits bajas. Cuando se implementa un códec, es difícil modificar el codificador debido a que el flujo de bits está estandarizado y cualquier modificación del flujo de bits rompería la interoperabilidad del códec.
[0004] Por lo tanto, existe una necesidad de mejorar la representación de contenido musical de códecs basados en modelos de voz, por ejemplo, códecs basados en predicción lineal (LP).
[0005] El documento US2011/046947 A1 se refiere a un sistema para mejorar una señal de sonido tonal decodificada por un decodificador de un códec específico de voz en respuesta a un flujo de bits codificados recibido. Un analizador espectral responde a la señal de sonido tonal decodificada para producir parámetros espectrales representativos de la señal de sonido tonal decodificada. La señal de sonido tonal decodificada se clasifica en una pluralidad de categorías de señales de sonido diferentes. Finalmente, el ruido de cuantificación se reduce en regiones espectrales de baja energía de la señal de sonido tonal decodificada en respuesta a los parámetros espectrales del analizador espectral y la clasificación de la señal de sonido tonal decodificada.
[0006] G. Kang y AI: "Improvement of the excitation source in the narrow-band linear prediction vocoder", Transacciones IEEE sobre acústica, voz y procesamiento de señales, vol. 33(2), abril de 1985, propone mejorar la señal de excitación en un sintetizador LPC de banda estrecha sin alterar la tasa de datos, la tasa de muestreo de voz, la tasa de cuadros o los formatos de codificación de parámetros. En el sintetizador LPC de banda estrecha, algunos de los parámetros no se transmiten sino que se introducen en el receptor. Una debilidad del sintetizador LPC de banda estrecha reside en el uso de parámetros de señal de excitación fijos que no reflejan las características cambiantes de la voz natural. Para hacer frente a esta debilidad, los espectros de amplitud y fase de la señal de excitación sonora se modifican para simular las irregularidades naturales encontradas en la predicción residual de una voz normal. Mediante la modificación de las características temporales de la señal de excitación sorda, se mejora la reproducción de los inicios oclusivos sordos y se eleva la puntuación de las pruebas de rima de diagnóstico para las mujeres hablantes.
[0007] Recomendación ITU-T G.718 - Error de cuadro de banda estrecha robusta y codificación de tasa de bits variable incorporada de banda ancha de voz y audio de 8 a 32 kbits/s, junio de 2008, describe un algoritmo de codificación de tasa de bits variable incorporado de banda estrecha (NB) y una banda ancha (WB) para voz y audio que opera en el rango de 8 a 32 kbit/s y que está diseñado para ser resistente al borrado de cuadros. A pesar de su naturaleza integrada, el códec también funciona bien con señales de audio genéricas tanto NB como WB. El códec integra un algoritmo de reducción de ruido con base en una estructura de codificación de dos etapas. Las dos capas inferiores se basan en la codificación de predicción lineal excitada por código (CELP) de la banda (50-6400 Hz), donde la capa central aprovecha la clasificación de la señal para utilizar modos de codificación optimizados para cada cuadro. Las capas superiores codifican la señal de error ponderada de las capas inferiores utilizando codificación de transformación de transformación de coseno discreta modificada (MDCT) superpuesta y agregada.
[0008] "[music-dsp] Look-ahead & buffering" de David Olofson, enero de 2004, disponible en https://music.columbia.edu/pipermail/music-dsp/2004-January/059110.html, se relaciona con la anticipación y la regulación en un vocoder. En este documento, se propone implementar una breve anticipación utilizando regulación y extenderla utilizando algún método de extrapolación/predicción.
Resumen
[0009] De acuerdo con la presente divulgación, se proporciona un dispositivo para reducir el ruido de cuantificación de acuerdo con la reivindicación 1.
[0010] La presente divulgación también se refiere a un método para reducir el ruido de cuantificación de acuerdo con la reivindicación 12.
[0011]Las características anteriores y otras serán más evidentes al leer la siguiente descripción no restrictiva de realizaciones ilustrativas de las mismas, dadas a modo de ejemplo únicamente con referencia a los dibujos adjuntos.
Breve descripción de los dibujos
[0012]Se describirán realizaciones de la divulgación a modo de ejemplo únicamente con referencia a los dibujos adjuntos, en los que:
La figura 1 es un diagrama de flujo que muestra las operaciones de un método para reducir el ruido de cuantificación en una señal contenida en una excitación en el dominio del tiempo decodificada por un decodificador en el dominio del tiempo de acuerdo con una realización;
Las figuras 2a y 2b, denominadas colectivamente figura 2, son un diagrama esquemático simplificado de un decodificador que tiene capacidades de posprocesamiento en el dominio de la frecuencia para reducir el ruido de cuantificación en señales musicales y otras señales de sonido; y
La figura 3 es un diagrama de bloques simplificado de una configuración de ejemplo de componentes de hardware que forman el decodificador de la figura 2.
Descripción detallada
[0013]Diversos aspectos de la presente divulgación abordan generalmente uno o más de los problemas de mejorar la representación de contenido musical de códecs basados en modelos de voz, por ejemplo códecs basados en predicción lineal (LP), reduciendo el ruido de cuantificación en una señal musical. Debe tenerse en cuenta que las enseñanzas de la presente divulgación también pueden aplicarse a otras señales de sonido, por ejemplo señales de audio genéricas distintas de la música.
[0014]Las modificaciones al decodificador pueden mejorar la calidad percibida por el lado del receptor. La presente divulga un enfoque para implementar, en el lado del decodificador, un posprocesamiento en el dominio de la frecuencia para señales de música y otras señales de sonido que reduce el ruido de cuantificación en el espectro de la síntesis decodificada. El posprocesamiento se puede implementar sin ningún retraso de codificación adicional.
[0015]El principio de eliminación en el dominio de la frecuencia del ruido de cuantificación entre los armónicos del espectro y el posprocesamiento de frecuencia utilizado en este documento se basan en la publicación de patente PCT WO 2009/109050 A1 de Vaillancourt et al., de fecha 11 de septiembre de 2009 (en adelante "Vaillancourt'50"). En general, dicho posprocesamiento de frecuencia se aplica a la síntesis decodificada y requiere un aumento del retraso de procesamiento para incluir un proceso de superposición y adición para obtener una ganancia de calidad significativa. Además, con el posprocesamiento tradicional en el dominio de la frecuencia, el retraso agregado es más corto (es decir, la ventana de transformación es más corta), y el posprocesamiento es menos efectivo debido a la resolución de frecuencia limitada. De acuerdo con la presente divulgación, el posprocesamiento de frecuencia logra una resolución de frecuencia más alta (se utiliza una transformación de frecuencia más larga), sin agregar retraso a la síntesis. Además, la información presente en la energía del espectro de cuadros anteriores se aprovecha para crear una máscara de ponderación que se aplica al espectro de cuadros actual para recuperar, es decir, mejorar, la información espectral perdida en el ruido de codificación. Para lograr este posprocesamiento sin agregar retraso a la síntesis, en este ejemplo, se utiliza una ventana trapezoidal simétrica. Se centra en el cuadro actual donde la ventana es plana (tiene un valor constante de 1) y se utiliza la extrapolación para crear la señal futura. Si bien el posprocesamiento podría aplicarse generalmente directamente a la señal de síntesis de cualquier códec, la presente divulgación presenta una realización ilustrativa en la que el posprocesamiento se aplica a la señal de excitación en un cuadro del códec de predicción lineal excitada por código (CELP), descrito en la especificación técnica (TS) 26.190 del programa de asociación de tercera generación (3GPP), titulada "Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding Functions", disponible en el sitio web del 3GPP La ventaja de trabajar con la señal de excitación en lugar de con la señal de síntesis es que cualquier discontinuidad potencial introducida por el posprocesamiento se suaviza mediante la aplicación posterior del filtro de síntesis CELP.
[0016]En la presente divulgación, se utiliza AMR-WB con una frecuencia de muestreo interior de 12.8 kHz con fines ilustrativos. Sin embargo, la presente divulgación se puede aplicar a otros decodificadores de voz de baja tasa de bits en los que la síntesis se obtiene mediante una señal de excitación filtrada a través de un filtro de síntesis, por ejemplo un filtro de síntesis LP. También se puede aplicar en códecs multimodales donde la música se codifica con una combinación de excitación en el dominio del tiempo y la frecuencia. Las siguientes líneas resumen la operación de un posfiltro. A continuación sigue una descripción detallada de una realización ilustrativa que utiliza AMR-WB.
[0017]En primer lugar, se decodifica el flujo de bits completo y se procesa la síntesis del cuadro actual a través de un clasificador de primera etapa similar a lo que se divulga en la publicación de patente PCT WO 2003/102921 A1 de Jelinek et al., de fecha 11 de diciembre de 2003, en la publicación de patente PCT WO 2007/073604 A1 de Vaillancourt et al., de fecha 5 de julio de 2007 y en la solicitud internacional PCT<p>C<t>/CA2012/001011 presentada el 1 de noviembre de 2012 a nombre de Vaillancourt et al. (en adelante "Vaillancourt'50"). Para los fines de la presente divulgación, este clasificador de primera etapa analiza el cuadro y separa cuadros INACTIVOS y cuadros SORDOS, por ejemplo cuadros correspondientes a voz sorda activa. Todos los cuadros que no están categorizados como cuadros INACTIVOS o cuadros SORDOS en la primera etapa se analizan con un clasificador de segunda etapa. El clasificador de segunda etapa decide si se aplica el posprocesamiento y en qué medida. Cuando no se aplica el posprocesamiento, sólo se actualizan las memorias relacionadas con el posprocesamiento.
[0018]Para todas los cuadros que no están categorizados como cuadros INACTIVOS o como cuadros de voz SORDOS activos por el clasificador de primera etapa, se forma un vector utilizando la excitación decodificada pasada, la excitación decodificada del cuadro actual y una extrapolación de la excitación futura. La duración de la excitación decodificada pasada y la excitación extrapolada es la misma y depende de la resolución deseada de la transformación de frecuencia. En este ejemplo, la longitud de la transformación de frecuencia utilizada es 640 muestras. Crear un vector con el pasado y la excitación extrapolada permite aumentar la resolución de frecuencia. En el presente ejemplo, la duración del pasado y la excitación extrapolada son las mismas, pero la simetría de la ventana no es necesariamente necesaria para que el posfiltro funcione de manera eficiente.
[0019]La estabilidad energética de la representación de frecuencia de la excitación concatenada (incluida la excitación decodificada pasada, la excitación decodificada del cuadro actual y la extrapolación de la excitación futura) se analiza luego con el clasificador de segunda etapa para determinar la probabilidad de estar en presencia de música. En este ejemplo, la determinación de estar en presencia de música se realiza en un proceso de dos etapas. Sin embargo, la detección de música se puede realizar de diferentes maneras, por ejemplo, se puede realizar en una sola operación antes de la transformación de frecuencia, o incluso se puede determinar en el codificador y transmitir en el flujo de bits.
[0020]El ruido de cuantificación interarmónico se reduce de manera similar a Vaillancourt'050 estimando la relación señal-ruido (SNR) por segmento de frecuencia y aplicando una ganancia en cada segmento de frecuencia dependiendo de su SNR. Sin embargo, en la presente divulgación, la estimación de la energía del ruido se realiza de manera diferente a lo que se enseña en Vaillancourt'050.
[0021]Luego se utiliza un procesamiento adicional que recupera la información perdida en el ruido de codificación y aumenta aún más la dinámica del espectro. Este proceso comienza con la normalización entre 0 y 1 del espectro energético. Luego se agrega un desplazamiento constante al espectro de energía normalizado. Finalmente, se aplica una potencia de 8 a cada segmento de frecuencia del espectro de energía modificado. El espectro de energía escalado resultante se procesa mediante una función de promedio a lo largo del eje de frecuencia, desde frecuencias bajas hasta frecuencias altas. Finalmente, se realiza un suavizado a largo plazo del espectro a lo largo del tiempo segmento por segmento.
[0022]Esta segunda parte del procesamiento da como resultado una máscara donde los picos corresponden a información espectral importante y los valles corresponden al ruido de codificación. Luego, esta máscara se utiliza para filtrar el ruido y aumentar la dinámica espectral aumentando ligeramente la amplitud de los segmentos del espectro en las regiones de pico mientras se atenúa la amplitud de los segmentos en los valles, aumentando así la relación pico a valle. Estas dos operaciones se realizan utilizando una resolución de alta frecuencia, pero sin añadir retraso a la síntesis de salida.
[0023]Después de mejorar la representación de frecuencia del vector de excitación concatenada (su ruido se reduce y su dinámica espectral aumenta), se realiza la transformación de frecuencia inversa para crear una versión mejorada de la excitación concatenada. En la presente divulgación, la parte de la ventana de transformación correspondiente al cuadro actual es sustancialmente plana, y sólo las partes de la ventana aplicadas a la señal de excitación pasada y extrapolada necesitan ser ahusadas. Esto hace posible extirpar el cuadro actual de la excitación mejorada después de la transformación inversa. Esta última manipulación es similar a multiplicar la excitación mejorada en el dominio del tiempo con una ventana rectangular en la posición del cuadro actual. Si bien esta operación no se puede realizar en el dominio de síntesis sin agregar importantes artefactos de bloque, también se puede realizar en el dominio de excitación, porque el filtro de síntesis LP ayuda a suavizar la transición de un bloque a otro, como se muestra en Vaillancourt'011.
Descripción de la realización ilustrativa de AMR-WB
[0024]El posprocesamiento descrito aquí se aplica a la excitación decodificada del filtro de síntesis LP para señales como música o voz reverberante. Una decisión sobre la naturaleza de la señal (voz, música, voz reverberante y similares) y una decisión sobre la aplicación del posprocesamiento pueden ser señalizadas por el codificador que envía hacia un decodificador información de clasificación como parte de un flujo de bits AMR-WB. Si este no es el caso, alternativamente se puede realizar una clasificación de la señal en el lado del decodificador. Dependiendo de la complejidad y la compensación de confiabilidad de la clasificación, el filtro de síntesis se puede aplicar opcionalmente a la excitación actual para obtener una síntesis temporal y un mejor análisis de clasificación. En esta configuración, la síntesis se sobrescribe si la clasificación da como resultado una categoría donde se aplica el filtrado posterior. Para minimizar la complejidad añadida, la clasificación también se puede realizar en la síntesis del cuadro anterior, y el filtro de síntesis se aplicaría una vez, después del posprocesamiento.
[0025]Con referencia ahora a los dibujos, la figura 1 es un diagrama de flujo que muestra las operaciones de un método para reducir el ruido de cuantificación en una señal contenida en una excitación en el dominio del tiempo decodificada por un decodificador en el dominio del tiempo de acuerdo con una realización. En la figura 1, una secuencia 10 comprende una pluralidad de operaciones que pueden ejecutarse en orden variable, siendo algunas de las operaciones posiblemente ejecutadas simultáneamente, siendo algunas de las operaciones opcionales. En la operación 12, el decodificador en el dominio del tiempo recupera y decodifica un flujo de bits producido por un codificador, incluyendo el flujo de bits información de excitación en el dominio del tiempo en forma de parámetros utilizables para reconstruir la excitación en el dominio del tiempo. Para ello, el decodificador en el dominio del tiempo puede recibir el flujo de bits a través de una interfaz de entrada o leer el flujo de bits desde una memoria. El decodificador en el dominio del tiempo convierte la excitación en el dominio del tiempo decodificada en una excitación en el dominio de la frecuencia en la operación 16. Antes de convertir la señal de excitación del dominio del tiempo al dominio de la frecuencia en la operación 16, la excitación futura del dominio del tiempo puede extrapolarse, en la operación 14, de modo que una conversión de la excitación del dominio del tiempo en una excitación del dominio de la frecuencia se vuelva sin retraso. Es decir, se realiza un mejor análisis de frecuencia sin necesidad de retrasos adicionales. Con este fin, la señal de excitación en el dominio del tiempo pasada, actual y futura prevista puede concatenarse antes de la conversión al dominio de la frecuencia. El decodificador en el dominio del tiempo produce entonces una máscara de ponderación para recuperar información espectral perdida en el ruido de cuantificación, en la operación 18. En la operación 20, el decodificador en el dominio del tiempo modifica la excitación en el dominio de la frecuencia para aumentar la dinámica espectral mediante la aplicación de la máscara de ponderación. En la operación 22, el decodificador en el dominio del tiempo convierte la excitación en el dominio de la frecuencia modificada en una excitación en el dominio del tiempo modificada. El decodificador en el dominio del tiempo puede entonces producir una síntesis de la excitación en el dominio del tiempo modificada en la operación 24 y generar una señal de sonido a partir de una síntesis de la excitación en el dominio del tiempo decodificada y de la síntesis de la excitación en el dominio del tiempo modificada en la operación 26.
[0026]El método ilustrado en la figura 1 se puede adaptar utilizando varias características opcionales. Por ejemplo, la síntesis de la excitación decodificada en el dominio del tiempo puede clasificarse en uno de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación, en el que el segundo conjunto de categorías de excitación comprende categorías inactivas o sordas mientras que el primer conjunto de categorías de excitación comprende otra categoría. Se puede aplicar una conversión de la excitación decodificada en el dominio del tiempo en una excitación en el dominio de la frecuencia a la excitación decodificada en el dominio del tiempo clasificada en el primer conjunto de categorías de excitación. El flujo de bits recuperado puede comprender información de clasificación utilizable para clasificar la síntesis de la excitación en el dominio del tiempo decodificada en el primer conjunto o en el segundo conjunto de categorías de excitación. Para generar la señal de sonido, se puede seleccionar una síntesis de salida como la síntesis de la excitación en el dominio del tiempo decodificada cuando la excitación en el dominio del tiempo se clasifica en el segundo conjunto de categorías de excitación, o como la síntesis de la excitación en el dominio del tiempo modificada cuando la excitación en el dominio del tiempo se clasifica en el primer conjunto de categorías de excitación. La excitación en el dominio de la frecuencia se puede analizar para determinar si la excitación en el dominio de la frecuencia contiene música. En particular, determinar que la excitación en el dominio de la frecuencia contiene música puede depender de comparar una desviación estadística de las diferencias de energía espectral de la excitación en el dominio de la frecuencia con un umbral. La máscara de ponderación se puede producir utilizando un promedio de tiempo o un promedio de frecuencia o una combinación de ambos. Se puede estimar una relación señal a ruido para una banda seleccionada de la excitación en el dominio del tiempo decodificada y se puede realizar una reducción de ruido en el dominio de la frecuencia con base en la relación señal a ruido estimada.
[0027]Las figuras 2a y 2b, denominadas colectivamente figura 2, son un diagrama esquemático simplificado de un decodificador que tiene capacidades de posprocesamiento en el dominio de la frecuencia para reducir el ruido de cuantificación en señales musicales y otras señales de sonido. Un decodificador 100 comprende varios elementos ilustrados en las figuras 2a y 2b, estando interconectados estos elementos mediante flechas como se muestra, ilustrando algunas de las interconexiones utilizando conectores A, B, C, D y E que muestran cómo algunos elementos de la figura 2a están relacionados con otros elementos de la figura 2b. El decodificador 100 comprende un receptor 102 que recibe un flujo de bits AMR-WB desde un codificador, por ejemplo a través de una interfaz de comunicación por radio. Alternativamente, el decodificador 100 puede estar conectado operativamente a una memoria (no mostrada) que almacena el flujo de bits. Un demultiplexor 103 extrae del flujo de bits parámetros de excitación en el dominio del tiempo para reconstruir una excitación en el dominio del tiempo, una información de retardo de tono y una información de detección de actividad de voz (VAD). El decodificador 100 comprende un decodificador 104 de excitación en el dominio del tiempo que recibe los parámetros de excitación en el dominio del tiempo para decodificar la excitación en el dominio del tiempo del cuadro actual, una memoria 106 reguladora de excitación pasada, dos (2) filtros 108 y 110 de síntesis LP, un clasificador 112 de señales de primera etapa que comprende un estimador 114 de clasificación de señal que recibe la señal VAD y un punto 116 de prueba de selección de clase, un extrapolador 118 de excitación que recibe la información de retardo de tono, un concatenador 120 de excitación, un módulo 122 de transformación de frecuencia y ventanas, un analizador de estabilidad energética como un clasificador 124 de señal de segunda etapa, un estimador 126 de nivel de ruido por banda, un reductor 128 de ruido, un constructor 130 de máscara que comprende un normalizador 131 de energía espectral, un promediador 132 de energía y un suavizador 134 de energía, un modificador 136 de dinámica espectral, un convertidor 138 de frecuencia a dominio de tiempo, un extractor 140 de excitación de cuadro, un sobreescritor 142 que comprende un punto 144 de prueba de decisión que controla un conmutador 146, y un filtro de reducción de énfasis y remuestreador 148. Una decisión de sobrescritura tomada por el punto 144 de prueba de decisión determina, con base en una clasificación inactiva o sorda obtenida del clasificador 112 de señal de primera etapa y en una categoría de señal de sonido eCAT obtenida del clasificador 124 de señal de segunda etapa, ya sea una señal 150 de síntesis central del filtro 108 de síntesis LP, o una señal 152 de síntesis modificada, es decir, mejorada del filtro 110 de síntesis LP, se alimenta al filtro de reducción de énfasis y al remuestreador 148. Una salida del filtro de reducción de énfasis y remuestreador 148 se alimenta a un convertidor 154 digital a analógico (D/A) que proporciona una señal analógica, amplificada por un amplificador 156 y proporcionada además a un altavoz 158 que genera una señal de sonido audible. Alternativamente, la salida del filtro de reducción de énfasis y remuestreador 148 puede transmitirse en formato digital a través de una interfaz de comunicación (no mostrada) o almacenarse en formato digital en una memoria (no mostrada), en un disco compacto o en cualquier otro medio de almacenamiento digital. Como otra alternativa, la salida del convertidor 154 D/A puede proporcionarse a un auricular (no mostrado), ya sea directamente o a través de un amplificador. Como otra alternativa más, la salida del convertidor 154 D/A puede grabarse en un medio analógico (no mostrado) o transmitirse a través de una interfaz de comunicación (no mostrada) como una señal analógica.
[0028] Los siguientes párrafos proporcionan detalles de las operaciones realizadas por los diversos componentes del decodificador 100 de la figura 2.
1) Clasificación de la primera etapa
[0029] En la realización ilustrativa, se realiza una clasificación de primera etapa en el decodificador en el clasificador 112 de primera etapa, en respuesta a los parámetros de la señal VAD del demultiplexor 103. La clasificación de la primera etapa del decodificador es similar a la de Vaillancourt'011. Los siguientes parámetros se utilizan para la clasificación en el estimador 114 de clasificación de señales del decodificador: una correlación normalizadarx,una medida de inclinación espectral et, un contador de estabilidad del tono pc, una energía de cuadro relativa de la señal al final del cuadro actual Es, y un contador de cruce por cero zc. El cálculo de estos parámetros, que se utilizan para clasificar la señal, se explica a continuación.
[0030] La correlación normalizada rx se calcula al final del cuadro con base en la señal de síntesis. Se utiliza el retardo de tono del último subcuadro.
[0031] La correlación normalizada rx se calcula en tono de forma sincrónica como
donde T es el retardo del tono del último subcuadro, t=L-T, y L es el tamaño del cuadro. Si el retardo de tono del último subcuadro es mayor que 3N12 (N es el tamaño del subcuadro), T se establece en el retardo de tono promedio de los dos últimos subcuadros.
[0032] La correlaciónrxse calcula utilizando la señal de síntesis x(i). Para retardos de tono inferiores al tamaño del subcuadro (64 muestras), la correlación normalizada se calcula dos veces en los instantes t=L-T y t=L-2T, yrxse da como el promedio de los dos cálculos.
[0033] El parámetro de inclinación espectral er contiene información sobre la distribución de frecuencia de la energía. En la presente realización ilustrativa, la inclinación espectral en el decodificador se estima como el primer coeficiente de autocorrelación normalizado de la señal de síntesis. Se calcula con base en los últimos 3 subcuadros comoJ^x(¡)x(¡-1)
e , = J=s n ----------- (2)
Y . x 2(¡)
i - N
donde X(i) es la señal de síntesis, N es el tamaño del subcuadro, y L es el tamaño del cuadro (N=64 y L=256 en esta realización ilustrativa).
[0034] El contador de estabilidad del tono pc evalúa la variación del período de tono. Se calcula en el decodificador de la siguiente manera:
P C = P 3 A ? - A - P o(3)
[0035] Los valores p0, pi, p2 y p3 corresponden al retardo del tono de bucle cerrado de los 4 subcuadros.
[0036] La energía relativa del cuadro. Es se calcula como una diferencia entre la energía del cuadro actual en dB y su promedio a largo plazo
E s = E f ~ E lt(4) donde la energía del cuadro Ef es la energía de la señal de síntesis ssalida en dB el tono calculado sincrónicamente al final del cuadro como
donde L=256 es la longitud del cuadro y T es el retardo de tono promedio de las dos últimas subcuadros. Si T es menor que el tamaño del subcuadro entonces T se establece en 2T (la energía calculada utilizando dos períodos de tono para retardos de tono cortos).
[0037]La energía promedio a largo plazo se actualiza en los cuadros activos utilizando la siguiente relación:
E¡t- 0.99E¡t 0.01 Ef(6)
[0038]El último parámetro es el parámetro de cruce por cero zc calculado en un cuadro de la señal de síntesis. En esta realización ilustrativa, el contador de cruce por cero zc cuenta el número de veces que el signo de la señal cambia de positivo a negativo durante ese intervalo.
[0039]Para hacer más sólida la clasificación de la primera etapa, los parámetros de clasificación se consideran en conjunto formando una función de mérito fm. Para ello, primero se escalan los parámetros de clasificación utilizando una función lineal. Consideremos un parámetro px, su versión escalada se obtiene utilizando
[0040]El parámetro de estabilidad de tono escalado se recorta entre 0 y 1. Los coeficientes de la función kp y cp se han encontrado experimentalmente para cada uno de los parámetros. Los valores utilizados en esta realización ilustrativa se resumen en la tabla 1.
Tabla 1: Parámetros de clasificación de la primera etapa de la señal en el decodificador y coeficientes de sus respectivas funciones de escalado
[0041]La función de mérito se ha definido como
donde el superíndice s indica la versión escalada de los parámetros.
[0042]Luego se realiza la clasificación (punto 116 de prueba de selección de clase) utilizando la función de mérito fm y siguiendo las reglas resumidas en la tabla 2.
Tabla 2: Reglas de clasificación de señales en el decodificador.
[0043]Además de esta clasificación de primera etapa, la información sobre la detección de actividad de voz (VAD) por parte del codificador se puede transmitir en el flujo de bits como es el caso del ejemplo ilustrativo basado en A m R-Wb . Por lo tanto, se envía un bit en el flujo de bits para especificar si el codificador considera o no el cuadro actual como contenido activo (VAD = 1) o contenido inactivo (ruido de fondo, VAD = 0). Cuando el contenido se considera inactivo, la clasificación se sobrescribe a sordo. El esquema de clasificación de la primera etapa también incluye una detección de audio genérico. La categoría audio genérico incluye música, voz reverberante y también puede incluir música de fondo. Se utilizan dos parámetros para identificar esta categoría. Uno de los parámetros es la energía total del cuadro Ef como se formula en la ecuación (5).
[0044]Primero, el módulo determina la diferencia de energíaede dos cuadros adyacentes, específicamente la diferencia entre la energía del cuadro actual y la energía del cuadroE (r l)anterior. Entonces la diferencia de energía promedio Edf durante los últimos 40 cuadros se calcula utilizando la siguiente relación:
[0045]Luego, el módulo determina una desviación estadística de la variación de energía. c E durante los últimos quince (15) cuadros utilizando la siguiente relación:
[0046]En una realización práctica de la realización ilustrativa, el factor de escalado p se encontró experimentalmente y se ajustó a aproximadamente 0.77. La desviación resultante c E da una indicación sobre la estabilidad energética de la síntesis decodificada. Normalmente, la música tiene una mayor estabilidad energética que la voz.
[0047]El resultado de la clasificación de la primera etapa se utiliza además para contar el número de cuadros. Nuv entre dos cuadros clasificados como sordos. En la realización práctica, sólo se cuentan los cuadros con una energía Ef mayor que -12 dB. Generalmente el contador Nuv se inicializa a 0 cuando un cuadro se clasifica como sordo. Sin embargo, cuando un cuadro se clasifica como sordo y su energía Ef es superior a -9 dB y la energía promedio a largo plazo Elt, está por debajo de 40 dB, entonces el contador se inicializa a 16 para dar una ligera inclinación hacia la decisión musical. De lo contrario, si el cuadro se clasifica como sordo pero la energía promedio a largo plazo Elt está por encima de 40 dB, el contador disminuye en 8 para converger hacia la decisión de voz. En la realización práctica, el contador está limitado entre 0 y 300 para señal activa; el contador también está limitado entre 0 y 125 para la señal inactiva a fin de obtener una convergencia rápida a la decisión de voz cuando la siguiente señal activa sea efectivamente voz. Estos rangos no son limitantes y también se pueden contemplar otros rangos en una realización particular. Para este ejemplo ilustrativo, la decisión entre señal activa e inactiva se deduce de la decisión de actividad de voz (VAD) incluido en el flujo de bits.
[0048]Un promedio a largo plazo Nuv se deriva de este contador de cuadros sordo para la señal activa de la siguiente manera: NuVlt = 0.9 • NuVlt 0.1 • N<u v>
y para señal inactiva de la siguiente manera:
Ñ'uv=0.95-ÑV\(12) donde T es el índice del cuadro. El siguiente pseudocódigo ilustra la funcionalidad del contador sordo y su promedio a largo plazo:
W¡(v = m áx(m ín(300 ,JV j,0 )
si(VAD=0)
Ñuv=0.95-Ñur
jV„, = mín (125,Af„„)
también
Ñuv=0,9-Ñuv 0.l-Nuv
[0049] Además, cuando el promedio a largo plazo Nuv es muy alta y la desviación oe también es alto en un cuadro determinado (Nuv > 140 y oe > 5 en el ejemplo actual), lo que significa que es poco probable que la señal actual sea música, el promedio a largo plazo se actualiza de manera diferente en ese cuadro. Se actualiza para que converja al valor de 100 y sesgue la decisión hacia la voz. Esto se hace como se muestra a continuación:
----1---- (f-1)
Nm.=0.2-Nm.+80 (13)
[0050] Este parámetro en el promedio a largo plazo del número de cuadros entre cuadros clasificados sordo se utiliza para determinar si el cuadro debe considerarse como audio genérico o no. Cuanto más cercanas en el tiempo son los cuadros sordos, es más probable que la señal tenga características de voz (menos probable es que sea una señal de audio genérica). En el ejemplo ilustrativo, el umbral para decidir si un cuadro se considera audio genérico G<a>se define de la siguiente manera:
Un cuadro es G<a>si:
A t
[0051] El parametro definido en la ecuación (9), se utiliza en (14) para evitar clasificar grandes variaciones de energía como audio genérico.
[0052] El posprocesamiento realizado sobre la excitación depende de la clasificación de la señal. Para algunos tipos de señales, no se ingresa en absoluto al módulo de posprocesamiento. La siguiente tabla resume los casos en los que se realiza el posprocesamiento.
Tabla 3: Categorías de señales para modificación de excitación
[0053] Cuando se ingresa al módulo de posprocesamiento, se realiza otro análisis de estabilidad energética, descrito a continuación, en la energía espectral de excitación concatenada. De manera similar a VaiNancourt'050, este segundo análisis de estabilidad energética da una indicación de en qué parte del espectro debería comenzar el posprocesamiento y en qué medida debería aplicarse.
2) Creando el vector de excitación
[0054] Para aumentar la resolución de frecuencia, se utiliza una transformación de frecuencia más larga que la longitud del cuadro. Para ello, en la realización ilustrativa, se utiliza un vector de excitación concatenado ec(n) se crea en el concatenador 120 de excitación concatenando las últimas 192 muestras de la excitación del cuadro anterior almacenadas en la memoria 106 reguladora de excitación pasada, la excitación decodificada del cuadro actual e(n) del decodificador 104 de excitación en el dominio del tiempo, y una extrapolación de 192 muestras de excitación del cuadro futura ex(n) del extrapolador 118 de excitación. Esto se describe a continuación donde Lw es la duración de la excitación pasada así como la duración de la excitación extrapolada, y l es la longitud del cuadro. Esto corresponde a 192 y 256 muestras respectivamente, lo que da la longitud totalLc=640 muestras en la realización ilustrativa:
[0055] En un decodificador CELP, la señal de excitación en el dominio del tiempo e(n) es dado por
e(n)=bv(n) gc(n)
donde v(n) es la contribución del libro de códigos adaptativo, b es la ganancia del libro de códigos adaptativo, c(n) es la contribución del libro de códigos fijo, y G es la ganancia del libro de códigos fijo. La extrapolación de las muestras de excitación futuras ex(n) se calcula en el extrapolador 118 de excitación extendiendo periódicamente la señal de excitación del cuadro actual e(n) desde el decodificador 104 de excitación en el dominio del tiempo utilizando el tono de facciones decodificado del último subcuadro del cuadro actual. Dada la resolución fraccionaria del retardo del tono, se realiza un muestreo ascendente de la excitación del cuadro actual utilizando una función de sincronización en ventana Hamming de 35 muestras de longitud.
3) ventanas
[0056] En el módulo 122 de transformación de frecuencia y ventanas, antes de la transformación de tiempo a frecuencia se realiza una ventana en la excitación concatenada. La ventana seleccionada w(n) tiene una parte de arriba plana correspondiente al cuadro actual y disminuye con la función de Hanning a 0 en cada extremo. La siguiente ecuación representa la ventana utilizada:
[0057] Cuando se aplica a la excitación concatenada, una entrada a la transformación de frecuencia tiene una longitud totalLc<=>640 muestras(Lc= 2L<w>+ L) se obtiene en la realización práctica. La excitación concatenada en ventana e<wc>(n) está centrada en el cuadro actual y se representa con la siguiente ecuación:
4) Transformación de frecuencia
[0058]Durante la fase de posprocesamiento en el dominio de la frecuencia, la excitación concatenada se representa en un dominio de transformación. En esta realización ilustrativa, la conversión de tiempo a frecuencia se logra en el módulo 122 de transformación de frecuencia y ventanas utilizando un DCT de tipo II que proporciona una resolución de 10 Hz, pero se puede utilizar cualquier otra transformación. En caso de que se utilice otra transformación (o una longitud de transformación diferente), es posible que sea necesario revisar en consecuencia la resolución de frecuencia (definida anteriormente), el número de bandas y el número de segmentos por banda (definidos más adelante). La representación de frecuencia de la excitación CELP en el dominio del tiempo concatenada y en ventana fe se da a continuación:
[0059]Donde ewc(n), es la excitación en el dominio del tiempo concatenada y en ventana yLces la longitud de la transformación de frecuencia. En esta realización ilustrativa, la longitud de cuadro L es 256 muestras, pero la longitud de la transformación de frecuenciaLcson 640 muestras para una frecuencia de muestreo interior correspondiente de 12.8 kHz.
5) Análisis de energía por banda y por segmento
[0060]Después de DCT, el espectro resultante se divide en bandas de frecuencia críticas (en la práctica se utilizan 17 bandas de frecuencia críticas en el rango de frecuencia 0-4000 Hz y 20 bandas de frecuencia críticas en el rango de frecuencia 0-6400 Hz). Las bandas de frecuencia críticas que se utilizan son lo más cercanas posible a lo especificado en JD Johnston, "Transform coding of audio signal using perceptual noise criteria", IEEE J. Select. Áreas Comunitarias, vol. 6, págs. 314-323, febrero de 1988, y sus límites superiores se definen de la siguiente manera:
CB={100, 200, 300, 400, 510, 630, 770, 920, 1080, 1270, 1480,
1720, 2000, 2320, 2700, 3150, 3700, 4400, 5300, 6400} Hz.
[0061]La DCT de 640 puntos da como resultado una resolución de frecuencia de 10 Hz (6400 Hz/640 puntos). El número de segmentos de frecuencia por banda de frecuencia crítica es
MCb={10, 10, 10, 10, 11, 12, 14, 15, 16, 19, 21,24, 28,
32, 38, 45,55, 70, 90, 110}.
[0062]La energía espectral promedio por banda de frecuencia crítica. EB (i) se calcula de la siguiente manera:
donde /e(h) representa el ha segmento de frecuencia de una banda crítica y j i es el índice del primer segmento en ia banda crítica dada por
[0063]El análisis espectral también calcula la energía del espectro por segmento de frecuencia, ESEGMENTO(k) utilizando la siguiente relación:
[0064] Finalmente, el análisis espectral calcula una energía espectral total. EC de la excitación concatenada como la suma de las energías espectrales de las primeras 17 bandas de frecuencia críticas utilizando la siguiente relación:
6) Clasificación de la segunda etapa de la señal de excitación
[0065] Como se describe en Vaillancourt'050, el método para mejorar la señal de sonido genérica decodificada incluye un análisis adicional de la señal de excitación diseñado para maximizar aún más la eficiencia de la reducción del ruido interarmónico identificando qué cuadro es el más adecuado para la reducción del ruido entre tonalidad.
[0066] El clasificador 124 de señales de segunda etapa no sólo separa aún más la excitación concatenada decodificada en categorías de señales de sonido, sino que también da instrucciones al reductor 128 de ruido interarmónico con respecto al nivel máximo de atenuación y la frecuencia mínima donde puede comenzar la reducción.
[0067] En el ejemplo ilustrativo presentado, el clasificador 124 de señales de segunda etapa se ha mantenido lo más simple posible y es muy similar al clasificador de tipos de señales descrito en Vaillancourt'050. La primera operación consiste en realizar un análisis de estabilidad energética similar al realizado en las ecuaciones (9) y (10), pero utilizando como entrada la energía espectral total de la excitación concatenada E<C>como se formula en la ecuación (21):
donde £d representa la diferencia promedio de las energías de los vectores de excitación concatenados de dos cuadros adyacentes,Ec‘representa la energía de la excitación concatenada del cuadro actual t, yE crepresenta la energía de la excitación concatenada del cuadro anterior t-1. El promedio se calcula en los últimos 40 cuadros.
[0068] Entonces, una desviación estadística cC de la variación de energía en los últimos quince (15) cuadros se calcula utilizando la siguiente relación:
donde, en la realización práctica, el factor de escalado p se encuentra experimentalmente y se establece en aproximadamente 0.77. La desviación resultante ce se compara con cuatro (4) umbrales flotantes para determinar hasta qué punto se puede reducir el ruido entre armónicos. La salida de este clasificador 124 de señales de segunda etapa se divide en cinco (5) categorías de señales de sonido ecAT, categorías de señales de sonidos denominadas 0 a 4. Cada categoría de señal de sonido tiene su propia sintonización de reducción de ruido entre tonalidad.
[0069] Las cinco (5) categorías de señal de sonido 0-4 se pueden determinar como se indica en la siguiente tabla.
Tabla 4: característica de salida del clasificador de excitación
[0070]La categoría 0 de señal de sonido es una categoría de señal de sonido no tonal y no estable que no se modifica mediante la técnica de reducción de ruido entre tonalidad. Esta categoría de señal de sonido decodificada tiene la mayor desviación estadística de la variación de energía espectral y, en general, comprende la señal de voz.
[0071]La categoría de señal de sonido 1 (la mayor desviación estadística de la variación de energía espectral después de la categoría 0) se detecta cuando la desviación estadística ac de variación de energía espectral es inferior al umbral 1 y la última categoría de señal de sonido detectada es > 0. Entonces la reducción máxima del ruido de cuantificación de la excitación tonal decodificada dentro de la banda de frecuencia 920 a
F ,
Hz (6400 Hz en este ejemplo, donde Fs es la frecuencia de muestreo) está limitado a una reducción máxima de ruido Rmáx de 6 dB.
[0072]La categoría de señal de sonido 2 se detecta cuando la desviación estadística ac de variación de energía espectral es inferior al Umbral 2 y la última categoría de señal de sonido detectada es > 1. Entonces la reducción
máxima del ruido de cuantificación de la excitación tonal decodificada dentro de la banda de frecuencia 920 a 2 Hz está limitado a un máximo de 9 dB.
[0073]La categoría 3 de señal de sonido se detecta cuando la desviación estadística ac de variación de energía espectral es inferior al umbral 3 y la última categoría de señal de sonido detectada es > 2. Entonces la reducción £ l máxima del ruido de cuantificación de la excitación tonal decodificada dentro de la banda 770 de frecuencia a 2 Hz está limitado a un máximo de 12 dB.
[0074]La categoría 4 de señal de sonido se detecta cuando la desviación estadística ac de variación de energía espectral es inferior al umbral 4 y cuando la última categoría de tipo de señal detectada es > 3. Entonces la reducción^smáxima del ruido de cuantificación de la excitación tonal decodificada dentro de la banda 630 de frecuencia a 2 Hz está limitado a un máximo de 12 dB.
[0075]Los umbrales 1 - 4 flotantes ayudan a evitar una clasificación incorrecta del tipo de señal. Normalmente, la señal de sonido tonal decodificada que representa la música obtiene una desviación estadística mucho menor de su variación de energía espectral que la voz. Sin embargo, incluso la señal de música puede contener segmentos con una desviación estadística más alta y, de manera similar, la señal de voz puede contener segmentos con una desviación estadística inferior. Sin embargo, es poco probable que los contenidos de voz y música cambien regularmente de uno a otro en función de un cuadro. Los umbrales flotantes añaden histéresis de decisión y actúan como refuerzo del estado anterior para evitar sustancialmente cualquier clasificación errónea que podría dar como resultado un rendimiento subóptimo del reductor 128 de ruido interarmónico.
[0076]Se utilizan contadores de cuadros consecutivos de categoría 0 de señal de sonido, y contadores de cuadros consecutivos de categoría 3 o 4 de señal de sonido, para disminuir o aumentar respectivamente los umbrales.
[0077]Por ejemplo, si un contador cuenta una serie de más de 30 cuadros de señal de sonido de categoría 3 o 4, todos los umbrales (1 a 4) flotantes se incrementan en un valor predefinido con el fin de permitir que más cuadros se consideren como señal de sonido de categoría 4.
[0078]Lo contrario también ocurre con la categoría 0 de señal de sonido. Por ejemplo, si se cuenta una serie de más de 30 cuadros de categoría 0 de señal de sonido, todos los umbrales (1 a 4) flotantes se reducen con el fin de permitir que más cuadros se consideren como categoría 0 de señal de sonido. Todos los umbrales 1 a 4 flotantes están limitados a valores máximos y mínimos absolutos para garantizar que el clasificador de señales no esté bloqueado en una categoría fija.
[0079]En el caso del borrado de cuadros, todos los umbrales 1 a 4 se restablecen a sus valores mínimos y la salida del clasificador de segunda etapa se considera no tonal (categoría 0 de señal de sonido) durante tres (3) cuadros consecutivos (incluido el cuadro perdido).
[0080]Si la información de un detector de actividad de voz (VAD) está disponible e indica que no hay actividad de voz (presencia de silencio), la decisión del clasificador de segunda etapa se ve obligado a sonar la categoría 0 de señal (ecAT = 0).
7)Reducción de ruido interarmónico en el dominio de excitación
[0081]La reducción del ruido entre tonalidad o entre armónicos se realiza en la representación de frecuencia de la excitación concatenada como primera operación de mejora. La reducción del ruido de cuantificación entre tonalidad se realiza en el reductor 128 de ruido escalando el espectro en cada banda crítica con una ganancia de escalado gs limitada entre una ganancia mínima y máxima gmín y gmáx. La ganancia de escalado se deriva de una relación señalruido (SNR) estimada en esa banda crítica. El procesamiento se realiza según el segmento de frecuencia y no según la banda crítica. Por lo tanto, la ganancia de escalado se aplica en todos los segmentos de frecuencia y se deriva de la SNR calculada utilizando la energía del intervalo dividida por una estimación de la energía de ruido de la banda crítica que incluye ese intervalo. Esta característica permite preservar la energía en frecuencias cercanas a los armónicos o tonalidades, evitando así sustancialmente la distorsión, al tiempo que reduce fuertemente el ruido entre los armónicos.
[0082]La reducción de ruido entre tonalidad se realiza por segmento en los 640 segmentos. Después de haber aplicado la reducción de ruido entre tonalidad en el espectro, se realiza otra operación de mejora del espectro. Luego,
£
la DCT inversa se utiliza para reconstruir la señal'ade excitación concatenada mejorada como se describe más adelante.
[0083]La ganancia de escalado mínima gmín se deriva de la reducción máxima permitida del ruido entre tonalidad en dB, Rmáx. Como se describió anteriormente, la segunda etapa de clasificación hace que la reducción máxima permitida varíe entre 6 y 12 dB. Por lo tanto, la ganancia de escalado mínima está dada por
[0084]La ganancia de escalado se calcula en relación con la SNR por segmento. Luego, la reducción de ruido por segmento se realiza como se mencionó anteriormente. En el ejemplo actual, el procesamiento por segmento se aplica en todo el espectro hasta la frecuencia máxima de 6400 Hz. En esta realización ilustrativa, la reducción de ruido comienza en la 6ta banda crítica (es decir, no se realiza ninguna reducción por debajo de 630 Hz). Para reducir cualquier impacto negativo de la técnica, el clasificador de segunda etapa puede empujar la banda crítica inicial hasta la 8va banda (920 Hz). Esto significa que la primera banda crítica en la que se realiza la reducción de ruido está entre 630 Hz y 920 Hz, y puede variar según el cuadro. En una implementación más conservadora, la banda mínima donde comienza la reducción de ruido se puede establecer en un valor más alto.
[0085]El escalado para un determinado segmento de frecuencia k se calcula en función de la SNR, dada por
* , ( * ) =ylk, S m ( k ) c s, lim itada porg mtn<g s < g máx(25)
[0086]Generalmente gmáx es igual a 1 (es decir, no se permite amplificación), entonces los valores de ks y Cs están determinados tal como gs = gmín para SNR = 1dB, y gs = 1 para SNR = 45 dB. Es decir, para SNR de 1 dB e inferiores, el escalado se limita a gmín y para SNR de 45 dB y mayores, no se realiza ninguna reducción de ruido (gs =1). Por lo tanto, dados estos dos puntos finales, los valores de ks y Cs en la ecuación (25) están dados por
[0087]Si gmáx se establece en un valor mayor que 1, entonces permite que el proceso amplifique ligeramente las tonalidades que tienen la mayor energía. Esto se puede utilizar para compensar el hecho de que el códec CELP, utilizado en la realización práctica, no coincide perfectamente con la energía en el dominio de la frecuencia. Este suele ser el caso de señales distintas de la voz sonora.
[0088]La SNR por segmento en una determinada banda i crítica se calcula como
rÜ)/U\
donde-^E^<S2E)GMENTO(Vh")/ ,<segmentov>>y M-c.MtNiov ' denotan la energía por segmento de frecuencia para el análisis espectral del cuadro pasado y actual, respectivamente, como se calcula en la ecuación (20), N<b>(í) denota la estimación de la energía del ruido de la banda i, j<i>crítica es el índice del primer segmento en la i<‘>banda crítica y M<b>(<í>) es el número de segmentos en la banda i crítica como se definió anteriormente.
[0089]El factor de suavizado es adaptativo y está inversamente relacionado con la ganancia misma. En esta realización ilustrativa el factor de suavizado viene dado por ags = 1 - gs. Es decir, el suavizado es más fuerte para ganancias gs más pequeñas. Este enfoque evita sustancialmente la distorsión en segmentos de alta SNR precedidos por cuadros de baja SNR, como es el caso de los inicios sonoros. En la realización ilustrativa, el procedimiento de suavizado es capaz de adaptarse rápidamente y utilizar ganancias de escalado inferiores desde el inicio.
[0090] En el caso de procesamiento por segmento en una banda crítica con índice i, después de determinar la ganancia de escalado como en la ecuación (25) y utilizar la SNR como se define en las ecuaciones (27), el escalado real se realiza utilizando una ganancia de escalado suavizada gSEGMENTO,LP actualizada en cada análisis de frecuencia de la siguiente manera
[0091] El suavizado temporal de las ganancias evita sustancialmente las oscilaciones de energía audibles mientras controla el suavizado utilizando ags previene sustancialmente la distorsión en segmentos de alta SNR precedidos por cuadros de baja SNR, como es el caso de los inicios o ataques sonoros.
[0092] El escalado en la banda i crítica se realiza como
donde j i es el índice del primer segmento en la banda i crítica y MB(i) es el número de segmentos en esa banda crítica.
[0093] Las ganancias de escalado suavizadas gSEGMENTO,LP(k) se establecen inicialmente en 1. Cada vez que se procesa un cuadro de sonido no tonal eCAT =0, los valores de ganancia suavizados se restablecen a 1.0 para reducir cualquier posible reducción en el siguiente cuadro.
[0094] Se tiene en cuenta que en cada análisis espectral, el escalado suavizado gana gSEGMENTo,Lp(k) se actualizan para todos los segmentos de frecuencia en todo el espectro. Se tiene en cuenta que en el caso de una señal de baja energía, la reducción de ruido entre tonalidad se limita a -1.25 dB. Esto sucede cuando la energía máxima de ruido en todas las bandas críticas, máx(NB(i)), i = 0,...,20, es menor o igual a 10.
8) Estimación del ruido de cuantificación entre tonalidad
[0095] En esta realización ilustrativa, la energía de ruido de cuantificación entre tonalidad por banda de frecuencia crítica se estima en el estimador 126 de nivel de ruido por banda como la energía promedio de esa banda de frecuencia crítica excluyendo la energía binaria máxima de la misma banda. La siguiente fórmula resume la estimación de la energía del ruido de cuantificación para una banda i específica:
donde j<i>es el índice del primer segmento en la banda i crítica M<b>(í) es el número de segmentos en esa banda crítica, E<b>(<í>) es la energía promedio de una banda i, E<s e g m e n t o>^ j<i>) es la energía de un segmento particular y N<b>(<í>) es la energía de ruido estimada resultante de una banda particular i. En la ecuación de estimación de ruido (30), q(i) representa un factor de escalado de ruido por banda que se encuentra experimentalmente y puede modificarse dependiendo de la implementación donde se utilice el posprocesamiento. En la realización práctica, el factor de escalado de ruido se establece de manera que se pueda eliminar más ruido en frecuencias bajas y menos ruido en frecuencias altas, como se muestra a continuación:
9) Dinámica espectral creciente de la excitación
[0096] La segunda operación del posprocesamiento de frecuencia proporciona la capacidad de recuperar información de frecuencia que se pierde dentro del ruido de codificación. Los códecs CELP, especialmente cuando se utilizan a tasas de bits bajas, no son muy eficientes para codificar adecuadamente el contenido de frecuencia por encima de 3.5-4 kHz. La idea principal aquí es aprovechar el hecho de que el espectro musical a menudo no cambia sustancialmente de un cuadro a otro cuadro. Por lo tanto, se puede realizar un promedio a largo plazo y eliminar parte del ruido de codificación. Se realizan las siguientes operaciones para definir una función de ganancia dependiente de la frecuencia. Luego, esta función se utiliza para mejorar aún más la excitación antes de convertirla nuevamente al dominio del tiempo.
a. Normalización por segmento de la energía del espectro
[0097] La primera operación consiste en crear en el constructor 130 de máscaras una máscara de ponderación con base en la energía normalizada del espectro de excitación concatenada. La normalización se realiza en el normalizador 131 de energía espectral de manera que las tonalidades (o armónicos) tengan un valor está por encima de 1.0 y los valles un valor por debajo de 1.0. Para ello, el espectro de energía del segmento E<s e g m e n t o>(K) se normaliza entre 0.925 y 1.925 para obtener el espectro de energía normalizado E<n>(k) utilizando la siguiente ecuación:
[0098] donde ESEGMENTO(k) representa la energía del segmento calculada en la ecuación (20). Dado que la normalización se realiza en el dominio de la energía, muchos segmentos tienen valores muy bajos. En la realización práctica, se ha elegido el desplazamiento 0.925 de modo que sólo una pequeña parte de los segmentos de energía normalizados tendría un valor por debajo de 1.0. Una vez realizada la normalización, el espectro de energía normalizado resultante se procesa a través de una función de potencia para obtener un espectro de energía escalado. En este ejemplo ilustrativo, se utiliza una potencia de 8 para limitar los valores mínimos del espectro de energía escalado a aproximadamente 0.5, como se muestra en la siguiente fórmula:
donde En(k) es el espectro de energía normalizado y Ep(k) es el espectro de energía escalado. Se puede utilizar una función de potencia más agresiva para reducir aún más el ruido de cuantificación, por ejemplo, se puede elegir una potencia de 10 o 16, posiblemente con un desplazamiento más cercano a uno. Sin embargo, intentar eliminar demasiado ruido también puede provocar la pérdida de información importante.
[0099] El uso de una función de potencia sin limitar su producción conduciría rápidamente a la saturación de valores del espectro de energía mayores que 1. Por lo tanto, en la realización práctica, un límite máximo del espectro de energía escalado se fija en 5, creando una relación de aproximadamente 10 entre los valores de energía normalizados máximo y mínimo. Esto es útil dado que un segmento dominante puede tener una posición ligeramente diferente de un cuadro a otro, por lo que es preferible que una máscara de ponderación sea relativamente estable de un cuadro al siguiente cuadro. La siguiente ecuación muestra cómo se aplica la función:
Epl(k) = mín(5,Ep(k)) k =0,...,639
[0100] donde E<pl>(k) representa un espectro de energía escalada limitada y E<p>(k) es el espectro de energía escalada como se define en la ecuación (32).
b. Suavizado del espectro de energía escalado a lo largo del eje de frecuencia y el eje de tiempo
[0101] Con las dos últimas operaciones comienza a tomar forma la posición de los pulsos más energéticos. Aplicar potencia de 8 en los segmentos del espectro de energía normalizado es una primera operación para crear una máscara eficiente para aumentar la dinámica espectral. Las siguientes dos (2) operaciones mejoran aún más esta máscara de espectro. En primer lugar, el espectro de energía escalado se suaviza en el promediador 132 de energía a lo largo del eje de frecuencia desde las frecuencias bajas hasta las frecuencias altas utilizando un filtro de promedio. Luego, el espectro resultante se procesa en un suavizador 134 de energía a lo largo del eje del dominio del tiempo para suavizar los valores del segmento de cuadro a cuadro.
[0102] El suavizado del espectro de energía escalado a lo largo del eje de frecuencia se puede describir con la siguiente función:
[0103] Finalmente, el suavizado a lo largo del eje del tiempo da como resultado una máscara de ponderación de amplificación/atenuación promediada en el tiempo Gm para ser aplicado al espectrof ?.La máscara de ponderación, también llamada máscara de ganancia, se describe con la siguiente ecuación:
o .95 -G ^(k) 0.05Epi (k), k= 0,...,319
.85 -G ^(k) 0.15EPi (k), k =320,...,639(35)
donde Epl es el espectro de energía escalado suavizado a lo largo del eje de frecuencia, t es el índice del cuadro, y Gm es la máscara de ponderación promediada en el tiempo.
[0104]Se ha elegido una tasa de adaptación más lenta para las frecuencias inferiores para evitar sustancialmente la oscilación de ganancia. Se permite una tasa de adaptación más rápida para frecuencias más altas ya que es más probable que las posiciones de las tonalidades cambien rápidamente en la parte más alta del espectro. Con el promedio realizado en el eje de frecuencia y el suavizado a largo plazo realizado a lo largo del eje de tiempo, el vector final obtenido en (35) se utiliza como máscara de ponderación para aplicarse directamente sobre el espectro mejorado de la excitación concatenada / ; de la ecuación (29).
10) Aplicación de la máscara de ponderación al espectro de excitación concatenado mejorado
[0105]La máscara de ponderación definida anteriormente se aplica de manera diferente mediante el modificador 136 de dinámica espectral dependiendo de la salida del clasificador de excitación de segunda etapa (valor de eCAT mostrado en la tabla 4). La máscara de ponderación no se aplica si la excitación se clasifica como categoría 0 (eCAT = 0; es decir, alta probabilidad de contenido de la voz). Cuando la tasa de bits del códec es alta, el nivel de ruido de cuantificación es en general inferior y varía con la frecuencia. Eso significa que la amplificación de las tonalidades puede limitarse dependiendo de las posiciones de los pulsos dentro del espectro y la tasa de bits codificada. Utilizar otro método de codificación además de CELP, por ejemplo, si la señal de excitación comprende una combinación de componentes codificados en el dominio del tiempo y de la frecuencia, el uso de la máscara de ponderación podría ajustarse para cada caso particular. Por ejemplo, la amplificación del pulso puede limitarse, pero el método aún puede utilizarse como reducción de ruido de cuantificación.
[0106]Para los primeros 1 kHz (los primeros 100 segmentos en la realización práctica, la máscara se aplica si la excitación no está clasificada como categoría 0 (eCAT#0). La atenuación es posible, pero no se realiza ninguna amplificación en este rango de frecuencia (el valor máximo de la máscara está limitado a 1.0).
[0107]Si más de 25 cuadros consecutivos se clasifican en la categoría 4 (eCAT = 4; es decir, alta probabilidad de contenido musical), pero no más de 40 cuadros, luego la máscara de ponderación se aplica sin amplificación para todos los segmentos restantes (segmentos 100 a 639) (la ganancia máxima Gmáx0 está limitada a 1.0 y no hay limitación en la ganancia mínima).
[0108]Cuando más de 40 cuadros se clasifican como categoría 4, para las frecuencias entre 1 y 2 kHz (segmentos 100 a 199 en la realización práctica) la ganancia máxima Gmáx1 se establece en 1.5 para tasas de bits por debajo de 12650 bits por segundo (bps). De lo contrario, la ganancia máxima Gmáx1 se establece en 1.0. En esta banda de frecuencia, la ganancia mínima Gmin1 se fija en 0.75 sólo si la tasa de bits es mayor que 15850 bps; de lo contrario, no hay limitación en la ganancia mínima.
[0109]Para la banda de 2 a 4 kHz (segmentos 200 a 399 en la realización práctica), la ganancia máxima Gmáx2 está limitada a 2.0 para tasas de bits por debajo de 12650 bps, y está limitada a 1.25 para tasas de bits iguales o mayores que 12650 bps e inferiores a 15850 bps. De lo contrario, entonces la ganancia máxima Gmáx2 está limitada a 1.0. Aún en esta banda de frecuencia, la ganancia mínima Gmin2 se fija en 0.5 sólo si la tasa de bits es mayor que 15850 bps; de lo contrario, no hay limitación en la ganancia mínima.
[0110]Para la banda de 4 a 6.4 kHz (segmentos 400 a 639 en la realización práctica), la ganancia máxima G<max3>está limitada a 2.0 para tasas de bits por debajo de 15850 bps y a 1.25 en caso contrario. En esta banda de frecuencia, la ganancia mínima Gmin3 se fija en 0.5 sólo si la tasa de bits es mayor que 15850 bps; de lo contrario, no hay limitación en la ganancia mínima. Cabe señalar que podrían ser apropiados otros ajustes de la ganancia máxima y mínima dependiendo de las características del códec.
[0111] El siguiente pseudocódigo muestra cómo el espectro final de la excitación f e concatenada se ve afectadof
cuando la mascara Gmde ponderación se aplica al espectro e mejorado. Se tiene en cuenta que la primera operación de mejora del espectro (como se describe en la sección 7) no es absolutamente necesaria para realizar esta segunda operación de mejora de modificación de ganancia por segmento.
/ . - 40)
)mín (Gm( fe) ,Gmáx0),k =0.....99
)máx (mín(Gm (k ) ,G málíI) > Ellín/ ) *fe = 100,...,199
)máx (mín(Gm(k),G má]í2) ’ Eum2 ) ’fe = 200, ...,399
)máx (mín(Gm (k ) ,G m¡íx3) t^ mín3 ) »fe = 400, ...,639
r = - l , ... - 25 )
ín (Gm (fe),1.0), fe = 0 ,..., 639
también
fe = 0.....639(36)
[0112]Aquí f<e>representa el espectro de la excitación concatenada previamente mejorada con la función relacionada con SNR g<SEGMENTO,LP>(k) de la ecuación (28),
[0113]G<m>es la máscara de ponderación calculada en la ecuación (35), G<máx>y G<mín>son las ganancias máxima y mínima por rango de frecuencia como se definió anteriormente, t es el índice del cuadro con t = 0 correspondiente al cuadro actual, y finalmente f<e>es el espectro mejorado final de la excitación concatenada.
11) Transformación de frecuencia inversa
[0114]Una vez completada la mejora en el dominio de la frecuencia, se realiza una transformación inversa de frecuencia a tiempo en el convertidor 138 de frecuencia a dominio del tiempo para recuperar la excitación mejorada en el dominio del tiempo. En esta realización ilustrativa, la conversión de frecuencia a tiempo se logra con el mismo DCT de tipo II que se utiliza para la conversión de tiempo a frecuencia. La excitacióntdmodificada en el dominio del tiempo se obtiene como
yLces la longitud del vector de excitación concatenado.
12) Filtrado de síntesis y sobrescritura de la síntesis CELP actual
[0115]Dado que no es deseable añadir retrasos a la síntesis, se ha decidido evitar algoritmos de superposición y adición en la construcción de la realización práctica. La realización práctica requiere la duración exacta de la excitación final ef utilizada para generar la síntesis directamente a partir de la excitación concatenada mejorada, sin superposición, como se muestra en la siguiente ecuación:
n=0,..., 255(38)
[0116]Aquí Lw representa la longitud de la ventana aplicada en la excitación pasada antes de la transformación de frecuencia como se explica en la ecuación (15). Una vez que se realiza la modificación de la excitación y se extrae la longitud adecuada de la excitación mejorada y modificada en el dominio del tiempo del convertidor 138 de frecuencia al dominio del tiempo del vector concatenado utilizando el extractor 140 de excitación de cuadro, la excitación modificada en el dominio del tiempo se procesa a través del filtro 110 de síntesis para obtener la señal de síntesis mejorada para el cuadro actual. Esta síntesis mejorada se utiliza para sobrescribir la síntesis originalmente decodificada del filtro 108 de síntesis con el fin de aumentar la calidad de percepción. La decisión de sobrescribir la toma el sobreescritor 142 que incluye un punto 144 de prueba de decisión que controla el conmutador 146 como se describió anteriormente en respuesta a la información del punto 116 de prueba de selección de clase y del clasificador 124 de señal de segunda etapa.
[0117]La figura 3 es un diagrama de bloques simplificado de una configuración de ejemplo de componentes de hardware que forman el decodificador de la figura 2. Se puede implementar un decodificador 200 como parte de un terminal móvil, como parte de un reproductor multimedia portátil o en cualquier dispositivo similar. El decodificador 200 comprende una entrada 202, una salida 204, un procesador 206 y una memoria 208.
[0118]La entrada 202 está configurada para recibir el flujo 102 de bits AMR-WB. La entrada 202 es una generalización del receptor 102 de la figura 2. Los ejemplos de implementación no limitantes de la entrada 202 comprenden una interfaz de radio de un terminal móvil, una interfaz física tal como, por ejemplo, un puerto de bus serie universal (USB) de un reproductor multimedia portátil, y similares. La salida 204 es una generalización del convertidor 154 D/A, el amplificador 156 y el altavoz 158 de la figura 2 y puede comprender un reproductor de audio, un altavoz, un dispositivo de grabación y similares. Alternativamente, la salida 204 puede comprender una interfaz que se puede conectar a un reproductor de audio, a un altavoz, a un dispositivo de grabación y similares. La entrada 202 y la salida 204 pueden implementarse en un módulo común, por ejemplo, un dispositivo de entrada/salida en serie.
[0119]El procesador 206 está conectado operativamente a la entrada 202, a la salida 204 y a la memoria 208. El procesador 206 se realiza como uno o más procesadores para ejecutar instrucciones de código en soporte de las funciones del decodificador 104 de excitación en el dominio del tiempo, de los filtros 108 y 110 de síntesis LP, del clasificador 112 de señal de primera etapa y sus componentes, de la excitación extrapolador 118, del concatenador 120 de excitación, del módulo de ventana y transformación de frecuencia 122, del clasificador 124 de señal de segunda etapa, del estimador 126 de nivel de ruido por banda, del reductor 128 de ruido, del constructor 130 de máscara y sus componentes, del modificador 136 de dinámica espectral, del convertidor 138 espectral al dominio del tiempo, del extractor 140 de excitación de cuadros, del sobreescritor 142 y sus componentes, y del filtro de reducción de énfasis y remuestreador 148.
[0120]La memoria 208 almacena resultados de diversas operaciones de posprocesamiento. Más particularmente, la memoria 208 comprende la memoria 106 reguladora de excitación pasada. En algunas variantes, los resultados del procesamiento intermedio de las diversas funciones del procesador 206 pueden almacenarse en la memoria 208. La memoria 208 puede comprender además una memoria no transitoria para almacenar instrucciones de código ejecutables por el procesador 206. La memoria 208 también puede almacenar una señal de audio del filtro de reducción de énfasis y remuestreador 148, proporcionando la señal de audio almacenada a la salida 204 a pedido del procesador 206.
[0121]Los expertos en la técnica se darán cuenta de que la descripción del dispositivo y el método para reducir el ruido de cuantificación en una señal musical u otra señal contenida en una excitación en el dominio del tiempo decodificada por un decodificador en el dominio del tiempo son sólo ilustrativos y no pretenden ser de alguna manera limitante. Otras realizaciones se les ocurrirán fácilmente a aquellas personas con conocimientos habituales en la técnica que tengan el beneficio de la presente divulgación. Además, el dispositivo y método divulgados se pueden personalizar para ofrecer soluciones valiosas a las necesidades y problemas existentes de mejorar la representación de contenido musical de códecs basados en predicción lineal (LP).
[0122]En aras de la claridad, no se muestran y describen todas las características rutinarias de las implementaciones del dispositivo y método. Por supuesto, se apreciará que en el desarrollo de cualquier implementación real del dispositivo y método para reducir el ruido de cuantificación en una señal musical contenida en una excitación en el dominio del tiempo decodificada por un decodificador en el dominio del tiempo, es posible que sea necesario tomar numerosas decisiones específicas de implementación para lograr los objetivos específicos del desarrollador, tal como el cumplimiento de las restricciones relacionadas con la aplicación, el sistema, la red y el negocio, y que estos objetivos específicos variarán de una implementación a otra y de un desarrollador a otro. Además, se apreciará que un esfuerzo de desarrollo podría ser complejo y llevar mucho tiempo, pero, no obstante, sería una tarea de ingeniería rutinaria para aquellos con experiencia ordinaria en el campo del procesamiento de sonido que tengan el beneficio de la presente divulgación.
[0123]Según la presente divulgación, los componentes, operaciones de proceso y/o estructuras de datos descritos en este documento pueden implementarse utilizando diversos tipos de sistemas operativos, plataformas informáticas, dispositivos de red, programas informáticos y/o máquinas de uso general. Además, los expertos en la técnica reconocerán que también se pueden utilizar dispositivos de naturaleza menos general, tales como dispositivos cableados, arreglos de puertas programables en campo (FPGA), circuitos integrados de aplicación específica (ASIC) o similares. Cuando un método que comprende una serie de operaciones de proceso se implementa mediante un ordenador o una máquina y esas operaciones de proceso pueden almacenarse como una serie de instrucciones legibles por la máquina, pueden almacenarse en un medio tangible.
[0124]Aunque la presente divulgación se ha descrito anteriormente a modo de realizaciones ilustrativas no restrictivas de la misma, estas realizaciones pueden modificarse a voluntad dentro del alcance de las reivindicaciones adjuntas.

Claims (21)

REIVINDICACIONES
1. Un dispositivo (100) para reducir el ruido de cuantificación en una señal de sonido sintetizada a partir de una excitación en el dominio del tiempo CELP decodificada (e(n)), siendo el dispositivo caracterizado porque comprende: un extrapolador (118) de excitación para calcular a partir de la excitación en el dominio del tiempo CELP decodificada (e(n)) en un cuadro actual una excitación en el dominio del tiempo extrapolada (e<X>(n)) de un cuadro futuro;
un concatenador (120) de excitación para concatenar la excitación en el dominio del tiempo CELP decodificada pasada (e(n)) de un cuadro anterior, la excitación en el dominio del tiempo CELP decodificada (e(n)) del cuadro actual y la extrapolada (e<X>(n)) excitación en el dominio del tiempo del cuadro futuro para formar una excitación en el dominio del tiempo concatenada (e<o>(n));
un módulo (122) de transformación de frecuencia y ventanas para aplicar una ventana (w(n)) a la excitación concatenada en el dominio del tiempo (e<o>(n)) para formar una excitación en el dominio del tiempo concatenada en ventana (e<wc>(n));
un primer convertidor (122) para convertir la excitación en el dominio del tiempo concatenada en ventanas (e<wc>(n)) en una excitación en el dominio de la frecuencia (f<e>(k));
un constructor (130) de máscara que responde a la excitación en el dominio de la frecuencia (f<e>(k)) para producir una máscara (G<m>) de ponderación;
un modificador (136) para modificar la excitación en el dominio de la frecuencia (f<e>(k)) para aumentar la dinámica espectral mediante la aplicación de la máscara (G<m>) de ponderación para generar una excitación en el dominio de la frecuencia modificada (f<e>(k)); y
un segundo convertidor (138) para convertir la excitación en el dominio de frecuencia modificada (f'<e>(k)) en una excitación en el dominio del tiempo CELP modificada (e'<td>).
2. Un dispositivo de acuerdo con la reivindicación 1, que comprende:
un clasificador (112) de una síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) en uno de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación;
en donde el segundo conjunto de categorías de excitación comprende categorías inactivas o sordas; y
el primer conjunto de categorías de excitación comprende una otra categoría.
3. Un dispositivo de acuerdo con la reivindicación 2, en donde el clasificador (112) de la síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) en uno de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación utiliza información de clasificación transmitida desde un codificador a un decodificador en el dominio del tiempo y recuperada en el decodificador en el dominio del tiempo a partir de un flujo de bits decodificado.
4. Un dispositivo de acuerdo con la reivindicación 2, que comprende un primer filtro (110) de síntesis para producir una síntesis de la excitación en el dominio del tiempo CELP modificada (e'<td>).
5. Un dispositivo de acuerdo con la reivindicación 4, que comprende un segundo filtro (108) de síntesis para producir la síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)).
6. Un dispositivo de acuerdo con la reivindicación 5, que comprende un filtro de reducción de énfasis y un remuestreador (148) para generar una señal de sonido a partir de una de las síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) y de la síntesis de la excitación en el dominio del tiempo CELP modificada (e'<td>).
7. Un dispositivo de acuerdo con la reivindicación 5, que comprende un clasificador (112, 124) de dos etapas para seleccionar una síntesis de salida como:
la síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) cuando la síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) se clasifica en el segundo conjunto de categorías de excitación; y la síntesis de la excitación en el dominio del tiempo CELP modificada (e'<td>) cuando la síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) se clasifica en el primer conjunto de categorías de excitación.
8. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 1 a 7, que comprende un analizador (124) de la excitación en el dominio de la frecuencia (f<e>(k)) para determinar si la excitación en el dominio de la frecuencia contiene música.
9. Un dispositivo de acuerdo con la reivindicación 8, en donde el analizador (124) de la excitación en el dominio de la frecuencia (f<e>(k)) determina que la excitación en el dominio de la frecuencia contiene música comparando una desviación estadística de las diferencias de energía espectral de la excitación en el dominio de la frecuencia (f<e>(k)) con un umbral.
10. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 1 a 9, en donde el constructor (130) de máscara produce la máscara de ponderación utilizando un promedio de tiempo o un promedio de frecuencia, o una combinación de un promedio de tiempo y frecuencia.
11. Un dispositivo de acuerdo con una cualquiera de las reivindicaciones 1 a 10, que comprende un reductor (128) de ruido para estimar una relación señal a ruido en una banda seleccionada de la excitación en el dominio del tiempo CELP decodificada (e(n)) y realizar una reducción de ruido en el dominio de la frecuencia con base en la relación señal a ruido.
12. Un método para reducir el ruido de cuantificación en una señal de sonido sintetizada a partir de una excitación en el dominio del tiempo CELP decodificada (e(n)), siendo el método caracterizado porque comprende:
calcular a partir de la excitación en el dominio del tiempo CELP decodificada (e(n)) en un cuadro actual una excitación en el dominio del tiempo extrapolada (e<x>(n)) de un cuadro futuro;
concatenar la excitación en el dominio del tiempo CELP decodificada (e(n)) pasada de un cuadro anterior, la excitación en el dominio del tiempo CELP decodificada (e(n)) del cuadro actual y excitación en el dominio del tiempo extrapolada (e<x>(n)) del cuadro futuro para formar una excitación en el dominio del tiempo concatenada (e<c>(n));
aplicar una ventana (w(n)) a la excitación concatenada en el dominio del tiempo (e<c>(n)) para formar una excitación en el dominio del tiempo concatenada en ventana (e<wc>(n));
convertir (16) la excitación en el dominio del tiempo concatenada en ventana (e<wc>(n)) en una excitación en el dominio de la frecuencia (f<e>(k));
producir (18), en respuesta a la excitación en el dominio de la frecuencia (f<e>(k)), una máscara (G<m>) de ponderación; modificar (20) la excitación en el dominio de la frecuencia (f<e>(k)) para aumentar la dinámica espectral mediante la aplicación de la máscara (G<m>) de ponderación para generar una excitación modificada en el dominio de la frecuencia (f'<e>(k)); y
convertir (22) la excitación en el dominio de la frecuencia modificada (f'<e>(k)) en una excitación en el dominio del tiempo CELP modificada (e'<td>).
13. Un método de acuerdo con la reivindicación 12, que comprende:
clasificar una síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) en uno de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación;
en donde el segundo conjunto de categorías de excitación comprende categorías inactivas o sordas; y
el primer conjunto de categorías de excitación comprende una otra categoría.
14. Un método de acuerdo con la reivindicación 13, que comprende utilizar información de clasificación transmitida desde un codificador a un decodificador en el dominio del tiempo y recuperada en el decodificador en el dominio del tiempo a partir de un flujo de bits decodificado para clasificar la síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) en el de un primer conjunto de categorías de excitación y un segundo conjunto de categorías de excitación.
15. Un método de acuerdo con la reivindicación 13, que comprende producir (24) una síntesis de la excitación en el dominio del tiempo CELP modificada (e'<td>).
16. Un método de acuerdo con la reivindicación 15, que comprende generar (26) una señal de sonido a partir de una de las síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) y de la síntesis de la excitación en el dominio del tiempo CELP modificada (e'<td>).
17. Un método de acuerdo con la reivindicación 15, que comprende seleccionar una síntesis de salida como:
la síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) cuando la síntesis de la excitación en el dominio del tiempo CELP decodificada se clasifica en el segundo conjunto de categorías de excitación; y la síntesis de la excitación en el dominio del tiempo CELP modificada (e'<td>) cuando la síntesis de la excitación en el dominio del tiempo CELP decodificada (e(n)) se clasifica en el primer conjunto de categorías de excitación.
18. Un método de acuerdo con una cualquiera de las reivindicaciones 12 a 17, que comprende analizar la excitación en el dominio de la frecuencia (f<e>(k)) para determinar si la excitación en el dominio de la frecuencia contiene música.
19. Un método de acuerdo con la reivindicación 18, que comprende determinar que la excitación en el dominio de la frecuencia (f<e>(k)) contiene música comparando una desviación estadística de las diferencias de energía espectral de la excitación en el dominio de la frecuencia con un umbral.
20. Un método de acuerdo con una cualquiera de las reivindicaciones 12 a 19, en donde la máscara de ponderación se produce (18) utilizando un promedio de tiempo o un promedio de frecuencia o una combinación de un promedio de tiempo y frecuencia.
21. Un método de acuerdo con una cualquiera de las reivindicaciones 12 a 20, que comprende:
estimar una relación señal-ruido en una banda seleccionada de la excitación en el dominio del tiempo CELP decodificada (e(n)); y
realizar una reducción de ruido en el dominio de la frecuencia con base en la relación señal-ruido estimada.
ES21160367T 2013-03-04 2014-01-09 Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo Active ES2961553T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361772037P 2013-03-04 2013-03-04

Publications (1)

Publication Number Publication Date
ES2961553T3 true ES2961553T3 (es) 2024-03-12

Family

ID=51421394

Family Applications (2)

Application Number Title Priority Date Filing Date
ES21160367T Active ES2961553T3 (es) 2013-03-04 2014-01-09 Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo
ES19170370T Active ES2872024T3 (es) 2013-03-04 2014-01-09 Dispositivo y método para reducir ruido de cuantificación en un decodificador de dominio de tiempo

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES19170370T Active ES2872024T3 (es) 2013-03-04 2014-01-09 Dispositivo y método para reducir ruido de cuantificación en un decodificador de dominio de tiempo

Country Status (20)

Country Link
US (2) US9384755B2 (es)
EP (4) EP2965315B1 (es)
JP (4) JP6453249B2 (es)
KR (1) KR102237718B1 (es)
CN (2) CN105009209B (es)
AU (1) AU2014225223B2 (es)
CA (1) CA2898095C (es)
DK (3) DK3848929T3 (es)
ES (2) ES2961553T3 (es)
FI (1) FI3848929T3 (es)
HK (1) HK1212088A1 (es)
HR (2) HRP20231248T1 (es)
HU (2) HUE054780T2 (es)
LT (2) LT3537437T (es)
MX (1) MX345389B (es)
PH (1) PH12015501575B1 (es)
RU (1) RU2638744C2 (es)
SI (2) SI3848929T1 (es)
TR (1) TR201910989T4 (es)
WO (1) WO2014134702A1 (es)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
HUE054780T2 (hu) * 2013-03-04 2021-09-28 Voiceage Evs Llc Kvantálási zaj csökkentésére szolgáló eszköz és módszer idõtartomány dekóderben
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP2887350B1 (en) * 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
US9484043B1 (en) * 2014-03-05 2016-11-01 QoSound, Inc. Noise suppressor
TWI543151B (zh) * 2014-03-31 2016-07-21 Kung Lan Wang Voiceprint data processing method, trading method and system based on voiceprint data
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US9972334B2 (en) * 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
CN111201565A (zh) 2017-05-24 2020-05-26 调节股份有限公司 用于声对声转换的***和方法
JP6816277B2 (ja) * 2017-07-03 2021-01-20 パイオニア株式会社 信号処理装置、制御方法、プログラム及び記憶媒体
EP3428918B1 (en) * 2017-07-11 2020-02-12 Harman Becker Automotive Systems GmbH Pop noise control
DE102018117556B4 (de) * 2017-07-27 2024-03-21 Harman Becker Automotive Systems Gmbh Einzelkanal-rauschreduzierung
JP7123134B2 (ja) 2017-10-27 2022-08-22 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. デコーダにおけるノイズ減衰
CN108388848B (zh) * 2018-02-07 2022-02-22 西安石油大学 一种多尺度油气水多相流动力学特性分析方法
CN109240087B (zh) * 2018-10-23 2022-03-01 固高科技股份有限公司 实时改变指令规划频率抑制振动的方法和***
RU2708061C9 (ru) * 2018-12-29 2020-06-26 Акционерное общество "Лётно-исследовательский институт имени М.М. Громова" Способ оперативной инструментальной оценки энергетических параметров полезного сигнала и непреднамеренных помех на антенном входе бортового радиоприёмника с телефонным выходом в составе летательного аппарата
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
CN116670754A (zh) * 2020-10-08 2023-08-29 调节公司 用于内容审核的多阶段自适应***

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
JP4230414B2 (ja) 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
IL135630A0 (en) * 1997-12-08 2001-05-20 Mitsubishi Electric Corp Method and apparatus for processing sound signal
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
EP1619666B1 (en) 2003-05-01 2009-12-23 Fujitsu Limited Speech decoder, speech decoding method, program, recording medium
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
US7490036B2 (en) 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
PT2102619T (pt) * 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
JP2010529511A (ja) * 2007-06-14 2010-08-26 フランス・テレコム 符号器の量子化ノイズを復号化中に低減するための後処理方法及び装置
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US8271273B2 (en) * 2007-10-04 2012-09-18 Huawei Technologies Co., Ltd. Adaptive approach to improve G.711 perceptual quality
CA2715432C (en) 2008-03-05 2016-08-16 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
US8665914B2 (en) * 2008-03-14 2014-03-04 Nec Corporation Signal analysis/control system and method, signal control apparatus and method, and program
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
WO2011044700A1 (en) * 2009-10-15 2011-04-21 Voiceage Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
MX2012004648A (es) * 2009-10-20 2012-05-29 Fraunhofer Ges Forschung Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing.
CA2862715C (en) * 2009-10-20 2017-10-17 Ralf Geiger Multi-mode audio codec and celp coding adapted therefore
JP5323144B2 (ja) * 2011-08-05 2013-10-23 株式会社東芝 復号装置およびスペクトル整形方法
CA2851370C (en) 2011-11-03 2019-12-03 Voiceage Corporation Improving non-speech content for low rate celp decoder
HUE054780T2 (hu) * 2013-03-04 2021-09-28 Voiceage Evs Llc Kvantálási zaj csökkentésére szolgáló eszköz és módszer idõtartomány dekóderben

Also Published As

Publication number Publication date
US9384755B2 (en) 2016-07-05
WO2014134702A1 (en) 2014-09-12
CA2898095A1 (en) 2014-09-12
US9870781B2 (en) 2018-01-16
JP6790048B2 (ja) 2020-11-25
TR201910989T4 (tr) 2019-08-21
MX2015010295A (es) 2015-10-26
JP6453249B2 (ja) 2019-01-16
MX345389B (es) 2017-01-26
JP2021015301A (ja) 2021-02-12
PH12015501575A1 (en) 2015-10-05
JP2023022101A (ja) 2023-02-14
US20160300582A1 (en) 2016-10-13
FI3848929T3 (fi) 2023-10-11
DK3848929T3 (da) 2023-10-16
AU2014225223A1 (en) 2015-08-13
SI3537437T1 (sl) 2021-08-31
EP2965315A4 (en) 2016-10-05
AU2014225223B2 (en) 2019-07-04
EP4246516A3 (en) 2023-11-15
ES2872024T3 (es) 2021-11-02
LT3537437T (lt) 2021-06-25
KR20150127041A (ko) 2015-11-16
EP3537437A1 (en) 2019-09-11
EP3848929A1 (en) 2021-07-14
EP4246516A2 (en) 2023-09-20
DK3537437T3 (da) 2021-05-31
JP2019053326A (ja) 2019-04-04
HUE063594T2 (hu) 2024-01-28
CN111179954B (zh) 2024-03-12
US20140249807A1 (en) 2014-09-04
RU2015142108A (ru) 2017-04-11
LT3848929T (lt) 2023-10-25
SI3848929T1 (sl) 2023-12-29
HRP20211097T1 (hr) 2021-10-15
CA2898095C (en) 2019-12-03
EP3848929B1 (en) 2023-07-12
DK2965315T3 (da) 2019-07-29
KR102237718B1 (ko) 2021-04-09
JP2016513812A (ja) 2016-05-16
EP2965315B1 (en) 2019-04-24
CN105009209B (zh) 2019-12-20
EP3537437B1 (en) 2021-04-14
EP2965315A1 (en) 2016-01-13
HUE054780T2 (hu) 2021-09-28
JP7427752B2 (ja) 2024-02-05
JP7179812B2 (ja) 2022-11-29
HRP20231248T1 (hr) 2024-02-02
CN111179954A (zh) 2020-05-19
RU2638744C2 (ru) 2017-12-15
PH12015501575B1 (en) 2015-10-05
HK1212088A1 (en) 2016-06-03
CN105009209A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
ES2961553T3 (es) Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo
US10262667B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
ES2659838T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
RU2641461C2 (ru) Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
EP2290815A2 (en) Method and system for reducing effects of noise producing artifacts in a voice codec
RU2627102C2 (ru) Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
ES2687249T3 (es) Decisión no sonora/sonora para el procesamiento de la voz
JP2011527448A (ja) 帯域幅拡張出力データを生成するための装置および方法
ES2797092T3 (es) Técnicas de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio
TW201248618A (en) Noise-robust speech coding mode classification