ES2309969T3 - Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz. - Google Patents

Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz. Download PDF

Info

Publication number
ES2309969T3
ES2309969T3 ES06840370T ES06840370T ES2309969T3 ES 2309969 T3 ES2309969 T3 ES 2309969T3 ES 06840370 T ES06840370 T ES 06840370T ES 06840370 T ES06840370 T ES 06840370T ES 2309969 T3 ES2309969 T3 ES 2309969T3
Authority
ES
Spain
Prior art keywords
signal
envelopes
baselineskip
bandwidth
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06840370T
Other languages
English (en)
Inventor
Bernd Geiser
Peter Jax
Stefan Schandl
Herve Taddei
Aulis Telle
Peter Vary
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2309969T3 publication Critical patent/ES2309969T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Machine Translation (AREA)

Abstract

Procedimiento para la ampliación artificial de la anchura de banda de señales de voz, caracterizado por las siguientes etapas: a) puesta a disposición de una señal de voz de entrada de banda ancha (s i wb(k)); b) determinación de los componentes de señal (seb(k)) de la señal de voz de entrada de banda ancha (s i wb(k)) necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz de entrada de banda ancha (s i wb(k)); c) determinación de las envolventes en el tiempo de los componentes de señal (seb(k)) destinados a la ampliación de la anchura de banda; d) determinación de las envolventes espectrales de los componentes de señal (s eb(k)) destinados a la ampliación de la anchura de banda; e) codificación de las informaciones de las envolventes en el tiempo y de las envolvente espectrales y puesta a disposición de las informaciones codificadas para realizar la ampliación de la anchura de banda; f) decodificación de las informaciones codificadas y generación de las envolventes en el tiempo y de las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida (sºwb(k)) ampliada en ancho de banda.

Description

Procedimiento y dispositivo para la ampliación artificial de la anchura de banda de señales de voz.
La invención se refiere a un procedimiento así como a un dispositivo para la ampliación artificial de la anchura de banda de señales de voz.
Las señales de voz abarcan una amplia gama de frecuencias, que llega aproximadamente desde la frecuencia vocal básica, que en función del orador abarca la gama de entre 80 a 160 Hz, hasta las frecuencias más allá de 10 kHz. En la comunicación por voz a través de determinados medios de transmisión, como por ejemplo teléfonos, se transmite, desde luego por razones de eficiencia de la anchura de banda, sólo un fragmento limitado, quedando asegurada una comprensión de la frase de aproximadamente el 98%.
En función de la anchura de banda mínima especificada para el sistema telefónico de 300 Hz a 3,4 kHz, puede dividirse una señal de voz esencialmente en tres gamas de frecuencias. Cada una de estas gamas de frecuencias caracteriza al respecto características específicas de la voz, así como percepciones subjetivas. Así resultan frecuencias más bajas por debajo de unos 300 Hz esencialmente durante tramos de voz sonoros, tal como sucede por ejemplo con las vocales. Esta gama de frecuencias contiene en este caso componentes tonales, es decir, en particular la frecuencia vocal básica, así como, en función del registro, eventualmente algunos armónicos.
Para la percepción subjetiva del volumen y de la dinámica de una señal de voz, son esenciales estas frecuencias bajas. La frecuencia vocal básica puede percibirse por el contrario por un escuchante humano, debido a la característica psicoacústica de la percepción de la altura de tono virtual, también cuando faltan las frecuencias bajas de la estructura armónica en las gamas de frecuencias más altas. Así existen frecuencias intermedias en la zona de unos 300 Hz hasta aprox. 3,4 kHz en actividades de voz básicamente en la señal de voz. Su tonalidad espectral variable en el tiempo debida a varios formantes, así como la estructura fina temporal y espectral, caracterizan el sonido o fonema hablado en cada caso. De esta manera transportan las frecuencias medias la parte principal de las informaciones relevantes para la comprensión de la voz.
Por otro lado, resultan durante los sonidos áfonos, como es el caso de forma especialmente acusada en sonidos agudos, como por ejemplo "s" o "f", componentes de frecuencias elevados, por encima de unos 3,4 kHz. También presentan los llamados sonidos plosivos como "k" o "t" un espectro amplio con fuertes componentes de altas frecuencias. Por ello tiene la señal en esta gama superior de frecuencias más bien un carácter de murmullo que un carácter tonal. La estructura de los formantes existentes también en esta gama varía relativamente poco con el tiempo, pero es diferente para distintos oradores. Los componentes de frecuencias altas son de una importancia esencial para la claridad, la presencia y la naturalidad de una señal de voz, ya que sin estas componentes de frecuencias elevadas la voz suena sorda. Además, mediante tales componentes de frecuencias elevadas es posible una mejor diferenciación de fricativas y consonantes,
garantizando entonces estas componentes de frecuencias elevadas también una mayor inteligibilidad de la voz.
En una transmisión de una señal de voz a través de un sistema de comunicaciones por voz que presenta un canal de transmisión con una anchura de banda limitada, se desea básicamente siempre el objetivo de poder transmitir la señal de voz a transmitir con la mejor calidad posible desde un emisor hasta un receptor. No obstante, la calidad de la voz es entonces una magnitud subjetiva con múltiples componentes, de los cuales la inteligibilidad de la señal de voz es la más significativa para un sistema de comunicaciones por voz de este tipo.
En sistemas de transmisión modernos digitales, puede lograrse ya una inteligibilidad de la voz relativamente alta. Al respecto se sabe que mediante una ampliación de la anchura de la banda telefónica en frecuencias más elevadas (mayores que 3,4 kHz) así como también en frecuencias más bajas (inferiores a 300 Hz) es posible una mejora del enjuiciamiento subjetivo de la señal de voz. Para lograr una mejora subjetiva de la calidad, hay que esforzarse así por lograr una anchura de banda ampliada frente a la anchura de banda telefónica usual en sistemas para la comunicación de voz. Una posible base al respecto consiste en modificar la transmisión y provocar mediante procedimientos de codificación una anchura de banda transmitida más ancha o alternativamente realizar una ampliación de anchura de banda artificial. Mediante una ampliación de este tipo de la anchura de banda, se amplía en el lado receptor la anchura de banda de frecuencias a la gama de 50 Hz a 7 kHz. Mediante algoritmos de procesamiento de señal adecuados, se averiguan a partir de segmentos cortos de una señal de voz de banda estrecha con métodos de reconocimiento de muestras parámetros del modelo de banda ancha que a continuación se utilizan para una estimación de los componentes de señal que faltan de lo hablado. En el procedimiento se genera a partir de la señal de voz de banda estrecha una similar de banda ancha con componentes de frecuencias en la gama de 50 Hz a 7 kHz y una mejora de la calidad de la voz percibida subjetivamente.
En algoritmos actuales de codificación de señales de voz y de señales de audio se utilizan cada vez más técnicas de la ampliación de anchura de banda artificial. Por ejemplo se utilizan en la gama de banda ancha (banda ancha acústica de 50 Hz a 7 kHz) estándares de codificación de voz como el algoritmo de codificación-decodificación AMR-WB (Adaptive Multirate Wideband, banda ancha multivelocidad adaptiva). En este estándar AMR-WB se extrapolan las bandas parciales de frecuencias superiores (gama de frecuencias de aprox. 6,4 a 7 kHz) a partir de componentes de bajas frecuencias. En tales procedimientos de codificación-decodificación se genera la ampliación de la anchura de banda en general mediante una cantidad relativamente baja de informaciones auxiliares. Estas informaciones auxiliares pueden ser por ejemplo coeficientes de filtrado o factores de amplificación, pudiendo generarse los coeficientes de filtrado por ejemplo mediante un procedimiento LPC (Linear Prediction Filter, filtro de predicción lineal). Estas informaciones auxiliares se transmiten en un flujo de bits codificado a un receptor. Otros estándares que se basan en la ampliación de la técnica de anchura de banda pueden verse actualmente en los estándares AMR-WB+ y en el procedimiento de codificación de voz/audio aacPlus. Los procedimientos configurados para codificar y decodificar informaciones se denominan codecs e incluyen tanto un codificador como también un decodificador. Cada teléfono digital, independientemente de si está construido para una red fija o para una red de telefonía móvil, contiene un codec como el indicado, que convierte señales analógicas en digitales y digitales en analógicas. Un codec de este tipo puede estar realizado en hardware o en software.
Un ejemplo de una ampliación artificial de la anchura de banda de una señal de voz, en el que se transmiten informaciones auxiliares en un flujo de bits codificado a un receptor, se da a conocer en el documento Valin J. y colab.: "Extensión de la anchura de banda vocal de banda estrecha para la codificación de banda ancha de baja velocidad de bits", actas del WORKSHOP IEEE de Codificación de Voz, 17-20 septiembre 2000, Piscataway (USA), IEEE, 17 septiembre 2000, páginas 130-132, XP010520065.
En realizaciones actuales de algoritmos de codificación de voz/audio en las que se utiliza la técnica de la ampliación de la anchura de banda, se codifican y decodifican componentes de una banda de ampliación, por ejemplo en la gama de frecuencias de 6,4 a 7 kHz, mediante la ya mencionada técnica de codificación LPC. Entonces se realiza en un codificador un análisis LPC de la banda de ampliación de la señal de entrada y se codifican los coeficientes LPC, así como los factores de amplificación de tramas secundarias de una señal residual. En un decodificador se genera la señal residual de la banda de ampliación y se utilizan los factores de amplificación transmitidos y los filtros de síntesis LPC para generar una señal de salida. El proceder antes descrito puede utilizarse bien directamente sobre la señal de entrada de banda ancha o bien también en una señal de banda parcial muestreada hacia abajo en la zona límite o bien en la zona crítica de la banda de ampliación.
En el estándar de codificación aacPlus ampliado se utiliza la técnica SBR (Spectral Band Replication, reproducción de banda espectral). Entonces se fracciona la señal de audio de banda ancha mediante un banco de filtros QMF de 64 canales en bandas parciales de frecuencias. Para los canales del banco de filtros de frecuencias altas se utiliza una codificación paramétrica sofisticada y de alto desarrollo técnico en las bandas parciales de los componentes de la señal, necesitándose y empleándose para ello una gran cantidad de detectores y estimadores para controlar los contenidos del flujo de bits. Aún cuando en los estándares y procedimientos de codificación-decodificación conocidos puede lograrse ya una mejora en particular de la calidad de la voz de señales de voz, hay que esforzarse no obstante en lograr una mejora adicional de esta calidad de voz. Además, los estándares y procedimientos de codificación-decodificación antes descritos son muy costosos y presentan una estructura muy compleja.
La presente invención tiene por lo tanto la tarea básica de lograr un procedimiento y un dispositivo para la ampliación artificial de la anchura de banda de señales de voz con los que pueda lograrse una calidad de voz mejorada y una inteligibilidad de voz mejorada. Esto debe poder realizarse además de una manera relativamente sencilla y económica.
Esta tarea se resuelve mediante un procedimiento que presenta las características de la reivindicación 1 y un dispositivo que presenta las características de la reivindicación 23.
En un procedimiento correspondiente a la invención para la ampliación artificial de la anchura de banda de señales de voz, se realizan las siguientes etapas:
a)
poner a disposición una señal de voz de entrada de banda ancha;
b)
determinación de los componentes de señal de la señal de voz de entrada de banda ancha necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz de entrada de banda ancha;
c)
determinación de las envolventes en el tiempo de los componentes de señal destinados a la ampliación de la anchura de banda;
d)
determinación de las envolventes espectrales de los componentes de señal destinados a la ampliación de la anchura de banda;
e)
codificación de las informaciones de las envolventes en el tiempo y de las envolventes espectrales y puesta a disposición de las informaciones codificadas para realizar la ampliación de la anchura de banda; y
f)
decodificación de las informaciones codificadas y generación de las envolventes en el tiempo y de las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida ampliada en anchura de banda.
Mediante el procedimiento correspondiente a la invención puede lograrse una mejora de la inteligibilidad de la voz y de la calidad de la voz en la transmisión de señales de voz, entendiéndose bajo señales de voz también señales de audio. Además, el procedimiento correspondiente a la invención es muy robusto frente a perturbaciones en la transmisión.
De manera ventajosa, se determinan los componentes de señal necesarios para la ampliación de la anchura de banda mediante un filtrado, en particular un filtrado pasabanda, a partir de la señal de voz de entrada de banda ancha, con lo que puede realizarse una selección sencilla y económica de los componentes de señal necesarios.
La determinación de las envolventes en el tiempo en la etapa c) se realiza preferentemente con independencia de la determinación de las envolventes espectrales en la etapa d). De esta manera se realiza la determinación de las envolventes de manera precisa, con lo que puede evitarse una influencia mutua.
De manera preferente, se realiza antes de la codificación de las envolventes en el tiempo y de las envolventes espectrales en la etapa e) una cuantificación de las envolventes en el tiempo y de las envolventes espectrales. De manera ventajosa se determinan en la etapa d) para la determinación de las envolventes espectrales, las potencias de señal de bandas parciales espectrales de los componentes de señal destinados a la ampliación de la anchura de banda. La determinación de lo necesario para la caracterización de las envolventes en el tiempo y de las envolventes espectrales, puede realizarse de esta manera con mucha exactitud.
Para determinar las potencias de las señales de las bandas parciales espectrales, se generan de manera preferente segmentos de señal de los componentes de señal destinados a la ampliación de la anchura de banda, transformándose en particular estos segmentos de señal, en particular transformándose en FF (Fast Fourier, Fourier rápida). Además, se determinan de manera ventajosa en la etapa c) para la determinación de las envolventes en el tiempo las potencias de señal de segmentos de señal en el tiempo de los componentes de señal destinados a la ampliación de la anchura de banda. De esta manera se realiza de manera económica la determinación de los parámetros necesarios.
De manera ventajosa se decodifican en la etapa f) las informaciones codificadas para formar reconstruyendo las envolventes en el tiempo y las envolventes espectrales.
Una señal de activación se genera de manera ventajosa en un decodificador a partir de una señal transmitida al decodificador, presentando la señal transmitida una potencia de señal en la gama de frecuencias tal que se corresponde con la de la señal de ampliación de la señal de voz de entrada de banda ancha, que permite una generación de una señal de activación. Al decodificador se transmite preferentemente una señal de banda estrecha modulada con una zona de banda con frecuencias por debajo de las frecuencias de la zona de banda de la banda de ampliación de la señal de voz de entrada de banda ancha para generar la señal de activación. La señal de activación presenta preferentemente armónicos de la frecuencia básica de la señal transmitida al decodificador.
A partir de las informaciones decodificadas de las envolventes en el tiempo y de la señal de activación, se determina de manera ventajosa un primer factor de corrección. Además, se realiza a partir del primer factor de corrección y de la señal de activación una formación reconstructora de las envolventes en el tiempo, en particular mediante una multiplicación del primer factor de corrección por la señal de activación. Además, se filtra de manera ventajosa la formación reconstruida de las envolventes en el tiempo y en el filtrado se generan respuestas de impulsos. A partir de las respuestas de impulsos y de la formación reconstruida de las envolventes en el tiempo, se realiza una formación reconstructora de las envolventes espectrales. Además, se reconstruyen a partir de la formación reconstruida de las envolventes espectrales las componentes de señal de la banda de ampliación de la señal de voz de entrada de banda ancha. La reconstrucción de las envolventes en el tiempo y de las envolventes espectrales puede de esta manera realizarse de manera muy fiable y muy exacta.
Al decodificador se transmite en una ejecución ventajosa una señal de banda estrecha con una zona de banda con frecuencias por debajo de las frecuencias de la banda de ampliación de la señal de entrada de banda ancha.
La señal de voz de salida ampliada en anchura de banda se determina de manera ventajosa a partir de la señal de banda estrecha transmitida al decodificador y de la formación reconstruida de las envolventes espectrales, en particular a partir de una suma de estas dos señales y se pone a disposición como señal de salida del decodificador. De esta manera puede generarse y ponerse a disposición una señal de salida que asegura una elevada inteligibilidad de la voz y calidad de la voz.
Las etapas a) a e) se realizan de manera preferente en un codificador, que preferente está dispuesto en un emisor. Las informaciones codificadas generadas en la etapa e) se transmiten de manera ventajosa como señal digital al decodificador. Al menos la etapa f) se realiza de manera preferente en un receptor, estando dispuesto el decodificador en el receptor. No obstante, puede estar previsto también que todas las etapas a) a f) del procedimiento correspondiente a la invención se realicen en un receptor. En este caso se sustituyen las etapas a) a e) en el receptor por un procedimiento de estimación (a realizar de otra manera). Las etapas a) a e) pueden realizarse también separadamente en un
emisor.
La señal de voz de entrada de banda ancha incluye de manera ventajosa una anchura de banda entre unos 50 Hz y unos 7 kHz. La banda de ampliación de la señal de voz de entrada de banda ancha incluye preferentemente la gama de frecuencias de unos 3,4 kHz hasta unos 7 kHz. Además, incluye la señal de banda estrecha una gama de señales de la señal de voz de entrada de banda ancha de unos 50 Hz hasta unos 3,4 kHz.
\newpage
Un dispositivo correspondiente a la invención para la ampliación artificial de la anchura de banda de señales de voz al que puede aplicarse una señal de voz de entrada de banda ancha incluye al menos los siguientes componentes:
a)
elementos para determinar los componentes de señal de la señal de voz de entrada de banda ancha necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz entrada de banda ancha;
b)
medios para determinar las envolventes en el tiempo de los componentes de señal destinados a la ampliación de la anchura de banda;
c)
medios para determinar las envolventes espectrales de los componentes de señal destinados a la ampliación de la anchura de banda;
d)
un codificador para codificar las envolventes en el tiempo y las envolventes espectrales y poner a disposición las informaciones codificadas para realizar la ampliación de la anchura de banda; y
e)
un decodificador para decodificar las informaciones codificadas y generar las envolventes en el tiempo y las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida ampliada en anchura de banda.
El dispositivo correspondiente a la invención posibilita una mejor calidad de voz y una mejor inteligibilidad de voz de las señales de voz en la transmisión en aparatos de comunicaciones, como por ejemplo aparatos terminales de telefonía móvil o aparatos ISDN.
Los medios en a) hasta d) están configurados de manera ventajosa como codificadores. El codificador puede estar dispuesto en un emisor o en un receptor, estando dispuesto el decodificador en un receptor.
Ventajosas mejoras del procedimiento correspondiente a la invención pueden considerarse, siempre que sean transferibles, también como mejoras ventajosas del dispositivo correspondiente a la invención.
\vskip1.000000\baselineskip
A continuación se describirá más en detalle un ejemplo de ejecución de la invención en base a dibujos esquemáticos. Se muestra en:
figura 1 un codificador de un dispositivo correspondiente a la invención; y
figura 2 un decodificador de un dispositivo correspondiente a la invención.
\vskip1.000000\baselineskip
En la invención descrita más en detalle a continuación se incluye en el concepto de señales de voz también señales de audio. En las figuras 1 y 2 se han dotado los mismos elementos o elementos funcionalmente iguales de las mismas referencias.
En la figura 1 se muestra una representación esquemática de un diagrama de bloques de un codificador 1 de un dispositivo correspondiente a la invención para la ampliación artificial de la anchura de banda de señales de voz. El codificador 1 puede estar realizado tanto en hardware como también en software como algoritmo. El codificador 1 incluye en el ejemplo de ejecución un bloque 11, configurado para el filtrado pasabanda de una señal de voz de entrada de banda ancha s^{i}_{wb}(k). Además, incluye el codificador 1 un bloque 12 y un bloque 13, conectados con el bloque 11. El bloque 12 está configurado entonces para determinar las envolventes en el tiempo de los componentes de señal destinados a la ampliación de la anchura de banda, que se determinan a partir de una banda de ampliación de la señal de voz de entrada de banda ancha. De la manera correspondiente, está configurado el bloque 13 para determinar las envolventes espectrales de los componentes de señal destinados a la ampliación de la anchura de banda, que se determinan a partir de la banda de ampliación de la señal de voz de entrada de banda ancha.
Además, puede observarse en la representación de la figura 1 que el bloque 12 y el bloque 13 están conectados con un bloque 14, estando configurado el bloque 14 para la cuantificación de las envolventes en el tiempo, así como de las envolventes espectrales, que se generan mediante los bloques 12 y 13.
En la figura 1 se muestra además un bloque 2, configurado como filtro pasabanda, y al que se aplica la señal de voz de entrada de banda ancha s^{i}_{wb}(k). El bloque 2 está además conectado con otro bloque 3, estando configurado el bloque 3 como otro codificador.
En el ejemplo de ejecución, el codificador 1, así como los bloques 2 y 3, están dispuestos en un primer aparato telefónico. La señal de voz de entrada de banda ancha presenta en el ejemplo de ejecución una anchura de banda de unos 50 Hz hasta unos 7 kHz. Según la invención, tal como se observa en la representación de la figura 1, se aplica esta señal de voz de entrada de banda ancha s^{i}_{wb}(k) al filtro pasabanda o bloque 11 del codificador 1. Mediante este bloque 11 se determinan los componentes de señal necesarios para la ampliación de la anchura de banda a partir de la banda de ampliación, que en el ejemplo de ejecución abarca un anchura de banda desde unos 3,4 kHz hasta unos 7 kHz. Los componentes de señal necesarios para la ampliación de la anchura de banda se caracterizan por la señal s_{eb}(k) y se transmiten como señal de salida del bloque 11 a ambos bloques 12 y 13. En el bloque 12 se determina entonces a partir de esta señal s_{eb}(k) la envolvente en el tiempo. De la manera correspondiente se determina en el bloque 13 la envolvente espectral de los componentes de señal que están caracterizados por la señal s_{eb}(k).
A continuación se describe más en detalle esta determinación de la envolvente en el tiempo, así como de la envolvente espectral. Al respecto se segmenta primeramente la señal s_{eb}(k) caracterizadora de los componentes de señal necesarios para la ampliación de la anchura de banda y se transforman estos segmentos de señal colocados en ventanas. La segmentación de la señal s_{eb}(k) se realiza en tramas con una longitud de en cada caso k valores de exploración. Todos los siguientes pasos y algoritmos parciales se realizan por lo general referidos a la trama. Cada trama de voz (por ejemplo con 10 ms ó 20 ms ó 30 ms de duración) puede subdividirse de manera ventajosa en varias tramas secundarias (duración por ejemplo 2,5 ó 5 ms).
Los segmentos de señal colocados en ventanas se transforman entonces. En el ejemplo de ejecución se realiza entonces una transformación en el campo de frecuencias mediante una FFT (Fast Fourier Transform, transformación rápida de Fourier). Los segmentos de señal transformados mediante FFT se determinan entonces mediante la siguiente fórmula 1):
1
\vskip1.000000\baselineskip
En esta fórmula 1) designa N_{f} la longitud FFT o bien el tamaño de la trama, \mu designa el índice de la trama y M_{f} designa el solape de las tramas de los segmentos de señal colocados en ventanas. Además, w_{f}(k) designa la función de ventana. A continuación se calcula en el campo de las frecuencias la potencia de señal en bandas parciales de la gama de frecuencias de la banda de ampliación. Este cálculo de la intensidad de señal o bien de la potencia de señal se realiza según la siguiente fórmula 2):
\vskip1.000000\baselineskip
2
\vskip1.000000\baselineskip
En esta fórmula 2) designa \lambda el índice de la correspondiente banda parcial, caracterizando EB_{\lambda} aquel conjunto que contiene todas las gamas de intervalos FFT i con coeficientes que no son cero en la ventana del campo de frecuencias número \lambda w_{\lambda}(i). Las potencias de señal P_{f}(\mu,\lambda) de las bandas parciales según la fórmula 2) caracterizan las informaciones de las envolventes espectrales que se transmiten a un decodificador.
La determinación de las envolventes en el tiempo en el campo del tiempo se realiza de manera similar a la determinación de las envolventes espectrales y se basa en segmentos breves colocados en ventanas de la señal de voz de entrada de banda ancha filtrada por el pasabanda s^{i}_{wb}(k). Se tienen en cuenta así también en la determinación de las envolventes en el tiempo segmentos de señal de la señal s_{eb}(k). Para cada segmento colocado en ventanas se calcula la potencia de señal según la siguiente fórmula 3):
3
En esta fórmula 3) designa N_{t} la longitud de la trama, \mu designa el índice de la trama y M_{t} a su vez el solape de tramas de los segmentos de señal. Es de señalar que en general la longitud de la trama N_{t} y el solape de las tramas M_{t} que se utilizan para extraer las envolventes en el tiempo son inferiores o bien muy inferiores a las correspondientes magnitudes N_{f} y M_{f} que se utilizan para determinar las envolventes espectrales.
Una alternativa a la extracción de los parámetros de las envolventes en el tiempo a partir de la señal s_{eb}(k) ha de considerarse que es que se realiza una transformación de Hilbert (90º filtro de desplazamiento de fase) de la señal s_{eb}(k).
Una suma de las potencias de señal de segmento corto de las partes filtradas y de las partes originales de la señal s_{eb}(k)
da como resultado las envolventes breves en el tiempo, que se muestrean hacia abajo para determinar las potencias de señal P_{t}(\mu). Las potencias de señal P_{t}(\nu) de los segmentos de señales caracterizan entonces las informaciones de las envolventes en el tiempo.
Las señales S_{Pt(\nu)} y S_{Pf(\mu,\lambda)} respectivamente, que caracterizan las envolventes en el tiempo y las envolventes espectrales, que caracterizan los parámetros extraídos de las potencias de señal según las fórmulas 2) y 3), se cuantifican y codifican en el bloque 14. La señal de salida del bloque 14 es una señal digital BWE que caracteriza un flujo de bits que contiene de forma codificada informaciones de las envolventes en el tiempo y de las envolventes espectrales.
Esta señal digital BWE se trasmite a un decodificador, que se describirá más en detalle a continuación. Es de señalar que para una redundancia entre los parámetros extraídos de las intensidades de señal según las fórmulas 2) y 3) puede realizarse una codificación común o bien de enlace, tal como la que es posible por ejemplo mediante una cuantificación del vector.
Como además puede observarse en la representación de la figura 1, se transmite la señal de voz de entrada de banda ancha s^{i}_{wb}(k) también al bloque 2. Mediante este bloque 2 configurado como filtro pasabanda se filtran los componentes de señal de una zona de banda estrecha de la señal de voz de entrada de banda ancha s^{i}_{wb}(k). La zona de banda ancha se encuentra en el ejemplo de ejecución entre 50 Hz y 3,4 kHz. La señal de salida del bloque 2 es una señal de salida de banda estrecha s_{nb}(k) y se transmite al bloque 3, que en el ejemplo de ejecución está configurado como otro codificador. En este bloque 3 se codifica la señal de banda estrecha s_{nb}(k) y se transmite como señal digital BWN como flujo de bits al decodificador descrito a continuación.
En la figura 2 se muestra una representación esquemática de diagrama de bloques de un decodificador 5 como el indicado de un dispositivo correspondiente a la invención para la ampliación artificial de la anchura de banda de señales de voz. Tal como puede observarse en la figura 2, se transmite la señal digital BWN primeramente a otro decodificador 4, que decodifica las informaciones contenidas en la señal digital BWN y a partir de ello genera a su vez la señal de banda estrecha s_{nb}(k). Además, genera el decodificador 4 otra señal s_{si}(k), que contiene informaciones auxiliares. Estas informaciones auxiliares pueden ser por ejemplo factores de amplificación o coeficientes de filtrado. Esta señal s_{si}(k) se transmite a un bloque 51 del decodificador 5. El bloque 51 está configurado en el ejemplo de ejecución para generar una señal de activación en la gama de frecuencias de la banda de ampliación, teniéndose en cuenta para ello las informaciones de la señal s_{si}(k).
Además, presenta el decodificador 5, que en el ejemplo de ejecución está dispuesto en un receptor, un bloque 52, que está configurado para decodificar la señal BWE transmitida a través de un tramo de transmisión entre el codificador 1 y el decodificador 2. Señalemos que también la señal digital BWN se transmite a través de este tramo de transmisión entre el codificador 1 y el decodificador 5. Tal como se observa en la representación de la figura 2, están conectados tanto el bloque 51 como también el bloque 52 con zonas del decodificador 53 a 55. El principio funcional del decodificador 5 o bien los pasos parciales realizados en el decodificador 5 del procedimiento correspondiente a la invención, se describirán más en detalle a continuación.
Tal como ya se ha indicado antes, se decodifican en el bloque 52 las informaciones contenidas en la señal digital codificada BWE y se reconstruyen las potencias de señal que se calculan según las fórmulas 2) y 3) y que caracterizan la envolvente en el tiempo y la envolvente espectral. Tal como puede observarse en la representación de la figura 2, la señal de activación s_{exc}(k) generada en el bloque 51 es la señal de entrada para la formación reconstructora de las envolventes en el tiempo y de las envolventes espectrales. Esta señal de activación s_{exc}(k) puede ser entonces esencialmente cualquier señal, rigiendo como premisa esencial para esta señal que presente una suficiente potencia de señal en la gama de frecuencias de la banda de ampliación de la señal espectral de entrada de banda ancha s^{i}_{wb}(k). Por ejemplo puede utilizarse como señal de activación s_{exc}(k) una versión modulada de la señal de banda estrecha s_{nb}(k) o también cualquier ruido. Tal como ya se ha mencionado, esta señal de activación s_{exc}(k) es responsable de la estructuración fina de las envolventes espectrales y de las envolventes en el tiempo en los componentes de señal de la banda de ampliación de una señal de voz de salida de banda ancha sº_{wb}(k). Por esta razón es ventajoso que esta señal de activación s_{exc}(k) se genere de tal manera que presente los armónicos de la frecuencia básica de la señal de banda estrecha s_{nb}(k).
En el caso de codificaciones de voz jerárquicas existe una posibilidad de lograr esto utilizando parámetros del otro decodificador 4. Si por ejemplo es \Delta_{k} un desplazamiento proporcional o de valor real de la frecuencia de base y b el factor de amplificación LTB de un libro de código adaptivo en un codificador de banda estrecha CELP, entonces es posible por ejemplo una activación con frecuencias armónicas para un múltiplo entero de la frecuencia básica momentánea mediante un filtrado de síntesis LTP de un filtro pasabanda (gama de frecuencias de la banda de ampliación) a partir de una señal arbitraria n_{eb}(k).
La señal de activación resulta entonces según la siguiente fórmula 4):
4
El factor de amplificación LTP puede ser reducido o limitado entonces mediante la función f(b), para poder evitar una tendencia a la predominancia de los componentes de señal generados de la banda de ampliación. Señalemos que puede realizarse un conjunto de otras alternativas para poder realizar una activación sintética de banda ancha mediante parámetros de un codec de banda estrecha.
Otra posibilidad adicional de generar una señal de activación consiste en que una modulación de la señal de banda estrecha s_{nb}(k) se realice con una función senoidal con una frecuencia fija o mediante la utilización directa de una señal arbitraria n_{eb}(k), tal como ya se ha definido antes. Destaquemos que el procedimiento que se utiliza para generar la señal de activación s_{exc}(k) es totalmente independiente de la generación de la señal digital BWE, así como del formato de esta señal digital BWE y así como de la decodificación de esta señal digital BWE. Por ello puede realizarse a este respecto un ajuste independiente.
A continuación se describirá más en detalle la formación reconstructora de las envolventes en el tiempo. La señal digital BWE se decodifica, tal como ya se ha indicado, en el bloque 52 y los parámetros caracterizadores de las envolventes en el tiempo y de las envolventes espectrales de la potencia de la señal, que se calculan según las fórmulas 2) y 3), se ponen a disposición según las señales S_{Pt(\nu)} y S_{Pf(\mu,\lambda)}. Tal como se observa al respecto en la representación de la figura 2, se realiza en el ejemplo de ejecución primeramente una formación reconstructora de las envolventes en el tiempo. Esto se realiza en la zona del decodificador 53. Para ello se transmiten la señal de activación s_{exc}(k), así como la señal S_{Pt(\nu)}, a esta zona del decodificador 53. Tal como se muestra en la figura 2, se transmite la señal de activación s_{exc}(k) tanto a un bloque 531 como también a un multiplicador 532. Al bloque 531 se transmite también la señal S_{Pt(\nu)}. A partir de estas señales transmitidas al bloque 531, se genera un factor de corrección escalar g_{1}(k). Este factor escalar de corrección g_{1}(k) se transmite desde el bloque 531 al multiplicador 532. En el multiplicador 532 se multiplica entonces la señal de activación s_{exc}(k) por este factor escalar de corrección g_{1}(k) y se genera una señal de salida s'_{exc}(k), que caracteriza la formación reconstruida de las envolventes en el tiempo. Esta señal de salida s'_{exc}(k) presenta las envolventes en el tiempo aproximadamente correctas, pero en cuanto a la frecuencia correcta aún es inexacta e imprecisa, con lo que en la siguiente etapa es necesario realizar una formación reconstructora de las envolventes espectrales, para adaptar esta frecuencia imprecisa a la frecuencia necesaria.
Tal como se observa al respecto en la figura 2, se transmite la señal de salida s'_{exc}(k) a una segunda zona 54 del decodificador 5, a la que se transmite también la señal S_{Pf(\mu,\lambda)}. La segunda zona del decodificador 54 presenta un bloque 541 y un bloque 542, estando diseñado el bloque 541 para el filtrado de la señal de salida s'_{exc}(k). A partir de la señal de salida s'_{exc}(k) y de la señal S_{Pf(\mu,\lambda)} se genera una respuesta de impulso h(k), que se transmite desde el bloque 541 al bloque 542. En este bloque 542 se realiza entonces a partir de la señal de salida s'_{exc}(k) y de la respuesta de impulso h(k) la formación reconstructora de las envolventes espectrales. Esta envolvente espectral reconstruida se caracteriza entonces mediante la señal de salida s'_{exc}(k) del bloque 542.
En el ejemplo de ejecución mostrado según la figura 2, se realiza a continuación de la generación de la señal de salida s'_{exc}(k) de la segunda zona del decodificador 54 de nuevo una formación reconstructora de las envolventes en el tiempo en una tercera zona 55 del decodificador 5. Esta formación reconstructora de las envolventes en el tiempo se realiza análogamente a como se realiza en la primera zona del decodificador 53. Entonces se genera en esta tercera zona del decodificador 55 a partir de la señal de salida s'_{exc}(k) y de la señal S_{Pt(\nu)} mediante el bloque 551 un segundo factor de corrección escalar g_{2}(k), que se transmite a un multiplicador 552. Como señal de salida de la tercera zona 55 del decodificador 5, se pone a disposición entonces la señal s_{eb}(k) caracterizadora de los componentes de señal necesarios para la ampliación de la anchura de banda. Esta señal s_{eb}(k) se transmite a un sumador 56, al que se transmite también la señal de banda estrecha s_{nb}(k). Mediante la suma de la señal de banda estrecha s_{nb}(k) y de la señal s_{eb}(k) se genera la señal de salida ampliada en anchura de banda sº_{wb}(k) y se pone a disposición como señal de salida del decodificador 5.
Señalemos que la ejecución mostrada en la figura 2 es sólo a modo de ejemplo y para la invención ya es suficiente una única formación reconstructora de la envolvente en el tiempo, tal como se realiza en la primera zona del decodificador 53, y una única formación reconstructora de las envolventes espectrales, tal como se realiza en la segunda zona del decodificador 54. Igualmente señalemos que también puede estar previsto que la formación reconstructora de las envolventes espectrales se realice en la segunda zona del decodificador 54 antes de la formación reconstructora de las envolventes en el tiempo en la primera zona del decodificador 53. Esto significa que la segunda zona decodificadora 54 está dispuesta en una ejecución como la indicada delante de la primera zona decodificadora 53. Igualmente puede no obstante estar previsto también que la realización alternada de una formación reconstructora de las envolventes en el tiempo y una formación reconstructora de las envolventes espectrales prosiga de nuevo y por ejemplo en la ejecución mostrada en la figura 2 esté dispuesta a continuación de la tercera zona del decodificador 55 otra zona del decodificador, en la que de nuevo se realiza una formación reconstructora de la envolvente espectral.
Tal como ya se ha indicado anteriormente, se utiliza la invención en el ejemplo de ejecución de manera ventajosa para una señal de voz de entrada de banda ancha con una gama de frecuencias de unos 50 Hz hasta 7 kHz. Igualmente está prevista la invención en el ejemplo de ejecución para la ampliación artificial de la anchura de banda de señales de voz, estando predeterminada entonces la banda de ampliación mediante la gama de frecuencias de unos 3,4 kHz hasta unos 7 kHz. No obstante, puede también estar previsto que la invención se utilice para una banda de ampliación que está situada en una gama de frecuencias de baja frecuencia. Por ejemplo, puede incluir la banda de ampliación entonces una gama de frecuencias de unos 50 Hz, o también incluso frecuencias más inferiores, hasta una gama de frecuencias de unos 3,4 kHz. Subrayemos explícitamente que el procedimiento correspondiente a la invención para la ampliación artificial de la anchura de banda de señales de voz también puede utilizarse tal que la banda de ampliación incluya una gama de frecuencias que se encuentre al menos parcialmente por encima de una frecuencia de unos 7 kHz y por ejemplo alcance hasta 8 kHz, en particular 10 kHz, o aún más altas.
Tal como ya se ha descrito, se genera una formación reconstructora de las envolventes en el tiempo en la primera zona del decodificador 53 según la figura 2 mediante una multiplicación del primer factor de corrección escalar g_{1}(k) y la señal de activación s_{exc}(k). Al respecto ha de tenerse en cuenta que una multiplicación en el campo del tiempo se corresponde con una operación de plegado en el campo de frecuencias, con lo que resultan las siguientes fórmulas 5):
5
Mientras que la envolvente espectral no se modifique en principio mediante la primera zona del decodificador 53, debe presentar el primer factor escalar de corrección o bien factor de amplificación g_{1}(k) características estrictas de frecuencia de pasobajo.
Para calcular este factor de amplificación o bien este primer factor de corrección g_{1}(k), se segmenta y analiza la señal de activación s_{exc}(k) tal como ya se ha realizado antes para la segmentación y el análisis de la extracción de las envolventes en el tiempo o bien de la generación de la señal S_{Pt(\nu)} a partir de la señal s_{eb}(k) en el codificador 1 mediante el bloque 12. La relación entre la potencia de señal decodificada, tal como se calcula mediante la fórmula 3) y el resultado analizado de la intensidad de señal P_{t}^{exc}(\nu) conduce a un factor de amplificación deseado \gamma(\nu) para el segmento de señal número \nu. Este factor de amplificación del segmento de señal número \nu se calcula según la siguiente fórmula 6):
6
A partir de este factor de amplificación \gamma(\nu) se calcula el factor de amplificación o bien el primer factor de corrección g_{1}(k) mediante una interpolación y un filtrado pasobajo. El filtrado pasobajo es al respecto de importancia decisiva, para limitar la influencia de este factor de amplificación o bien de este primer factor de corrección g_{1}(k) sobre la envolvente espectral.
La formación reconstructora de las envolventes espectrales de los componentes de señal necesarios de la banda de ampliación se determina mediante un filtrado de la señal de salida s'_{exc}(k), que caracteriza la formación reconstruida de las envolventes en el tiempo. La operación de filtrado puede entonces implementarse en el campo del tiempo o en el campo de las frecuencias. Para poder evitar una gran dispersión en el tiempo o bien una gran extensión en el tiempo de la respuesta de impulso h(k), puede alisarse la correspondiente característica de frecuencia H(z). Para poder determinar las características de frecuencia deseadas, se analiza la señal de salida s'_{exc}(k) de la primera zona del decodificador 53, para poder encontrar las potencias de señal de P_{f}^{exc}(\mu,\lambda). El factor de amplificación deseado \Phi(\mu,\lambda) de la correspondiente banda parcial de la gama de frecuencias de la banda de ampliación, se calcula según la siguiente fórmula 7):
7
La característica de frecuencias H(\mu,i) del filtro formador de las envolventes espectrales puede calcularse mediante una interpolación del factor de amplificación \Phi(\mu,\lambda) y con un alisamiento teniendo en cuenta la frecuencia. En el caso de que el filtro formador de las envolventes espectrales deba utilizarse en el campo del tiempo, por ejemplo mediante un filtro lineal de fase FIR, pueden calcularse los coeficientes de filtrado mediante una transformación FF inversa de la característica de frecuencias H(\mu,i) y una ventanización subsiguiente.
Tal como se ha descrito y mostrado según las explicaciones anteriores, influye la formación reconstructora de las envolventes en el tiempo sobre la formación reconstructora de las envolventes espectrales y a la inversa. Por ello es ventajoso que se realice, tal como se ha descrito en el ejemplo de ejecución y representado en la figura 2, una realización alternada de una formación reconstructora de una envolvente en el tiempo y de una envolvente espectral en un proceso iterativo. De esta manera puede lograrse una coincidencia bastante mejorada de las envolventes en el tiempo y de las envolventes espectrales de los componentes de señal de la banda de ampliación que se reconstruyen en el decodificador y de las correspondientes envolventes en el tiempo y espectrales generadas en el codificador.
En el ejemplo de ejecución descrito según la figura 2, se realiza una iteración de una vez y media (reconstrucción de las envolventes en el tiempo, reconstrucción de las envolventes espectrales y de nuevo reconstrucción de las envolventes en el tiempo). Una ampliación de la anchura de banda tal como la que es posible mediante la invención, facilita la generación de una señal de activación con armónicos en la frecuencia correcta, por ejemplo para un múltiplo entero de la frecuencia básica del sonido momentáneo. Es de observar que la invención puede utilizarse también en componentes de señal de las bandas parciales de la señal de entrada de banda ancha muestreados hacia abajo. Esto el ventajoso cuando se exige un bajo coste en cálculo.
De manera ventajosa, se disponen el codificador 1 así como los bloques 2 y 3 en un emisor, realizándose entonces lógicamente también las etapas de procedimiento realizadas en los bloques 2 y 3, así como en el codificador 1, también en el emisor. El bloque 4 así como el decodificador 5 pueden estar dispuestos de manera ventajosa en un receptor, con lo que también de esta manera queda claro que los pasos previos realizados en el decodificador 5 y en el bloque 4 se procesan en el receptor. Es de observar que la invención también puede estar realizada tal que las etapas de procedimiento realizadas en el codificador 1 se realicen en el decodificador 5 y con ello exclusivamente se realicen en el receptor. Al respecto puede estar previsto que las potencias de señal que se calculan según las fórmulas 2) y 3) se estimen en el decodificador 5. En particular está configurado entonces el bloque 52 para estimar estos parámetros de las potencias de señal. Esta ejecución posibilita ocultar potenciales errores de transmisión de las informaciones auxiliares transmitidas en la señal digital BWE. Mediante una estimación transitoria de parámetros perdidos de un envolvente, por ejemplo mediante una pérdida de datos, puede evitarse una molesta conmutación de la anchura de banda de la señal.
A diferencia de los procedimientos conocidos para la ampliación artificial de la anchura de banda de señales de voz, no se realiza en la invención ninguna transmisión de factores de amplificación y coeficientes de filtrado ya utilizados como informaciones auxiliares, sino solamente se transmiten las envolventes en el tiempo y espectrales deseadas como informaciones auxiliares a un decodificador. Los factores de amplificación y los coeficientes de filtrado se calculan sólo en el decodificador, que está dispuesto en un receptor. De esta manera puede lograrse que de manera económica pueda analizarse y dado el caso corregirse la ampliación artificial de la anchura de banda en el receptor. Además, el procedimiento correspondiente a la invención, así como el dispositivo correspondiente a la invención, son muy robustos frente a perturbaciones de la señal de activación, pudiendo provocarse por ejemplo una perturbación de este tipo de una señal de banda estrecha recibida por errores de transmisión.
Mediante una realización separada del análisis, de la transmisión y de la formación reconstructora de las envolventes en el tiempo y espectrales, es posible lograr que tanto en el campo del tiempo como también en el campo de las frecuencias una resolución o bien subdivisión muy buena en el campo del tiempo y en el campo de las frecuencias. Esto da lugar a una reproducibilidad muy buena tanto de sonidos y tonos fijos como también de señales transitorias o bien cortas. Para señales de voz, se aprovecha en particular la reproducción de consonantes de parada y plosivas de la resolución en tiempo muy mejorada.
Contrariamente a ampliaciones de anchura de banda tradicionales, puede realizarse mediante la invención la formación de frecuencias mediante filtro FIR de fase lineal en lugar de filtros de síntesis LPC. De esta manera puede lograrse también reducir artefactos típicos ("filter ringing" o adición de ruido en las transiciones). Además, posibilita la invención una forma constructiva muy flexible y modular, que posibilita además que los distintos bloques en el receptor o bien en el decodificador 5 puedan sustituirse o ajustarse de manera sencilla. De manera ventajosa, no es necesaria para una tal modificación o ajuste ninguna modificación del emisor o bien del codificador 1 o del formato de la señal de transmisión con el que se transmiten las informaciones codificadas al decodificador 5 o bien el receptor. Además, pueden funcionar con el procedimiento correspondiente a la invención distintos decodificadores, con lo que puede realizarse un restablecimiento de la señal de entrada de banda ancha con distinta precisión en función de la potencia de cálculo disponible.
También es de señalar que los parámetros recibidos que caracterizan a las envolventes espectrales y a las envolventes en el tiempo, no sólo pueden utilizarse para una ampliación de la anchura de banda, sino además también para apoyar bloques siguientes de procesamiento de la señal, como por ejemplo un filtrado posterior o etapas adicionales de codificación como codificador de transformación.
La señal de voz de banda estrecha resultante s_{nb}(k), tal como de la que dispone el algoritmo para la ampliación de la anchura de banda, puede estar disponible por ejemplo tras una reducción de la frecuencia de exploración en un factor 2 con la frecuencia de exploración de 8 kHz.
Con la invención y el principio que sirve de base de la ampliación de la anchura de banda, es posible generar una activación de banda ancha de informaciones del estándar G.729A+-. La velocidad de datos de las informaciones auxiliares transmitidas en la señal digital BWE puede ser de aprox. 2 kbit/s. Además, se necesita en la invención un sistema de cálculo de baja complejidad relativa o bien un coste de cálculo relativamente de poca complejidad, que es inferior a 3 WMPOS. Además, el procedimiento correspondiente a la invención y el dispositivo correspondiente a la invención son muy robustos frente a perturbaciones de la banda de base del estándar G.729A+-. La invención puede utilizarse también de manera ventajosa para su aplicación en Voice-over-IP (voz sobre IP). Además, el procedimiento correspondiente a la invención así como el dispositivo correspondiente a la invención son compatibles con envolventes TDAC. No en último lugar, presenta también la invención una estructura muy modular y flexible y una concepción modular y flexible.

Claims (24)

1. Procedimiento para la ampliación artificial de la anchura de banda de señales de voz,
caracterizado por las siguientes etapas:
a)
puesta a disposición de una señal de voz de entrada de banda ancha (s^{i}_{wb}(k));
b)
determinación de los componentes de señal (s_{eb}(k)) de la señal de voz de entrada de banda ancha (s^{i}_{wb}(k)) necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz de entrada de banda ancha (s^{i}_{wb}(k));
c)
determinación de las envolventes en el tiempo de los componentes de señal (s_{eb}(k)) destinados a la ampliación de la anchura de banda;
d)
determinación de las envolventes espectrales de los componentes de señal (s_{eb}(k)) destinados a la ampliación de la anchura de banda;
e)
codificación de las informaciones de las envolventes en el tiempo y de las envolvente espectrales y puesta a disposición de las informaciones codificadas para realizar la ampliación de la anchura de banda;
f)
decodificación de las informaciones codificadas y generación de las envolventes en el tiempo y de las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida (sº_{wb}(k)) ampliada en ancho de banda.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1,
caracterizado porque
los componentes de señal (s_{eb}(k)) necesarios para la ampliación de la anchura de banda se determinan mediante un filtrado, en particular un filtrado pasabanda, a partir de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha.
\vskip1.000000\baselineskip
3. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
la determinación de las envolventes en el tiempo se realiza en la etapa c) independientemente de la determinación de las envolventes espectrales en la etapa d).
\vskip1.000000\baselineskip
4. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
antes de la codificación de las envolventes en el tiempo y de las envolventes espectrales, se realiza en la etapa e) una cuantificación de la envolvente en el tiempo y de la envolvente espectral.
\vskip1.000000\baselineskip
5. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
en la etapa d) para determinar las envolventes espectrales se determinan las potencias de señal (P_{f}(\mu,\lambda)) de bandas parciales espectrales de los componentes de señal (s_{eb}(k)) destinados a la ampliación de la anchura de banda.
\vskip1.000000\baselineskip
6. Procedimiento según la reivindicación 5,
caracterizado porque
para determinar las potencias de señal (P_{f}(\mu,\lambda)) de las bandas parciales espectrales se generan segmentos de señal de los componentes de señal (s_{eb}(k)) destinados a la ampliación de la anchura de banda, transformándose en particular estos segmentos de señal, en particular según transformación FF.
\vskip1.000000\baselineskip
7. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
en la etapa c) para determinar las envolventes en el tiempo, se determinan las intensidades de señal (P_{t}(\nu)) de segmentos de señal en el tiempo de los componentes de señal (s_{eb}(k)) destinados a la ampliación de la anchura de banda.
\vskip1.000000\baselineskip
8. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
en la etapa f) se decodifican las informaciones codificadas para la formación reconstructora de las envolventes en el tiempo y de las envolventes espectrales.
\vskip1.000000\baselineskip
9. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
se genera una señal de activación (s_{exc}(k)) en un decodificador (5) a partir de una señal (s_{si}(k)) transmitida al decodificador (5), presentando la señal (s_{si}(k)) transmitida una intensidad de señal en la gama de frecuencias que se corresponde con la de la banda de ampliación de la señal de voz de entrada de banda ancha (s^{i}_{wb}(k)) que posibilita la generación de una señal de activación (s_{exc}(k)).
\vskip1.000000\baselineskip
10. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
se transmite al decodificador (5) una señal de banda estrecha modulada con una zona de banda por debajo de la zona de banda de la banda de ampliación de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha para generar la señal de activación (s_{exc}(k)).
\vskip1.000000\baselineskip
11. Procedimiento según la reivindicación 9 ó 10,
caracterizado porque
la señal de activación (s_{exc}(k)) presenta armónicos de la frecuencia básica de la señal (s_{si}(k)) transmitida al decodificador (5).
\vskip1.000000\baselineskip
12. Procedimiento según las reivindicaciones 8 y 11,
caracterizado porque
a partir de las informaciones decodificadas de las envolventes en el tiempo y de la señal de activación (s_{exc}(k)), se determina un primer factor de corrección (g_{1}(k)).
\vskip1.000000\baselineskip
13. Procedimiento según la reivindicación 12,
caracterizado porque
a partir del primer factor de corrección (g_{1}(k)) y de la señal de activación (s_{exc}(k)) se realiza una formación reconstructora de las envolventes en el tiempo, en particular multiplicando el primer factor de corrección (g_{1}(k)) por la señal de activación (s_{exc}(k)).
\vskip1.000000\baselineskip
14. Procedimiento según la reivindicación 13,
caracterizado porque
la formación reconstruida de las envolventes en el tiempo se filtra y en el filtrado se generan respuestas de impulso (h(k)).
\vskip1.000000\baselineskip
15. Procedimiento según la reivindicación 14,
caracterizado porque
a partir de las respuestas de impulso (h(k)) y de la formación reconstruida de las envolventes en el tiempo se realiza una formación reconstructora de las envolventes espectrales.
\vskip1.000000\baselineskip
16. Procedimiento según la reivindicación 15,
caracterizado porque
a partir de la formación reconstruida de las envolventes espectrales se reconstruyen los componentes de señal
(s_{eb}(k)) de la banda de ampliación de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha.
\vskip1.000000\baselineskip
17. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
se transmite a un decodificador (5) una señal de banda estrecha (s_{nb}(k)) con una zona de banda por debajo de la banda de ampliación de la señal de entrada (s^{i}_{wb}(k)) de banda ancha.
\vskip1.000000\baselineskip
18. Procedimiento según la reivindicación 16 y 17,
caracterizado porque
la señal de voz de salida (sº_{wb}(k)) ampliada en anchura de banda se determina a partir de la señal de banda estrecha (s_{nb}(k)) transmitida al decodificador (5) y de la formación reconstruida de las envolventes espectrales, en particular a partir de una suma de estas dos señales y se pone a disposición como señal de salida del decodificador (5).
\vskip1.000000\baselineskip
19. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
las etapas a) a e) se realizan en un codificador (1) y las informaciones codificadas generadas como señal digital (BWE) en la etapa d) se transmiten para su decodificación.
\vskip1.000000\baselineskip
20. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha incluye una anchura de banda entre unos 50 Hz y unos 7 kHz.
\vskip1.000000\baselineskip
21. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
la banda de ampliación de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha incluye la banda de frecuencias de unos 3,4 kHz hasta unos 7 kHz.
\vskip1.000000\baselineskip
22. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
la señal de banda estrecha (s_{nb}(k)) incluye una gama de señales de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha de unos 50 Hz hasta unos 3,4 kHz.
\vskip1.000000\baselineskip
23. Dispositivo para la ampliación artificial de la anchura de banda de señales de voz, al que puede aplicarse una señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha,
caracterizado por
a)
elementos para determinar los componentes de señal (s_{eb}(k)) de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz entrada (s^{i}_{wb}(k)) de banda ancha;
b)
medios para determinar las envolventes en el tiempo de los componentes de señal destinados a la ampliación de la anchura de banda (s_{eb}(k));
c)
medios para determinar las envolventes espectrales de los componentes de señal destinados a la ampliación de la anchura de banda (s_{eb}(k));
d)
un codificador (1) para codificar las envolventes en el tiempo y las envolventes espectrales y poner a disposición las informaciones codificadas para realizar la ampliación de la anchura de banda; y
e)
un decodificador (5) para decodificar las informaciones codificadas y generar las envolventes en el tiempo y las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida (sº_{wb}(k)) ampliada en anchura de banda.
\vskip1.000000\baselineskip
24. Dispositivo según la reivindicación 23,
caracterizado porque
los medios en a) hasta d) están configurados como codificador (1).
ES06840370T 2005-07-13 2006-06-30 Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz. Active ES2309969T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005032724A DE102005032724B4 (de) 2005-07-13 2005-07-13 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE102005032724 2005-07-13

Publications (1)

Publication Number Publication Date
ES2309969T3 true ES2309969T3 (es) 2008-12-16

Family

ID=36994160

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06840370T Active ES2309969T3 (es) 2005-07-13 2006-06-30 Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz.

Country Status (12)

Country Link
US (1) US8265940B2 (es)
EP (1) EP1825461B1 (es)
JP (1) JP4740260B2 (es)
KR (1) KR100915733B1 (es)
CN (2) CN100568345C (es)
AT (1) ATE407424T1 (es)
CA (1) CA2580622C (es)
DE (2) DE102005032724B4 (es)
DK (1) DK1825461T3 (es)
ES (1) ES2309969T3 (es)
PL (1) PL1825461T3 (es)
WO (1) WO2007073949A1 (es)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101290622B1 (ko) * 2007-11-02 2013-07-29 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 복호화 방법 및 장치
EP2229677B1 (en) * 2007-12-18 2015-09-16 LG Electronics Inc. A method and an apparatus for processing an audio signal
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
KR101261677B1 (ko) 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
CN101751926B (zh) 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码***
JP5423684B2 (ja) * 2008-12-19 2014-02-19 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP4921611B2 (ja) * 2009-04-03 2012-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US8781844B2 (en) * 2009-09-25 2014-07-15 Nokia Corporation Audio coding
KR101613684B1 (ko) * 2009-12-09 2016-04-19 삼성전자주식회사 음향 신호 보강 처리 장치 및 방법
JP5652658B2 (ja) * 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
HUE028738T2 (en) * 2010-06-09 2017-01-30 Panasonic Ip Corp America Bandwidth Extension Procedure, Bandwidth Extension Device, Program, Integrated Circuit, and Audio Decoder
US20130108073A1 (en) * 2010-07-09 2013-05-02 Bang & Olufsen A/S Method and apparatus for providing audio from one or more speakers
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
PL2737479T3 (pl) * 2011-07-29 2017-07-31 Dts Llc Adaptacyjna poprawa zrozumiałości głosu
JP6200034B2 (ja) * 2012-04-27 2017-09-20 株式会社Nttドコモ 音声復号装置
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
US9258428B2 (en) 2012-12-18 2016-02-09 Cisco Technology, Inc. Audio bandwidth extension for conferencing
CN105190748B (zh) * 2013-01-29 2019-11-01 弗劳恩霍夫应用研究促进协会 音频编码器、音频解码器、***、方法及存储介质
MX345622B (es) * 2013-01-29 2017-02-08 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, método de decodificación, codificador para generar una señal codificada y metodo de codificación utilizando informacion secundaria de selección compacta.
EP2784775B1 (en) * 2013-03-27 2016-09-14 Binauric SE Speech signal encoding/decoding method and apparatus
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
EP3199956B1 (en) * 2016-01-28 2020-09-09 General Electric Technology GmbH Apparatus for determination of the frequency of an electrical signal and associated method

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3946821B2 (ja) * 1996-12-13 2007-07-18 東北リコー株式会社 排版装置
DE19706516C1 (de) * 1997-02-19 1998-01-15 Fraunhofer Ges Forschung Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US20020031129A1 (en) * 2000-09-13 2002-03-14 Dawn Finn Method of managing voice buffers in dynamic bandwidth circuit emulation services
DE10102173A1 (de) * 2001-01-18 2002-07-25 Siemens Ag Verfahren und Anordnung zum Umsetzen von parametrisch codier-ten Sprachsignalen verschiedener Bandbreite in Sprachsignale
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
ATE315308T1 (de) * 2002-09-12 2006-02-15 Siemens Ag Kommunikationsendgerät mit bandbreitenerweiterung und echokompensation
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
US20040138876A1 (en) * 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression

Also Published As

Publication number Publication date
ATE407424T1 (de) 2008-09-15
KR20070090143A (ko) 2007-09-05
CA2580622A1 (en) 2007-01-13
DE102005032724A1 (de) 2007-02-01
CN100568345C (zh) 2009-12-09
DE502006001491D1 (de) 2008-10-16
CN101676993B (zh) 2012-05-30
PL1825461T3 (pl) 2009-02-27
CN101061535A (zh) 2007-10-24
JP2008513848A (ja) 2008-05-01
DE102005032724B4 (de) 2009-10-08
JP4740260B2 (ja) 2011-08-03
CA2580622C (en) 2011-05-10
EP1825461A1 (de) 2007-08-29
DK1825461T3 (da) 2009-01-26
US8265940B2 (en) 2012-09-11
KR100915733B1 (ko) 2009-09-04
US20080126081A1 (en) 2008-05-29
EP1825461B1 (de) 2008-09-03
CN101676993A (zh) 2010-03-24
WO2007073949A1 (de) 2007-07-05

Similar Documents

Publication Publication Date Title
ES2309969T3 (es) Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz.
JP3653826B2 (ja) 音声復号化方法及び装置
US20200234724A1 (en) Classification Between Time-Domain Coding and Frequency Domain Coding for High Bit Rates
TWI321777B (en) Systems, methods, and apparatus for highband burst suppression
KR100726960B1 (ko) 음성 처리에서의 인위적인 대역폭 확장 방법 및 장치
US8577673B2 (en) CELP post-processing for music signals
EP1141946B1 (en) Coded enhancement feature for improved performance in coding communication signals
US9020815B2 (en) Spectral envelope coding of energy attack signal
JP5047268B2 (ja) Mdct係数を使用する音声後処理
WO2010127617A1 (en) Methods for receiving digital audio signal using processor and correcting lost data in digital audio signal
ES2878401T3 (es) Extensión de banda de frecuencia mejorada en un decodificador de señales de audiofrecuencia
WO2006009074A1 (ja) 音声復号化装置および補償フレーム生成方法
ES2296791T3 (es) Codificacion de señales acusticas perceptivamente mejorada.
JP4040126B2 (ja) 音声復号化方法および装置
US9418671B2 (en) Adaptive high-pass post-filter
US20090299755A1 (en) Method for Post-Processing a Signal in an Audio Decoder
Berisha et al. Bandwidth extension of speech using perceptual criteria
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
ES2963367T3 (es) Aparato y procedimiento de decodificación de una señal de audio usando una parte de anticipación alineada
JP2008134649A (ja) 音声信号の再生方法及び装置