ES2309969T3 - Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz. - Google Patents
Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz. Download PDFInfo
- Publication number
- ES2309969T3 ES2309969T3 ES06840370T ES06840370T ES2309969T3 ES 2309969 T3 ES2309969 T3 ES 2309969T3 ES 06840370 T ES06840370 T ES 06840370T ES 06840370 T ES06840370 T ES 06840370T ES 2309969 T3 ES2309969 T3 ES 2309969T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- envelopes
- baselineskip
- bandwidth
- spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000003595 spectral effect Effects 0.000 claims abstract description 74
- 230000015572 biosynthetic process Effects 0.000 claims description 34
- 230000004913 activation Effects 0.000 claims description 33
- 230000003321 amplification Effects 0.000 claims description 26
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 26
- 238000001914 filtration Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 238000011002 quantification Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 15
- 230000006872 improvement Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Machine Translation (AREA)
Abstract
Procedimiento para la ampliación artificial de la anchura de banda de señales de voz, caracterizado por las siguientes etapas: a) puesta a disposición de una señal de voz de entrada de banda ancha (s i wb(k)); b) determinación de los componentes de señal (seb(k)) de la señal de voz de entrada de banda ancha (s i wb(k)) necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz de entrada de banda ancha (s i wb(k)); c) determinación de las envolventes en el tiempo de los componentes de señal (seb(k)) destinados a la ampliación de la anchura de banda; d) determinación de las envolventes espectrales de los componentes de señal (s eb(k)) destinados a la ampliación de la anchura de banda; e) codificación de las informaciones de las envolventes en el tiempo y de las envolvente espectrales y puesta a disposición de las informaciones codificadas para realizar la ampliación de la anchura de banda; f) decodificación de las informaciones codificadas y generación de las envolventes en el tiempo y de las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida (sºwb(k)) ampliada en ancho de banda.
Description
Procedimiento y dispositivo para la ampliación
artificial de la anchura de banda de señales de voz.
La invención se refiere a un procedimiento así
como a un dispositivo para la ampliación artificial de la anchura
de banda de señales de voz.
Las señales de voz abarcan una amplia gama de
frecuencias, que llega aproximadamente desde la frecuencia vocal
básica, que en función del orador abarca la gama de entre 80 a 160
Hz, hasta las frecuencias más allá de 10 kHz. En la comunicación
por voz a través de determinados medios de transmisión, como por
ejemplo teléfonos, se transmite, desde luego por razones de
eficiencia de la anchura de banda, sólo un fragmento limitado,
quedando asegurada una comprensión de la frase de aproximadamente
el 98%.
En función de la anchura de banda mínima
especificada para el sistema telefónico de 300 Hz a 3,4 kHz, puede
dividirse una señal de voz esencialmente en tres gamas de
frecuencias. Cada una de estas gamas de frecuencias caracteriza al
respecto características específicas de la voz, así como
percepciones subjetivas. Así resultan frecuencias más bajas por
debajo de unos 300 Hz esencialmente durante tramos de voz sonoros,
tal como sucede por ejemplo con las vocales. Esta gama de
frecuencias contiene en este caso componentes tonales, es decir, en
particular la frecuencia vocal básica, así como, en función del
registro, eventualmente algunos armónicos.
Para la percepción subjetiva del volumen y de la
dinámica de una señal de voz, son esenciales estas frecuencias
bajas. La frecuencia vocal básica puede percibirse por el contrario
por un escuchante humano, debido a la característica psicoacústica
de la percepción de la altura de tono virtual, también cuando faltan
las frecuencias bajas de la estructura armónica en las gamas de
frecuencias más altas. Así existen frecuencias intermedias en la
zona de unos 300 Hz hasta aprox. 3,4 kHz en actividades de voz
básicamente en la señal de voz. Su tonalidad espectral variable en
el tiempo debida a varios formantes, así como la estructura fina
temporal y espectral, caracterizan el sonido o fonema hablado en
cada caso. De esta manera transportan las frecuencias medias la
parte principal de las informaciones relevantes para la comprensión
de la voz.
Por otro lado, resultan durante los sonidos
áfonos, como es el caso de forma especialmente acusada en sonidos
agudos, como por ejemplo "s" o "f", componentes de
frecuencias elevados, por encima de unos 3,4 kHz. También presentan
los llamados sonidos plosivos como "k" o "t" un espectro
amplio con fuertes componentes de altas frecuencias. Por ello tiene
la señal en esta gama superior de frecuencias más bien un carácter
de murmullo que un carácter tonal. La estructura de los formantes
existentes también en esta gama varía relativamente poco con el
tiempo, pero es diferente para distintos oradores. Los componentes
de frecuencias altas son de una importancia esencial para la
claridad, la presencia y la naturalidad de una señal de voz, ya que
sin estas componentes de frecuencias elevadas la voz suena sorda.
Además, mediante tales componentes de frecuencias elevadas es
posible una mejor diferenciación de fricativas y consonantes,
garantizando entonces estas componentes de frecuencias elevadas también una mayor inteligibilidad de la voz.
garantizando entonces estas componentes de frecuencias elevadas también una mayor inteligibilidad de la voz.
En una transmisión de una señal de voz a través
de un sistema de comunicaciones por voz que presenta un canal de
transmisión con una anchura de banda limitada, se desea básicamente
siempre el objetivo de poder transmitir la señal de voz a
transmitir con la mejor calidad posible desde un emisor hasta un
receptor. No obstante, la calidad de la voz es entonces una
magnitud subjetiva con múltiples componentes, de los cuales la
inteligibilidad de la señal de voz es la más significativa para un
sistema de comunicaciones por voz de este tipo.
En sistemas de transmisión modernos digitales,
puede lograrse ya una inteligibilidad de la voz relativamente alta.
Al respecto se sabe que mediante una ampliación de la anchura de la
banda telefónica en frecuencias más elevadas (mayores que 3,4 kHz)
así como también en frecuencias más bajas (inferiores a 300 Hz) es
posible una mejora del enjuiciamiento subjetivo de la señal de voz.
Para lograr una mejora subjetiva de la calidad, hay que esforzarse
así por lograr una anchura de banda ampliada frente a la anchura de
banda telefónica usual en sistemas para la comunicación de voz. Una
posible base al respecto consiste en modificar la transmisión y
provocar mediante procedimientos de codificación una anchura de
banda transmitida más ancha o alternativamente realizar una
ampliación de anchura de banda artificial. Mediante una ampliación
de este tipo de la anchura de banda, se amplía en el lado receptor
la anchura de banda de frecuencias a la gama de 50 Hz a 7 kHz.
Mediante algoritmos de procesamiento de señal adecuados, se
averiguan a partir de segmentos cortos de una señal de voz de banda
estrecha con métodos de reconocimiento de muestras parámetros del
modelo de banda ancha que a continuación se utilizan para una
estimación de los componentes de señal que faltan de lo hablado. En
el procedimiento se genera a partir de la señal de voz de banda
estrecha una similar de banda ancha con componentes de frecuencias
en la gama de 50 Hz a 7 kHz y una mejora de la calidad de la voz
percibida subjetivamente.
En algoritmos actuales de codificación de
señales de voz y de señales de audio se utilizan cada vez más
técnicas de la ampliación de anchura de banda artificial. Por
ejemplo se utilizan en la gama de banda ancha (banda ancha acústica
de 50 Hz a 7 kHz) estándares de codificación de voz como el
algoritmo de codificación-decodificación
AMR-WB (Adaptive Multirate Wideband, banda ancha
multivelocidad adaptiva). En este estándar AMR-WB se
extrapolan las bandas parciales de frecuencias superiores (gama de
frecuencias de aprox. 6,4 a 7 kHz) a partir de componentes de bajas
frecuencias. En tales procedimientos de
codificación-decodificación se genera la ampliación
de la anchura de banda en general mediante una cantidad
relativamente baja de informaciones auxiliares. Estas informaciones
auxiliares pueden ser por ejemplo coeficientes de filtrado o
factores de amplificación, pudiendo generarse los coeficientes de
filtrado por ejemplo mediante un procedimiento LPC (Linear
Prediction Filter, filtro de predicción lineal). Estas
informaciones auxiliares se transmiten en un flujo de bits
codificado a un receptor. Otros estándares que se basan en la
ampliación de la técnica de anchura de banda pueden verse
actualmente en los estándares AMR-WB+ y en el
procedimiento de codificación de voz/audio aacPlus. Los
procedimientos configurados para codificar y decodificar
informaciones se denominan codecs e incluyen tanto un codificador
como también un decodificador. Cada teléfono digital,
independientemente de si está construido para una red fija o para
una red de telefonía móvil, contiene un codec como el indicado, que
convierte señales analógicas en digitales y digitales en
analógicas. Un codec de este tipo puede estar realizado en hardware
o en software.
Un ejemplo de una ampliación artificial de la
anchura de banda de una señal de voz, en el que se transmiten
informaciones auxiliares en un flujo de bits codificado a un
receptor, se da a conocer en el documento Valin J. y colab.:
"Extensión de la anchura de banda vocal de banda estrecha para la
codificación de banda ancha de baja velocidad de bits", actas
del WORKSHOP IEEE de Codificación de Voz, 17-20
septiembre 2000, Piscataway (USA), IEEE, 17 septiembre 2000,
páginas 130-132, XP010520065.
En realizaciones actuales de algoritmos de
codificación de voz/audio en las que se utiliza la técnica de la
ampliación de la anchura de banda, se codifican y decodifican
componentes de una banda de ampliación, por ejemplo en la gama de
frecuencias de 6,4 a 7 kHz, mediante la ya mencionada técnica de
codificación LPC. Entonces se realiza en un codificador un análisis
LPC de la banda de ampliación de la señal de entrada y se codifican
los coeficientes LPC, así como los factores de amplificación de
tramas secundarias de una señal residual. En un decodificador se
genera la señal residual de la banda de ampliación y se utilizan los
factores de amplificación transmitidos y los filtros de síntesis
LPC para generar una señal de salida. El proceder antes descrito
puede utilizarse bien directamente sobre la señal de entrada de
banda ancha o bien también en una señal de banda parcial muestreada
hacia abajo en la zona límite o bien en la zona crítica de la banda
de ampliación.
En el estándar de codificación aacPlus ampliado
se utiliza la técnica SBR (Spectral Band Replication, reproducción
de banda espectral). Entonces se fracciona la señal de audio de
banda ancha mediante un banco de filtros QMF de 64 canales en
bandas parciales de frecuencias. Para los canales del banco de
filtros de frecuencias altas se utiliza una codificación
paramétrica sofisticada y de alto desarrollo técnico en las bandas
parciales de los componentes de la señal, necesitándose y
empleándose para ello una gran cantidad de detectores y estimadores
para controlar los contenidos del flujo de bits. Aún cuando en los
estándares y procedimientos de
codificación-decodificación conocidos puede
lograrse ya una mejora en particular de la calidad de la voz de
señales de voz, hay que esforzarse no obstante en lograr una mejora
adicional de esta calidad de voz. Además, los estándares y
procedimientos de codificación-decodificación antes
descritos son muy costosos y presentan una estructura muy
compleja.
La presente invención tiene por lo tanto la
tarea básica de lograr un procedimiento y un dispositivo para la
ampliación artificial de la anchura de banda de señales de voz con
los que pueda lograrse una calidad de voz mejorada y una
inteligibilidad de voz mejorada. Esto debe poder realizarse además
de una manera relativamente sencilla y económica.
Esta tarea se resuelve mediante un procedimiento
que presenta las características de la reivindicación 1 y un
dispositivo que presenta las características de la reivindicación
23.
En un procedimiento correspondiente a la
invención para la ampliación artificial de la anchura de banda de
señales de voz, se realizan las siguientes etapas:
- a)
- poner a disposición una señal de voz de entrada de banda ancha;
- b)
- determinación de los componentes de señal de la señal de voz de entrada de banda ancha necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz de entrada de banda ancha;
- c)
- determinación de las envolventes en el tiempo de los componentes de señal destinados a la ampliación de la anchura de banda;
- d)
- determinación de las envolventes espectrales de los componentes de señal destinados a la ampliación de la anchura de banda;
- e)
- codificación de las informaciones de las envolventes en el tiempo y de las envolventes espectrales y puesta a disposición de las informaciones codificadas para realizar la ampliación de la anchura de banda; y
- f)
- decodificación de las informaciones codificadas y generación de las envolventes en el tiempo y de las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida ampliada en anchura de banda.
Mediante el procedimiento correspondiente a la
invención puede lograrse una mejora de la inteligibilidad de la voz
y de la calidad de la voz en la transmisión de señales de voz,
entendiéndose bajo señales de voz también señales de audio. Además,
el procedimiento correspondiente a la invención es muy robusto
frente a perturbaciones en la transmisión.
De manera ventajosa, se determinan los
componentes de señal necesarios para la ampliación de la anchura de
banda mediante un filtrado, en particular un filtrado pasabanda, a
partir de la señal de voz de entrada de banda ancha, con lo que
puede realizarse una selección sencilla y económica de los
componentes de señal necesarios.
La determinación de las envolventes en el tiempo
en la etapa c) se realiza preferentemente con independencia de la
determinación de las envolventes espectrales en la etapa d). De esta
manera se realiza la determinación de las envolventes de manera
precisa, con lo que puede evitarse una influencia mutua.
De manera preferente, se realiza antes de la
codificación de las envolventes en el tiempo y de las envolventes
espectrales en la etapa e) una cuantificación de las envolventes en
el tiempo y de las envolventes espectrales. De manera ventajosa se
determinan en la etapa d) para la determinación de las envolventes
espectrales, las potencias de señal de bandas parciales espectrales
de los componentes de señal destinados a la ampliación de la
anchura de banda. La determinación de lo necesario para la
caracterización de las envolventes en el tiempo y de las
envolventes espectrales, puede realizarse de esta manera con mucha
exactitud.
Para determinar las potencias de las señales de
las bandas parciales espectrales, se generan de manera preferente
segmentos de señal de los componentes de señal destinados a la
ampliación de la anchura de banda, transformándose en particular
estos segmentos de señal, en particular transformándose en FF (Fast
Fourier, Fourier rápida). Además, se determinan de manera ventajosa
en la etapa c) para la determinación de las envolventes en el tiempo
las potencias de señal de segmentos de señal en el tiempo de los
componentes de señal destinados a la ampliación de la anchura de
banda. De esta manera se realiza de manera económica la
determinación de los parámetros necesarios.
De manera ventajosa se decodifican en la etapa
f) las informaciones codificadas para formar reconstruyendo las
envolventes en el tiempo y las envolventes espectrales.
Una señal de activación se genera de manera
ventajosa en un decodificador a partir de una señal transmitida al
decodificador, presentando la señal transmitida una potencia de
señal en la gama de frecuencias tal que se corresponde con la de la
señal de ampliación de la señal de voz de entrada de banda ancha,
que permite una generación de una señal de activación. Al
decodificador se transmite preferentemente una señal de banda
estrecha modulada con una zona de banda con frecuencias por debajo
de las frecuencias de la zona de banda de la banda de ampliación de
la señal de voz de entrada de banda ancha para generar la señal de
activación. La señal de activación presenta preferentemente
armónicos de la frecuencia básica de la señal transmitida al
decodificador.
A partir de las informaciones decodificadas de
las envolventes en el tiempo y de la señal de activación, se
determina de manera ventajosa un primer factor de corrección.
Además, se realiza a partir del primer factor de corrección y de la
señal de activación una formación reconstructora de las envolventes
en el tiempo, en particular mediante una multiplicación del primer
factor de corrección por la señal de activación. Además, se filtra
de manera ventajosa la formación reconstruida de las envolventes en
el tiempo y en el filtrado se generan respuestas de impulsos. A
partir de las respuestas de impulsos y de la formación reconstruida
de las envolventes en el tiempo, se realiza una formación
reconstructora de las envolventes espectrales. Además, se
reconstruyen a partir de la formación reconstruida de las
envolventes espectrales las componentes de señal de la banda de
ampliación de la señal de voz de entrada de banda ancha. La
reconstrucción de las envolventes en el tiempo y de las envolventes
espectrales puede de esta manera realizarse de manera muy fiable y
muy exacta.
Al decodificador se transmite en una ejecución
ventajosa una señal de banda estrecha con una zona de banda con
frecuencias por debajo de las frecuencias de la banda de ampliación
de la señal de entrada de banda ancha.
La señal de voz de salida ampliada en anchura de
banda se determina de manera ventajosa a partir de la señal de
banda estrecha transmitida al decodificador y de la formación
reconstruida de las envolventes espectrales, en particular a partir
de una suma de estas dos señales y se pone a disposición como señal
de salida del decodificador. De esta manera puede generarse y
ponerse a disposición una señal de salida que asegura una elevada
inteligibilidad de la voz y calidad de la voz.
Las etapas a) a e) se realizan de manera
preferente en un codificador, que preferente está dispuesto en un
emisor. Las informaciones codificadas generadas en la etapa e) se
transmiten de manera ventajosa como señal digital al decodificador.
Al menos la etapa f) se realiza de manera preferente en un receptor,
estando dispuesto el decodificador en el receptor. No obstante,
puede estar previsto también que todas las etapas a) a f) del
procedimiento correspondiente a la invención se realicen en un
receptor. En este caso se sustituyen las etapas a) a e) en el
receptor por un procedimiento de estimación (a realizar de otra
manera). Las etapas a) a e) pueden realizarse también separadamente
en un
emisor.
emisor.
La señal de voz de entrada de banda ancha
incluye de manera ventajosa una anchura de banda entre unos 50 Hz y
unos 7 kHz. La banda de ampliación de la señal de voz de entrada de
banda ancha incluye preferentemente la gama de frecuencias de unos
3,4 kHz hasta unos 7 kHz. Además, incluye la señal de banda estrecha
una gama de señales de la señal de voz de entrada de banda ancha de
unos 50 Hz hasta unos 3,4 kHz.
\newpage
Un dispositivo correspondiente a la invención
para la ampliación artificial de la anchura de banda de señales de
voz al que puede aplicarse una señal de voz de entrada de banda
ancha incluye al menos los siguientes componentes:
- a)
- elementos para determinar los componentes de señal de la señal de voz de entrada de banda ancha necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz entrada de banda ancha;
- b)
- medios para determinar las envolventes en el tiempo de los componentes de señal destinados a la ampliación de la anchura de banda;
- c)
- medios para determinar las envolventes espectrales de los componentes de señal destinados a la ampliación de la anchura de banda;
- d)
- un codificador para codificar las envolventes en el tiempo y las envolventes espectrales y poner a disposición las informaciones codificadas para realizar la ampliación de la anchura de banda; y
- e)
- un decodificador para decodificar las informaciones codificadas y generar las envolventes en el tiempo y las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida ampliada en anchura de banda.
El dispositivo correspondiente a la invención
posibilita una mejor calidad de voz y una mejor inteligibilidad de
voz de las señales de voz en la transmisión en aparatos de
comunicaciones, como por ejemplo aparatos terminales de telefonía
móvil o aparatos ISDN.
Los medios en a) hasta d) están configurados de
manera ventajosa como codificadores. El codificador puede estar
dispuesto en un emisor o en un receptor, estando dispuesto el
decodificador en un receptor.
Ventajosas mejoras del procedimiento
correspondiente a la invención pueden considerarse, siempre que sean
transferibles, también como mejoras ventajosas del dispositivo
correspondiente a la invención.
\vskip1.000000\baselineskip
A continuación se describirá más en detalle un
ejemplo de ejecución de la invención en base a dibujos esquemáticos.
Se muestra en:
figura 1 un codificador de un dispositivo
correspondiente a la invención; y
figura 2 un decodificador de un dispositivo
correspondiente a la invención.
\vskip1.000000\baselineskip
En la invención descrita más en detalle a
continuación se incluye en el concepto de señales de voz también
señales de audio. En las figuras 1 y 2 se han dotado los mismos
elementos o elementos funcionalmente iguales de las mismas
referencias.
En la figura 1 se muestra una representación
esquemática de un diagrama de bloques de un codificador 1 de un
dispositivo correspondiente a la invención para la ampliación
artificial de la anchura de banda de señales de voz. El codificador
1 puede estar realizado tanto en hardware como también en software
como algoritmo. El codificador 1 incluye en el ejemplo de ejecución
un bloque 11, configurado para el filtrado pasabanda de una señal
de voz de entrada de banda ancha s^{i}_{wb}(k).
Además, incluye el codificador 1 un bloque 12 y un bloque 13,
conectados con el bloque 11. El bloque 12 está configurado entonces
para determinar las envolventes en el tiempo de los componentes de
señal destinados a la ampliación de la anchura de banda, que se
determinan a partir de una banda de ampliación de la señal de voz de
entrada de banda ancha. De la manera correspondiente, está
configurado el bloque 13 para determinar las envolventes espectrales
de los componentes de señal destinados a la ampliación de la
anchura de banda, que se determinan a partir de la banda de
ampliación de la señal de voz de entrada de banda ancha.
Además, puede observarse en la representación de
la figura 1 que el bloque 12 y el bloque 13 están conectados con un
bloque 14, estando configurado el bloque 14 para la cuantificación
de las envolventes en el tiempo, así como de las envolventes
espectrales, que se generan mediante los bloques 12 y 13.
En la figura 1 se muestra además un bloque 2,
configurado como filtro pasabanda, y al que se aplica la señal de
voz de entrada de banda ancha s^{i}_{wb}(k). El
bloque 2 está además conectado con otro bloque 3, estando
configurado el bloque 3 como otro codificador.
En el ejemplo de ejecución, el codificador 1,
así como los bloques 2 y 3, están dispuestos en un primer aparato
telefónico. La señal de voz de entrada de banda ancha presenta en el
ejemplo de ejecución una anchura de banda de unos 50 Hz hasta unos
7 kHz. Según la invención, tal como se observa en la representación
de la figura 1, se aplica esta señal de voz de entrada de banda
ancha s^{i}_{wb}(k) al filtro pasabanda o bloque
11 del codificador 1. Mediante este bloque 11 se determinan los
componentes de señal necesarios para la ampliación de la anchura de
banda a partir de la banda de ampliación, que en el ejemplo de
ejecución abarca un anchura de banda desde unos 3,4 kHz hasta unos
7 kHz. Los componentes de señal necesarios para la ampliación de la
anchura de banda se caracterizan por la señal
s_{eb}(k) y se transmiten como señal de salida del
bloque 11 a ambos bloques 12 y 13. En el bloque 12 se determina
entonces a partir de esta señal s_{eb}(k) la
envolvente en el tiempo. De la manera correspondiente se determina
en el bloque 13 la envolvente espectral de los componentes de señal
que están caracterizados por la señal s_{eb}(k).
A continuación se describe más en detalle esta
determinación de la envolvente en el tiempo, así como de la
envolvente espectral. Al respecto se segmenta primeramente la señal
s_{eb}(k) caracterizadora de los componentes de
señal necesarios para la ampliación de la anchura de banda y se
transforman estos segmentos de señal colocados en ventanas. La
segmentación de la señal s_{eb}(k) se realiza en
tramas con una longitud de en cada caso k valores de exploración.
Todos los siguientes pasos y algoritmos parciales se realizan por
lo general referidos a la trama. Cada trama de voz (por ejemplo con
10 ms ó 20 ms ó 30 ms de duración) puede subdividirse de manera
ventajosa en varias tramas secundarias (duración por ejemplo 2,5 ó 5
ms).
Los segmentos de señal colocados en ventanas se
transforman entonces. En el ejemplo de ejecución se realiza
entonces una transformación en el campo de frecuencias mediante una
FFT (Fast Fourier Transform, transformación rápida de Fourier). Los
segmentos de señal transformados mediante FFT se determinan entonces
mediante la siguiente fórmula 1):
\vskip1.000000\baselineskip
En esta fórmula 1) designa N_{f} la longitud
FFT o bien el tamaño de la trama, \mu designa el índice de la
trama y M_{f} designa el solape de las tramas de los segmentos de
señal colocados en ventanas. Además, w_{f}(k) designa la
función de ventana. A continuación se calcula en el campo de las
frecuencias la potencia de señal en bandas parciales de la gama de
frecuencias de la banda de ampliación. Este cálculo de la intensidad
de señal o bien de la potencia de señal se realiza según la
siguiente fórmula 2):
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
En esta fórmula 2) designa \lambda el índice
de la correspondiente banda parcial, caracterizando EB_{\lambda}
aquel conjunto que contiene todas las gamas de intervalos FFT i con
coeficientes que no son cero en la ventana del campo de frecuencias
número \lambda w_{\lambda}(i). Las potencias de señal
P_{f}(\mu,\lambda) de las bandas parciales según la
fórmula 2) caracterizan las informaciones de las envolventes
espectrales que se transmiten a un decodificador.
La determinación de las envolventes en el tiempo
en el campo del tiempo se realiza de manera similar a la
determinación de las envolventes espectrales y se basa en segmentos
breves colocados en ventanas de la señal de voz de entrada de banda
ancha filtrada por el pasabanda s^{i}_{wb}(k). Se
tienen en cuenta así también en la determinación de las envolventes
en el tiempo segmentos de señal de la señal
s_{eb}(k). Para cada segmento colocado en ventanas
se calcula la potencia de señal según la siguiente fórmula 3):
En esta fórmula 3) designa N_{t} la longitud
de la trama, \mu designa el índice de la trama y M_{t} a su vez
el solape de tramas de los segmentos de señal. Es de señalar que en
general la longitud de la trama N_{t} y el solape de las tramas
M_{t} que se utilizan para extraer las envolventes en el tiempo
son inferiores o bien muy inferiores a las correspondientes
magnitudes N_{f} y M_{f} que se utilizan para determinar las
envolventes espectrales.
Una alternativa a la extracción de los
parámetros de las envolventes en el tiempo a partir de la señal
s_{eb}(k) ha de considerarse que es que se realiza
una transformación de Hilbert (90º filtro de desplazamiento de fase)
de la señal s_{eb}(k).
Una suma de las potencias de señal de segmento corto de las partes filtradas y de las partes originales de la señal s_{eb}(k)
da como resultado las envolventes breves en el tiempo, que se muestrean hacia abajo para determinar las potencias de señal P_{t}(\mu). Las potencias de señal P_{t}(\nu) de los segmentos de señales caracterizan entonces las informaciones de las envolventes en el tiempo.
Una suma de las potencias de señal de segmento corto de las partes filtradas y de las partes originales de la señal s_{eb}(k)
da como resultado las envolventes breves en el tiempo, que se muestrean hacia abajo para determinar las potencias de señal P_{t}(\mu). Las potencias de señal P_{t}(\nu) de los segmentos de señales caracterizan entonces las informaciones de las envolventes en el tiempo.
Las señales S_{Pt(\nu)} y
S_{Pf(\mu,\lambda)} respectivamente, que caracterizan las
envolventes en el tiempo y las envolventes espectrales, que
caracterizan los parámetros extraídos de las potencias de señal
según las fórmulas 2) y 3), se cuantifican y codifican en el bloque
14. La señal de salida del bloque 14 es una señal digital BWE que
caracteriza un flujo de bits que contiene de forma codificada
informaciones de las envolventes en el tiempo y de las envolventes
espectrales.
Esta señal digital BWE se trasmite a un
decodificador, que se describirá más en detalle a continuación. Es
de señalar que para una redundancia entre los parámetros extraídos
de las intensidades de señal según las fórmulas 2) y 3) puede
realizarse una codificación común o bien de enlace, tal como la que
es posible por ejemplo mediante una cuantificación del vector.
Como además puede observarse en la
representación de la figura 1, se transmite la señal de voz de
entrada de banda ancha s^{i}_{wb}(k) también al
bloque 2. Mediante este bloque 2 configurado como filtro pasabanda
se filtran los componentes de señal de una zona de banda estrecha de
la señal de voz de entrada de banda ancha
s^{i}_{wb}(k). La zona de banda ancha se encuentra
en el ejemplo de ejecución entre 50 Hz y 3,4 kHz. La señal de
salida del bloque 2 es una señal de salida de banda estrecha
s_{nb}(k) y se transmite al bloque 3, que en el
ejemplo de ejecución está configurado como otro codificador. En este
bloque 3 se codifica la señal de banda estrecha
s_{nb}(k) y se transmite como señal digital BWN como
flujo de bits al decodificador descrito a continuación.
En la figura 2 se muestra una representación
esquemática de diagrama de bloques de un decodificador 5 como el
indicado de un dispositivo correspondiente a la invención para la
ampliación artificial de la anchura de banda de señales de voz. Tal
como puede observarse en la figura 2, se transmite la señal digital
BWN primeramente a otro decodificador 4, que decodifica las
informaciones contenidas en la señal digital BWN y a partir de ello
genera a su vez la señal de banda estrecha
s_{nb}(k). Además, genera el decodificador 4 otra
señal s_{si}(k), que contiene informaciones
auxiliares. Estas informaciones auxiliares pueden ser por ejemplo
factores de amplificación o coeficientes de filtrado. Esta señal
s_{si}(k) se transmite a un bloque 51 del
decodificador 5. El bloque 51 está configurado en el ejemplo de
ejecución para generar una señal de activación en la gama de
frecuencias de la banda de ampliación, teniéndose en cuenta para
ello las informaciones de la señal s_{si}(k).
Además, presenta el decodificador 5, que en el
ejemplo de ejecución está dispuesto en un receptor, un bloque 52,
que está configurado para decodificar la señal BWE transmitida a
través de un tramo de transmisión entre el codificador 1 y el
decodificador 2. Señalemos que también la señal digital BWN se
transmite a través de este tramo de transmisión entre el
codificador 1 y el decodificador 5. Tal como se observa en la
representación de la figura 2, están conectados tanto el bloque 51
como también el bloque 52 con zonas del decodificador 53 a 55. El
principio funcional del decodificador 5 o bien los pasos parciales
realizados en el decodificador 5 del procedimiento correspondiente
a la invención, se describirán más en detalle a continuación.
Tal como ya se ha indicado antes, se decodifican
en el bloque 52 las informaciones contenidas en la señal digital
codificada BWE y se reconstruyen las potencias de señal que se
calculan según las fórmulas 2) y 3) y que caracterizan la
envolvente en el tiempo y la envolvente espectral. Tal como puede
observarse en la representación de la figura 2, la señal de
activación s_{exc}(k) generada en el bloque 51 es la
señal de entrada para la formación reconstructora de las
envolventes en el tiempo y de las envolventes espectrales. Esta
señal de activación s_{exc}(k) puede ser entonces
esencialmente cualquier señal, rigiendo como premisa esencial para
esta señal que presente una suficiente potencia de señal en la gama
de frecuencias de la banda de ampliación de la señal espectral de
entrada de banda ancha s^{i}_{wb}(k). Por ejemplo
puede utilizarse como señal de activación
s_{exc}(k) una versión modulada de la señal de banda
estrecha s_{nb}(k) o también cualquier ruido. Tal
como ya se ha mencionado, esta señal de activación
s_{exc}(k) es responsable de la estructuración fina
de las envolventes espectrales y de las envolventes en el tiempo en
los componentes de señal de la banda de ampliación de una señal de
voz de salida de banda ancha sº_{wb}(k). Por esta
razón es ventajoso que esta señal de activación
s_{exc}(k) se genere de tal manera que presente los
armónicos de la frecuencia básica de la señal de banda estrecha
s_{nb}(k).
En el caso de codificaciones de voz jerárquicas
existe una posibilidad de lograr esto utilizando parámetros del
otro decodificador 4. Si por ejemplo es \Delta_{k} un
desplazamiento proporcional o de valor real de la frecuencia de
base y b el factor de amplificación LTB de un libro de código
adaptivo en un codificador de banda estrecha CELP, entonces es
posible por ejemplo una activación con frecuencias armónicas para un
múltiplo entero de la frecuencia básica momentánea mediante un
filtrado de síntesis LTP de un filtro pasabanda (gama de
frecuencias de la banda de ampliación) a partir de una señal
arbitraria n_{eb}(k).
La señal de activación resulta entonces según la
siguiente fórmula 4):
El factor de amplificación LTP puede ser
reducido o limitado entonces mediante la función f(b), para
poder evitar una tendencia a la predominancia de los componentes de
señal generados de la banda de ampliación. Señalemos que puede
realizarse un conjunto de otras alternativas para poder realizar una
activación sintética de banda ancha mediante parámetros de un codec
de banda estrecha.
Otra posibilidad adicional de generar una señal
de activación consiste en que una modulación de la señal de banda
estrecha s_{nb}(k) se realice con una función
senoidal con una frecuencia fija o mediante la utilización directa
de una señal arbitraria n_{eb}(k), tal como ya se ha
definido antes. Destaquemos que el procedimiento que se utiliza
para generar la señal de activación s_{exc}(k) es
totalmente independiente de la generación de la señal digital BWE,
así como del formato de esta señal digital BWE y así como de la
decodificación de esta señal digital BWE. Por ello puede realizarse
a este respecto un ajuste independiente.
A continuación se describirá más en detalle la
formación reconstructora de las envolventes en el tiempo. La señal
digital BWE se decodifica, tal como ya se ha indicado, en el bloque
52 y los parámetros caracterizadores de las envolventes en el
tiempo y de las envolventes espectrales de la potencia de la señal,
que se calculan según las fórmulas 2) y 3), se ponen a disposición
según las señales S_{Pt(\nu)} y S_{Pf(\mu,\lambda)}. Tal como
se observa al respecto en la representación de la figura 2, se
realiza en el ejemplo de ejecución primeramente una formación
reconstructora de las envolventes en el tiempo. Esto se realiza en
la zona del decodificador 53. Para ello se transmiten la señal de
activación s_{exc}(k), así como la señal
S_{Pt(\nu)}, a esta zona del decodificador 53. Tal como se
muestra en la figura 2, se transmite la señal de activación
s_{exc}(k) tanto a un bloque 531 como también a un
multiplicador 532. Al bloque 531 se transmite también la señal
S_{Pt(\nu)}. A partir de estas señales transmitidas al bloque 531,
se genera un factor de corrección escalar g_{1}(k). Este
factor escalar de corrección g_{1}(k) se transmite desde el
bloque 531 al multiplicador 532. En el multiplicador 532 se
multiplica entonces la señal de activación
s_{exc}(k) por este factor escalar de corrección
g_{1}(k) y se genera una señal de salida
s'_{exc}(k), que caracteriza la formación
reconstruida de las envolventes en el tiempo. Esta señal de salida
s'_{exc}(k) presenta las envolventes en el tiempo
aproximadamente correctas, pero en cuanto a la frecuencia correcta
aún es inexacta e imprecisa, con lo que en la siguiente etapa es
necesario realizar una formación reconstructora de las envolventes
espectrales, para adaptar esta frecuencia imprecisa a la frecuencia
necesaria.
Tal como se observa al respecto en la figura 2,
se transmite la señal de salida s'_{exc}(k) a una
segunda zona 54 del decodificador 5, a la que se transmite también
la señal S_{Pf(\mu,\lambda)}. La segunda zona del decodificador
54 presenta un bloque 541 y un bloque 542, estando diseñado el
bloque 541 para el filtrado de la señal de salida
s'_{exc}(k). A partir de la señal de salida
s'_{exc}(k) y de la señal S_{Pf(\mu,\lambda)} se
genera una respuesta de impulso h(k), que se transmite desde
el bloque 541 al bloque 542. En este bloque 542 se realiza entonces
a partir de la señal de salida s'_{exc}(k) y de la
respuesta de impulso h(k) la formación reconstructora de las
envolventes espectrales. Esta envolvente espectral reconstruida se
caracteriza entonces mediante la señal de salida
s'_{exc}(k) del bloque 542.
En el ejemplo de ejecución mostrado según la
figura 2, se realiza a continuación de la generación de la señal de
salida s'_{exc}(k) de la segunda zona del
decodificador 54 de nuevo una formación reconstructora de las
envolventes en el tiempo en una tercera zona 55 del decodificador 5.
Esta formación reconstructora de las envolventes en el tiempo se
realiza análogamente a como se realiza en la primera zona del
decodificador 53. Entonces se genera en esta tercera zona del
decodificador 55 a partir de la señal de salida
s'_{exc}(k) y de la señal S_{Pt(\nu)} mediante el
bloque 551 un segundo factor de corrección escalar
g_{2}(k), que se transmite a un multiplicador 552. Como
señal de salida de la tercera zona 55 del decodificador 5, se pone
a disposición entonces la señal s_{eb}(k)
caracterizadora de los componentes de señal necesarios para la
ampliación de la anchura de banda. Esta señal
s_{eb}(k) se transmite a un sumador 56, al que se
transmite también la señal de banda estrecha
s_{nb}(k). Mediante la suma de la señal de banda
estrecha s_{nb}(k) y de la señal
s_{eb}(k) se genera la señal de salida ampliada en
anchura de banda sº_{wb}(k) y se pone a disposición
como señal de salida del decodificador 5.
Señalemos que la ejecución mostrada en la figura
2 es sólo a modo de ejemplo y para la invención ya es suficiente
una única formación reconstructora de la envolvente en el tiempo,
tal como se realiza en la primera zona del decodificador 53, y una
única formación reconstructora de las envolventes espectrales, tal
como se realiza en la segunda zona del decodificador 54. Igualmente
señalemos que también puede estar previsto que la formación
reconstructora de las envolventes espectrales se realice en la
segunda zona del decodificador 54 antes de la formación
reconstructora de las envolventes en el tiempo en la primera zona
del decodificador 53. Esto significa que la segunda zona
decodificadora 54 está dispuesta en una ejecución como la indicada
delante de la primera zona decodificadora 53. Igualmente puede no
obstante estar previsto también que la realización alternada de una
formación reconstructora de las envolventes en el tiempo y una
formación reconstructora de las envolventes espectrales prosiga de
nuevo y por ejemplo en la ejecución mostrada en la figura 2 esté
dispuesta a continuación de la tercera zona del decodificador 55
otra zona del decodificador, en la que de nuevo se realiza una
formación reconstructora de la envolvente espectral.
Tal como ya se ha indicado anteriormente, se
utiliza la invención en el ejemplo de ejecución de manera ventajosa
para una señal de voz de entrada de banda ancha con una gama de
frecuencias de unos 50 Hz hasta 7 kHz. Igualmente está prevista la
invención en el ejemplo de ejecución para la ampliación artificial
de la anchura de banda de señales de voz, estando predeterminada
entonces la banda de ampliación mediante la gama de frecuencias de
unos 3,4 kHz hasta unos 7 kHz. No obstante, puede también estar
previsto que la invención se utilice para una banda de ampliación
que está situada en una gama de frecuencias de baja frecuencia. Por
ejemplo, puede incluir la banda de ampliación entonces una gama de
frecuencias de unos 50 Hz, o también incluso frecuencias más
inferiores, hasta una gama de frecuencias de unos 3,4 kHz.
Subrayemos explícitamente que el procedimiento correspondiente a la
invención para la ampliación artificial de la anchura de banda de
señales de voz también puede utilizarse tal que la banda de
ampliación incluya una gama de frecuencias que se encuentre al menos
parcialmente por encima de una frecuencia de unos 7 kHz y por
ejemplo alcance hasta 8 kHz, en particular 10 kHz, o aún más
altas.
Tal como ya se ha descrito, se genera una
formación reconstructora de las envolventes en el tiempo en la
primera zona del decodificador 53 según la figura 2 mediante una
multiplicación del primer factor de corrección escalar
g_{1}(k) y la señal de activación
s_{exc}(k). Al respecto ha de tenerse en cuenta que
una multiplicación en el campo del tiempo se corresponde con una
operación de plegado en el campo de frecuencias, con lo que
resultan las siguientes fórmulas 5):
Mientras que la envolvente espectral no se
modifique en principio mediante la primera zona del decodificador
53, debe presentar el primer factor escalar de corrección o bien
factor de amplificación g_{1}(k) características estrictas
de frecuencia de pasobajo.
Para calcular este factor de amplificación o
bien este primer factor de corrección g_{1}(k), se segmenta
y analiza la señal de activación s_{exc}(k) tal
como ya se ha realizado antes para la segmentación y el análisis de
la extracción de las envolventes en el tiempo o bien de la
generación de la señal S_{Pt(\nu)} a partir de la señal
s_{eb}(k) en el codificador 1 mediante el bloque 12.
La relación entre la potencia de señal decodificada, tal como se
calcula mediante la fórmula 3) y el resultado analizado de la
intensidad de señal P_{t}^{exc}(\nu) conduce a un
factor de amplificación deseado \gamma(\nu) para el
segmento de señal número \nu. Este factor de amplificación del
segmento de señal número \nu se calcula según la siguiente fórmula
6):
A partir de este factor de amplificación
\gamma(\nu) se calcula el factor de amplificación o bien
el primer factor de corrección g_{1}(k) mediante una
interpolación y un filtrado pasobajo. El filtrado pasobajo es al
respecto de importancia decisiva, para limitar la influencia de este
factor de amplificación o bien de este primer factor de corrección
g_{1}(k) sobre la envolvente espectral.
La formación reconstructora de las envolventes
espectrales de los componentes de señal necesarios de la banda de
ampliación se determina mediante un filtrado de la señal de salida
s'_{exc}(k), que caracteriza la formación
reconstruida de las envolventes en el tiempo. La operación de
filtrado puede entonces implementarse en el campo del tiempo o en
el campo de las frecuencias. Para poder evitar una gran dispersión
en el tiempo o bien una gran extensión en el tiempo de la respuesta
de impulso h(k), puede alisarse la correspondiente
característica de frecuencia H(z). Para poder determinar las
características de frecuencia deseadas, se analiza la señal de
salida s'_{exc}(k) de la primera zona del
decodificador 53, para poder encontrar las potencias de señal de
P_{f}^{exc}(\mu,\lambda). El factor de
amplificación deseado \Phi(\mu,\lambda) de la
correspondiente banda parcial de la gama de frecuencias de la banda
de ampliación, se calcula según la siguiente fórmula 7):
La característica de frecuencias
H(\mu,i) del filtro formador de las envolventes espectrales
puede calcularse mediante una interpolación del factor de
amplificación \Phi(\mu,\lambda) y con un alisamiento
teniendo en cuenta la frecuencia. En el caso de que el filtro
formador de las envolventes espectrales deba utilizarse en el campo
del tiempo, por ejemplo mediante un filtro lineal de fase FIR,
pueden calcularse los coeficientes de filtrado mediante una
transformación FF inversa de la característica de frecuencias
H(\mu,i) y una ventanización subsiguiente.
Tal como se ha descrito y mostrado según las
explicaciones anteriores, influye la formación reconstructora de
las envolventes en el tiempo sobre la formación reconstructora de
las envolventes espectrales y a la inversa. Por ello es ventajoso
que se realice, tal como se ha descrito en el ejemplo de ejecución y
representado en la figura 2, una realización alternada de una
formación reconstructora de una envolvente en el tiempo y de una
envolvente espectral en un proceso iterativo. De esta manera puede
lograrse una coincidencia bastante mejorada de las envolventes en
el tiempo y de las envolventes espectrales de los componentes de
señal de la banda de ampliación que se reconstruyen en el
decodificador y de las correspondientes envolventes en el tiempo y
espectrales generadas en el codificador.
En el ejemplo de ejecución descrito según la
figura 2, se realiza una iteración de una vez y media
(reconstrucción de las envolventes en el tiempo, reconstrucción de
las envolventes espectrales y de nuevo reconstrucción de las
envolventes en el tiempo). Una ampliación de la anchura de banda tal
como la que es posible mediante la invención, facilita la
generación de una señal de activación con armónicos en la frecuencia
correcta, por ejemplo para un múltiplo entero de la frecuencia
básica del sonido momentáneo. Es de observar que la invención puede
utilizarse también en componentes de señal de las bandas parciales
de la señal de entrada de banda ancha muestreados hacia abajo. Esto
el ventajoso cuando se exige un bajo coste en cálculo.
De manera ventajosa, se disponen el codificador
1 así como los bloques 2 y 3 en un emisor, realizándose entonces
lógicamente también las etapas de procedimiento realizadas en los
bloques 2 y 3, así como en el codificador 1, también en el emisor.
El bloque 4 así como el decodificador 5 pueden estar dispuestos de
manera ventajosa en un receptor, con lo que también de esta manera
queda claro que los pasos previos realizados en el decodificador 5
y en el bloque 4 se procesan en el receptor. Es de observar que la
invención también puede estar realizada tal que las etapas de
procedimiento realizadas en el codificador 1 se realicen en el
decodificador 5 y con ello exclusivamente se realicen en el
receptor. Al respecto puede estar previsto que las potencias de
señal que se calculan según las fórmulas 2) y 3) se estimen en el
decodificador 5. En particular está configurado entonces el bloque
52 para estimar estos parámetros de las potencias de señal. Esta
ejecución posibilita ocultar potenciales errores de transmisión de
las informaciones auxiliares transmitidas en la señal digital BWE.
Mediante una estimación transitoria de parámetros perdidos de un
envolvente, por ejemplo mediante una pérdida de datos, puede
evitarse una molesta conmutación de la anchura de banda de la
señal.
A diferencia de los procedimientos conocidos
para la ampliación artificial de la anchura de banda de señales de
voz, no se realiza en la invención ninguna transmisión de factores
de amplificación y coeficientes de filtrado ya utilizados como
informaciones auxiliares, sino solamente se transmiten las
envolventes en el tiempo y espectrales deseadas como informaciones
auxiliares a un decodificador. Los factores de amplificación y los
coeficientes de filtrado se calculan sólo en el decodificador, que
está dispuesto en un receptor. De esta manera puede lograrse que de
manera económica pueda analizarse y dado el caso corregirse la
ampliación artificial de la anchura de banda en el receptor.
Además, el procedimiento correspondiente a la invención, así como el
dispositivo correspondiente a la invención, son muy robustos frente
a perturbaciones de la señal de activación, pudiendo provocarse por
ejemplo una perturbación de este tipo de una señal de banda estrecha
recibida por errores de transmisión.
Mediante una realización separada del análisis,
de la transmisión y de la formación reconstructora de las
envolventes en el tiempo y espectrales, es posible lograr que tanto
en el campo del tiempo como también en el campo de las frecuencias
una resolución o bien subdivisión muy buena en el campo del tiempo y
en el campo de las frecuencias. Esto da lugar a una
reproducibilidad muy buena tanto de sonidos y tonos fijos como
también de señales transitorias o bien cortas. Para señales de voz,
se aprovecha en particular la reproducción de consonantes de parada
y plosivas de la resolución en tiempo muy mejorada.
Contrariamente a ampliaciones de anchura de
banda tradicionales, puede realizarse mediante la invención la
formación de frecuencias mediante filtro FIR de fase lineal en lugar
de filtros de síntesis LPC. De esta manera puede lograrse también
reducir artefactos típicos ("filter ringing" o adición de ruido
en las transiciones). Además, posibilita la invención una forma
constructiva muy flexible y modular, que posibilita además que los
distintos bloques en el receptor o bien en el decodificador 5 puedan
sustituirse o ajustarse de manera sencilla. De manera ventajosa, no
es necesaria para una tal modificación o ajuste ninguna modificación
del emisor o bien del codificador 1 o del formato de la señal de
transmisión con el que se transmiten las informaciones codificadas
al decodificador 5 o bien el receptor. Además, pueden funcionar con
el procedimiento correspondiente a la invención distintos
decodificadores, con lo que puede realizarse un restablecimiento de
la señal de entrada de banda ancha con distinta precisión en
función de la potencia de cálculo disponible.
También es de señalar que los parámetros
recibidos que caracterizan a las envolventes espectrales y a las
envolventes en el tiempo, no sólo pueden utilizarse para una
ampliación de la anchura de banda, sino además también para apoyar
bloques siguientes de procesamiento de la señal, como por ejemplo un
filtrado posterior o etapas adicionales de codificación como
codificador de transformación.
La señal de voz de banda estrecha resultante
s_{nb}(k), tal como de la que dispone el algoritmo
para la ampliación de la anchura de banda, puede estar disponible
por ejemplo tras una reducción de la frecuencia de exploración en
un factor 2 con la frecuencia de exploración de 8 kHz.
Con la invención y el principio que sirve de
base de la ampliación de la anchura de banda, es posible generar
una activación de banda ancha de informaciones del estándar
G.729A+-. La velocidad de datos de las informaciones auxiliares
transmitidas en la señal digital BWE puede ser de aprox. 2 kbit/s.
Además, se necesita en la invención un sistema de cálculo de baja
complejidad relativa o bien un coste de cálculo relativamente de
poca complejidad, que es inferior a 3 WMPOS. Además, el
procedimiento correspondiente a la invención y el dispositivo
correspondiente a la invención son muy robustos frente a
perturbaciones de la banda de base del estándar G.729A+-. La
invención puede utilizarse también de manera ventajosa para su
aplicación en Voice-over-IP (voz
sobre IP). Además, el procedimiento correspondiente a la invención
así como el dispositivo correspondiente a la invención son
compatibles con envolventes TDAC. No en último lugar, presenta
también la invención una estructura muy modular y flexible y una
concepción modular y flexible.
Claims (24)
1. Procedimiento para la ampliación artificial
de la anchura de banda de señales de voz,
caracterizado por las siguientes
etapas:
- a)
- puesta a disposición de una señal de voz de entrada de banda ancha (s^{i}_{wb}(k));
- b)
- determinación de los componentes de señal (s_{eb}(k)) de la señal de voz de entrada de banda ancha (s^{i}_{wb}(k)) necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz de entrada de banda ancha (s^{i}_{wb}(k));
- c)
- determinación de las envolventes en el tiempo de los componentes de señal (s_{eb}(k)) destinados a la ampliación de la anchura de banda;
- d)
- determinación de las envolventes espectrales de los componentes de señal (s_{eb}(k)) destinados a la ampliación de la anchura de banda;
- e)
- codificación de las informaciones de las envolventes en el tiempo y de las envolvente espectrales y puesta a disposición de las informaciones codificadas para realizar la ampliación de la anchura de banda;
- f)
- decodificación de las informaciones codificadas y generación de las envolventes en el tiempo y de las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida (sº_{wb}(k)) ampliada en ancho de banda.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1,
caracterizado porque
los componentes de señal
(s_{eb}(k)) necesarios para la ampliación de la
anchura de banda se determinan mediante un filtrado, en particular
un filtrado pasabanda, a partir de la señal de voz de entrada
(s^{i}_{wb}(k)) de banda ancha.
\vskip1.000000\baselineskip
3. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
la determinación de las envolventes en el tiempo
se realiza en la etapa c) independientemente de la determinación de
las envolventes espectrales en la etapa d).
\vskip1.000000\baselineskip
4. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
antes de la codificación de las envolventes en
el tiempo y de las envolventes espectrales, se realiza en la etapa
e) una cuantificación de la envolvente en el tiempo y de la
envolvente espectral.
\vskip1.000000\baselineskip
5. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
en la etapa d) para determinar las envolventes
espectrales se determinan las potencias de señal
(P_{f}(\mu,\lambda)) de bandas parciales espectrales
de los componentes de señal (s_{eb}(k)) destinados a
la ampliación de la anchura de banda.
\vskip1.000000\baselineskip
6. Procedimiento según la reivindicación 5,
caracterizado porque
para determinar las potencias de señal
(P_{f}(\mu,\lambda)) de las bandas parciales
espectrales se generan segmentos de señal de los componentes de
señal (s_{eb}(k)) destinados a la ampliación de la
anchura de banda, transformándose en particular estos segmentos de
señal, en particular según transformación FF.
\vskip1.000000\baselineskip
7. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
en la etapa c) para determinar las envolventes
en el tiempo, se determinan las intensidades de señal
(P_{t}(\nu)) de segmentos de señal en el tiempo de los
componentes de señal (s_{eb}(k)) destinados a la
ampliación de la anchura de banda.
\vskip1.000000\baselineskip
8. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
en la etapa f) se decodifican las informaciones
codificadas para la formación reconstructora de las envolventes en
el tiempo y de las envolventes espectrales.
\vskip1.000000\baselineskip
9. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
se genera una señal de activación
(s_{exc}(k)) en un decodificador (5) a partir de una
señal (s_{si}(k)) transmitida al decodificador (5),
presentando la señal (s_{si}(k)) transmitida una
intensidad de señal en la gama de frecuencias que se corresponde
con la de la banda de ampliación de la señal de voz de entrada de
banda ancha (s^{i}_{wb}(k)) que posibilita la
generación de una señal de activación
(s_{exc}(k)).
\vskip1.000000\baselineskip
10. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
se transmite al decodificador (5) una señal de
banda estrecha modulada con una zona de banda por debajo de la zona
de banda de la banda de ampliación de la señal de voz de entrada
(s^{i}_{wb}(k)) de banda ancha para generar la
señal de activación (s_{exc}(k)).
\vskip1.000000\baselineskip
11. Procedimiento según la reivindicación 9 ó
10,
caracterizado porque
la señal de activación
(s_{exc}(k)) presenta armónicos de la frecuencia
básica de la señal (s_{si}(k)) transmitida al
decodificador (5).
\vskip1.000000\baselineskip
12. Procedimiento según las reivindicaciones 8 y
11,
caracterizado porque
a partir de las informaciones decodificadas de
las envolventes en el tiempo y de la señal de activación
(s_{exc}(k)), se determina un primer factor de
corrección (g_{1}(k)).
\vskip1.000000\baselineskip
13. Procedimiento según la reivindicación
12,
caracterizado porque
a partir del primer factor de corrección
(g_{1}(k)) y de la señal de activación
(s_{exc}(k)) se realiza una formación
reconstructora de las envolventes en el tiempo, en particular
multiplicando el primer factor de corrección (g_{1}(k))
por la señal de activación (s_{exc}(k)).
\vskip1.000000\baselineskip
14. Procedimiento según la reivindicación
13,
caracterizado porque
la formación reconstruida de las envolventes en
el tiempo se filtra y en el filtrado se generan respuestas de
impulso (h(k)).
\vskip1.000000\baselineskip
15. Procedimiento según la reivindicación
14,
caracterizado porque
a partir de las respuestas de impulso
(h(k)) y de la formación reconstruida de las envolventes en
el tiempo se realiza una formación reconstructora de las
envolventes espectrales.
\vskip1.000000\baselineskip
16. Procedimiento según la reivindicación
15,
caracterizado porque
a partir de la formación reconstruida de las
envolventes espectrales se reconstruyen los componentes de
señal
(s_{eb}(k)) de la banda de ampliación de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha.
(s_{eb}(k)) de la banda de ampliación de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha.
\vskip1.000000\baselineskip
17. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
se transmite a un decodificador (5) una señal de
banda estrecha (s_{nb}(k)) con una zona de banda por
debajo de la banda de ampliación de la señal de entrada
(s^{i}_{wb}(k)) de banda ancha.
\vskip1.000000\baselineskip
18. Procedimiento según la reivindicación 16 y
17,
caracterizado porque
la señal de voz de salida
(sº_{wb}(k)) ampliada en anchura de banda se
determina a partir de la señal de banda estrecha
(s_{nb}(k)) transmitida al decodificador (5) y de la
formación reconstruida de las envolventes espectrales, en
particular a partir de una suma de estas dos señales y se pone a
disposición como señal de salida del decodificador (5).
\vskip1.000000\baselineskip
19. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
las etapas a) a e) se realizan en un codificador
(1) y las informaciones codificadas generadas como señal digital
(BWE) en la etapa d) se transmiten para su decodificación.
\vskip1.000000\baselineskip
20. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
la señal de voz de entrada
(s^{i}_{wb}(k)) de banda ancha incluye una anchura
de banda entre unos 50 Hz y unos 7 kHz.
\vskip1.000000\baselineskip
21. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
la banda de ampliación de la señal de voz de
entrada (s^{i}_{wb}(k)) de banda ancha incluye la
banda de frecuencias de unos 3,4 kHz hasta unos 7 kHz.
\vskip1.000000\baselineskip
22. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
la señal de banda estrecha
(s_{nb}(k)) incluye una gama de señales de la señal
de voz de entrada (s^{i}_{wb}(k)) de banda ancha
de unos 50 Hz hasta unos 3,4 kHz.
\vskip1.000000\baselineskip
23. Dispositivo para la ampliación artificial de
la anchura de banda de señales de voz, al que puede aplicarse una
señal de voz de entrada (s^{i}_{wb}(k)) de banda
ancha,
caracterizado por
- a)
- elementos para determinar los componentes de señal (s_{eb}(k)) de la señal de voz de entrada (s^{i}_{wb}(k)) de banda ancha necesarios para la ampliación de la anchura de banda, a partir de una banda de ampliación de la señal de voz entrada (s^{i}_{wb}(k)) de banda ancha;
- b)
- medios para determinar las envolventes en el tiempo de los componentes de señal destinados a la ampliación de la anchura de banda (s_{eb}(k));
- c)
- medios para determinar las envolventes espectrales de los componentes de señal destinados a la ampliación de la anchura de banda (s_{eb}(k));
- d)
- un codificador (1) para codificar las envolventes en el tiempo y las envolventes espectrales y poner a disposición las informaciones codificadas para realizar la ampliación de la anchura de banda; y
- e)
- un decodificador (5) para decodificar las informaciones codificadas y generar las envolventes en el tiempo y las envolventes espectrales a partir de las informaciones codificadas para generar una señal de voz de salida (sº_{wb}(k)) ampliada en anchura de banda.
\vskip1.000000\baselineskip
24. Dispositivo según la reivindicación 23,
caracterizado porque
los medios en a) hasta d) están configurados
como codificador (1).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102005032724A DE102005032724B4 (de) | 2005-07-13 | 2005-07-13 | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
DE102005032724 | 2005-07-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2309969T3 true ES2309969T3 (es) | 2008-12-16 |
Family
ID=36994160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES06840370T Active ES2309969T3 (es) | 2005-07-13 | 2006-06-30 | Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz. |
Country Status (12)
Country | Link |
---|---|
US (1) | US8265940B2 (es) |
EP (1) | EP1825461B1 (es) |
JP (1) | JP4740260B2 (es) |
KR (1) | KR100915733B1 (es) |
CN (2) | CN100568345C (es) |
AT (1) | ATE407424T1 (es) |
CA (1) | CA2580622C (es) |
DE (2) | DE102005032724B4 (es) |
DK (1) | DK1825461T3 (es) |
ES (1) | ES2309969T3 (es) |
PL (1) | PL1825461T3 (es) |
WO (1) | WO2007073949A1 (es) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101290622B1 (ko) * | 2007-11-02 | 2013-07-29 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 오디오 복호화 방법 및 장치 |
EP2229677B1 (en) * | 2007-12-18 | 2015-09-16 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
KR101261677B1 (ko) | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
WO2010028299A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
WO2010028292A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction |
WO2010028301A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Spectrum harmonic/noise sharpness control |
WO2010028297A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Selective bandwidth extension |
WO2010031003A1 (en) | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
CN101751926B (zh) | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码*** |
JP5423684B2 (ja) * | 2008-12-19 | 2014-02-19 | 富士通株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP4921611B2 (ja) * | 2009-04-03 | 2012-04-25 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
US8781844B2 (en) * | 2009-09-25 | 2014-07-15 | Nokia Corporation | Audio coding |
KR101613684B1 (ko) * | 2009-12-09 | 2016-04-19 | 삼성전자주식회사 | 음향 신호 보강 처리 장치 및 방법 |
JP5652658B2 (ja) * | 2010-04-13 | 2015-01-14 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
HUE028738T2 (en) * | 2010-06-09 | 2017-01-30 | Panasonic Ip Corp America | Bandwidth Extension Procedure, Bandwidth Extension Device, Program, Integrated Circuit, and Audio Decoder |
US20130108073A1 (en) * | 2010-07-09 | 2013-05-02 | Bang & Olufsen A/S | Method and apparatus for providing audio from one or more speakers |
US8560330B2 (en) * | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US8868432B2 (en) * | 2010-10-15 | 2014-10-21 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
CN102610231B (zh) * | 2011-01-24 | 2013-10-09 | 华为技术有限公司 | 一种带宽扩展方法及装置 |
PL2737479T3 (pl) * | 2011-07-29 | 2017-07-31 | Dts Llc | Adaptacyjna poprawa zrozumiałości głosu |
JP6200034B2 (ja) * | 2012-04-27 | 2017-09-20 | 株式会社Nttドコモ | 音声復号装置 |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
US9258428B2 (en) | 2012-12-18 | 2016-02-09 | Cisco Technology, Inc. | Audio bandwidth extension for conferencing |
CN105190748B (zh) * | 2013-01-29 | 2019-11-01 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、***、方法及存储介质 |
MX345622B (es) * | 2013-01-29 | 2017-02-08 | Fraunhofer Ges Forschung | Decodificador para generar una señal de audio mejorada en frecuencia, método de decodificación, codificador para generar una señal codificada y metodo de codificación utilizando informacion secundaria de selección compacta. |
EP2784775B1 (en) * | 2013-03-27 | 2016-09-14 | Binauric SE | Speech signal encoding/decoding method and apparatus |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
US9666202B2 (en) * | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
EP3199956B1 (en) * | 2016-01-28 | 2020-09-09 | General Electric Technology GmbH | Apparatus for determination of the frequency of an electrical signal and associated method |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3946821B2 (ja) * | 1996-12-13 | 2007-07-18 | 東北リコー株式会社 | 排版装置 |
DE19706516C1 (de) * | 1997-02-19 | 1998-01-15 | Fraunhofer Ges Forschung | Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US20020031129A1 (en) * | 2000-09-13 | 2002-03-14 | Dawn Finn | Method of managing voice buffers in dynamic bandwidth circuit emulation services |
DE10102173A1 (de) * | 2001-01-18 | 2002-07-25 | Siemens Ag | Verfahren und Anordnung zum Umsetzen von parametrisch codier-ten Sprachsignalen verschiedener Bandbreite in Sprachsignale |
JP2003044098A (ja) * | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
ATE315308T1 (de) * | 2002-09-12 | 2006-02-15 | Siemens Ag | Kommunikationsendgerät mit bandbreitenerweiterung und echokompensation |
DE10252070B4 (de) * | 2002-11-08 | 2010-07-15 | Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale | Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür |
US20040138876A1 (en) * | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
EP1864281A1 (en) * | 2005-04-01 | 2007-12-12 | QUALCOMM Incorporated | Systems, methods, and apparatus for highband burst suppression |
-
2005
- 2005-07-13 DE DE102005032724A patent/DE102005032724B4/de not_active Expired - Fee Related
-
2006
- 2006-06-30 CA CA2580622A patent/CA2580622C/en not_active Expired - Fee Related
- 2006-06-30 WO PCT/EP2006/063742 patent/WO2007073949A1/de active IP Right Grant
- 2006-06-30 ES ES06840370T patent/ES2309969T3/es active Active
- 2006-06-30 KR KR1020077005783A patent/KR100915733B1/ko not_active IP Right Cessation
- 2006-06-30 AT AT06840370T patent/ATE407424T1/de not_active IP Right Cessation
- 2006-06-30 JP JP2007551692A patent/JP4740260B2/ja not_active Expired - Fee Related
- 2006-06-30 DK DK06840370T patent/DK1825461T3/da active
- 2006-06-30 CN CNB2006800007998A patent/CN100568345C/zh not_active Expired - Fee Related
- 2006-06-30 CN CN200910208032XA patent/CN101676993B/zh not_active Expired - Fee Related
- 2006-06-30 US US11/662,592 patent/US8265940B2/en not_active Expired - Fee Related
- 2006-06-30 DE DE502006001491T patent/DE502006001491D1/de active Active
- 2006-06-30 EP EP06840370A patent/EP1825461B1/de not_active Not-in-force
- 2006-06-30 PL PL06840370T patent/PL1825461T3/pl unknown
Also Published As
Publication number | Publication date |
---|---|
ATE407424T1 (de) | 2008-09-15 |
KR20070090143A (ko) | 2007-09-05 |
CA2580622A1 (en) | 2007-01-13 |
DE102005032724A1 (de) | 2007-02-01 |
CN100568345C (zh) | 2009-12-09 |
DE502006001491D1 (de) | 2008-10-16 |
CN101676993B (zh) | 2012-05-30 |
PL1825461T3 (pl) | 2009-02-27 |
CN101061535A (zh) | 2007-10-24 |
JP2008513848A (ja) | 2008-05-01 |
DE102005032724B4 (de) | 2009-10-08 |
JP4740260B2 (ja) | 2011-08-03 |
CA2580622C (en) | 2011-05-10 |
EP1825461A1 (de) | 2007-08-29 |
DK1825461T3 (da) | 2009-01-26 |
US8265940B2 (en) | 2012-09-11 |
KR100915733B1 (ko) | 2009-09-04 |
US20080126081A1 (en) | 2008-05-29 |
EP1825461B1 (de) | 2008-09-03 |
CN101676993A (zh) | 2010-03-24 |
WO2007073949A1 (de) | 2007-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2309969T3 (es) | Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz. | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
US20200234724A1 (en) | Classification Between Time-Domain Coding and Frequency Domain Coding for High Bit Rates | |
TWI321777B (en) | Systems, methods, and apparatus for highband burst suppression | |
KR100726960B1 (ko) | 음성 처리에서의 인위적인 대역폭 확장 방법 및 장치 | |
US8577673B2 (en) | CELP post-processing for music signals | |
EP1141946B1 (en) | Coded enhancement feature for improved performance in coding communication signals | |
US9020815B2 (en) | Spectral envelope coding of energy attack signal | |
JP5047268B2 (ja) | Mdct係数を使用する音声後処理 | |
WO2010127617A1 (en) | Methods for receiving digital audio signal using processor and correcting lost data in digital audio signal | |
ES2878401T3 (es) | Extensión de banda de frecuencia mejorada en un decodificador de señales de audiofrecuencia | |
WO2006009074A1 (ja) | 音声復号化装置および補償フレーム生成方法 | |
ES2296791T3 (es) | Codificacion de señales acusticas perceptivamente mejorada. | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
US9418671B2 (en) | Adaptive high-pass post-filter | |
US20090299755A1 (en) | Method for Post-Processing a Signal in an Audio Decoder | |
Berisha et al. | Bandwidth extension of speech using perceptual criteria | |
JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
ES2963367T3 (es) | Aparato y procedimiento de decodificación de una señal de audio usando una parte de anticipación alineada | |
JP2008134649A (ja) | 音声信号の再生方法及び装置 |