ES2284475T3 - Metodo y aparato para la supresion del ruido de manera adaptativa. - Google Patents
Metodo y aparato para la supresion del ruido de manera adaptativa. Download PDFInfo
- Publication number
- ES2284475T3 ES2284475T3 ES00902355T ES00902355T ES2284475T3 ES 2284475 T3 ES2284475 T3 ES 2284475T3 ES 00902355 T ES00902355 T ES 00902355T ES 00902355 T ES00902355 T ES 00902355T ES 2284475 T3 ES2284475 T3 ES 2284475T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- power
- signals
- nsr
- dtmf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000001629 suppression Effects 0.000 title description 38
- 238000001514 detection method Methods 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000004891 communication Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 5
- 238000002513 implantation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 75
- 230000007774 longterm Effects 0.000 abstract description 29
- 230000008569 process Effects 0.000 abstract description 9
- 230000006978 adaptation Effects 0.000 abstract description 6
- 230000001172 regenerating effect Effects 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 description 26
- 238000011069 regeneration method Methods 0.000 description 20
- 230000008929 regeneration Effects 0.000 description 17
- 238000012360 testing method Methods 0.000 description 12
- 230000002238 attenuated effect Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 230000008030 elimination Effects 0.000 description 5
- 238000003379 elimination reaction Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000002688 persistence Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
El aparato para mejorar la calidad de una señal de comunicaciones en un sistema de comunicaciones, que comprende: los medios para dividir la señal de comunicación en una pluralidad de señales de banda de frecuencia; los medios para generar una primera señal de potencia para la primera señal de banda de frecuencia, la cual se basa en estimar durante un primer periodo de tiempo la potencia de la primera señal de banda de frecuencia; los medios para generar una segunda señal de potencia para la primera señal de banda de frecuencia, la cual se basa en estimar durante un segundo periodo de tiempo inferior al primer periodo de tiempo la potencia de la primera señal de banda de frecuencia; los medios para generar una relación ruido-señal (NSR) que representa una condición de la primera señal de banda de frecuencia en respuesta a una relación aritmética predeterminada que comprende al menos una adición, sustracción y multiplicación pero sin división, entre los valores derivados de la primera y segunda señal de potencia; los medios para ajustar la ganancia de la señal de banda de frecuencia en respuesta a la NSR para generar una señal de banda de frecuencia ajustada; y los medios para combinar la señal de banda de frecuencia ajustada con al menos una señal de banda de frecuencia adicional para generar una señal de comunicación ajustada.
Description
Método y aparato para la supresión del ruido de
manera adaptativa.
La presente invención se refiere a la supresión
de ruidos en los sistemas de telecomunicaciones. En particular, la
presente invención se refiere a eliminar ruido en sistemas de un
solo canal o en canales únicos en sistemas de canales
múltiples.
La mejora de la calidad de la voz es una función
importante en sistemas de comunicaciones por voz. Los teléfonos
móviles, por ejemplo, se utilizan con frecuencia en presencia de
niveles elevados de ruido ambiental de fondo presente en los
vehículos en marcha. El ruido de fondo provoca una degradación
significativa de la calidad de la voz en el receptor, haciendo que
la voz sea prácticamente ininteligible. En tales circunstancias,
pueden emplearse técnicas de mejora de la voz para mejorar la
calidad de la voz recibida, aumentando así la satisfacción del
cliente y facilitando tiempos de conversación más largos.
Los sistemas de supresión del ruido antiguos
utilizaban normalmente algunas variaciones de la sustracción
espectral. En la Figura 1 se muestra un ejemplo de un sistema de
supresión del ruido 100 que usa la sustracción espectral. En primer
lugar, se efectúa una descomposición espectral de la señal de voz
con ruido de entrada 102 usando la batería de filtros 104. La
batería de filtros 104 puede ser una batería de filtros de paso de
banda tal como, por ejemplo, los filtros de paso de banda descritos
en R. J. McAulay y M. L. Malpass, "Speech Enhancement Using a
Soft-Decision Noise Suppression Filter", IEEE
Trans. Acoust., Speech, Signal Processing, vol.
ASSP-28, n° 2, (Abr. de 1980), págs.
137-145.
En este contexto, el ruido se refiere a
cualquier señal no deseada presente en la señal de voz que incluye:
1) ruido ambiental de fondo; 2) reverberación como la debida a
reflexiones acústicas o reflexiones eléctricas en híbridos; 3)
ruido mecánico y/o eléctrico añadido debido a equipos específicas
tales como ruido de fondo de cinta en un sistema de reproducción de
voz; y 3) no linealidades debidas, por ejemplo, a recortes de la
señal o a cuantificación por compresión de la voz.
La batería de filtros 104 descompone la señal en
diferentes bandas de frecuencia. Para cada banda, se realizan
mediciones de la potencia que se actualizan continuamente en el
estimador de potencia de la señal y de potencia del ruido 106.
Estas mediciones de la potencia se usan para determinar la relación
señal-ruido (SNR) de cada banda. El detector de
actividad de voz 108 se usa para distinguir periodos de actividad
de habla de periodos de silencio. La potencia de ruido de cada
banda de frecuencia se actualiza solo durante los silencios
mientras que la potencia de la señal de ruido se rastrea en todo
momento. Para cada banda de frecuencia, se calcula un factor de
ganancia (atenuación) en el controlador de ganancia 110 basado en
la SNR de la banda para atenuar la señal del multiplicador de
ganancia 112. Así, cada banda de frecuencia de la señal de voz
ruidosa de entrada se atenúa según esa SNR. En este contexto, la
señal de voz se refiere a una señal de audio que puede contener
voz, música u otras señales de audio que transportan información
(por ej., tonos DTMF, pausas silenciosas y ruido).
Un enfoque más sofisticado también puede usar un
nivel de SNR general además de los valores SNR individuales para
calcular los factores de ganancia de cada banda. La SNR general se
calcula en el estimador de la SNR general 114. Los cálculos del
factor de ganancia de cada banda se realizan en el controlador de
ganancia 110. La atenuación de las señales de diferentes bandas se
consigue multiplicando la señal de cada banda por el factor de
ganancia correspondiente del multiplicador de ganancia. Las bandas
de SNR baja se atenúan más que las bandas de SNR elevada. La
cantidad de atenuación es también mayor si la SNR general es baja.
El intervalo dinámico posible de la SNR de la señal de entrada es
grande. Como tal, el sistema de mejora de voz debe ser capaz de
manipular tanto señales de voz muy limpias de teléfonos de la red
fija así como de voz con mucho ruido de teléfonos móviles. Después
del proceso de atenuación, las señales de las diferentes bandas se
recombinan en una sola señal de salida limpia 116. La señal de
salida 116 resultante tendrá una calidad general percibida
mejorada.
En este contexto, el sistema de mejora de la voz
se refiere a un aparato o dispositivo que mejora la calidad de la
señal de voz en lo que se refiere a la percepción humana o en lo
que se refiere a otros criterios tales como la precisión del
reconocimiento por un dispositivo de reconocimiento de voz,
suprimiendo, enmascarando, cancelando o eliminado el ruido o
eliminando de otro modo los efectos adversos del ruido. Los
sistemas de mejora de la voz incluyen aparatos o dispositivos que
modifican una señal de entrada de formas tales como por ejemplo: 1)
generar una señal de voz de ancho de banda más ancho a partir de
una señal de voz con un ancho de banda estrecho; 2) separar una
señal de entrada en diversas señales de salida basadas en
determinados criterios, por ej., separación de la voz de diferentes
hablantes en donde una señal contiene una combinación de las
señales de voz de los hablantes; 3) y procesar (por ejemplo
mediante conversión) diferentes "porciones" de una señal de
entrada por separado y/o de forma diferente, en donde una
"porción" puede ser una porción de la señal de entrada en el
tiempo (por ejemplo, en sistemas de teléfono con altavoz) o bien
pueden incluir bandas de frecuencia determinadas (por ej., sistemas
de audio que refuerzan la base), o ambos.
La descomposición de la señal ruidosa que
contiene voz de entrada también puede realizarse usando técnicas de
transformada de Fourier o técnicas de transformada de ondícula. En
la Figura 2 se muestra el uso de técnicas de transformada discreta
de Fourier (mostradas como el bloque Ventanas y FFT 202). Aquí un
bloque de muestras de entrada se transforma en el dominio de
frecuencia. La magnitud de los complejos elementos del dominio de
frecuencia se atenúan en la unidad de atenuación 208 en base al
principio de sustracción espectral descrito anteriormente. La fase
de los elementos complejos de dominio de frecuencia se deja sin
cambios. Los complejos elementos del dominio de frecuencia se
vuelven a transformar entonces en el dominio de tiempo a través de
una transformada discreta de Fourier inversa en el bloque IFFT
204, produciendo la señal de salida 206. En lugar de técnicas de
transformada de Fourier, pueden usarse técnicas de transformada de
ondícula para descomponer la señal de entrada.
Puede usarse un detector de actividad de voz con
sistemas de supresión del ruido. Dicho detector de actividad de
voz se presenta, por ejemplo, en la patente estadounidense núm.
4.351.983 de Crouse et al. En tales detectores, la potencia
de la señal de entrada se compara con un nivel umbral variable.
Siempre que se sobrepase el umbral, el sistema asume que hay voz
presente. De lo contrario, se asume que la señal contiene solo
ruido de fondo.
En la mayoría de aplicaciones de mejora de la
voz, es deseable minimizar el retardo en el procesamiento. De ese
modo, el uso de técnicas de trasformada de Fourier o de ondícula
para la descomposición espectral no es deseable debido a que dichas
técnicas introducen grandes retardos al acumular un bloque de
muestras para su procesamiento.
También es deseable una complejidad
computacional baja ya que el sistema de supresión de ruido de la
red puede procesar simultáneamente múltiples canales de voz
independientes. Además, se prefiere limitar los tipos de cálculos
para la adición, sustracción y multiplicación para facilitar una
implantación directa de accesorios digitales así como para
minimizar el procesamiento en una implantación basada en procesador
de señal digital de punto fijo. La división es computacionalmente
intensiva en procesadores de señal digital y también resulta
molesto para la implantación directa de equipos digitales.
Finalmente, los requisitos de almacenamiento en memoria de cada
canal deben minimizarse debido a la necesidad de procesar
simultáneamente múltiples canales de voz independientes.
Las técnicas de mejora de la voz, también debe
tratar tonos de información tales como tonos DTMF (multifrecuencia
de tono doble). Los tonos DTMF los generan normalmente teléfonos de
teclas/marcación por tonos cuando se pulsa cualquiera de los
botones. El teclado ampliado del teléfono por tonos posee 16
teclas: (1, 2, 3, 4, 5, 6, 7, 8, 9, 0, *, #, A, B, C, D). Las teclas
están dispuestas en una estructura de cuatro por cuatro. Al pulsar
una de las teclas se hace que un circuito eléctrico genere dos
tonos. Como se muestra en la Tabla 1, existe un tono de baja
frecuencia para cada hilera y un tono de alta frecuencia para cada
columna. Así, las frecuencias de hilera se refieren como el Grupo
Bajo y las frecuencias de columna, el Grupo Alto. De este modo,
pueden generarse dieciséis combinaciones únicas de tonos usando
solo ocho tonos únicos. En la Tabla 1 se muestran las teclas y las
frecuencias nominales correspondientes. (A pesar de que se ha
descrito en relación con tonos DTMF, los principios que se
describen en relación con la presente invención son aplicables a
todas las señales en banda. En este contexto, una señal en banda se
refiere a cualquier tipo de señal tonal dentro del ancho de banda
usado normalmente para la transmisión de voz como, por ejemplo,
tonos de fax, tonos de marcado, tonos de señal ocupada, y tonos
DTMF).
Los tonos DTMF tienen normalmente una duración
inferior a 100 milisegundos (ms) y pueden ser tan breves como 45
ms. Dichos tonos pueden transmitirse durante las llamadas
telefónicas a sistemas de contestador automático de diversos tipos.
Dichos tonos se generan por un circuito DTMF independiente cuya
salida se añade a la señal de voz procesada antes de su
transmisión.
Por lo general, las señales DTMF pueden
transmitirse con una velocidad máxima de diez dígitos/segundo. En
esta velocidad máxima, para cada intervalo de tiempo de 100 ms, el
generador de tono doble debe generar señales de marcado por tonos
con una duración de al menos 45 ms y no superior a 55 ms, y a
continuación permanecer en silencio durante el resto del intervalo
de tiempo. Cuando no se transmite a la velocidad máxima, un par de
tonos puede tener una duración cualquiera, pero cada par de tonos
debe estar separado del siguiente par por al menos 40 ms.
Sin embargo, en los sistemas de mejora de voz
antiguos, con frecuencia los tonos DTMF se suprimían parcialmente.
La supresión de tonos DTMF se producía debido a que detectores de
actividad de voz y/o detectores de tonos DTMF requieren cierto
retardo antes de poder determinar la presencia de una señal. Cuando
se detectaba la presencia de una señal, se producía un tiempo de
demora antes de que los factores de ganancia de las bandas de
frecuencia adecuadas alcanzaran sus valores correctos (altos).
Frecuentemente, este tiempo de reacción hacía que la parte inicial
de los tonos se suprimiera considerablemente. Así, tonos DTMF de
corta duración pueden acortarse todavía más mediante el sistema de
mejora de la voz.
En la Figura 7 se muestra una señal de entrada
702 que contiene un tono de 697 Hz 704 con una duración de 45 ms
(360 muestras). Inicialmente, la señal de salida 703 se suprime
considerablemente, hasta que el detector de actividad de voz
detecta la presencia de señal. A continuación, el factor de
ganancia 708 aumenta gradualmente para evitar la atenuación.
Así, el resultado es una versión abreviada del
tono de entrada, que en este ejemplo, no cumple los requisitos
generales mínimos de duración de tonos DTMF.
Como resultado del recorte de los tonos DTMF, el
receptor puede no detectar correctamente los tonos DTMF debido a
que los tonos no cumplen los requisitos mínimos de duración. Como
puede observarse en la Figura 7, el factor de ganancia 708 nunca
alcanza su valor máximo de unidad debido a que depende de la SNR de
la banda. Esto hace que la señal de salida 706 siempre se atenúe
ligeramente, lo cual puede ser suficiente para evitar que la
potencia de la señal cumpla el umbral de receptor del detector
DTMF. Además, los factores de ganancia de diferentes bandas de
frecuencia pueden ser suficientemente diferentes como para aumentar
la diferencia en las amplitudes de los tonos dobles. Esto además
aumenta la probabilidad de que el receptor no detecte correctamente
los tonos DTMF.
Los inconvenientes descritos anteriormente
estaban presentes en sistemas antiguos de supresión de ruido. El
sistema descrito, por ejemplo, en las patentes estadounidenses núm.
4.628.529, 4.630.304, y 4.630.305 de Borth et al., estaba
diseñado para operar en entornos de ruido de fondo elevado. Sin
embargo, se prefiere el funcionamiento bajo un amplio intervalo de
condiciones de SNR. Además, la división de software se usa en los
métodos de Borth.
Las operaciones de división computacionalmente
intensivas también se usan en la patente estadounidense núm.
4.454.609 de Kates. La utilización de estimadores de amplitud
logarítmica espectral de error cuadrático medio mínimo tales como
los descritos en la patente estadounidense núm. 5.012.519 de
Adlersberg et al. también son computacionalmente intensivos.
Además, el sistema descrito por Adlesberg usa la transformada de
Fourier para la descomposición espectral que introduce un retardo
no deseable. Además, a pesar de que se presenta un generador de
tonos DTMF en el informe de aplicación de Texas Instruments,
"DTMF Tone Generation and Detection: An Implementation Using the
TMS320C54x", ``1997, págs. 5-12, 20,
A-1, A-2, B-1,
B-2, no existe ningún sistema que amplíe y/o
regenere tonos DTMF suprimidos.
Desde hace tiempo el sector tiene la necesidad
de contar con un sistema de supresión del ruido con una
complejidad computacional baja.
Además, desde hace tiempo el sector tiene la
necesidad de contar con un sistema de supresión del ruido capaz de
ampliar y/o regenerar tonos DTMF parcialmente suprimidos.
La presente invención, según se define en las
reivindicaciones anexas, se centra en un aparato para mejorar la
calidad de una señal de comunicaciones en un sistema de
comunicaciones. Comprende un procesador adaptado para efectuar los
pasos de dividir la señal de comunicación en una pluralidad de
señales de banda de frecuencia; generando una primera señal de
potencia para una primera señal de banda de frecuencia, la cual se
basa en estimar durante un primer periodo de tiempo la potencia de
la primera señal de banda de frecuencia;
generando una segunda señal de potencia para la
primera señal de banda de frecuencia, la cual se basa en estimar
durante un segundo periodo de tiempo inferior al primer periodo de
tiempo la potencia de la primera señal de banda de frecuencia;
generando una señal de condición que representa
una condición de la primera señal de banda de frecuencia en
respuesta a relaciones predeterminadas entre la primera y la
segunda señal de potencia; ajustar la ganancia de la señal de banda
de frecuencia en respuesta a la señal de condición para generar una
señal de banda de frecuencia ajustada; y combinar la señal de banda
de frecuencia ajustada con al menos una señal de banda de
frecuencia adicional para generar una señal de comunicación
ajustada. La señal de condición es una relación
ruido-señal (NSR) generada en respuesta a una
relación aritmética predeterminada que comprende al menos una
adición, sustracción y multiplicación pero sin división, entre los
valores derivados de la primera y segunda señal de potencia.
La invención también comprende un aparato para
mejorar una señal de comunicación de un sistema de comunicaciones,
que comprende un procesador adaptado para realizar el método
anteriormente descrito. Pueden adaptarse aparatos y métodos de la
invención a tonos de información del proceso tales como tonos
DTMF;
a tonos DTMF parcialmente suprimidos; y para
regenerar tonos DTMF parcialmente suprimidos.
Los aparatos según la presente invención pueden
utilizar una batería de filtros de paso de banda para dividir la
señal ruidosa de entrada que contiene voz en bandas de frecuencia
independientes. Para determinar si la señal de entrada contiene
voz, tonos DTMF o silencio, puede usarse un detector conjunto de
actividad de voz y actividad DTMF (JVADAD).
En la práctica de la invención, la relación
ruido- señal general media (NSR) de la señal de entrada se calcula
normalmente a partir de estimaciones de la potencia media de la
señal ruidosa en la señal de entrada durante la actividad de voz y
la potencia media de ruido durante el silencio. En lugar de medir
directamente la señal de ruido y la potencia de ruido de cada banda
de frecuencia como se realiza normalmente en sistemas de supresión
del ruido, se realizan dos mediciones indirectas de la potencia de
cada banda. Dichas medidas de potencia se denominan potencia a
largo plazo y potencia a corto plazo. Estas mediciones se realizan
en el estimador de potencia a largo plazo y a corto plazo. La
potencia a largo plazo es una versión a escala de la potencia de
ruido de la banda. La potencia de ruido a corto plazo es una
versión a escala de la potencia de la señal ruidosa de la banda.
Estas medidas de potencia a escala pueden usarse para reducir el
intervalo dinámico necesario para una implantación de punto fijo.
Esto tiene como resultado un rendimiento superior de la supresión
de ruido que se aproxima al de una implantación de punto flotante.
Los procesos de estimación de la potencia se adaptan en función de
la actividad de la señal indicada por el JVADAD. El número de
cálculos necesarios para la medición de la potencia se reduce
significativamente por el submuestreo de las señales de cada banda
de frecuencia antes de medir la potencia.
Puede usarse un adaptador de NSR para adaptar la
NSR de cada banda de frecuencia en función de las medidas de
potencia a largo y corto plazo, indicando el JVADAD, la NSR general
y la actividad de la señal. La adaptación de la NSR se realiza sin
división usando un error de predicción calculado como función de
las mediciones a corto y largo plazo y NSR general. Un controlador
de ganancia utiliza dichos valores de NSR para determinar los
factores de ganancia de cada banda de frecuencia. Entonces el
multiplicador de ganancia puede realizar la atenuación de cada
banda de frecuencia. Finalmente, las señales procesadas en las
bandas de frecuencia separadas se suman en el combinador para
producir la señal de salida limpia.
El método anteriormente descrito para adaptar
los valores NSR durante la conversación es diferente del usado en
presencia de tonos DTMF. Para los tonos DTMF, el ajuste rápido de
los valores NSR para las bandas de frecuencia adecuadas que
contienen los tonos DTMF maximiza la cantidad de tonos DTMF que
pasan a través de forma transparente. En el caso de la voz, los
valores NSR se adaptan preferiblemente con mayor lentitud para
corresponderse a la naturaleza de las señales de voz.
Otras características y ventajas de la presente
invención resultarán evidentes a partir de la siguiente descripción
detallada, las cuales deberán considerarse junto con los dibujos
que la acompañan, en donde:
En la Figura 1 se presenta un diagrama sinóptico
de un sistema de supresión del ruido típico.
En la Figura 2 se presenta un diagrama sinóptico
de otro sistema de supresión del ruido típico.
En la Figura 3 se presenta un diagrama sinóptico
de un aparato de supresión de ruido según una realización de la
presente invención.
En la Figura 4 se presenta un diagrama sinóptico
de un aparato para determinar la NSR en un aparato según la
presente invención.
En la Figura 5 se presenta un diagrama de flujo
en el que se ilustra un método para ampliar los tonos DTMF en un
aparato según la presente invención.
En la Figura 6 se presenta un diagrama de flujo
en el que se ilustra un método para regenerar los tonos DTMF en un
aparato según la presente invención.
En la Figura 7 se presentan unos gráficos que
ilustran la supresión de los tonos DTMF en los sistemas de mejora
de la voz.
En la Figura 8 se presentan unos gráficos que
ilustran la ampliación en tiempo real de los tonos DTMF.
En la Figura 9 se presenta un diagrama sinóptico
de un detector conjunto de actividad de voz y actividad DTMF en un
aparato según la presente invención.
Volviendo ahora a la Figura 3, en cuya Figura se
presenta un diagrama sinóptico de un aparato de supresión de ruido
300. Se presenta una batería de filtros 302, un detector de
actividad de voz 304, un contador de persistencia 305, y un
estimador de NSR (relación ruido-señal) general
306. También están presentes un estimador de potencia 308, un
adaptador de NSR 310, un controlador de ganancia 314 y un
combinador 315. La realización que se ilustra en la Figura 3
también presenta una señal de entrada x(n) 316 y señales de
salida x_{k}(n) 318, una detección conjunta de actividad
de voz y señal de detección de actividad DTMF 320. En la Figura 3
también se presenta un generador de tono DTMF 321. El resultado del
estimador NSR general 306 es la NSR general
("NSR_{general}(n)") 322.
Las estimaciones de potencia 323 son el
resultado del estimador de potencia 308. Los valores NSR adaptados
324 se producen por el adaptador de NSR 310. Los factores de
ganancia 326 se producen por el controlador de ganancia 312. Las
señales atenuadas 328 se producen del multiplicador de ganancia
314. Los tonos DTMF 329 se producen por el generador de tonos DTMF
321.
En la Figura 3 también se ilustra que el
estimador de potencia 308 puede incluir opcionalmente un circuito
de submuestreo 330 y que el estimador de potencia 308 puede pasar
opcionalmente los cálculos de potencia 323 al controlador de
ganancia 312.
En la realización ilustrada de la Figura 3, la
batería de filtros 302 recibe la señal de entrada 316. La tasa de
muestreo de la señal de voz en, por ejemplo, aplicaciones de
telefonía es normalmente 8 kHz con un ancho de banda Nyquist de 4
kHz. Puesto que el canal de transmisión posee normalmente un
intervalo de 300-3400 Hz, la batería de filtros 302
puede estar diseñada para pasar solo señales dentro de dicho
intervalo. Como ejemplo, la batería de filtros 302 puede utilizar
una batería de filtros de paso de banda. Puede usarse una batería
de filtros 302 de velocidades múltiples o de una velocidad. Una
implantación de la batería de filtros 302 de una velocidad utiliza
la estructura de filtro de muestreo de frecuencia (FSF) La
realización preferida usa una batería de resonadores formada por
una serie de filtros de respuesta de impulso infinito ("IIR")
de bajo orden. Esta batería de resonadores puede considerarse una
versión modificada de la estructura FSF y posee diversas ventajas
con respecto a la estructura FSF. La batería de resonadores no
requiere el filtro de memoria intensiva de la estructura FSF y,
como resultado de ello, requiere menos cálculos. También se elimina
la utilización de signos alternantes en la estructura FSF, lo cual
tiene como resultado una complejidad computacional reducida.
La función de transferencia del k^{th}
resonador puede obtenerse, por ejemplo:
En la ecuación (1), la frecuencia central de
cada resonador se especifica a través de \theta_{k}. El ancho de
banda del resonador se especifica a través de r_{k}. El valor de
g_{k} se usa para ajustar la ganancia DC de cada resonador. Para
una batería de resonadores formada por 40 resonadores que abarcan
aproximadamente el intervalo de 300-3400 Hz, las
siguientes son especificaciones adecuadas para las funciones de
transferencia del resonador siendo k = 3,4,...42:
La entrada a la batería de resonadores se
denomina x(n) mientras que la salida del resonador k^{th}
se denomina x_{k}(n),
en donde n es el tiempo de muestra.
en donde n es el tiempo de muestra.
El factor de ganancia 326 de la banda de
frecuencia k^{th} puede calcularse una vez cada T muestras
como:
Cuando el factor de ganancia 326 de cada banda
de frecuencia se calcula una vez cada T muestras, la ganancia está
"submuestreada" puesto que no se calcula en cada muestra. (Tal
y como se indica mediante las líneas discontinuas de las Figuras
1-4, el dispositivo pertinente puede producir
diversos elementos diferentes de datos, por ejemplo factores de
ganancia 326. Las diversas salidas se corresponden preferiblemente
a las diversas subbandas en las que se divide la señal de entrada
316. El factor de ganancia oscilará entre un pequeño valor
positivo, \varepsilon y 1 debido a que los valores NSR están
limitados a permanecer dentro del intervalo
[0,1-\varepsilon]. Ajustar el límite inferior de
la ganancia en E se reducen los efectos del "ruido musical" y
permite una transparencia limitada de la señal de fondo.
La atenuación de la señal x_{k}(n) de
la banda de frecuencia k^{th} se consigue multiplicando
x_{k}(n) por su factor de ganancia correspondiente,
G_{k}(n), en cada muestra. La suma de las señales
atenuadas resultantes, y(n), es la señal de salida limpia
328. La suma de las señales atenuadas 328 puede expresarse
matemáticamente como:
Las señales atenuadas 328 también pueden estar a
escala, por ejemplo, pueden incrementarse o amplificarse para su
posterior transmisión.
La potencia, P(n) en la muestra n, de una
señal de tiempo discreto u(n), se calcula aproximadamente
mediante filtrado de paso bajo de la señal rectificada de onda
completa. Puede usarse un filtro IIR de primer orden para el
filtrado de paso bajo, tal como, por ejemplo:
Este filtro IIR posee la siguiente función de
transferencia:
La ganancia DC de este filtro es
106
Se hace referencia al coeficiente, \beta, como
constante de decaimiento.
El valor de la constante de decaimiento
determina el tiempo que es necesario para que el valor actual (no
cero) de la potencia decaiga hasta una pequeña fracción del valor
actual si la entrada es cero, es decir, u(n) = 0. Si la
constante de decaimiento, \beta, está cerca de la unidad será
necesario un tiempo relativamente largo para que el valor de
potencia decaiga. Si \beta está próximo a cero, entonces será
necesario un tiempo relativamente corto para que el valor de
potencia decaiga. Así, la constante de decaimiento también
representa la rapidez con la que se olvida el valor de potencia
antiguo y la rapidez con la que se incorpora la potencia de las
muestras de entrada más recientes. Así, unos valores mayores de
\beta tienen como resultado una ventana de promediado efectivo
más larga. En este contexto, los cálculos de potencia 323 usando
una ventana de promediado efectivo relativamente larga son
cálculos de potencia a largo plazo, mientras que los cálculos de
potencia usando una ventana de promediado efectivo relativamente
corta son cálculos de la potencia a corto plazo.
En función de la señal de interés, será adecuado
un promediado más largo o más corto para el cálculo de la
potencia. La potencia de la voz, que posee un perfil que cambia
rápidamente, podría calcularse adecuadamente usando un \beta más
pequeño. Puede considerarse que el ruido es fijo para periodos de
tiempo más largos que la voz. Por lo tanto, se calculará
preferiblemente la potencia del ruido con mayor precisión usando
una ventana de promediado más larga (gran \beta).
La realización preferida para el cálculo de la
potencia reduce significativamente la complejidad computacional al
submuestrear la señal de entrada con objeto del cálculo de la
potencia. Esto significa que solo se usa una de cada T muestras
para actualizar la potencia P(n). Entre dichas
actualizaciones, el cálculo de potencia se mantiene constante. Este
procedimiento puede expresarse matemáticamente como
El filtro IIR de paso bajo de primer orden se
usa preferiblemente para el cálculo de la potencia del ruido de
fondo media general, y una medición de la potencia a corto y largo
plazo para cada banda de frecuencia. También se usa preferiblemente
para mediciones de potencia en el VAD 304. El submuestreo puede
conseguirse a través del uso de, por ejemplo, un circuito de
submuestreo 330 conectado al estimador de potencia 308.
La SNR general
("SNR_{general}(n)") en la muestra n se define
como:
en donde P_{SIG}(n) y
P_{BN}(n) son la potencia de la señal ruidosa media
durante la conversación y la potencia del ruido de fondo medio
durante los silencios, respectivamente. La SNR general se usa para
influir en la cantidad de eliminación excesiva de la señal en cada
banda de frecuencia. La eliminación excesiva mejora la calidad de
la voz percibida, especialmente bajo condiciones de SNR general
baja. La eliminación excesiva de la señal se consigue usando el
valor de SNR general para influir en el adaptador de NSR 310.
Además, la supresión insuficiente en el caso de condiciones de SNR
general elevada puede usarse para evitar la atenuación innecesaria
de la señal. De este modo se evita la distorsión de la voz bajo
condiciones de SNR elevada en donde el ruido de bajo nivel queda
enmascarado efectivamente por la voz. Los detalles de la supresión
excesiva y supresión insuficiente se describen a
continuación.
La potencia de la señal ruidosa media se calcula
preferiblemente durante la actividad de voz, tal y como se indica
mediante el VAD 304, según la fórmula:
en donde x(n) es la señal de
entrada con ruido que contiene la
voz.
La potencia del ruido de fondo medio se calcula
preferiblemente según la fórmula:
en donde no se permite que
P_{BN}(n) sobrepase
P_{BN,max}(n).
Durante el silencio o actividad de tono DTMF,
según indica el VAD 304, la medición de la potencia de la señal
ruidosa media se mantiene preferiblemente constante, es decir:
Durante la actividad de voz o de tono DTMF según
indique el VAD, la medición de la potencia de la señal ruidosa
media se mantiene preferiblemente constante, es decir,
\vskip1.000000\baselineskip
Si el intervalo de las muestras de entrada se
normaliza en \pm1, los valores adecuados para los parámetros
constantes usados en la realización preferida son
\vskip1.000000\baselineskip
en donde T = 10 en un posible
periodo de
submuestreo.
El nivel de potencia del ruido de fondo medio
está limitado preferiblemente a P_{BN,max} por dos motivos. En
primer lugar, P_{BN,max} representa el peor caso típico de un
escenario de ruido en telefonía móvil. En segundo lugar,
P_{SIG}(n) y P_{BN}(n)
se usarán en el adaptador NSR 310 para influir en el ajuste de la NSR de cada banda de frecuencia. Limitar P_{BN}(n)
proporciona un medio para controlar la cantidad de influencia que tiene la SNR general en el valor de la NSR de cada banda.
se usarán en el adaptador NSR 310 para influir en el ajuste de la NSR de cada banda de frecuencia. Limitar P_{BN}(n)
proporciona un medio para controlar la cantidad de influencia que tiene la SNR general en el valor de la NSR de cada banda.
En la realización preferida, se calcula la NSR
general 322 en lugar de la SNR general. La NSR general 322 es más
adecuada para la adaptación de los valores de la NSR de la banda de
frecuencia individual. Como un cálculo directo de la NSR general
322 implica una división computacionalmente intensiva de
P_{BN}(n) entre P_{SIG}(n), la realización
preferida usa un enfoque que proporciona una aproximación adecuada
de la NSR general 322.
\newpage
Además, la definición de la NSR se amplía para
ser negativa para indicar niveles de NSR general 322 muy elevados
del siguiente modo:
Una realización de la invención utiliza
\upsilon_{1} = 2,9127, \upsilon_{2} = 1,45635,
\upsilon_{3} = 0,128, \kappa_{1} =10, \kappa_{2} =14 y
\kappa_{3} = 20. En este caso, el intervalo de
NSR_{general}(n) 322 es:
El límite superior de NSR_{general}(n)
322 en esta realización se obtiene limitando P_{BN}(n)
para que sea como máximo P_{BN,max}(n). El límite inferior
obedece al hecho de P_{BN}(n) - P_{SIG}(n)
\geq-1.
(Puesto que se supone que el intervalo de señal
de entrada se normaliza en \pm 1, tanto P_{BN}(n) como
P_{SIG}(n) siempre están entre 9 y 1).
La medición de la potencia a largo plazo,
P^{k}_{LT}(n) en la muestra n, para la banda de frecuencia
k^{th} es proporcional al nivel de potencia de ruido actual en
esa banda. Se trata de una versión amplificada del nivel actual de
potencia del ruido. La cantidad de amplificación se predetermina
para evitar o reducir el subdesbordamiento en una implantación de
punto fijo del filtro IIR usado para el cálculo de la potencia. El
subdesbordamiento puede producirse debido a que el intervalo
dinámico de la señal de entrada en una banda de frecuencia durante
el silencio es bajo. La potencia a largo plazo de la banda de
frecuencia k^{th} se calcula preferiblemente solo durante el
silencio según indique el VAD 304 usando el siguiente filtro IIR de
paso bajo de primer orden:
En este caso, la potencia a largo plazo no
podría actualizarse durante la actividad del tono DTMF o durante
la actividad de voz. Sin embargo, a diferencia de la voz, la
actividad del tono DTMF afecta solo a unas pocas bandas de
frecuencia. Así, en una realización alternativa, los cálculos de
potencia a largo plazo correspondientes a las bandas de frecuencia
que no contienen los tonos DTMF se actualizan durante la actividad
de tono DTMF. En esta realización, los cálculos de potencia a largo
plazo de bandas de frecuencia que contienen los tonos DTMF se
mantienen constantes, es decir:
Debe tenerse en cuenta que la medición de la
potencia a largo plazo está preferiblemente submuestreada con un
periodo T. Un periodo de submuestreo adecuado es T = 10 muestras.
Un conjunto adecuado de coeficientes de filtro para la ecuación
(13) es:
En esta realización, la ganancia DC del filtro
de medición de la potencia a largo plazo es H_{LT}(1) =
100. Esta gran ganancia DC proporciona el incremento necesario
para evitar o reducir la posibilidad de subdesbordamiento de la
medición de la potencia a largo plazo.
El cálculo de la potencia a corto plazo utiliza
una ventana de promediado más corta que el cálculo de la potencia
a largo plazo. Si el cálculo de la potencia a corto plazo se
realizó usando un filtro IIR con coeficientes fijos como en la
ecuación (7), la potencia podría variar rápidamente para rastrear
las variaciones de potencia de la señal durante la conversación.
Durante el silencio, las variaciones se reducirían, aunque
continuarían siendo más que las de la medición de la potencia a
largo plazo. Así, el intervalo dinámico necesario para esta
medición de potencia podría ser elevado si se utilizan coeficientes
fijos. Sin embargo, al hacer que el coeficiente numerador del
filtro IIR sea proporcional a la NSR de la banda de frecuencia, se
hace que la medición de la potencia rastree el nivel de potencia
del ruido en la banda. La posibilidad de desbordamiento se reduce o
se elimina, lo cual tiene como resultado una medición de la
potencia más precisa.
La realización preferida usa un filtro IIR
adaptable de primer orden para calcular la potencia a corto plazo
P^{k}_{ST}(n) en la banda de frecuencia k^{th}, una vez
cada T muestras:
en donde NSR_{k}(n) es la
relación ruido-señal (NSR) de la banda de
frecuencia k^{th} en la muestra n. Este filtro IIR es adaptable
puesto que el coeficiente numerador de la función de transferencia
de este filtro es proporcional a NSR_{k}(n)
lo cual depende del tiempo y está adaptado en el adaptador de NSR 310. Este cálculo de la potencia se realiza preferiblemente en todo momento, independientemente de la actividad de la señal indicada por el VAD 304.
lo cual depende del tiempo y está adaptado en el adaptador de NSR 310. Este cálculo de la potencia se realiza preferiblemente en todo momento, independientemente de la actividad de la señal indicada por el VAD 304.
Un periodo de submuestreo adecuado para la
medición de la potencia puede ser, por ejemplo, T = 10 muestras.
Por ejemplo, coeficientes de filtro adecuados pueden ser:
\vskip1.000000\baselineskip
En esta realización, la ganancia DC del filtro
IRR usado para el cálculo de la potencia a corto plazo es
H_{ST}(1) =12,8.
A continuación se describe el método de
adaptación de los valores de NSR cuando los tonos DTMF están
ausentes. La NSR de una banda de frecuencia se adapta
preferiblemente en base a la potencia a largo plazo,
P_{LT}(n), y la potencia a corto plazo, P_{ST}(n),
que corresponde a dicha banda y a la NSR general,
NSR_{general}(n) 322.
En la Figura 4 se ilustra el proceso de
adaptación NSR para una banda de frecuencia individual. En la
Figura 4 se presenta el adaptador del factor de compensación 402,
el estimador de potencia a largo plazo 308a, el estimador de
potencia a corto plazo 308b y el compensador de potencia 404.
También se muestran el factor de compensación 406, el cálculo de
potencia a largo plazo 323a y el cálculo de potencia a corto plazo
323b. También se muestra el error de predicción 408.
El estimador de la NSR general 306 es común a
todas las bandas de frecuencia. En la realización preferida, el
adaptador del factor de compensación 402 es también común a todas
las bandas de frecuencia para conseguir eficiencia computacional.
Sin embargo, por lo general, el adaptador del factor de
compensación 402 puede estar diseñado para ser diferente para las
diferentes bandas de frecuencia. Durante el silencio, el cálculo de
potencia a corto plazo 323b de una banda de frecuencia es una
medida del nivel de potencia de ruido. Durante la conversación, la
potencia a corto plazo 323b predice el nivel de potencia del
ruido.
Debido a que el ruido de fondo está casi fijo
durante breves periodos de tiempo, la potencia a largo plazo 323a,
que se mantiene constante durante ráfagas de voz, proporciona un
buen cálculo de la potencia del ruido real preferiblemente tras su
compensación con un escalar. La compensación escalar es beneficiosa
debido a que la potencia a largo plazo 323a es una versión
amplificada del nivel de potencia del ruido actual Así, la
diferencia entre la potencia a corto plazo 323b y la potencia a
largo plazo compensada, proporciona un medio para ajustar la NSR.
Esta diferencia se denomina el error de predicción 408. El signo
del error de predicción 408 puede usarse para aumentar o disminuir
la NSR sin realizar una división.
La adaptación NSR para la frecuencia k^{th}
puede realizarse en el adaptador NSR 310 del siguiente modo
durante la voz y el silencio (pero preferiblemente no durante la
actividad de tono DTMF):
\vskip1.000000\baselineskip
\newpage
cuando el factor de compensación
(que se adapta en el adaptador del factor de compensación) para la
potencia a largo plazo se obtiene
mediante:
En la ecuación (18), el signo del error de
predicción 408, P_{ST}(n) -
C(n)P_{LT}(n), se usa para determinar la
dirección del ajuste de NSR_{k}(n). En esta realización, la
cantidad de ajuste se determina en base a la actividad de la señal
indicada por el VAD. La realización preferida usa un gran \Delta
durante la voz y un pequeño \Delta durante el silencio. La
potencia de la voz varía rápidamente y es adecuada una \Delta
mayor para rastrear rápidamente las variaciones. Durante el
silencio, el ruido de fondo normalmente varía lentamente, y por
ello basta un pequeño valor de \Delta. Además, la utilización de
un valor pequeño de \Delta evita que los picos de ruido de corta
duración hagan que la NSR aumente demasiado, lo que permitiría que
el pico de ruido se filtrara a través del sistema de supresión del
ruido.
A continuación se indica un conjunto adecuado de
parámetros para su uso en la ecuación (18) cuando T = 10
En la realización preferida, el adaptador de la
NSR adapta la NSR según el estado del VAD y la diferencia entre la
potencia del ruido y la señal. A pesar de que esta realización
preferida usa solo el signo de la diferencia entre la potencia del
ruido y de la señal, la magnitud de esta diferencia también puede
usarse para variar la NSR. Además, el adaptador de la NSR puede
variar la NSR según uno o más de los siguientes. 1) el estado del
VAD (por ej., un indicador VAD que indica voz o ruido); 2) la
diferencia entre la potencia del ruido y la potencia de la señal;
3) una relación de la potencia del ruido a señal (NSR instantánea);
y 4) la diferencia entre la NSR instantánea y una NSR previa. Por
ejemplo, \Delta puede variar en base a uno o más de dichos cuatro
factores. Al adaptar \Delta en base a la NSR instantánea, se
proporciona un efecto de "suavización" o "promediado" al
cálculo de NSR adaptada. En una realización, \Delta puede
variarse según la siguiente tabla (Tabla 1.1):
La NSR general, NSR_{general}(n) 322,
también puede ser un factor en la adaptación de la NSR a través del
factor de compensación C(n) 406, dado por la ecuación (19).
Un nivel de NSR general mayor tiene como resultado el sobreénfasis
de la potencia a largo plazo 323a para todas las bandas de
frecuencia. Esto hace que todos los valores se adapten en niveles
más elevados.
En consecuencia, esto haría que el factor de
ganancia 326 fuera inferior ara los niveles de NSR general más
elevados. La calidad percibida de la voz se mejora mediante esta
eliminación excesiva bajo niveles de ruido de fondo más
elevados.
Cuando el NSR_{general}(n) 322 es
negativo, lo cual sucede bajo condiciones de SNR general muy
elevada, el valor NSR para cada banda de frecuencia en esta
realización se adapta a cero. Así, la supresión insuficiente de
niveles muy bajos de ruido se consigue debido a que dichos bajos
niveles de ruido quedan efectivamente enmascarados por la voz. La
relación entre la NSR general 322 y la NSR adaptada 324 en las
diversas bandas de frecuencia puede describirse como una relación
proporcional debido a que a medida que la NSR general 322 aumenta,
la NSR adaptada 324 de cada banda aumenta.
En la realización preferida, H_{LT}(1)
=100 y H_{ST}(1) = 12, 8, de manera que H_{ST}(1)
/H_{LT}l(1) = 0,128 en la ecuación (19).
Puesto que -0,128 \leq
NSR_{general}(n) \leq 0,064 el intervalo del factor de
compensación es:
Así, en esta realización, la potencia a largo
plazo se sobreenfatiza al menos 1,5 veces respecto a su valor
actual bajo condiciones de SNR baja. Bajo condiciones de SNR alta,
la potencia a largo plazo se desenfatiza siempre que
C(n) \leq 0,128.
C(n) \leq 0,128.
Durante la actividad del tono DTMF según se
indica en el VAD 304, el proceso de adaptar los valores de la NSR
usando ecuaciones (18) y (19) para las bandas de frecuencia que
contienen los tonos no es adecuado. Para las bandas que no
contienen los tonos DTMF activos, (18) y (19) se continúan usando
preferiblemente durante la actividad de tono DTMF.
Tan pronto como se detecta actividad DTMF, los
valores NSR de las bandas de frecuencia que contienen tonos DTMF
se ajustan preferiblemente a cero hasta que la actividad DTMF deja
de detectarse. Al final de la actividad DTMF, puede permitirse que
los valores NSR se adapten según se ha descrito anteriormente.
El detector de actividad de voz ("VAD") 304
determina si la señal de entrada contiene voz o silencio.
Preferiblemente, el VAD 304 es un detector de actividad de voz y de
actividad DTMF ("JVADAD"). La detección de actividad de voz y
de actividad DTMF puede proceder independientemente y las
decisiones de los dos detectores se combinan para formar una
decisión final. Por ejemplo, como se muestra en la Figura 9, el
JVADAD 304 puede incluir un detector de actividad de voz 304a, un
detector de actividad DTMF 304b, y un circuito de determinación
304c. En una realización, el VAD 304a envía una señal de detección
de voz 902 al circuito de determinación 304c y el detector de
actividad DTMF envía una señal de detección DTMF 904 al circuito de
determinación 304c. El circuito de determinación 304c determina
entonces, en base a la señal de detección de voz 902 y señal de
detección 904, si hay presente voz, actividad DTMF o silencio en la
señal de entrada 316. El circuito de determinación 304c puede
determinar el contenido de la señal de entrada 316, por ejemplo, en
base a la lógica presentada en la Tabla 2 (a continuación).
En este contexto, el silencio se refiere a la
ausencia de voz o de actividad DTMF, y puede incluir ruido.
El detector de actividad de voz puede producir
un solo indicador, VAD 320, que se ajusta, por ejemplo, a uno si
la voz se considera activa y cero en el caso contrario. El detector
de actividad DTMF determina un indicador, por ejemplo DTMF=1, si se
detecta actividad DTMF y DTMF=0 en el caso contrario. En la
siguiente tabla (Tabla 2) se expone la lógica que puede usarse para
determinar si hay actividad DTMF o actividad de voz:
Cuando se pulsa un botón de un teléfono de
marcación por tonos, se generan un par de tonos. Uno de los tonos
pertenecerá al siguiente conjunto de frecuencias: {697, 770, 852,
941} en Hz y una será del conjunto {1209, 1336, 1477, 1633} en Hz,
según se ha indicado anteriormente en la Tabla 1. Estos conjuntos
de frecuencias se denominan frecuencias del grupo bajo y del grupo
alto, respectivamente. Así, son posibles dieciséis pares de tonos
correspondientes a 16 teclas de un teclado de teléfono ampliado. Es
necesario que los tonos se reciban en \pm2% de dichos valores
nominales. Debe tenerse en cuenta que dichas frecuencias se han
seleccionado cuidadosamente para reducir la cantidad de interacción
armónica. Además, para la adecuada detección de un par de tonos, la
diferencia de amplitud entre los tonos (denominada "twist")
debe estar dentro de los 6 dB.
Un algoritmo de detección DTMF adecuado para la
detección de tonos DTMF en el JVADAD 304 es una versión modificada
del algoritmo de Goertzel. El algoritmo de Goertzel es un método
recursivo de realizar la transformada discreta de Fourier (DFT) y
es más eficiente que la DFT o FFT para pequeños números de tonos. A
continuación se describe con mayor detalle la detección de tonos
DTMF y la regeneración y ampliación de tonos DTMF.
La detección de actividad de voz se realiza
preferiblemente usando las medidas de potencia en la primera región
formante de la señal de salida x(n). En el contexto de la
señal de voz de telefonía, la primera región formante se define en
el intervalo de aproximadamente 300-850 Hz. Se usa
una medición de potencia a largo y una a corto plazo de la primera
región formante con ecuaciones de diferencia obtenidas de:
en donde F representa el conjunto
de bandas de frecuencia dentro de la primera región formante. Se
prefiere la primera región formante pues contiene una gran
proporción de la energía de voz y proporciona un medio adecuado
para la detección precoz del inicio de un impulso de
voz.
La medición de la potencia a largo plazo rastrea
el nivel de ruido de fondo en el primer formante de la señal. La
medición de la potencia a corto plazo rastrea el nivel de señal de
voz en primer formante de la señal. Parámetros adecuados para las
medidas de potencia del primer formante a corto y largo plazo
son:
El VAD 304 también puede utilizar el contador de
persistencia, h_{VAD} 305. El contador de persistencia 305 se
usa para mantener el estado de la salida del VAD 320 fija durante
periodos breves cuando la potencia del primer formante cae a
niveles bajos. La potencia del primer formante puede caer a niveles
bajos durante paradas breves y también durante los sonidos
consonánticos de la conversación. La salida del VAD 320 se mantiene
fija para evitar la supresión accidental de la voz. El contador de
persistencia 305 puede actualizarse del siguiente modo:
cuando los valores adecuados para
los parámetros (cuando el intervalo de x(n) se normaliza en
\pm1) son, por
ejemplo:
El valor de h_{VAD,max} preferiblemente
corresponde a alrededor de 150-250 ms, es decir
h_{VAD,max} \varepsilon [1200,2000]. Se considera que la voz es
activa (VAD=1) cuando se satisface la siguiente condición:
De lo contrario, se considera que la voz no está
presente en la señal de entrada (VAD=0).
A continuación se describen los aparatos y
métodos preferidos para la detección de tonos DTMF, en el JVADAD
por ejemplo.
A pesar de que la realización preferida utiliza
un aparato y método para detectar tonos DTMF, los principios
descritos en relación con tonos DTMF son aplicables a todas las
señales en banda. En este contexto, una señal en banda es cualquier
tipo de señal tonal dentro del ancho de banda usado normalmente
para la transmisión de voz. Las señales en banda ejemplares
incluyen tonos de fax, tonos DTMF, tonos de marcado y tonos de
línea ocupada.
Dado un bloque de muestras N (cuando se escoge
adecuadamente N) de la señal de entrada, u(n), n = el aparato
puede comprobar la presencia de un tono próximo a una frecuencia
determinada, \omega_{0}, mediante correlación de las muestras de
entrada con un par de tonos en cuadratura en la frecuencia de
prueba \omega_{0}. Los resultados de correlación pueden usarse
para calcular la potencia de la señal de entrada 316 alrededor de
la frecuencia de prueba. Este procedimiento puede expresarse
mediante las siguientes ecuaciones:
La ecuación (3) proporciona el cálculo de la
potencia, P_{\omega 0}, alrededor de la frecuencia de prueba
\omega_{0}. La complejidad computacional del procedimiento
indicado en (29)-(31) puede reducirse a la mitad usando un
algoritmo de Goertzel modificado. Esto se describe a
continuación:
Debe tenerse en cuenta que las condiciones
iniciales para la recursión en (32) son w(-1) = w(-2) = 0. El
procedimiento anterior de las ecuaciones (32)-(34) se realiza
preferiblemente para cada una de las ocho frecuencias DTMF y sus
segundos armónicos para un bloque determinado de muestras N. Los
armónicos secundarios son las frecuencias que son el doble de los
valores de las frecuencias DTMF. Dichas frecuencias se comprueban
para garantizar que las señales de voz (que no poseen una
estructura armónica) no se confunden con tonos DTMF. El algoritmo
de Goertzel analiza preferiblemente bloques de longitud N = 102
muestras. A una velocidad de muestreo preferida de 8 kHz, cada
bloque contiene señales con una duración de 12,75 ms. Se realizan
preferiblemente las siguientes pruebas de validez para detectar la
presencia de un par de tonos DTMF válidos en un bloque de muestras
N:
- (1)
- La potencia de la frecuencia más fuerte del Grupo Bajo y la frecuencia más fuerte del Grupo Alto deben ser superiores a determinados umbrales.
- (2)
- La potencia de la frecuencia más fuerte del Grupo Bajo debe ser superior a los otros tres valores de potencia del Grupo Bajo en una determinada relación umbral.
- (3)
- La potencia de la frecuencia más fuerte del Grupo Alto debe ser superior a los otros tres valores de potencia del Grupo Alto en una determinada relación umbral.
- (4)
- La relación de la potencia de la frecuencia más fuerte del Grupo Bajo y la potencia de la frecuencia más fuerte del Grupo Alto deben estar comprendidas dentro de unos límites superiores e inferiores determinados.
- (5)
- La relación de los valores de potencia de la frecuencia más fuerte del Grupo Bajo y su armónico secundario debe superar una relación umbral determinada.
- (6)
- La relación de los valores de potencia de la frecuencia más fuerte del Grupo Alto y su armónico secundario debe superar una relación umbral determinada.
Si se pasan las pruebas de validez señaladas,
debe realizarse una prueba de confirmación para garantizar que el
par de tonos DTMF detectado es estable durante un periodo de tiempo
suficiente. Para confirmar la presencia de un par de tonos DTMF,
debe detectarse el mismo par de tonos DTMF para confirmar que está
presente un par de tonos DTMF válido durante un periodo de tiempo
suficiente tras un bloque de silencio según las especificaciones
usadas, por ejemplo, para tres bloques consecutivos de
aproximadamente 12,75 ms).
Para proporcionar una detección mejorada de
tonos DTMF, se usa preferiblemente un algoritmo de detección de
Goertzel modificado. Esto se consigue aprovechando la batería de
filtros 302 del aparato de supresión de ruido 300 que ya ha
dividido la señal de entrada en bandas de frecuencia diferentes.
Cuando se usa el algoritmo de Goertzel para calcular la potencia
próxima a una frecuencia de prueba, \omega_{0}, sufre un rechazo
pobre de la potencia fuera de la proximidad de \omega_{0}. En el
aparato mejorado 300, para calcular la potencia próxima a una
frecuencia de prueba \omega_{0}, el aparato 300 usa la salida del
filtro de paso de banda cuya banda de paso contiene \omega_{0}. Al
aplicar el algoritmo de Goertzel a las señales que han pasado la
banda, se consigue un rechazo excelente de la potencia en las
frecuencias fuera de la proximidad de \omega_{0}.
Debe tenerse en cuenta que el aparato 300 usa
preferiblemente las pruebas de validez descritas anteriormente en,
por ejemplo, el JVADAD 304. El aparato puede o no usar la prueba de
confirmación según se ha descrito anteriormente. En la realización
preferida, se usa un método más sofisticado (que la prueba de
confirmación) adecuado con objeto de ampliar o regenerar el tono
DTMF. Las pruebas de validez se realizan preferiblemente en la
porción de Detección de Actividad DTMF del detector conjunto de
Actividad de Voz y Actividad DTMF 304.
A continuación se describe un método y aparato
para la ampliación en tiempo real de tonos DTMF en relación con
las Figuras 5 y 8. A pesar de que la realización preferida usa un
aparato y método para ampliar los tonos DTMF, los principios
descritos en relación con tonos DTMF son aplicables a todas las
señales en banda. En este contexto, una señal en banda es cualquier
tipo de señal tonal dentro del ancho de banda usado normalmente
para la transmisión de voz. Las señales en banda ejemplares incluyen
tonos de fax, tonos DTMF, tonos de marcado y tonos de línea
ocupada.
En relación con la Figura 8, que ilustra el
concepto de ampliar un tono en tiempo real, el tono de la señal de
entrada 802 comienza alrededor de la muestra 100 y finaliza
alrededor de la muestra 460, con una duración de alrededor de 45
ms. El indicador de actividad de tono 804, mostrado en el gráfico
central, indica si se ha detectado un tono en el último bloque de,
por ejemplo N = 102 muestras. Este indicador es cero hasta la
muestra 250 punto en el que aumenta a uno.
Esto significa que el bloque desde la muestra
149 a la muestra 250 se comprobó y se encontró que contenía
actividad de tono. Debe tenerse en cuenta que el bloque anterior
desde la muestra 47 a la muestra 148 se analizó y se constató que
no contenía actividad de tono aunque parte del bloque contenía el
tono de entrada (el porcentaje de un bloque que debe contener un
tono DTMF para poder fijar el indicador de actividad de tono para
detectar un tono en un umbral predeterminado, por ejemplo). Se
considera que este bloque contiene una pausa. En los siguientes dos
bloques de muestras también se encontró que contenía actividad de
tono en la misma frecuencia.
Así, tres bloques consecutivos de muestras
contienen actividad de tono tras una pausa que confirma la
presencia de un tono de la frecuencia que está siendo comprobada.
(Debe tenerse en cuenta que, en la realización preferida, la
presencia de tono del grupo bajo y de un tono del grupo alto debe
confirmarse simultáneamente para confirmar la actividad DTMF).
La señal de salida 806 muestra cómo se amplia el
tono de entrada incluso después de que el tono de entrada
desaparezca alrededor de la muestra 460. Esta ampliación del tono
se realiza en tiempo real y el tono ampliado tiene preferiblemente
la misma fase, frecuencia y amplitud que el tono de entrada
original.
El método preferido amplía un tono en una forma
de fase continua según se discute a continuación. En la
realización preferida, el tono ampliado continuará manteniendo la
amplitud del tono de entrada. El método preferido aprovecha la
información obtenida cuando se usa el algoritmo de Goertzel para la
detección del tono DTMF. Por ejemplo, en el caso de un tono de
entrada:
Pueden usarse las ecuaciones (32) y (33) del
algoritmo de Goertzel para obtener los dos estados
w(N-1) y w(N). Para valores lo
suficientemente grandes de N, puede demostrarse que con las
siguientes aproximaciones:
donde
Puede observarse que
w(N-1) y w(N) contienen dos muestras
consecutivas de sinusoide con frecuencia \omega_{0}. La fase y
amplitud de este sinusoide posee preferiblemente una relación
determinista con la fase y amplitud del sinusoide de entrada
u(n). Así, el generador de tono DTMF 321 puede generar un
sinusoide usando un oscilador recursivo que coincide con la fase y
amplitud del sinusoide de entrada u(n) para tiempos de
muestreo superiores a N usando el siguiente procedimiento:
- (a)
- Calcula la siguiente muestra consecutiva del sinusoide con amplitud B_{0}:
- (b)
- Genera dos muestras consecutiva de un sinusoide, w'(n) con amplitud A_{0} y fase \varphi utilizando w(N-1), w(N) y w(N + 1):
- (c)
- Usa un oscilador recursivo para generar todas las muestras consecutivas del sinusoide para j = 3,4,5,...:
Puede usarse la secuencia w'(N+j), j =
1,2,3,4,5,... para ampliar el sinusoide de entrada u(n) más
allá de la muestra N.
Puesto que las dos frecuencias de tono DTMF las
determina el detector de actividad DTMF, por ejemplo, puede usarse
el procedimiento de las ecuaciones (39)-(42) para ampliar cada uno
de los dos tonos. La ampliación de los tonos se realizará mediante
una combinación ponderada de la señal de entrada con los tonos
generados. Se usa preferiblemente una combinación ponderada para
evitar cambios repentinos en la amplitud de la señal debido a una
ligera incompatibilidad de amplitud y/o frecuencia entre los tonos
de entrada y los tonos generados que producen ruido impulsivo. La
combinación ponderada se realiza preferiblemente del siguiente
modo:
en donde u(n) es la señal de
entrada, w'_{L}(n) es el tono generado del grupo bajo,
w'_{H}(n) es el tono generado del grupo alto, y
p(n) es un parámetro de ganancia que aumenta linealmente de
0 a 1 durante un breve periodo de tiempo, preferiblemente 5 ms o
menos.
En el sistema de supresión de ruido, x(n)
es la muestra de entrada en el momento n en la batería de
resonadores 302. La batería de resonadores 302 divide esta señal en
un conjunto de señales de paso de banda {x_{k}(n)}.
Recuperar la ecuación (4) anterior:
Tal y como se ha descrito anteriormente,
G_{k}(n) y x_{k}(n) son el factor de ganancia y
la señal de paso de banda de la banda de frecuencia k^{th},
respectivamente, y y(n) es la salida del aparato de
supresión del ruido 300. El conjunto de señales de paso de banda
{x_{k}(n)} puede denominarse colectivamente como señal de
entrada al método de ampliación del tono DTMF.
Debe tenerse en cuenta que el aparato de
supresión de ruido 300 no introduce ningún retardo de bloque cuando
se usa la ampliación del tono DTMF debido a que la muestra de
entrada actual del aparato de supresión de ruido 300 se procesa tan
pronto se recibe. Puesto que el método de detección DTMF funciona
en bloques de muestras N, los autores definen el bloque actual de
muestras N como las últimas muestras N recibidas, es decir,
muestras {x(n-N),
x(n-N+1),...,x(n-1)}.
El bloque anterior estará formado por las muestras
{x(n-2N), x (n-2N+1), ...,x
(n-N-1)}.
Volviendo ahora a la Figura 5, en cuya Figura se
presenta un método ejemplar 500 para ampliar los tonos DTMF. Para
determinar si están presentes tonos DTMF, se aplican
preferiblemente pruebas de validez del método de detección DTMF a
cada bloque. Si se detecta un par de tonos DTMF válidos, el dígito
correspondiente se descodifica según la Tabla 1. En la realización
preferida, se usan los dígitos descodificados que produce el
detector de actividad DTMF (por ejemplo, el JVADAD) para los
bloques actuales producidos y para tres bloques previos. En este
contexto, la salida i-ésima del detector de actividad DTMF es Di,
con una i mayor correspondiente a una salida más reciente. De este
modo, se hará referencia a los cuatro bloques de salida como Di (es
decir, D1, D2, D3 y D4). En la realización preferida, cada bloque
de salida puede tener diecisiete posibles valores: los dieciséis
valores posibles del teclado extendido y un valor que indica que no
está presente ningún tono DTMF. Los bloques de salida Di pueden
transmitirse al generador de tonos DTMF 321 en la detección de
actividad de voz y en la señal de detección de actividad DTMF 320.
Se utilizará preferiblemente la siguiente Tabla de decisiones
(Tabla 3) para implantar el método de ampliación de tono DTMF
500:
Cuando se detecta el primer bloque que contiene
un par de tonos DTMF válidos, se ajustan a uno dos factores de
ganancia del sistema de supresión de ruido, G_{L}(n) y
G_{H}(n) correspondientes las L^{tn} y H^{tn} bandas
de frecuencia que contienen los tonos del grupo bajo y del grupo
alto, respectivamente, por ejemplo, en la ecuación (4), es
decir,
Esto corresponde a los pasos 504 y 506 de la
Figura 5. Al ajustar a uno dichos factores de ganancia se garantiza
que el aparato de supresión de ruido 300 no suprime los tonos DTMF
después de ese punto. Tras ese bloque, si uno o dos bloques
siguientes no tienen como resultado el mismo dígito descodificado,
se permite que los factores de ganancia vuelvan a variar según
determine el sistema de supresión de ruido, según indica el paso
508 de la Figura 5.
Cuando los dos primeros bloques consecutivos que
contienen dígitos válidos idénticos se descodifican después de un
bloque que no contiene tonos DTMF, se genera el par de tonos
adecuado que corresponde al dígito, por ejemplo, usando las
ecuaciones (39)-(42), y se usan para sustituir gradualmente los
tonos de entrada. Esto corresponde a los pasos 510 y 512 de la
Figura 5. Los tonos DTMF 329 se generan preferiblemente en el
generador de tonos DTMF 321. La sustitución se realiza
preferiblemente reduciendo la contribución de la señal de entrada,
x(n), y aumentando la contribución de los tonos generados,
w'_{L}(n) y w'_{H}](n), a la señal de salida,
y(n), en las siguientes muestras M (j = 1,2,3,...M) del
siguiente modo:
Debe tenerse en cuenta que no es necesaria
ninguna división en la ecuación (47).
Comenzando con \rho(n) = 0, puede
usarse la relación p(n + j + 1) = \rho(n + j) + 1/M
para actualizar el valor de ganancia de cada muestra.
Un valor ejemplar de M es 40.
Así, en una realización preferida, tras recibir
los primeros dos bloques con dígitos válidos idénticos, las
primeras muestras M del siguiente bloque se sustituyen gradualmente
por tonos DTMF 329 generados de modo que después de las muestras M,
la salida y(n) = w'_{L}(n) + w'_{H}(n).
Tras muestras M, los tonos generados se mantienen hasta que deja de
detectarse un par de tonos DTMF en un bloque. En tal caso, el
retardo en la detección de la señal del tono DTMF (debido a, por
ejemplo, la longitud del bloque) se compensa con el retardo en la
detección del final de la señal de un tono DTMF. Como resultado de
ello, el tono DTMF se extiende a través del uso de los tonos DTMF
329 generados.
En una realización alternativa, los tonos
generados continúan después de que deje de detectarse un tono DTMF
por ejemplo durante aproximadamente un bloque y medio después de
que no se detecte en un bloque un par de tonos DTMF. En esta
realización, puesto que JVADAD puede requerir aproximadamente un
bloque para detectar un par de tonos DTMF, el generador de tonos
DTMF extiende el tono DTMF aproximadamente un bloque más allá del
par de tonos DTMF actual. Así, en el caso improbable de que un par
de tonos DTMF tenga la longitud mínima detectable, la salida del
tono DTMF debe tener al menos la longitud del tono de entrada
mínimo. Sea cual sea la realización que se utilice, la longitud de
tiempo necesaria para detectar el par de tonos DTMF puede variar
según el método de detección del JVADAD y la longitud de bloque
usada.
En consecuencia, el periodo de ampliación
adecuada también variará.
Cuando tres o más bloques consecutivos contienen
dígitos válidos, el generador de tonos DTMF 321 genera tonos DTMF
329 para sustituir los tonos DTMF de entrada. Esto corresponde a
los pasos 513 y 514 de la Figura 5.
Cuando el generador de tonos DTMF ha ampliado el
par de tonos DTMF, la señal de entrada se atenúa durante un tiempo
adecuado, por ejemplo, durante aproximadamente tres bloques de
12,75 ms consecutivos, para garantizar que existe una pausa
suficiente tras la señal DTMF de salida. Esto corresponde a los
pasos 515 y 516 de la Figura 5.
Durante el periodo de atenuación, la salida
viene dada por
en donde \rho(n) = 0,02 es
una opción adecuada. Después de los tres bloques, \rho(n)
= 1, y el aparato de supresión del ruido permite determinar los
factores de ganancia hasta que vuelve a detectarse actividad DTMF
(según indica el paso 508 de la Figura
5).
Debe tenerse en cuenta que es posible que el
bloque actual contenga actividad DTMF a pesar de que se programe
que el bloque actual esté suprimido tal y como en la ecuación (48).
Si esto sucede, por ejemplo, cuando los pares de tonos DTMF están
espaciados por el periodo de tiempo mínimo permitido. Si la señal
de entrada 316 contiene tonos DTMF legítimos, los dígitos estarán
espaciados normalmente por al menos tres bloques consecutivos de
silencio. Así, generalmente solo el primer bloque de muestras de un
par de tonos DTMF válidos sufrirá supresión. Sin embargo, esto
estará compensado por la ampliación del tono DTMF.
Volviendo ahora a la Figura 6, en cuya Figura se
presenta un método para regenerar los tonos DTMF 329. La
regeneración del tono DTMF es una alternativa a la ampliación del
tono DTMF. A pesar de que la realización preferida usa un aparato y
tonos DTMF regeneradores, los principios discutidos en relación con
tonos DTMF son aplicables a todas las señales en banda. En este
contexto, una señal en banda es cualquier tipo de señal tonal
dentro del ancho de banda usado normalmente para la transmisión de
voz.
Las señales en banda ejemplares incluyen tonos
de fax, tonos DTMF, tonos de marcado y tonos de línea ocupada.
Por ejemplo, la regeneración del tono DTMF puede
realizarse en el generador de tonos DTMF 321. El método de
ampliación introduce un retardo muy corto (aproximadamente un
bloque en la realización ilustrada) pero es ligeramente más
complicado porque las fases de los tonos se corresponden para la
adecuada detección de los tonos DTMF. El método de regeneración
introduce un retardo mayor (unos pocos bloques en la realización
ilustrada) aunque es más sencillo puesto que no requiere que los
tonos generados se correspondan a la fase de los tonos de entrada.
El retardo introducido en cualquier caso es temporal y se produce
solo para tonos DTMF. El retardo hace que una pequeña cantidad de
la señal tras los tonos DTMF se suprima para garantizar pausas
suficientes tras un par de tonos DTMF. La regeneración DTMF también
puede hacer que se suprima un solo bloque de señal de voz después
un segundo de un par de tonos DTMF. Puesto que este es un caso muy
improbable y solo las primeras muestras N de voz sufren la
supresión, no es probable la pérdida de información útil.
Sin embargo, cuando se realiza la ampliación
DTMF, el conjunto de señales {X_{k}(n)} puede denominarse
colectivamente como la entrada al método de regeneración DTMF.
Cuando se generan tonos DTMF 329, la señal de salida del combinador
315 es:
en donde
\sum_{k}G_{k}x_{k}(n) es la salida del multiplicador
de ganancia, w'_{L}(n) y w'_{H}(n) son los tonos
bajos y altos generados (de haberlos), y \rho_{1}(n) y
\rho_{2}(n) son factores de ganancia
adicionales.
Cuando no hay ninguna señal DTMF presente en la
señal de entrada, \rho_{1}(n) =1 y \rho_{2}(n) =
0. Durante la regeneración de un par de tonos DTMF,
\rho_{2}(n) = 1. Si se suprime la señal de entrada (para
garantizar el silencio tras el final de un par de tonos DTMF
regenerados o durante la regeneración del par de tonos DTMF),
entonces \rho_{1}(n) se ajusta en un valor pequeño, por
ej., \rho_{1}(n) = 0,02. Preferiblemente se usan dos
osciladores recursivos 332 para regenerar los tonos de grupo alto y
bajo adecuados correspondientes al dígito descodificado.
Con referencia continuada a la Figura 6, en una
realización ejemplar, la regeneración de los tonos DTMF usa los
bloques de salida actuales y los cinco previstos del detector de
actividad de tono DTMF (por ej., en el JVADAD), dos indicadores, y
dos contadores. Puede hacerse referencia a los cinco bloques de
salida previos y el actual como D1, D2, D3, D4, D5, y D6,
respectivamente. Los indicadores, el indicador ELIMINAR y el
indicador GENTONOS se describen a continuación en relación con la
acción que producen en el generador de tonos DTMF 321, el
combinador 315, y/o el multiplicador de ganancia 314 para
realizar:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
En la inicialización, todos los indicadores y
contadores están ajustados a cero preferiblemente. La siguiente
Tabla (Tabla 4) ilustra una realización ejemplar del método de
regeneración de tonos DTMF 600:
\vskip1.000000\baselineskip
Debe tenerse en cuenta que las condiciones de la
Tabla 4 no son necesariamente exclusivas. Así, en la realización
preferida, se comprueba cada condición en el orden presentado en la
Tabla 4 al final de un bloque (con la excepción de las condiciones
1-3, que son mutuamente exclusivas). La acción
correspondiente se lleva entones al siguiente bloque si la
condición es verdadera. Por lo tanto, pueden tomarse múltiples
acciones al principio de un bloque. Al igual que en la ampliación
de tono DTMF, se usa preferiblemente N = 102 para la detección de
tonos DTMF para su utilización con el aparato y método de
regeneración de tonos DTMF.
A continuación se presenta una descripción del
método de regeneración de tonos preferido. Cuando se detecta
primero un par de DTMF válido en un bloque de muestras N, la salida
del sistema de supresión de ruido se suprime ajustando
\rho_{1}(n) en un valor pequeño, por ej.,
\rho_{1}(n) = 0,02. Esto se indica satisfaciendo la
primera condición de la Tabla 4 y ajustando la marca ELIMINAR en un
valor de 1, y corresponde a los pasos 602 y 604 de la Figura 6.
Después de encontrar que tres bloques consecutivos contienen el
mismo dígito válido, los tonos DTMF, w'_{L}(n) y
w'_{H}(n), correspondientes al dígito recibido se generan y
se pasan a la salida, es decir \rho_{1}(n) = 0.02 y
\rho_{2}(n) = 1. Esto corresponde a satisfacer la segunda
condición de la Tabla 4 y ajustando el indicador GENTONOS en 1, y
los pasos 606 y 608 de la Figura 6. La regeneración del tono DTMF
continúa preferiblemente hasta que no se detecta el par DTMF en el
bloque actual.
Los tonos DTMF 329 generados pueden producirse
de forma continuada durante un tiempo suficiente (cuando el par
DTMF deja de detectarse en el bloque actual), por ejemplo en tres o
cuatro bloques más (para garantizar que se envía una duración
suficiente de los tonos DTMF.
Al igual que con el método de ampliación de tono
DTMF, la regeneración del tono DTMF puede producirse durante un
periodo de tiempo adicional, por ejemplo, un bloque y medio o un
bloque de muestras N, para garantizar que los tonos DTMF cumplen
los estándares de duración mínimos. En la realización ilustrada en
la Tabla 4, los tonos DTMF 329 se generan en 3 bloques cuando los
tonos DTMF dejan de detectarse. Esto corresponde al cumplimiento de
la condición 3 de la Tabla 4, y a los pasos 610 y 612 de la Figura
6. Debe tenerse en cuenta que a pesar de que se ajuste
sup-count a 4 cuando 3 bloques no DTMF
consecutivos siguen a 3 bloques DTMF idénticos, válidos,
consecutivos, sup-count se elimina en los
pasos 614 y 616 antes de eliminar ningún bloque (de modo que se
suprimen 3 bloques, no 4). Después de esto, se transmite un periodo
de silencio con la duración suficiente, es decir,
\rho_{1}(n) = 0,02 y \rho_{2}(n) = 0. Esto puede
ser, por ejemplo, una longitud de cuatro bloques de 12,75.
Mientras tanto, el detector de actividad DTMF
(preferiblemente como parte del JVADAD) continúa funcionando
durante la transmisión de los tonos generados y del silencio. Si se
recibe un dígito válido mientras se está transmitiendo el último
bloque de los tonos DTMF regenerados 329 y/o el silencio, se
generan los tonos DTMF adecuados para dicho dígito y se transmiten
tras completar el periodo de silencio. Si no se reciben dígitos
válidos durante ese periodo, continúa suprimiéndose la salida
durante un periodo de espera. Durante este periodo de espera, si
cualquiera de los indicadores del JVADAD es uno, es decir VAD=1 o
DTMF=1, el periodo de espera finaliza de inmediato. Si se finaliza
el periodo de espera debido a la actividad de la voz (VAD=1), la
salida se determina por el sistema de supresión del ruido con
\rho_{1}(n) = 1 y \rho_{2}(n) = 0, por ejemplo
ajustando el indicador ELIMINAR igual a 0 (según se indica si se
satisface la condición 4 de la Tabla 4). Si se finaliza el periodo
de espera por la actividad DTMF (DTMF=1), entonces continúa la
supresión de la señal de entrada, por ejemplo ajustando el
indicador ELIMINAR igual a 1 (según se indica si se satisface la
condición 1 de la Tabla 4). Una condición de VAD = 1 corresponde a
los pasos 618 y 620 de la Figura 6 mientras que una condición de
DTMF = 1 corresponde a los pasos 602 y 604 de la Figura 6. Periodos
de espera ejemplares van desde alrededor de medio segundo a un
segundo (alrededor de 40 a 80 bloques). El periodo de espera se usa
para evitar la fuga de pequeñas cantidades de tonos DTMF desde la
señal de entrada. El uso del wait_count facilita el recuento
del número de bloques a eliminar desde el punto en el que se
detecta en primer lugar un par de tonos DTMF. Esto corresponde a
los pasos 622 y 624 de la Figura 6.
Cuando no hay señales DTMF presentes,
\rho_{1}(n) = 1 y \rho_{2}(n) = 0. En la
realización actual, siempre que se detecte un par de tonos DTMF en
un bloque, la salida del sistema de supresión de ruido se suprime,
por ejemplo, ajustando \rho_{1}(n) en un valor pequeño por
ej., \rho_{1}(n) = 0, 02. En la realización descrita en la
Tabla 4, \rho_{1}(n) se ajusta en un valor pequeño
ajustando ELIMINAR igual a 1. Al final de cada bloque de muestras
N, si ELIMINAR es igual a 1, entonces para las siguientes muestras
N, \rho_{1}(n) = 0,02. Al final de cada bloque, si se
determina que los tonos DTMF deben regenerarse durante el siguiente
bloque (por ejemplo si GENTONOS =1), entonces \rho_{2}(n)
= 1. El generador de tonos 321 utiliza wait_count y los
indicadores del JVADAD para determinar si continúa la supresión de
la señal de entrada durante el periodo de espera.
Si no se detecta voz ni un tono DTMF durante el
periodo de espera, entonces wait_count se reduce a 0,
entonces la condición por defecto de \rho_{1}(n) = 1 y
\rho_{2}(n) = 0 se ajusta preferiblemente (según los pasos
626 y 628 de la Figura 6).
Los métodos de ampliación del tono DTMF y de
regeneración del tono DTMF se describen por separado. Sin embargo,
es posible combinar la ampliación del tono DTMF y la regeneración
del tono DTMF en un método y/o aparato.
A pesar de que los métodos de ampliación y
regeneración tonos DTMF se describen en la presente memoria con un
sistema de supresión del ruido. Dichos métodos también pueden
usarse con otros sistemas de mejora de la voz tales como sistemas
de control de la ganancia adaptables, cancelación de la
reverberación y sistemas de eliminación de la reverberación.
Además, la ampliación y regeneración de tonos DTMF descritos en
esta memoria resultan especialmente útiles cuando no puede
tolerarse un retardo. Sin embargo, si el retardo es tolerable, por
ej., si se tolera un retardo de 20 ms en un sistema de mejora de
la voz (que puede ser el caso si el sistema de mejora de la voz
funciona en conjunción con un dispositivo de compresión de la voz),
la ampliación y/o regeneración de los tonos puede no ser necesaria.
Sin embargo, un sistema de mejora de la voz que no cuenta con un
detector DTMF puede escalar los tonos de forma inapropiada. Cuando
está presente un detector DTMF, el aparato y método de eliminación
del ruido puede detectar la presencia de los tonos y determinar los
factores de escalado para unificar las subbandas adecuadamente.
En relación a las Figuras 3 y 4, la batería de
filtros 302, JVADAD 304, el contador de persistencia 305, el
estimador de la NSR 306, el estimador de potencia 308, el adaptador
de la NSR 310, el controlador de ganancia 312, el multiplicador de
ganancia 314, el adaptador del factor de compensación 402, el
estimador de la potencia a largo plazo 308a, el estimador de
potencia a corto plazo 308b, el compensador de potencia 404, el
generador de tonos DTMF 321, osciladores 332, circuito de
submuestreo 330, y combinador 315 pueden implantarse usando lógica
combinatoria y secuencial, un ASIC, a través del software aplicado
por una CPU, un chip DSP, u otros similares. Los elementos
mencionados anteriormente pueden formar parte de equipos usados
para realizar otras funciones operativas. Las señales de entrada,
las bandas de frecuencia, las mediciones y estimaciones de la
potencia, factores de ganancia, NSR y NSR adaptadas, indicadores,
errores de predicción, factores de compensación, contadores, y
constantes pueden almacenarse en registros, RAM, ROM u otros
similares, y pueden generarse a través del software, a través de
una estructura de datos situada en un dispositivo de memoria tal
como RAM o ROM, entre otros.
Claims (21)
1. El aparato para mejorar la calidad de una
señal de comunicaciones en un sistema de comunicaciones, que
comprende:
los medios para dividir la señal de comunicación
en una pluralidad de señales de banda de frecuencia;
los medios para generar una primera señal de
potencia para la primera señal de banda de frecuencia, la cual se
basa en estimar durante un primer periodo de tiempo la potencia de
la primera señal de banda de frecuencia;
los medios para generar una segunda señal de
potencia para la primera señal de banda de frecuencia, la cual se
basa en estimar durante un segundo periodo de tiempo inferior al
primer periodo de tiempo la potencia de la primera señal de banda
de frecuencia;
los medios para generar una relación
ruido-señal (NSR) que representa una condición de
la primera señal de banda de frecuencia en respuesta a una relación
aritmética predeterminada que comprende al menos una adición,
sustracción y multiplicación pero sin división, entre los valores
derivados de la primera y segunda señal de potencia;
los medios para ajustar la ganancia de la señal
de banda de frecuencia en respuesta a la NSR para generar una señal
de banda de frecuencia ajustada; y
los medios para combinar la señal de banda de
frecuencia ajustada con al menos una señal de banda de frecuencia
adicional para generar una señal de comunicación ajustada.
2. El aparato según la Reivindicación 1 en donde
las primeras señales de potencia, las segundas señales de potencia
y las señales de condición se generan mediante una implantación de
punto fijo.
3. El aparato según la Reivindicación 1 o la
Reivindicación 2 en donde la NSR comprende el cálculo de una
relación que comprende la potencia de la señal ruidosa media
durante dicha conversación y la potencia del ruido de fondo medio
durante la ausencia de dicha conversación de una de las señales de
banda de frecuencia.
4. El aparato según cualquiera de las
Reivindicaciones precedentes en donde la relación aritmética
incluye ajustar los valores de las señales de condición mediante
incrementos predeterminados.
5. El aparato según la Reivindicación 4 en donde
se incrementan los valores de las NSR en respuesta a la primera de
las relaciones aritméticas predeterminadas y en donde se disminuyen
los valores de las señales de condición en respuesta a la segunda
de las relaciones aritméticas predeterminadas.
6. El aparato según cualquiera de las
Reivindicaciones precedentes en donde la relación aritmética
comprende el ajuste mediante un factor de compensación de una señal
del grupo compuesto por una de las primeras señales de potencia y
una de las segundas señales de potencia.
7. El aparato según la Reivindicación 6 en donde
se genera una señal de ruido general que representa una relación
entre los componentes de la señal y del ruido de la señal de
comunicación y en donde se genera el factor de compensación en
respuesta a la señal de ruido general.
8. El aparato según cualquiera de las
Reivindicaciones precedentes en donde se genera una señal de
detección de voz en respuesta a la detección del componente de
conversación de la señal de comunicación y en donde se varia el
valor de los incrementos en respuesta a la señal de detección de
voz.
9. El aparato según cualquiera de las
Reivindicaciones precedentes que comprende un procesador
seleccionado del grupo compuesto por lógica combinatorial y
secuencial, un circuito integrado para aplicaciones específicas,
una unidad de procesamiento central que ejecuta el software y un
procesador de señal digital que ejecuta el software.
10. El aparato según cualquiera de las
Reivindicaciones precedentes en donde las primeras señales de
potencia se generan durante la ausencia de dicha conversación.
11. El aparato según cualquiera de las
Reivindicaciones precedentes en donde la segunda señal de potencia
se genera durante dicha conversación y ruido.
12. Un método para mejorar la calidad de una
señal de comunicaciones en un sistema de comunicaciones, que
comprende los pasos de:
dividir la señal de comunicación en una
pluralidad de señales de banda de frecuencia;
generar una primera señal de potencia para la
primera señal de banda de frecuencia, la cual se basa en estimar
durante un primer periodo de tiempo la potencia de las primeras
señales de banda de frecuencia;
generar una segunda señal de potencia para las
primeras señales de banda de frecuencia, la cual se basa en estimar
durante un segundo periodo de tiempo inferior al primer periodo de
tiempo la potencia de las primeras señales de banda de
frecuencia;
generar una relación ruido-señal
(NSR) que representa una condición de la primera señal de banda de
frecuencia en respuesta a una relación aritmética predeterminada
que comprende al menos una adición, sustracción y multiplicación
pero sin división, entre los valores derivados de las primeras y
segundas señales de potencia;
ajustar la ganancia de la señal de banda de
frecuencia en respuesta a la NSR para generar una señal de banda de
frecuencia ajustada; y
combinar la señal de banda de frecuencia
ajustada con al menos una señal de banda de frecuencia adicional
para generar una señal de comunicación ajustada.
13. Un método según la Reivindicación 12 en
donde dichas primeras señales de potencia, segundas señales de
potencia y señales de condición se generan mediante una
implantación de punto fijo.
14. Un método según la Reivindicación 12 o
Reivindicación 13 en donde la relación entre los componentes de la
señal y del ruido comprende el cálculo de una relación que
comprende la potencia de la señal ruidosa media durante dicha
conversación y la potencia del ruido de fondo medio durante la
ausencia de dicha conversación de las señales de banda de
frecuencia.
15. Un método según cualquiera de las
Reivindicaciones 12 a 14 en donde la relación aritmética incluye
ajustar los valores de las señales de condición mediante
incrementos predeterminados.
16. Un método según la Reivindicación 15 en
donde se incrementan los valores de las NSR en respuesta a la
primera de las relaciones aritméticas predeterminadas y en donde se
disminuyen los valores de las señales de condición en respuesta a
la segunda de las relaciones aritméticas predeterminadas.
17. Un método según cualquiera de las
Reivindicaciones 12 a 16 en donde la relación aritmética comprende
el ajuste mediante un factor de compensación de una señal del grupo
compuesto por una de las primeras señales de potencia y una de las
segundas señales de potencia.
18. Un método según la Reivindicación 17 que
incluye el paso de generar una señal de ruido general que
representa una relación entre los componentes de la señal y del
ruido de la señal de comunicación y en donde se genera el factor
de compensación en respuesta a la señal de ruido general.
19. Un método según cualquiera de las
Reivindicaciones 12 a 18 que incluye el paso de generar una señal de
detección de voz en respuesta a la detección del componente de
conversación de la señal de comunicación y en donde se varia el
valor de los incrementos en respuesta a la señal de detección de
voz.
20. Un método según cualquiera de las
Reivindicaciones 12 a 19 en donde la generación de las primeras
señales de potencia comprende generar las primeras señales de
potencia durante la ausencia de dicha conversación.
21. Un método según cualquiera de las
Reivindicaciones 12 a 20 en donde la generación de las segundas
señales de potencia comprende generar las segundas señales de
potencia durante dicha conversación y ruido.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11524599P | 1999-01-07 | 1999-01-07 | |
US115245P | 1999-01-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2284475T3 true ES2284475T3 (es) | 2007-11-16 |
Family
ID=22360151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00902355T Expired - Lifetime ES2284475T3 (es) | 1999-01-07 | 2000-01-07 | Metodo y aparato para la supresion del ruido de manera adaptativa. |
Country Status (10)
Country | Link |
---|---|
US (3) | US6591234B1 (es) |
EP (1) | EP1141948B1 (es) |
AT (1) | ATE358872T1 (es) |
AU (1) | AU2408500A (es) |
CA (1) | CA2358203A1 (es) |
DE (1) | DE60034212T2 (es) |
DK (1) | DK1141948T3 (es) |
ES (1) | ES2284475T3 (es) |
PT (1) | PT1141948E (es) |
WO (1) | WO2000041169A1 (es) |
Families Citing this family (101)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006174A (en) * | 1990-10-03 | 1999-12-21 | Interdigital Technology Coporation | Multiple impulse excitation speech encoder and decoder |
US6771590B1 (en) | 1996-08-22 | 2004-08-03 | Tellabs Operations, Inc. | Communication system clock synchronization techniques |
US6118758A (en) | 1996-08-22 | 2000-09-12 | Tellabs Operations, Inc. | Multi-point OFDM/DMT digital communications system including remote service unit with improved transmitter architecture |
DK1068704T3 (da) | 1998-04-03 | 2012-09-17 | Tellabs Operations Inc | Filter til impulssvarforkortning, med yderligere spektrale begrænsninger, til multibærebølgeoverførsel |
US7440498B2 (en) | 2002-12-17 | 2008-10-21 | Tellabs Operations, Inc. | Time domain equalization for discrete multi-tone systems |
US6795424B1 (en) | 1998-06-30 | 2004-09-21 | Tellabs Operations, Inc. | Method and apparatus for interference suppression in orthogonal frequency division multiplexed (OFDM) wireless communication systems |
JP3454190B2 (ja) * | 1999-06-09 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置および方法 |
GB2351624B (en) * | 1999-06-30 | 2003-12-03 | Wireless Systems Int Ltd | Reducing distortion of signals |
FR2797343B1 (fr) * | 1999-08-04 | 2001-10-05 | Matra Nortel Communications | Procede et dispositif de detection d'activite vocale |
US7117149B1 (en) | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
ATE262263T1 (de) * | 1999-10-07 | 2004-04-15 | Widex As | Verfahren und signalprozessor zur verstärkung von sprachsignal-komponenten in einem hörhilfegerät |
JP2001218238A (ja) * | 1999-11-24 | 2001-08-10 | Toshiba Corp | トーン信号受信装置、トーン信号送信装置及びトーン信号送受信装置 |
US6473733B1 (en) * | 1999-12-01 | 2002-10-29 | Research In Motion Limited | Signal enhancement for voice coding |
US6760435B1 (en) * | 2000-02-08 | 2004-07-06 | Lucent Technologies Inc. | Method and apparatus for network speech enhancement |
US6529868B1 (en) * | 2000-03-28 | 2003-03-04 | Tellabs Operations, Inc. | Communication system noise cancellation power signal calculation techniques |
HUP0003010A2 (en) * | 2000-07-31 | 2002-08-28 | Herterkom Gmbh | Signal purification method for the discrimination of a signal from background noise |
JP4282227B2 (ja) * | 2000-12-28 | 2009-06-17 | 日本電気株式会社 | ノイズ除去の方法及び装置 |
US7035293B2 (en) * | 2001-04-18 | 2006-04-25 | Broadcom Corporation | Tone relay |
US6721411B2 (en) * | 2001-04-30 | 2004-04-13 | Voyant Technologies, Inc. | Audio conference platform with dynamic speech detection threshold |
FR2831717A1 (fr) * | 2001-10-25 | 2003-05-02 | France Telecom | Methode et systeme d'elimination d'interference pour antenne multicapteur |
US7299173B2 (en) * | 2002-01-30 | 2007-11-20 | Motorola Inc. | Method and apparatus for speech detection using time-frequency variance |
AUPS102902A0 (en) * | 2002-03-13 | 2002-04-11 | Hearworks Pty Ltd | A method and system for reducing potentially harmful noise in a signal arranged to convey speech |
US7146316B2 (en) * | 2002-10-17 | 2006-12-05 | Clarity Technologies, Inc. | Noise reduction in subbanded speech signals |
JP4282317B2 (ja) * | 2002-12-05 | 2009-06-17 | アルパイン株式会社 | 音声通信装置 |
US7191127B2 (en) * | 2002-12-23 | 2007-03-13 | Motorola, Inc. | System and method for speech enhancement |
US7885420B2 (en) | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US7895036B2 (en) | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US7725315B2 (en) | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US7260209B2 (en) * | 2003-03-27 | 2007-08-21 | Tellabs Operations, Inc. | Methods and apparatus for improving voice quality in an environment with noise |
US7128901B2 (en) | 2003-06-04 | 2006-10-31 | Colgate-Palmolive Company | Extruded stick product and method for making same |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
US20050288923A1 (en) * | 2004-06-25 | 2005-12-29 | The Hong Kong University Of Science And Technology | Speech enhancement by noise masking |
US7433463B2 (en) * | 2004-08-10 | 2008-10-07 | Clarity Technologies, Inc. | Echo cancellation and noise reduction method |
US7382825B1 (en) * | 2004-08-31 | 2008-06-03 | Synopsys, Inc. | Method and apparatus for integrated channel characterization |
US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8306821B2 (en) | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US7716046B2 (en) | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US8543390B2 (en) | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US8170879B2 (en) | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
JP4862262B2 (ja) * | 2005-02-14 | 2012-01-25 | 日本電気株式会社 | Dtmf信号処理方法、処理装置、中継装置、及び通信端末装置 |
US7742914B2 (en) * | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
US7826682B2 (en) * | 2005-04-14 | 2010-11-02 | Agfa Healthcare | Method of suppressing a periodical pattern in an image |
US7912231B2 (en) * | 2005-04-21 | 2011-03-22 | Srs Labs, Inc. | Systems and methods for reducing audio noise |
US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
JP4551817B2 (ja) * | 2005-05-20 | 2010-09-29 | Okiセミコンダクタ株式会社 | ノイズレベル推定方法及びその装置 |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
JP4765461B2 (ja) * | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | 雑音抑圧システムと方法及びプログラム |
FR2889347B1 (fr) * | 2005-09-20 | 2007-09-21 | Jean Daniel Pages | Systeme de diffusion sonore |
US20070100611A1 (en) * | 2005-10-27 | 2007-05-03 | Intel Corporation | Speech codec apparatus with spike reduction |
US20070189505A1 (en) * | 2006-01-31 | 2007-08-16 | Freescale Semiconductor, Inc. | Detecting reflections in a communication channel |
GB2437559B (en) * | 2006-04-26 | 2010-12-22 | Zarlink Semiconductor Inc | Low complexity noise reduction method |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8050397B1 (en) * | 2006-12-22 | 2011-11-01 | Cisco Technology, Inc. | Multi-tone signal discriminator |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US8335685B2 (en) | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
KR101414233B1 (ko) * | 2007-01-05 | 2014-07-02 | 삼성전자 주식회사 | 음성 신호의 명료도를 향상시키는 장치 및 방법 |
US11217237B2 (en) * | 2008-04-14 | 2022-01-04 | Staton Techiya, Llc | Method and device for voice operated control |
CN101790756B (zh) * | 2007-08-27 | 2012-09-05 | 爱立信电话股份有限公司 | 瞬态检测器以及用于支持音频信号的编码的方法 |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8904400B2 (en) | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
CA2706717A1 (en) * | 2007-11-27 | 2009-06-04 | Arjae Spectral Enterprises, Inc. | Noise reduction by means of spectral parallelism |
US8209514B2 (en) | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
WO2009109050A1 (en) * | 2008-03-05 | 2009-09-11 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
US9253568B2 (en) * | 2008-07-25 | 2016-02-02 | Broadcom Corporation | Single-microphone wind noise suppression |
US8515097B2 (en) * | 2008-07-25 | 2013-08-20 | Broadcom Corporation | Single microphone wind noise suppression |
US20100054486A1 (en) * | 2008-08-26 | 2010-03-04 | Nelson Sollenberger | Method and system for output device protection in an audio codec |
US8532269B2 (en) * | 2009-01-16 | 2013-09-10 | Microsoft Corporation | In-band signaling in interactive communications |
WO2010104299A2 (en) * | 2009-03-08 | 2010-09-16 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
ATE515020T1 (de) * | 2009-03-20 | 2011-07-15 | Harman Becker Automotive Sys | Verfahren und vorrichtung zur dämpfung von rauschen in einem eingangssignal |
US8606569B2 (en) * | 2009-07-02 | 2013-12-10 | Alon Konchitsky | Automatic determination of multimedia and voice signals |
JP5489778B2 (ja) * | 2010-02-25 | 2014-05-14 | キヤノン株式会社 | 情報処理装置およびその処理方法 |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
JP5606764B2 (ja) * | 2010-03-31 | 2014-10-15 | クラリオン株式会社 | 音質評価装置およびそのためのプログラム |
TWI413112B (zh) * | 2010-09-06 | 2013-10-21 | Byd Co Ltd | Method and apparatus for eliminating noise background noise (1) |
JP5903758B2 (ja) | 2010-09-08 | 2016-04-13 | ソニー株式会社 | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
CN102629470B (zh) * | 2011-02-02 | 2015-05-20 | Jvc建伍株式会社 | 辅音区间检测装置及辅音区间检测方法 |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US10306389B2 (en) | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
US9312826B2 (en) * | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
CN105379308B (zh) | 2013-05-23 | 2019-06-25 | 美商楼氏电子有限公司 | 麦克风、麦克风***及操作麦克风的方法 |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
TW201640322A (zh) | 2015-01-21 | 2016-11-16 | 諾爾斯電子公司 | 用於聲音設備之低功率語音觸發及方法 |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US11631421B2 (en) | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
GB2547459B (en) * | 2016-02-19 | 2019-01-09 | Imagination Tech Ltd | Dynamic gain controller |
KR102623514B1 (ko) * | 2017-10-23 | 2024-01-11 | 삼성전자주식회사 | 음성신호 처리장치 및 그 동작방법 |
CN110677744B (zh) * | 2019-10-22 | 2021-07-06 | 深圳震有科技股份有限公司 | 一种fxs端口的控制方法、存储介质及接入网设备 |
US11490198B1 (en) * | 2021-07-26 | 2022-11-01 | Cirrus Logic, Inc. | Single-microphone wind detection for audio device |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4351983A (en) | 1979-03-05 | 1982-09-28 | International Business Machines Corp. | Speech detector with variable threshold |
US4423289A (en) | 1979-06-28 | 1983-12-27 | National Research Development Corporation | Signal processing systems |
US4351982A (en) | 1980-12-15 | 1982-09-28 | Racal-Milgo, Inc. | RSA Public-key data encryption system having large random prime number generating microprocessor or the like |
US4454609A (en) | 1981-10-05 | 1984-06-12 | Signatron, Inc. | Speech intelligibility enhancement |
US4658435A (en) * | 1984-09-17 | 1987-04-14 | General Electric Company | Radio trunking system with transceivers and repeaters using special channel acquisition protocol |
US4630304A (en) | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
US4628529A (en) | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US4658426A (en) | 1985-10-10 | 1987-04-14 | Harold Antin | Adaptive noise suppressor |
CA1293693C (en) | 1985-10-30 | 1991-12-31 | Tetsu Taguchi | Noise canceling apparatus |
US4811404A (en) * | 1987-10-01 | 1989-03-07 | Motorola, Inc. | Noise suppression system |
IL84948A0 (en) | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
US5285165A (en) | 1988-05-26 | 1994-02-08 | Renfors Markku K | Noise elimination method |
FR2685486B1 (fr) * | 1991-12-19 | 1994-07-29 | Inst Francais Du Petrole | Methode et dispositif pour mesurer les niveaux d'amplitude successifs de signaux recus sur une voie de transmission. |
FI97758C (fi) | 1992-11-20 | 1997-02-10 | Nokia Deutschland Gmbh | Järjestelmä audiosignaalin käsittelemiseksi |
US5400409A (en) | 1992-12-23 | 1995-03-21 | Daimler-Benz Ag | Noise-reduction method for noise-affected voice channels |
US5432859A (en) | 1993-02-23 | 1995-07-11 | Novatel Communications Ltd. | Noise-reduction system |
US5425105A (en) | 1993-04-27 | 1995-06-13 | Hughes Aircraft Company | Multiple adaptive filter active noise canceller |
DE69331732T2 (de) | 1993-04-29 | 2003-02-06 | Ibm | Anordnung und Verfahren zur Feststellung der Anwesenheit eines Sprechsignals |
US5632003A (en) | 1993-07-16 | 1997-05-20 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for coding method and apparatus |
SG49334A1 (en) | 1993-12-06 | 1998-05-18 | Koninkl Philips Electronics Nv | A noise reduction system and device and a mobile radio station |
JPH07202998A (ja) | 1993-12-29 | 1995-08-04 | Nec Corp | 周囲ノイズ除去機能を備えた電話機 |
US5619524A (en) | 1994-10-04 | 1997-04-08 | Motorola, Inc. | Method and apparatus for coherent communication reception in a spread-spectrum communication system |
SE505156C2 (sv) * | 1995-01-30 | 1997-07-07 | Ericsson Telefon Ab L M | Förfarande för bullerundertryckning genom spektral subtraktion |
US6263307B1 (en) * | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
US5706395A (en) * | 1995-04-19 | 1998-01-06 | Texas Instruments Incorporated | Adaptive weiner filtering using a dynamic suppression factor |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US5806025A (en) | 1996-08-07 | 1998-09-08 | U S West, Inc. | Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank |
JP2874679B2 (ja) * | 1997-01-29 | 1999-03-24 | 日本電気株式会社 | 雑音消去方法及びその装置 |
-
2000
- 2000-01-07 DE DE60034212T patent/DE60034212T2/de not_active Expired - Lifetime
- 2000-01-07 EP EP00902355A patent/EP1141948B1/en not_active Expired - Lifetime
- 2000-01-07 US US09/479,120 patent/US6591234B1/en not_active Expired - Lifetime
- 2000-01-07 DK DK00902355T patent/DK1141948T3/da active
- 2000-01-07 CA CA002358203A patent/CA2358203A1/en not_active Abandoned
- 2000-01-07 WO PCT/US2000/000397 patent/WO2000041169A1/en active IP Right Grant
- 2000-01-07 AT AT00902355T patent/ATE358872T1/de active
- 2000-01-07 PT PT00902355T patent/PT1141948E/pt unknown
- 2000-01-07 AU AU24085/00A patent/AU2408500A/en not_active Abandoned
- 2000-01-07 ES ES00902355T patent/ES2284475T3/es not_active Expired - Lifetime
-
2005
- 2005-01-28 US US11/046,161 patent/US7366294B2/en not_active Expired - Lifetime
-
2008
- 2008-02-26 US US12/072,500 patent/US8031861B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1141948A1 (en) | 2001-10-10 |
US8031861B2 (en) | 2011-10-04 |
ATE358872T1 (de) | 2007-04-15 |
AU2408500A (en) | 2000-07-24 |
US20050131678A1 (en) | 2005-06-16 |
DE60034212T2 (de) | 2008-01-17 |
WO2000041169A9 (en) | 2002-04-11 |
DE60034212D1 (de) | 2007-05-16 |
PT1141948E (pt) | 2007-07-12 |
EP1141948B1 (en) | 2007-04-04 |
US20090129582A1 (en) | 2009-05-21 |
DK1141948T3 (da) | 2007-08-13 |
WO2000041169A1 (en) | 2000-07-13 |
US6591234B1 (en) | 2003-07-08 |
CA2358203A1 (en) | 2000-07-13 |
US7366294B2 (en) | 2008-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2284475T3 (es) | Metodo y aparato para la supresion del ruido de manera adaptativa. | |
US7454010B1 (en) | Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation | |
US7492889B2 (en) | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate | |
EP1080465B1 (en) | Signal noise reduction by spectral substraction using linear convolution and causal filtering | |
RU2145737C1 (ru) | Способ подавления шума путем спектрального вычитания | |
JP3565226B2 (ja) | ノイズ低減システム、ノイズ低減装置及びこの装置を具える移動無線局 | |
US6597787B1 (en) | Echo cancellation device for cancelling echos in a transceiver unit | |
US7369990B2 (en) | Reducing acoustic noise in wireless and landline based telephony | |
US20050278171A1 (en) | Comfort noise generator using modified doblinger noise estimate | |
EP1080463B1 (en) | Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging | |
CA2112278A1 (en) | Noise-reduction system | |
BRPI0116844B1 (pt) | Processo e dispositivo de redução de ruído | |
EP1141950B1 (en) | Noise suppression in a mobile communications system | |
EP1729287A1 (en) | Method and apparatus for adaptively suppressing noise | |
JPH06334457A (ja) | 自動音量制御装置 | |
Walker | SPEECH IMPROVEMENT BY NOISE REDUCTION BASED ON A CONTINUOUS FOURIER TRANSFORMATION (CFT) |