ES2294506T3 - Reduccion de ruido para el reconocimiento automatico del habla. - Google Patents

Reduccion de ruido para el reconocimiento automatico del habla. Download PDF

Info

Publication number
ES2294506T3
ES2294506T3 ES04741579T ES04741579T ES2294506T3 ES 2294506 T3 ES2294506 T3 ES 2294506T3 ES 04741579 T ES04741579 T ES 04741579T ES 04741579 T ES04741579 T ES 04741579T ES 2294506 T3 ES2294506 T3 ES 2294506T3
Authority
ES
Spain
Prior art keywords
noise
hat
signal
estimate
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04741579T
Other languages
English (en)
Inventor
Roberto Gemello
Franco Mana
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Loquendo SpA
Original Assignee
Loquendo SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Loquendo SpA filed Critical Loquendo SpA
Application granted granted Critical
Publication of ES2294506T3 publication Critical patent/ES2294506T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Image Processing (AREA)
  • Noise Elimination (AREA)

Abstract

Procedimiento de reducción del ruido para reconocimiento automático del habla, que comprende: - calcular un espectro de magnitud |Yk(m)| de un habla ruidosa que contiene un habla limpia a ser reconocida y ruido que afecta al habla limpia; - calcular un espectro de potencia (|Yk(m)|2) del habla ruidosa; - calcular una estimación (|Xk(m)|2) de un espectro de potencia del habla limpia; - calcular una estimación (|Dk(m)|2) de un espectro de potencia del ruido; - calcular una estimación ( Ek(m)) de una relación de señal a ruido a priori como función de la estimación (|Xk(m)|2) del espectro de potencia del habla limpia y de la estimación (|Dk(m)|2) del espectro de potencia del ruido; - calcular una estimación (Ek(m)) de una relación de señal a ruido a posteriori como función del espectro de potencia (|Yk(m)|2) del habla ruidosa y de la estimación (|Dk(m)|2) del espectro de potencia del ruido; - calcular una ganancia de atenuación (Gk(m)) como función de la estimación ( Ek(m)) de la relación de señal a ruido a priori y de la estimación (k(m)) de la relación de señal a ruido a posteriori; - calcular una estimación (|Xk(m)|) de un espectro de magnitud del habla limpia como función del espectro de magnitud (|Yk(m)|) del habla ruidosa y de la ganancia de atenuación (Gk(m)); caracterizado por el hecho de que calcular las estimaciones ( Ek(m),Yk(m)) de las relaciones de señal a ruido a priori y a posteriori comprende:

Description

Reducción de ruido para el reconocimiento automático del habla.
Campo técnico de la invención
La presente invención se refiere de forma general a la reducción de ruido para el reconocimiento automático del habla, y en concreto a un procedimiento y sistema de reducción de ruido basado en la técnica de atenuación espectral, y a un sistema de reconocimiento automático del habla.
Antecedentes técnicos
La figura 1 muestra un diagrama de bloques de fuentes usuales de degradación del habla. Como se puede apreciar, el habla del hablante que se desea (bloque 10) se degrada debido al ruido ambiental, en concreto voces de otros hablantes cercanos (bloque 20) y ruido de fondo (bloque 30), y debido al ruido y la distorsión del canal de comunicación (bloques 40 y 50). Las técnicas de reducción de ruido (bloque 60) para el reconocimiento automático del habla (bloque 70) pueden reducir el ruido de fondo y el ruido de canal (casi estacionarios), mientras que el ruido no estacionario y las voces interferentes son mucho más difíciles de eliminar.
La figura 2 muestra un diagrama de bloques de un sistema automático de reconocimiento del habla. Como se puede apreciar, el habla ruidosa a reconocer se introduce en un bloque 100 de análisis espectral de tiempo corto (FFT enventanada) que genera espectros de tiempo corto que se introducen a su vez en un bloque reductor de ruido 110. Los espectros de tiempo corto sin ruido se introducen en una etapa de entrada 120 de RASTA-PLP, que a su vez indica a la salida la energía total de la señal de habla, los coeficientes de cepstrum, y las derivadas primera y segunda de la energía total y de los coeficientes de cepstrum, introduciéndose todos ellos en un bloque 130 de reconocimiento automático del habla.
La etapa de entrada 120 de RASTA-PLP implementa una técnica que se conoce como "RelaAtive SpecTrAl Technique", que es un mejora sobre el procedimiento de PLP (predicción perceptual lineal) tradicional y que consiste en un filtrado especial de los diferentes canales de frecuencia de un analizador PLP. El filtrado previo se realiza para hacer que el análisis del habla sea menos sensible a los cambios lentos o los factores de estado estacionario del habla. El procedimiento RASTA substituye al espectro de plazo corto de banda crítica convencional del PLP e introduce una estimación espectral menos sensible. Para una descripción más detallada de un procesado RASTA, se puede consultar la referencia de H. Hermansky y N. Morgan, "RASTA Processing of Speech", IEEE Transactions on Speech and Audio Processing, volumen 2, número 4, octubre de 1994.
El bloque de reducción de ruido 110 realiza una estimación del ruido ambiental 112 basada en los espectros de tiempo corto y a continuación una reducción de ruido ambiental 114 basada en los espectros de tiempo corto y el ruido estimado, utilizando una técnica que se denomina de "substracción espectral" o una técnica que se denomina de "atenuación espectral".
Las técnicas arriba mencionadas se describirán con más detalle a continuación, donde se indicará el espectro de potencia del habla ruidosa como |Y_{k}(m)|^{2}, el espectro de potencia del habla limpia como |X_{k}(m)|^{2}, el espectro de potencia del ruido aditivo como |D_{k}(m)|^{2}, y la estimación de una cantidad por medio del símbolo "^", y donde k es el índice de las líneas espectrales de los espectros y m es el índice de las ventanas de tiempo dentro de las cuales se procesa el habla ruidosa para la reducción del ruido.
La técnica de substracción espectral se describe en N. Virag, "Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System", IEEE Transactions on Speech and Audio Processing, volumen 7, número 2, marzo de 1999, donde se trata el problema de la reducción del ruido para el reconocimiento del habla y se describe la utilización de un factor de sobreestimación o sobresubstracción y un factor de fondo espectral.
En concreto, la técnica de substracción espectral se basa en el principio de reducir el ruido por medio de substraer una estimación del espectro de potencia del ruido aditivo |\hat{D}_{k}(m)|^{2} del espectro de potencia del habla ruidosa |Y_{k}(m)|^{2}, obteniéndose de esta forma una estimación |\hat{X}_{k}(m)|^{2} del espectro de potencia del habla limpia:
1
donde \alpha(m) es el factor de sobreestimación de ruido, \beta(m) es el factor de fondo de espectro.
En concreto, el espectro de ruido residual consiste en crestas y valles con aparición aleatoria, y el factor de sobreestimación \alpha(m) y el factor de fondo de espectro \beta(m) se han introducido para reducir las excursiones espectrales.
En detalle, el factor de sobreestimación \alpha(m) se ha introducido para "sobreestimar" el espectro de ruido, es decir, en otras palabras el factor de sobreestimación \alpha(m) substrae una sobreestimación del ruido a lo largo del espectro completo, mientras que el factor de fondo espectral \beta(m) evita que las líneas espectrales de la estimación del espectro de potencia |\hat{X}_{k}(m)|^{2} del habla limpia caigan por debajo de un límite inferior (\beta(m)|Y_{k}(m)|^{2}), "rellenando" de esta forma los valles profundos que rodean a los picos estrechos (del espectro mejorado). De hecho, ocasionalmente se pueden producir estimaciones negativas del espectro de potencia mejorado y en tales casos, las líneas espectrales negativas se llevan a cero o a algún valor mínimo (de fondo). Reducir las excursiones espectrales de los picos de ruido, en comparación con cuando se establecen en cero los componentes negativos, reduce la cantidad de ruido musical. Esencialmente por medio de reinsertar el ruido de banda ancha (fondo de ruido), los remanentes de los picos de ruido se "enmascaran" por parte de los componentes vecinos de magnitud comparable.
Una variante de esta técnica se conoce como "técnica de substracción espectral de Wiener", que es similar a la anterior pero que se deriva de la teoría de filtrado óptimo. La estimación |\hat{X}_{k}(m)|^{2} del espectro de potencia del habla limpia es la siguiente:
3
Una mejora sobre las técnicas de substracción espectral se describe en V. Schless, F. Class, "SNR-Dependent Flooring and Noise Overestimation for Joint Application of Spectral Substraction and Model Combination", ICSLP 1998, donde se propone hacer que el factor de sobreestimación de ruido \alpha(m) y el factor de fondo espectral \beta(m) sean funciones de la relación de señal a ruido global SNR(m).
La técnica de atenuación espectral, por el contrario, se basa en el principio de suprimir el ruido por medio de aplicar una regla de supresión, o una ganancia de valor real no negativa G_{k}, a cada línea espectral k del espectro de magnitud |Y_{k}(m)| del habla ruidosa, para calcular una estimación |\hat{X}_{k}(m)| del espectro de magnitud del habla limpia según la siguiente fórmula:
|\hat{X}_{k}(m)| = G_{k}(m)|Y_{k}(m)|
Se han propuesto muchas reglas de supresión, y probablemente una de las reglas más importantes es la que se denomina regla logarítmica de atenuación espectral de Ephraim-Malah, que se describe en Y. Ephraim y D. Malah, "Speech Enhancement Using a Minimum Min-Square Error Log-Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, volumen ASSP-33, número 2, páginas 443-445, 1985.
La ganancia de Ephraim-Malah G_{k}(m) se define como:
4
donde:
- \xi_{k}(m) es una relación de señal a ruido a priori relativa a la línea espectral k-ésima y se define de la siguiente forma:
5
- \nu_{k}(m) se define como:
6
- \gamma_{k}(m) es una relación de señal a ruido que se denomina a posteriori relativa a la línea espectral k-ésima y se define de la siguiente forma:
7
El cálculo de la relación de señal a ruido a posteriori \gamma_{k}(m) requiere el conocimiento del espectro de potencia del ruido aditivo |D_{k}(m)|^{2}, que no se encuentra disponible. Se puede obtener una estimación |\hat{D}_{k}(m)|^{2} del espectro de potencia del ruido aditivo con un estimador de ruido como se describe en H. G. Hirch, C. Ehrlicher, "Noise Estimation Techniques for Robust Speech Recognition", ICASSP 1995, páginas 153-156.
Por tanto, se puede calcular una estimación \hat{\gamma}_{k}(m) de la relación de señal a ruido a posteriori de la siguiente forma:
8
El cálculo de la relación de señal a ruido a priori \xi_{k}(m) requiere el conocimiento del espectro de potencia |X_{k}(m)|^{2} del habla limpia, el cual no se encuentra disponible. Se puede calcular una estimación \hat{\xi}_{k}(m) de la relación de señal a ruido a priori por medio de la utilización de una aproximación dirigida a la decisión como se describe en Y. Ephraim y D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, volumen ASSP-32, número 6, páginas 1109-1121, 1984, y de la forma siguiente:
9
donde \eta(m) es un coeficiente de peso para ponderar adecuadamente los dos términos de la fórmula.
La ganancia de Ephraim-Malah G_{k}(m) se puede calcular entonces como función de la estimación \hat{\xi}_{k}(m) de la relación de señal a ruido a priori y de la estimación \hat{\gamma}_{k}(m) de la relación de señal a ruido a posteriori según la fórmula (3).
En US-A-2002/0002455 se describe una aplicación de la técnica de atenuación espectral, que se refiere a un sistema de mejora del habla que recibe un habla ruidosa caracterizada por una amplitud espectral que se extiende en una pluralidad de cajones y que produce un habla mejorada por medio de modificar la amplitud espectral del habla ruidosa sin afectar a la fase de la misma. En concreto, el sistema de mejora del habla comprende un estimador de núcleo que aplica al habla ruidosa uno de un primer conjunto de ganancias para cada cajón de frecuencia; un módulo de adaptación de ruido que segmenta el habla ruidosa en cuadros que contienen solamente ruido y solamente señal, mantiene una estimación actual del espectro de ruido y una estimación de la probabilidad de ausencia de señal en cada cajón de frecuencia; y un estimador de relación de señal a ruido que mide la relación de señal a ruido a posteriori y estima una relación de señal a ruido a priori basándose en la estimación de ruido. Cada uno del primer conjunto de ganancias se basa en una relación de señal a ruido a priori, así como en la probabilidad de ausencia de señal en cada cajón y en un nivel de agresividad de la mejora del habla. Un módulo de decisión suave calcula un segundo conjunto ganancias que se basa en una relación de señal a ruido a posteriori y en una relación de señal a ruido a priori, y la probabilidad de ausencia de señal en cada cajón de frecuencia.
En WO-A-01/52242 se describe otra aplicación de las técnicas de atenuación espectral, que se refiere a un esquema de substracción espectral de banda múltiple que se puede aplicar a una variedad de sistemas de comunicación por habla, como soportes a la audición, sistemas de acceso público, sistemas de teleconferencia, sistemas de control por voz, o sistemas altavoces, y que comprende una arquitectura una arquitectura de filtro de banda múltiple, detección de potencia de ruido y de señal, y función de ganancia para la reducción del ruido. La función de ganancia para la reducción de ruido consiste en una función de escala de ganancia y una función de atenuación máxima que proporcionan una cantidad de ganancia predeterminada como función de la relación de señal a ruido y del ruido. La función de escala de ganancia es una función a tramos lineal de tres segmentos, y los tres tramos lineales de la función de escala de ganancia comprenden un primer tramo que proporciona una expansión máxima hasta un primer punto de codo para una reducción de ruido máxima, un segundo tramo que proporciona una expansión menor hasta un segundo punto de codo para una reducción de ruido menor, y un tercer tramo que proporciona una expansión mínima o nula para señales de entrada con una relación de señal a ruido alta para minimizar la distorsión. La función de atenuación máxima puede ser una constante o ser igual a la envolvente del ruido estimada. Cuando se utiliza en aplicaciones de soporte a la audición, la función de ganancia de reducción de ruido se combina con la función de ganancia de compensación de pérdida de la audición inherente al proceso de asistencia a la audición.
El reconocimiento automático del habla que utiliza los procedimientos de reducción de ruido conocidos arriba descritos se encuentra afectado por algunos problemas técnicos que evitan que sea realmente efectivo. En concreto, la técnica de substracción espectral y la técnica de substracción espectral de Wiener se ven afectadas por el denominado "ruido musical", que se introduce en el espectro de potencia |X_{k}(m)|^{2} del habla limpia por el nivel de fondo arriba mencionado, según el cual los valores negativos se establecen en un valor de fondo \beta(m)|Y_{k}(m)| para evitar la ocurrencia de resultados negativos de substracción. En concreto, el nivel de fondo introduce discontinuidades en el espectro que se perciben como ruidos musicales molestos y que degradan el rendimiento de un sistema de reconocimiento automático del habla.
La técnica de atenuación espectral que implementa la regla de atenuación de Ephraim-Malah es una técnica muy buena para la denominada mejora del habla, es decir la reducción del ruido para un oyente humano, pero introduce cierta distorsión espectral en partes de la voz que son aceptables para las personas pero muy críticas para un sistema de reconocimiento automático del habla.
En la publicación de Kato, M. y otros, "A Wideband Noise Suppressor for the AMR Wideband Speech Codec", Speech coding, 2002, IEEE workshop proceedings, 06.10.02, la ganancia espectral como se define por parte de Ephraim y Malah se modifica con un escalado y una limitación condicional.
Objeto y resumen de la presente invención
La intención de la presente invención es por tanto proporcionar un procedimiento de reducción de ruido para el reconocimiento automático del habla y que, al mismo tiempo, reduce el ruido musical del espectro de potencia del habla limpiada.
Este objetivo se alcanza con la presente invención por el hecho de que se refiere a un procedimiento de reducción de ruido para el reconocimiento automático del habla, como se define en la reivindicación 1, a un sistema de reconocimiento automático del habla, como se define en la reivindicación 12, y a un producto programa de ordenador, como se define en la reivindicación 13.
La presente invención cumple las necesidades arriba mencionadas puesto que utiliza una técnica de atenuación espectral en lugar de una técnica de substracción espectral, eliminando de esta forma el problema del ruido musical, y que la implementación de una regla de atenuación espectral de Ephraim-Malah modificada reduce la distorsión espectral introducida por la regla original en las partes vocales de las señales, obteniendo de esta forma mejores rendimientos cuando se utiliza en un sistema automático de reconocimiento del habla.
Breve descripción de las figuras
Para una mejor comprensión de la presente invención, a continuación se describirá una realización preferida, la cual se pretende puramente a modo de ejemplo y no se debe considerar de forma limitativa, con referencia a las figuras adjuntas, en las cuales:
- la figura 1 muestra un diagrama de bloques de las fuentes comunes de degradación del habla;
- la figura 2 muestra un diagrama de bloques de la reducción de ruido para el reconocimiento automático del habla;
- las figuras 3 y 4 muestran gráficos de un factor de sobreestimación de ruido y de un factor de fondo espectral como función de una relación de señal a ruido global que se utilizan en el procedimiento de reducción de ruido según la presente invención;
- la figura 5 muestra una regla de atenuación espectral de Ephraim-Malah estándar; y
- las figuras 6-10 muestran una regla de atenuación espectral de Ephraim-Malah modificada según la presente invención a diferentes relaciones globales de señal a ruido.
Descripción detallada de realizaciones preferidas de la presente invención
La siguiente discusión se presenta para permitir a una persona experta en la técnica utilizar la presente invención. Para la personas expertas en la técnica se harán fácilmente aparentes varias modificaciones de las realizaciones sin salir del ámbito de la presente invención como se reivindica. Por tanto, no se pretende que la presente invención se limite a las realizaciones que se muestran, sino que se debe contemplarse el ámbito más amplio consistente con los principios y características que aquí se describen y que se definen en las reivindicaciones adjuntas.
La presente invención se refiere a un sistema automático de reconocimiento del habla que comprende un sistema de reducción de ruido basado en la técnica de atenuación espectral, y en concreto en la regla de atenuación de Ephraim-Malah, en el cual la fórmula global de la ganancia G_{k}(\gamma_{k}, \xi_{k}) permanece sin cambios, mientras que las estimaciones de las relaciones de señal a ruido a priori y a posteriori \hat{\xi}_{k}(m), \hat{\gamma}_{k}(m) se modifican haciéndolas dependientes de un factor de ponderación de ruido \alpha(m) y de un factor de fondo espectral \beta(m), de la forma siguiente:
10
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
11
\vskip1.000000\baselineskip
donde:
- |Y_{k}(m)|^{2} es la línea espectral k-ésima del espectro de potencia del habla ruidosa;
- |\hat{X}_{k}(m)|^{2} es la línea espectral k-ésima de la estimación del espectro de potencia del habla limpiada;
- |\hat{D}_{k}(m)|^{2} es la línea espectral k-ésima de la estimación del espectro de potencia del ruido aditivo;
- \hat{\xi}_{k}(m) es la estimación de la relación de señal a ruido a priori relativa a la línea espectral k-ésima;
- \hat{\gamma}_{k}(m) es la estimación de la relación de señal a ruido a posteriori relativa a la línea espectral k-ésima;
- \alpha(m) es el factor de peso de ruido para ponderar, concretamente sobreestimar o subestimar, la estimación |\hat{D}_{k}(m)|^{2}
del espectro de potencia del ruido en el cálculo de las estimaciones \hat{\xi}_{k}(m), \hat{\gamma}_{k}(m) de las relaciones de señal a ruido a priori y a posteriori;
- \beta(m) es el factor de fondo espectral para el fondo de las estimaciones \hat{\xi}_{k}(m), \hat{\gamma}_{k}(m) de las relaciones de señal a ruido a priori y a posteriori; y
- \eta(m) es un coeficiente de peso para ponderar adecuadamente los dos términos de la fórmula (10).
El factor de ponderación de ruido \alpha(m) y el factor de fondo espectral \beta(m) son funciones de la relación de señal a ruido global SNR(m), que se define como:
\vskip1.000000\baselineskip
12
\vskip1.000000\baselineskip
Las figuras 3 y 4 muestran un desarrollo preferido del factor de ponderación de ruido \alpha(m) y del factor de fondo espectral \beta(m) respecto a la relación de señal a ruido global SNR(m). El factor de ponderación de ruido \alpha(m) y el factor de fondo espectral \beta(m) son funciones lineales a tramos y se pueden definir de la siguiente forma:
\vskip1.000000\baselineskip
13
14
\vskip1.000000\baselineskip
Los valores que se indican en las fórmulas (12) y (13) se indican puramente a modo de ejemplo y no se deben considerar limitativos. En general, se podrían utilizar otros valores de forma útil, mientras se mantenga el desarrollo general del factor de ponderación de ruido \alpha(m) y del factor de fondo espectral \beta(m) respecto a la relación de señal a ruido global SNR(m).
En concreto, el factor de ponderación de ruido \alpha(m) respecto a la relación de señal a ruido global SNR(m) debería tener un primer valor sustancialmente constante cuando la relación de señal a ruido global SNR(m) es menor que un primer umbral, un segundo valor sustancialmente constante menor que el primer valor sustancialmente constante cuando la relación de señal a ruido global SNR(m) es mayor que un segundo umbral, y valores decrecientes desde el primer valor sustancialmente constante hasta el segundo valor sustancialmente constante cuando la relación de señal a ruido global SNR(m) aumenta desde el primer umbral hasta el segundo umbral.
El factor de fondo espectral \beta(m) respecto a la relación de señal a ruido global SNR(m) debería tener un primer valor sustancialmente constante cuando la relación de señal a ruido global SNR(m) es menor que un primer umbral, un segundo valor sustancialmente constante mayor que el primer valor sustancialmente constante cuando la relación de señal a ruido global SNR(m) es mayor que un segundo umbral, y valores crecientes desde el primer valor sustancialmente constante hasta el segundo valor sustancialmente constante cuando la relación de señal a ruido global SNR(m) aumenta desde el primer umbral hasta el segundo umbral. Los desarrollos pueden ser por tramos de líneas rectas, como se muestra en las figuras 3 y 4, o pueden ser por líneas curvas similares a las de las figuras 3 y 4, es decir, líneas curvas en las que el tramo intermedio no constante es lineal, como en las figuras 3 y 4, o curvado, por ejemplo una curva de tipo coseno o seno, y se redondean o suavizan las transiciones desde el tramo intermedio no constante hasta los tramos constantes.
La estimación |\hat{D}_{k}(m)|^{2} del espectro de potencia del habla ruidosa de las fórmulas (9), (10) y (11) se calcula por medio de una recursión de primer orden como se describe en la publicación anteriormente mencionada "Noise Estimation Techniques for Robust Speech Recognition".
Preferiblemente, la recursión de primer orden se puede implementar junto con un detector de actividad vocal estándar basado en energía, que es un sistema bien conocido que detecta la presencia o ausencia de habla basándose en una comparación de la energía total de la señal de habla con un umbral adaptativo y genera una bandera booleana (VAD) con un valor de "cierto" cuando se encuentra presente una voz y un valor de "falso" cuando la voz se encuentra ausente. Cuando se utiliza un detector de actividad vocal estándar basado en energía, la estimación |\hat{D}_{k}(m)|^{2} del espectro de potencia del habla ruidosa se puede calcular de la siguiente forma:
\vskip1.000000\baselineskip
15
\vskip1.000000\baselineskip
donde \lambda es un factor de ponderación que controla la velocidad de actualización de la recursión y vale entre 0 y 1, preferiblemente un valor de 0,9. \mu es un factor de multiplicación que controla la dinámica permitida del ruido y presenta preferiblemente un valor de 4,0, y \sigma(m) es la desviación típica del ruido, que se estima de la siguiente forma:
\vskip1.000000\baselineskip
16
\newpage
La figura 5 muestra la regla de atenuación espectral de Ephraim-Malah estándar (G_{k}, \xi_{k}(m) y \gamma_{k}(m) calculados según las fórmulas (3), (7) y (8)), mientras que las figuras 6-10 muestran la regla de atenuación espectral de Ephraim-Malah modificada según la presente invención (G_{k}, \xi_{k}(m) y \gamma_{k}(m) calculados según las fórmulas (3), (10) y (9)) a diferentes relaciones de señal a ruido globales SNR(m) (0, 5, 10, 15 y 20 dB). Se puede apreciar por parte de la persona experta en la técnica que el efecto de la modificación introducida es una reducción gradual de la atenuación producida por la ganancia original en las zonas en las que la relación de señal a ruido a posteriori \gamma_{k}(m) es alta, puesto que aumenta la relación de señal a ruido SNR(m) global.
Se ha realizado un extenso trabajo experimental para validar la presente invención, y a continuación se relatan algunos resultados, que pueden ser útiles para destacar las características de la invención.
En concreto, los experimentos se llevaron a término con un sistema de reconocimiento automático del habla, utilizando reducción de ruido con la atenuación espectral de Ephraim-Malah estándar y con la reducción de ruido que se propone en la presente invención. El sistema automático de reconocimiento del habla se ha entrenado para los idiomas objetivo utilizando corpus extensos, independientes de dominio y función, no recogidos en ambientes ruidosos y sin ruido añadido.
El experimento se realizó sobre el corpus Aurora3, que es el corpus estándar definido por el ETSI Aurora Project para las pruebas de reducción de ruido, y que consiste en dígitos conectados registrados en un coche en varios idiomas (italiano, español y alemán). Se utilizó un conjunto de prueba de alto error de coincidencia y un componente ruidoso del conjunto de entrenamiento (como conjunto de prueba).
La modificación de la regla de atenuación espectral de Ephraim-Malah según la presente invención produce una media de reducción del error de 28,9% respecto a la substracción espectral de Wiener del estado del arte, y una media de reducción del error de 22,9% respecto a la regla de atenuación espectral de Ephraim-Malah estándar. La media de reducción de error respecto a la no reducción de ruido es 50,2%.
Finalmente, es claro que se pueden realizar numerosas modificaciones y variantes a la presente invención, entrando todas dentro del ámbito de la presente invención, como se define en las reivindicaciones adjuntas.
\vskip1.000000\baselineskip
Referencias citadas en la presente descripción
Esta lista de referencias citadas por el solicitante es solamente para la conveniencia del lector. No forma parte del documento de Patente Europea. Aunque se ha prestado mucha atención en la recopilación de las referencias, no se pueden descartar errores u omisiones y la Oficina Europea de Patentes renuncia a cualquier responsabilidad respecto a la misma.
Documentos de patente citados en la presente descripción
\bullet US 2002/0002455 A [0020]
\bullet WO 0152242 A [0021]
Textos no de patente citados en la presente descripción
\bullet H. HERMANSKY; N. MORGAN. RASTA Processing of Speech. IEEE Transactions on Speech and Audio Processing, volumen 2, número 4, 1994. [0004]
\bullet N. VIRAG. Single Channel Enhancement Based on Masking Properties of the Human Auditory System. IEEE Transactions on Speech and Audio Processing, volumen 7, número 2, 1999. [0007]
\bullet V. SCHLESS; F. CLASS. SNR-Dependent Flooring and Noise Overestimation for Joint Application of Spectral Substraction and Model Combination. ICSLP, 1998. [0012]
\bullet Y. EPHRAIM; D. MALAH. Speech Enhancement Using a Minimum Min-Square Error Log-Spectral Amplitude Estimator. IEEE Transactions on Acoustics, Speech, and Signal Processing, volumen 33, número 2, páginas 443-445, 1985. [0014]
\bullet H. G. HIRCH; C. EHRLICHER. Noise Estimation Techniques for Robust Speech Recognition. ICASSP 1995, páginas 153-156. [0016]
\bullet Y. EPHRAIM; D. MALAH. Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, volumen 32, número 6, páginas 1109-1121, 1984. [0018]
\bulletKATO. M. y otros. A Wideband Noise Suppressor for the AMR Wideband Speech Codec. IEEE workshop proceedings, 06 octubre 2002. [0024]

Claims (13)

1. Procedimiento de reducción del ruido para reconocimiento automático del habla, que comprende:
- calcular un espectro de magnitud |Y_{k}(m)| de un habla ruidosa que contiene un habla limpia a ser reconocida y ruido que afecta al habla limpia;
- calcular un espectro de potencia (|Y_{k}(m)|^{2}) del habla ruidosa;
- calcular una estimación (|\hat{X}_{k}(m)|^{2}) de un espectro de potencia del habla limpia;
- calcular una estimación (|\hat{D}_{k}(m)|^{2}) de un espectro de potencia del ruido;
- calcular una estimación (\hat{\xi}_{k}(m)) de una relación de señal a ruido a priori como función de la estimación (|\hat{X}_{k}(m)|^{2})
del espectro de potencia del habla limpia y de la estimación (|\hat{D}_{k}(m)|^{2}) del espectro de potencia del ruido;
- calcular una estimación (\hat{\gamma}_{k}(m)) de una relación de señal a ruido a posteriori como función del espectro de potencia (|Y_{k}(m)|^{2}) del habla ruidosa y de la estimación (|\hat{D}_{k}(m)|^{2}) del espectro de potencia del ruido;
- calcular una ganancia de atenuación (G_{k}(m)) como función de la estimación (\hat{\xi}_{k}(m)) de la relación de señal a ruido a priori y de la estimación (\hat{\gamma}_{k}(m)) de la relación de señal a ruido a posteriori;
- calcular una estimación (|\hat{X}_{k}(m)|) de un espectro de magnitud del habla limpia como función del espectro de magnitud (|Y_{k}(m)|) del habla ruidosa y de la ganancia de atenuación (G_{k}(m));
caracterizado por el hecho de que calcular las estimaciones (\hat{\xi}_{k}(m), \hat{\gamma}_{k}(m)) de las relaciones de señal a ruido a priori y a posteriori comprende:
- calcular un factor de ponderación de ruido (\alpha(m)) para ponderar la estimación (|\hat{D}_{k}(m)|^{2}) del espectro de potencia del ruido y calcular las estimaciones (\hat{\xi}_{k}(m), \hat{\gamma}_{k}(m)) de las relaciones de señal a ruido a priori y a posteriori;
- calcular un factor de fondo espectral (\beta(m)) para solar las estimaciones (\hat{\xi}_{k}(m), \hat{\gamma}_{k}(m)) de las relaciones de señal a ruido a priori y a posteriori; y
- calcular las estimaciones (\hat{\xi}_{k}(m), \hat{\gamma}_{k}(m)) de las relaciones de señal a ruido a priori y a posteriori también como función del factor de ponderación del ruido (\alpha(m)) y el factor de fondo espectral (\beta(m)).
2. Procedimiento de reducción de ruido como se describe en la reivindicación 1, en el que el factor de ponderación del ruido (\alpha(m)) y el factor de fondo espectral (\beta(m)) se calculan como función de la relación de señal a ruido global (SNR(m)).
3. Procedimiento de reducción de ruido como se reivindica en la reivindicación 2, en el que el factor de ponderación del ruido (\alpha(m)) respecto a la relación de señal a ruido global (SNR(m)) presenta un primer valor sustancialmente constante cuando la relación de señal a ruido global (SNR(m)) es menor que un primer umbral, un segundo valor sustancialmente constante menor que el primer valor sustancialmente constante cuando la relación de señal a ruido global (SNR(m)) es mayor que un segundo umbral, y valores decrecientes cuando la relación de señal a ruido global (SNR(m)) se encuentra entre el primer y el segundo umbral.
4. Procedimiento de reducción de ruido como se reivindica en la reivindicación 3, en el que el factor de ponderación del ruido (\alpha(m)) decrece linealmente cuando la relación de señal a ruido global (SNR(m)) se encuentra entre el primer y el segundo umbral.
5. Procedimiento de reducción de ruido como se reivindica en cualquiera de las reivindicaciones 2 a 4, en el que el factor de fondo espectral (\beta(m)) respecto a la relación de señal a ruido global (SNR(m)) presenta un primer valor sustancialmente constante cuando la relación de señal a ruido global (SNR(m)) es menor que un primer umbral, un segundo valor sustancialmente constante mayor que el primer valor sustancialmente constante cuando la relación de señal a ruido global (SNR(m)) es mayor que un segundo umbral, y valores crecientes cuando la relación de señal a ruido global (SNR(m)) se encuentra entre el primer y el segundo umbral.
6. Procedimiento de reducción de ruido como se reivindica en la reivindicación 5, en el que el factor de fondo espectral (\beta(m)) crece linealmente cuando la relación de señal a ruido global (SNR(m)) se encuentra entre el primer y el segundo umbral.
7. Procedimiento de reducción de ruido como se reivindica en cualquiera de las reivindicaciones anteriores, en el que la estimación (\hat{\gamma}_{k}(m)) de la relación de señal a ruido a posteriori se calcula de la siguiente forma:
\vskip1.000000\baselineskip
17
donde:
- \hat{\gamma}_{k}(m) es la estimación de la relación de señal a ruido a posteriori de la k-ésima línea espectral;
- |Y_{k}(m)|^{2} es la k-ésima línea espectral del espectro de potencia del habla ruidosa;
- |\hat{D}_{k}(m)|^{2} es la k-ésima línea espectral de la estimación del espectro de potencia del ruido;
- \alpha(m) es el factor de ponderación del ruido;
- \beta(m) es el factor de fondo espectral;
- k es el índice de las líneas espectrales de los espectros; y
- m es el índice de las ventanas temporales dentro de las cuales se procesa el habla ruidosa para la reducción del ruido.
8. Procedimiento de reducción de ruido como se reivindica en cualquiera de las reivindicaciones anteriores, en el que la estimación (\hat{\xi}_{k}(m)) de la relación de señal a ruido a priori se calcula de la siguiente forma:
\vskip1.000000\baselineskip
18
donde:
- \hat{\xi}_{k}(m) es la estimación de la relación de señal a ruido a priori para la k-ésima línea espectral;
- \hat{\gamma}_{k}(m) es la estimación de la relación de señal a ruido a posteriori para la k-ésima línea espectral del espectro de potencia del habla ruidosa;
- |\hat{X}_{k}(m)|^{2} es la k-ésima línea espectral de la estimación del espectro de potencia del habla limpia;
- |\hat{D}_{k}(m)|^{2} es la k-ésima línea espectral de la estimación del espectro de potencia del ruido;
- \alpha(m) es el factor de ponderación del ruido;
- \beta(m) es el factor de fondo espectral;
- k es el índice de las líneas espectrales de los espectros; y
- m es el índice de las ventanas temporales dentro de las cuales se procesa el habla ruidosa para la reducción del ruido.
9. Procedimiento de reducción de ruido como se reivindica en cualquiera de las reivindicaciones anteriores, en el que la ganancia de atenuación (G_{k}(m)) se calcula de la forma siguiente:
19
donde:
- G_{k}(m) es la ganancia de Ephraim-Malah para la k-ésima línea espectral;
- \hat{\xi}_{k}(m) es la estimación de la relación de señal a ruido a priori para la k-ésima línea espectral;
- \hat{\gamma}_{k}(m) es la estimación de la relación de señal a ruido a posteriori para la k-ésima línea espectral;
20
- k es el índice de las líneas espectrales de los espectros; y
- m es el índice de las ventanas temporales dentro de las cuales se procesa el habla ruidosa para la reducción del ruido.
10. Procedimiento de reducción de ruido como se reivindica en cualquiera de las reivindicaciones anteriores, en el que la estimación (|\hat{D}_{k}(m)|^{2}) del espectro de potencia del ruido se calcula de la forma siguiente:
21
donde:
- |\hat{D}_{k}(m)|^{2} es la k-ésima línea espectral de la estimación del espectro de potencia del ruido;
- |Y_{k}(m)|^{2} es la k-ésima línea espectral del espectro de potencia del habla ruidosa;
- \lambda es un factor de ponderación que controla la velocidad de actualización de la recursión;
- \mu es un factor de multiplicación que controla la dinámica permitida del ruido; y
- \sigma(m) es la desviación típica del ruido, la cual se estima de la forma siguiente:
22
11. Procedimiento de reducción de ruido como se reivindica en la reivindicación 2, en el que la relación de señal a ruido global (SNR(m)) se calcula de la forma siguiente:
23
donde:
- SNR(m) es la relación de señal a ruido global;
- |\hat{D}_{k}(m)|^{2} es la k-ésima línea espectral de la estimación del espectro de potencia del ruido; y
- |Y_{k}(m)|^{2} es la k-ésima línea espectral del espectro de potencia del habla ruidosa.
12. Sistema automático de reconocimiento del habla que comprende un sistema de reducción de ruido configurado para implementar el procedimiento según cualquiera de las reivindicaciones anteriores.
13. Producto programa de ordenador que comprende un código de programa de ordenador capaz, cuando se carga en un sistema de procesado, de implementar el procedimiento según cualquiera de las reivindicaciones 1 a 11.
ES04741579T 2004-05-14 2004-05-14 Reduccion de ruido para el reconocimiento automatico del habla. Expired - Lifetime ES2294506T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2004/050816 WO2005114656A1 (en) 2004-05-14 2004-05-14 Noise reduction for automatic speech recognition

Publications (1)

Publication Number Publication Date
ES2294506T3 true ES2294506T3 (es) 2008-04-01

Family

ID=34957686

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04741579T Expired - Lifetime ES2294506T3 (es) 2004-05-14 2004-05-14 Reduccion de ruido para el reconocimiento automatico del habla.

Country Status (7)

Country Link
US (1) US7376558B2 (es)
EP (1) EP1745468B1 (es)
AT (1) ATE373302T1 (es)
CA (1) CA2566751C (es)
DE (1) DE602004008973T2 (es)
ES (1) ES2294506T3 (es)
WO (1) WO2005114656A1 (es)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2411551B (en) 2003-04-22 2006-05-03 Spinvox Ltd A method of providing voicemails to a wireless information device
GB2429139B (en) * 2005-08-10 2010-06-16 Zarlink Semiconductor Inc A low complexity noise reduction method
TW200725308A (en) * 2005-12-26 2007-07-01 Ind Tech Res Inst Method for removing background noise from a speech signal
US8976944B2 (en) 2006-02-10 2015-03-10 Nuance Communications, Inc. Mass-scale, user-independent, device-independent voice messaging system
US8903053B2 (en) 2006-02-10 2014-12-02 Nuance Communications, Inc. Mass-scale, user-independent, device-independent voice messaging system
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8615393B2 (en) 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
WO2008084209A2 (en) 2007-01-09 2008-07-17 Spinvox Limited A mobile telephone programmed to allow a user to speak a message which is then remotely automatically converted to text
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor
US7885810B1 (en) * 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
KR101444099B1 (ko) * 2007-11-13 2014-09-26 삼성전자주식회사 음성 구간 검출 방법 및 장치
DE102008031150B3 (de) * 2008-07-01 2009-11-19 Siemens Medical Instruments Pte. Ltd. Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
DE102008039330A1 (de) 2008-01-31 2009-08-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung
US8355908B2 (en) * 2008-03-24 2013-01-15 JVC Kenwood Corporation Audio signal processing device for noise reduction and audio enhancement, and method for the same
CN102137326B (zh) * 2008-04-18 2014-03-26 杜比实验室特许公司 用于保持多通道音频中的语音可听度的方法和设备
US8185389B2 (en) * 2008-12-16 2012-05-22 Microsoft Corporation Noise suppressor for robust speech recognition
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US20110194699A1 (en) * 2010-02-05 2011-08-11 Thomas Baker Method and system for enhanced sound quality for stereo audio
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
DE102011086728B4 (de) * 2011-11-21 2014-06-05 Siemens Medical Instruments Pte. Ltd. Hörvorrichtung mit einer Einrichtung zum Verringern eines Mikrofonrauschens und Verfahren zum Verringern eines Mikrofonrauschens
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
JP6148811B2 (ja) * 2013-01-29 2017-06-14 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数領域におけるlpc系符号化のための低周波数エンファシス
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
US9627532B2 (en) * 2014-06-18 2017-04-18 Nuance Communications, Inc. Methods and apparatus for training an artificial neural network for use in speech recognition
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US9940945B2 (en) * 2014-09-03 2018-04-10 Marvell World Trade Ltd. Method and apparatus for eliminating music noise via a nonlinear attenuation/gain function
US11264014B1 (en) * 2018-09-23 2022-03-01 Plantronics, Inc. Audio device and method of audio processing with improved talker discrimination
US11694708B2 (en) 2018-09-23 2023-07-04 Plantronics, Inc. Audio device and method of audio processing with improved talker discrimination
CN110164467B (zh) * 2018-12-18 2022-11-25 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN111091821B (zh) * 2019-04-22 2022-09-23 广东小天才科技有限公司 一种基于语音识别的控制方法及终端设备
US10896664B1 (en) 2019-10-14 2021-01-19 International Business Machines Corporation Providing adversarial protection of speech in audio signals
CN111554321B (zh) * 2020-04-20 2023-12-05 北京达佳互联信息技术有限公司 降噪模型训练方法、装置、电子设备及存储介质
CN111968662A (zh) * 2020-08-10 2020-11-20 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN114242103A (zh) * 2021-12-21 2022-03-25 游密科技(深圳)有限公司 语音降噪方法、装置、计算机设备和存储介质
CN116486786B (zh) * 2023-04-19 2024-04-26 深圳市众志联城科技有限公司 一种融合方言和小语种的语音识别控制方法
CN117630515B (zh) * 2023-11-28 2024-05-17 中国地震局地震预测研究所 一种测温***的噪声水平检测方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
DE19747885B4 (de) * 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US6757395B1 (en) 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method

Also Published As

Publication number Publication date
ATE373302T1 (de) 2007-09-15
DE602004008973T2 (de) 2008-05-15
CA2566751C (en) 2013-07-16
CA2566751A1 (en) 2005-12-01
US20070260454A1 (en) 2007-11-08
EP1745468B1 (en) 2007-09-12
WO2005114656A1 (en) 2005-12-01
US7376558B2 (en) 2008-05-20
EP1745468A1 (en) 2007-01-24
DE602004008973D1 (de) 2007-10-25

Similar Documents

Publication Publication Date Title
ES2294506T3 (es) Reduccion de ruido para el reconocimiento automatico del habla.
Paliwal et al. Single-channel speech enhancement using spectral subtraction in the short-time modulation domain
US9384759B2 (en) Voice activity detection and pitch estimation
JP2010539539A (ja) 音声明瞭化を伴うスピーチ改善
Verteletskaya et al. Noise reduction based on modified spectral subtraction method
Hansen et al. Speech enhancement based on generalized minimum mean square error estimators and masking properties of the auditory system
US9240190B2 (en) Formant based speech reconstruction from noisy signals
Kim et al. Improved speech enhancement considering speech PSD uncertainty
US20080189100A1 (en) Method and System for Improving Speech Quality
Zhang et al. Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging
Alam et al. Perceptual improvement of Wiener filtering employing a post-filter
Kotnik et al. Robust MFCC feature extraction algorithm using efficient additive and convolutional noise reduction procedures
Flynn et al. Combined speech enhancement and auditory modelling for robust distributed speech recognition
Kurpukdee et al. Improving voice activity detection by using denoising-based techniques with convolutional lstm
Maganti et al. A perceptual masking approach for noise robust speech recognition
Upadhyay et al. Single-Channel Speech Enhancement Using Critical-Band Rate Scale Based Improved Multi-Band Spectral Subtraction
Wei et al. Perceptual multiband spectral subtraction for noise reduction in hearing aids
Jung et al. Development of an optimized feature extraction algorithm for throat signal analysis
Wolfe et al. A perceptually balanced loss function for short-time spectral amplitude estimation
Das et al. Phoneme selective speech enhancement using parametric estimators and the mixture maximum model: A unifying approach
Verteletskaya et al. Enhanced spectral subtraction method for noise reduction with minimal speech distortion
Verteletskaya et al. Speech distortion minimized noise reduction algorithm
Kim et al. A Study on Voice Activity Detection Using Auditory Scene and Periodic to Aperiodic Component Ratio in CASA System
Sai et al. Speech Enhancement using Kalman and Wiener Filtering
Huang et al. A pitch based vad adopting quasi-ansi 1/3 octave filter bank with 11.3 ms latency for monosyllable hearing aids