ES2378482T3 - Procedimiento de eliminación de ruido de una señal de audio - Google Patents

Procedimiento de eliminación de ruido de una señal de audio Download PDF

Info

Publication number
ES2378482T3
ES2378482T3 ES07290219T ES07290219T ES2378482T3 ES 2378482 T3 ES2378482 T3 ES 2378482T3 ES 07290219 T ES07290219 T ES 07290219T ES 07290219 T ES07290219 T ES 07290219T ES 2378482 T3 ES2378482 T3 ES 2378482T3
Authority
ES
Spain
Prior art keywords
noise
signal
voice
algorithm
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07290219T
Other languages
English (en)
Inventor
Guillaume Pinto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot SA
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot SA filed Critical Parrot SA
Application granted granted Critical
Publication of ES2378482T3 publication Critical patent/ES2378482T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un procedimiento de procesamiento de una señal de audio, para la eliminación de ruido de una señal original con ruido que consta de una componente de voz combinada con una componente de ruido, esta componente de ruido comprende ella misma una componente de ruido transitoria y una componente de ruido pseudoestacionaria, caracterizado por que este procedimiento es un procedimiento de análisis de coherencia temporal de la señal con ruido muestreada que comprende las etapas de: a) determinación de una señal de referencia por aplicación a la señal con ruido de un procesamiento (10, 18) propio para atenuar de manera más importante las componentes de voz que las componentes de ruido de esta señal con ruido, dicho procesamiento comprendiendo: a1) la aplicación de un algoritmo de predicción lineal adaptativo que opera sobre una combinación lineal de las muestras anteriores de la señal con ruido, y a2) la determinación de dicha señal de referencia por una sustracción, con compensación del desfase, entre la señal con ruido original, no filtrada previamente y la señal entregada por el algoritmo de predicción lineal; b) determinación (24) de una probabilidad de presencia/ausencia de voz a priori a partir de los niveles de energía respectivos en el dominio espectral de la señal con ruido y de la señal de referencia; y c) utilización de esta probabilidad de ausencia de voz a priori para estimar un espectro de ruido y 25 derivar (26) de la señal con ruido una estimada con eliminación de ruido de la señal de voz.

Description

Procedimiento de eliminación de ruido de una señal de audio
CONTEXTO DE LA INVENCIÓN
Campo de la invención
La presente invención se refiere a la eliminación de ruido de las señales de audio captadas por un micrófono en un entorno con ruido.
La invención se aplica ventajosamente, pero de modo no limitativo, a las señales de voz captadas por los aparatos telefónicos de tipo “manos-libres” o análogos.
Estos aparatos constan de un micrófono sensible que capta no sólo la voz del usuario, sino igualmente el ruido del entorno, ruido que constituye un elemento perturbador pudiendo llegar, en algunos casos, hasta hacer incomprensibles las palabras del hablante.
Lo mismo sucede si se quieren aplicar técnicas de reconocimiento de voz, en las que es muy difícil operar un reconocimiento de forma sobre palabras sumergidas en un nivel de ruido elevado.
Esta dificultad relacionada con el ruido ambiente es particularmente molesta en el caso de los dispositivos “manoslibres” para vehículos automóviles. En particular, la distancia importante entre el micrófono y el hablante conlleva un nivel relativo de ruido elevado que hace difícil la extracción de la señal útil ahogada por el ruido. Además, el medio con mucho ruido típico del entorno automovilístico presenta características espectrales no estacionarias, es decir, que evolucionan de manera imprevisible en función de las condiciones de conducción: paso sobre calzadas deformadas o adoquinadas, autorradio en funcionamiento, etc.
Descripción de la técnica relacionada
Se han propuesto diversas técnicas para reducir el nivel de ruido de la señal captada por un micrófono.
Por ejemplo, el WO-A-98/45997 (Parrot SA) utiliza la presión sobre el pulsador de activación de un teléfono (por ejemplo cuando el conductor quiere responder a una llamada entrante) para detectar el inicio de una señal de voz y considerar que la señal captada antes de presionar era esencialmente una señal de ruido. Esta última señal, memorizada, se analiza para dar un espectro energético medio ponderado del ruido, luego se sustrae de la señal de voz con ruido.
El US-A-5 742 694 describe otra técnica, aplicando un mecanismo de tipo filtro adaptativo predictivo. Este filtro entrega una “señal de referencia” que corresponde a la parte predecible de la señal con ruido y una “señal de error” que corresponde al error de predicción, después atenúa estas dos señales en proporciones variables y las vuelve a combinar para suministrar una señal sin ruido.
El mayor inconveniente de esta técnica de eliminación de ruido reside en la distorsión importante introducida por el filtrado previo, dando en salida una señal muy degradada sobre el plano de la calidad acústica. Además está mal adaptada a las situaciones en las que se necesitaría una eliminación de ruido enérgica con una señal de voz ahogada por un ruido de naturaleza compleja e imprevisible, con características espectrales no estacionarias.
Otras técnicas más, denominadas beamforming o double-phoning, aplican dos micrófonos distintos. El primero está concebido y colocado para captar principalmente la voz del hablante, mientras que el otro está concebido y colocado para captar una componente de ruido más importante que el micrófono principal. La comparación de las señales captadas permite extraer la voz del ruido ambiente de manera eficaz, y por medios de software relativamente simples.
Esta técnica, basada en un análisis de coherencia espacial de dos señales, presenta no obstante el inconveniente de necesitar dos micrófonos distantes, lo que la relega generalmente con respecto a instalaciones fijas o semifijas y no permite integrarla a un dispositivo preexistente mediante simple añadidura de un módulo software. También presupone que la posición del hablante con respecto a dos micrófonos sea aproximadamente constante, lo que es generalmente el caso en un teléfono de coche utilizado por su conductor. Además, para obtener una eliminación de ruido más o menos satisfactoria, las señales se someten a un filtrado previo importante, lo que presenta, también aquí, el inconveniente de introducir distorsiones que vienen a degradar la calidad de la señal sin ruido restituida.
La invención se refiere a una técnica de eliminación de ruido de las señales de audio captadas por un único micrófono que registra una señal de voz en un entorno con ruido.
Una parte importante de los métodos más eficaces aplicados en los sistemas de un único micrófono se basan en el modelo estadístico establecido por D. Malah e Y. Ephraim en:
[1] Y. Ephraim y D. Malah, Speech Enhancement using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No 6, pp. 1109-1121, Dec. 1984, y
[2] Y. Ephraim y D. Malah, Speech Enhancement using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-33, No 2, pp 443-445, April 1985.
Haciendo la aproximación de que la voz y el ruido son procesos gaussianos no correlacionados y presuponiendo que la potencia espectral del ruido sea un dato conocido, estos dos artículos dan una solución óptima al problema de reducción de ruido descrito más arriba. Esta solución propone cortar la señal con ruido en componentes frecuenciales independientes mediante la utilización de la transformada de Fourier discreta, aplicar una ganancia óptima sobre cada una de estas componentes y después volver a combinar la señal así procesada. Los dos artículos divergen en la elección del criterio de optimalidad. En [1], la ganancia aplicada se denomina ganancia STSA y permite minimizar la distancia cuadrática media entre la señal estimada (en la salida del algoritmo) y la señal de voz original (sin ruido). En [2], la aplicación de una ganancia denominada ganancia LSA permite en cuanto a ella minimizar la distancia cuadrática media entre el logaritmo de la amplitud de la señal estimada y el logaritmo de la amplitud de la señal de voz original. Este segundo criterio se muestra superior al primero ya que la distancia escogida está en mucha mejor adecuación con el comportamiento del oído humano, y por lo tanto da cualitativamente mejores resultados. En todos los casos, la idea esencial es disminuir la energía de las componentes frecuenciales con mucho ruido aplicándoles una ganancia débil dejando a la vez intactas (mediante la aplicación de una ganancia igual a 1) las que lo son poco o nada.
Aunque es muy atractivo ya que está sostenido por una demostración matemática rigurosa, este procedimiento no puede sin embargo aplicarse solo. En efecto, como se ha indicado más arriba, la potencia espectral del ruido es desconocida e imprevisible ex ante. Además, este mismo procedimiento no propone evaluar en qué momentos la voz del hablante está presente en la señal captada. Simplemente se contenta con suponer, o bien que la voz está siempre presente, o bien que está presente una porción fija de tiempo, lo que puede limitar seriamente la calidad de la reducción de ruido.
Por consiguiente, es necesario utilizar otro algoritmo que tenga como función evaluar la potencia espectral del ruido así como los instantes en los que la voz del hablante está presente en la señal bruta captada. Resulta incluso que esta estimación constituye el factor determinante de la calidad de la reducción de ruido operada, siendo el algoritmo de Ephraim y Malah sólo la manera óptima de utilizar la información así obtenida.
Es una solución original a este doble problema de evaluación del ruido y de los instantes de presencia de la señal de voz lo que aporta la presente invención.
Estas dos cuestiones están en realidad intrínsecamente relacionadas. En efecto, supongamos que la señal bruta captada se recorta en tramos de longitudes iguales, de las que se calcula para cada una la transformada de Fourier a corto plazo.
Para una componente frecuencial dada, el conocimiento de los índices de los tramos en los que la voz está ausente permite evaluar la potencia del ruido así como su evolución a lo largo del tiempo en este segmento del espectro. En efecto, basta con medir la energía de la señal bruta cuando la voz está ausente y hacer una media puesta al día continuamente de estas mediciones. Por lo tanto, la cuestión principal es saber cuándo exactamente la voz del hablante está ausente de la señal captada por el micrófono.
Si el ruido es estacionario o pseudoestacionario, este problema se puede resolver fácilmente declarando que la voz está ausente en un segmento de espectro de un tramo dado cuando la energía espectral de los datos para este segmento de espectro no ha evolucionado o ha evolucionado poco con relación a los últimos tramos. Inversamente, se declara que la voz está presente en caso de comportamiento no estacionario.
No obstante, en un entorno real, a fortiori un entorno automovilístico en el que más arriba se ha indicado que el ruido conllevaba numerosas características espectrales no estacionarias, este procedimiento es fácilmente cuestionable, en la medida en la que tanto la voz como el ruido pueden presentar comportamientos transitorios. Ahora bien, si se decide conservar todas las componentes transitorias, quedará ruido musical residual en los datos sin ruido; inversamente, si se decide suprimir las componentes transitorias inferiores a un umbral energético dado, entonces las componentes débiles de la voz se borrarán, y estas componentes pueden ser importantes tanto por su contenido informativo como por la inteligibilidad general (distorsión débil) de la señal sin ruido restituida tras procesamiento.
A este respecto, se han propuesto diversos métodos. Entre los más eficaces, se puede citar el descrito por:
[3] I. Cohen y B. Berdugo, Speech Enhancement for Non-Stationary Noise Environments, Signal Processing, Elsevier, Vol. 81, pp. 2403-2418, 2001.
Como frecuentemente en el sector, el procedimiento descrito en este artículo no tiene por objetivo identificar precisamente sobre qué componentes frecuenciales de qué tramos la voz está ausente, sino más bien dar un índice de confianza entre 0 y 1, un valor 1 indicando que la voz está ausente con total seguridad (según el algoritmo) mientras que un valor 0 declara lo contrario. Por su naturaleza, este índice se asimila a la probabilidad de ausencia de la voz a priori, es decir, la probabilidad de que la voz esté ausente en una componente frecuencial dada del tramo considerado. Desde luego se trata de una asimilación no rigurosa en el sentido que aunque la presencia de voz es probabilista ex ante, la señal captada por el micrófono a cada instante sólo puede pasar por dos estados distintos. Puede, o bien (en el momento considerado) conllevar voz, o bien no contenerla. No obstante, esta asimilación da buenos resultados en la práctica, lo que justifica su utilización. A fin de estimar esta probabilidad de ausencia, Cohen y Berdugo utilizan medias sobre informes señal a ruido a priori, utilizados y calculados ellos mismos en el algoritmo de Ephraim y Malah. Estos autores describen igualmente la técnica denominada de ganancia OM-LSA (Optimally-Modified Log-Spectral Amplitude), teniendo como objeto mejorar la ganancia LSA por la integración de esta probabilidad de ausencia de la voz.
Esta estimación de la probabilidad a priori de ausencia de la voz se revela eficaz, pero depende directamente del modelo estadístico elaborado por Ephraim y Malah y no de un conocimiento a priori de los datos.
Para obtener una estimación de la probabilidad de ausencia que sea independiente de este modelo estadístico, Cohen y Berdugo propusieron en:
[4] I. Cohen y B. Berdugo, Two Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio, Proc. ICASSP 2003, Hong Kong, pp. 233-236, April 2003,
calcular la probabilidad de ausencia a partir de señales captadas por dos micrófonos situados diferentemente, dando señales respectivas en dos vías diferentes, cuya combinación permite obtener una vía denominada de salida y una vía denominada de ruido de referencia. El análisis está basado en la constatación de que las componentes de voz son relativamente más débiles en la vía de ruido de referencia, y que las componentes de ruido transitorio presentan aproximadamente la misma energía en las dos vías. Se determina una probabilidad de presencia de voz para cada segmento de espectro de cada tramo calculando un ratio de energía entre las componentes no estacionarias de las señales respectivas de las dos vías.
Pero, como para las técnicas de beamforming o double-phoning evocadas más arriba, este procedimiento es bastante incómodo en la medida en que necesita dos micrófonos.
RESUMEN DE LA INVENCIÓN
Uno de los objetivos de la invención es remediar los inconvenientes de los métodos propuestos hasta ahora, gracias a un procedimiento perfeccionado de eliminación de ruido aplicable a una señal de voz considerada aisladamente, en particular una señal captada por un solo micrófono, procedimiento que esté basado en el análisis de la coherencia temporal de las señales captadas.
El punto de partida de la invención reside en la constatación de que la voz presenta generalmente una coherencia temporal superior al ruido y que, por este hecho, es claramente más predecible. Esencialmente, la invención propone utilizar esta propiedad para calcular una señal de referencia en la que la voz se habrá atenuado más que el ruido, aplicando especialmente un algoritmo predictivo que podrá por ejemplo ser del tipo LMS (Least Mean Squares, método de mínimos cuadrados). Esta señal de referencia derivada de la señal de voz de la que hay que eliminar el ruido se podrá utilizar de manera comparable a la de la señal del segundo micrófono de las técnicas de beam-forming de dos vías, por ejemplo de las técnicas similares a las de Cohen y Berdugo [4, citado anteriormente]. El cálculo de un ratio entre los niveles de energía respectivos de la señal original y de la señal de referencia así obtenido permitirá discriminar entre las componentes de voz y los ruidos parásitos no estacionarios, y suministrará una estimación de la probabilidad de presencia de voz de manera independiente de todo modelo estadístico.
En otras palabras, la técnica propuesta por la invención aplica una “sustracción inteligente” que implica, tras una predicción lineal operada en base a las muestras tratadas de la señal original (y no de una señal previamente filtrada, por consiguiente degradada), un reajuste de fase entre la señal original y la señal predicha.
El rendimiento de la técnica de la invención se revela, en la práctica, suficiente como para asegurar una eliminación de ruido extremadamente eficaz directamente sobre la señal original, liberándose de distorsiones introducidas por una cadena de filtrado previo, convertida en inútil.
Más precisamente, la presente invención propone, para la eliminación de ruido de una señal de audio original con ruido que conlleva una componente de voz combinada a una componente de ruido que conlleva ella misma una
componente de ruido transitoria y una componente de ruido pseudoestacionaria, operar un análisis de coherencia temporal de la señal con ruido por las etapas de:
a) determinación de una señal de referencia por aplicación a la señal con ruido de un procesamiento propio para atenuar de forma más importante las componentes de voz que las componentes de ruido de esta señal con ruido, comprendiendo dicho procesamiento: (a1) la aplicación de un algoritmo de predicción lineal adaptativo que opera sobre una combinación lineal de las muestras anteriores de la señal con ruido, y (a2) la determinación de dicha señal de referencia por una sustracción, con compensación del desfase, entre la señal original con ruido, no filtrada y la señal entregada por el algoritmo de predicción lineal;
b) determinación de una probabilidad de presencia/ausencia de voz a priori a partir de los niveles de energía respectivos en el dominio espectral de la señal con ruido y de la señal de referencia; y c) utilización de esta probabilidad de ausencia de voz a priori para estimar un espectro de ruido y derivar de la señal con ruido una estimación sin ruido de la señal de voz.
La señal de referencia se puede determinar en especial por aplicación en la etapa a2) de una relación del tipo:
donde X(k,l) e Y(k,l) son las transformadas de Fourier a corto plazo de cada segmento de espectro k de cada tramo l, respectivamente de la señal original con ruido y de la señal entregada por el algoritmo de predicción lineal.
El algoritmo predictivo es ventajosamente un algoritmo adaptativo recursivo del tipo método de mínimos cuadrados LMS.
La etapa b) comprende ventajosamente la aplicación de un algoritmo de estimación de la energía de la componente de ruido pseudoestacionaria en la señal de referencia y en la señal con ruido, en especial un algoritmo de tipo de cálculo recursivo del promedio controlado por mínimos MRCA como se describe en:
[5] I. Cohen y B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, No 1, pp 12-15, Jan. 2002,
La etapa c) comprende ventajosamente la aplicación de un algoritmo de ganancia variable función de la probabilidad de presencia/ausencia de voz, en espacial un algoritmo de tipo ganancia de amplitud log-espectral modificado optimizado OM-LSA.
DESCRIPCIÓN SUMARIA DE LOS DIBUJOS
A continuación se va a describir un ejemplo de aplicación de la invención, con referencia a los dibujos adjuntos en los que las mismas referencias numéricas designan de una figura a otra, elementos idénticos o funcionalmente semejantes.
La figura 1 es un diagrama esquemático que ilustra las diferentes operaciones efectuadas por un algoritmo de eliminación de ruido conforme al procedimiento de la invención La figura 2 es un diagrama esquemático que ilustra más particularmente el algoritmo predictivo LMS adaptativo.
DESCRIPCIÓN DETALLADA DE LA FORMA DE REALIZACIÓN PREFERENTE
La señal de la que se desea eliminar el ruido es una señal numérica muestreada x(n), en la que n designa el número de la muestra (n es por lo tanto la variable temporal).
La señal captada x(n) es una combinación de una señal de voz s(n) y de un ruido sobreañadido, no correlacionado, d(n):
Este ruido d(n) tiene dos componentes independientes, a saber una componente transitoria dt(n) y una componente pseudoestacionaria dps(n):
Como se ilustra en la figura 1, la señal con ruido x(n) se aplica en la entrada de un algoritmo LMS predictivo esquematizado por el bloque 10, incluyendo la aplicación de retardos apropiados 12. El funcionamiento de este algoritmo LMS se describirá más abajo, con referencia a la figura 2.
A continuación se calcula la transformada de Fourier a corto plazo de la señal captada x(n) (bloque 16), así como de la señal y(n) entregada por el algoritmo LMS predictivo (bloque 14). A partir de estas dos transformadas se calcula una señal de referencia (bloque 18), que constituye una de las variables de entrada de un algoritmo de cálculo de la
probabilidad de ausencia de voz (bloque 24). Paralelamente, la transformada de la señal con ruido x(n), resultante del bloque 16, se aplica igualmente al algoritmo de cálculo de probabilidad.
Los bloques 20 y 22 estiman el ruido pseudoestacionario de la señal de referencia y de la transformada de la señal con ruido es estimada, y el resultado es igualmente aplicado al algoritmo de cálculo de probabilidad.
El resultado del cálculo de probabilidad de ausencia de voz, así como la transformada de la señal con ruido, se aplican en la entrada de un algoritmo de procesamiento de ganancia OM-LSA (bloque 26), cuyo resultado se somete a una transformación inversa de Fourier (bloque 28) para dar una estimación de la voz sin ruido.
A continuación se van a describir con más detalle las diferentes fases de este procesamiento.
El algoritmo predictivo LMS (bloque 10) se esquematiza en la figura 2.
En la medida en que las señales en presencia son globalmente no estacionarias pero localmente pseudoestacionarias, se puede utilizar ventajosamente un sistema adaptativo, que podrá tener en cuenta variaciones de energía de la señal en el tiempo y converger hacia los diversos locales óptimos.
Esencialmente, si se aplican retardos sucesivos /, la predicción lineal y(n) de la señal x(n) es una combinación lineal de las muestras anteriores {x(n -/ -i + 1)}1
kikM:
que minimiza el error cuadrático medio del error de predicción:
La minimización consiste en encontrar:
Para resolver este problema, es posible utilizar un algoritmo LMS, que es un algoritmo en sí mismo conocido, descrito por ejemplo en:
[6] B. Widrow, Adaptative Filter, Aspect of Network and System Theory, R. E. Kalman and N. De Claris (Eds). New York: Holt, Rinehart and Winston, pp. 563-587, 1970, y
[7] B. Widrow y al., Adaptative Noise Cancelling: Principles and Applications, Proc. IEEE, Vol. 63, No 12 pp. 1692-1716, Dec 1975.
Se puede definir un procedimiento recursivo de adaptación de las ponderaciones.
siendo 1 una constante de ganancia que permite ajustar la velocidad y la estabilidad de la adaptación.
Se podrán encontrar indicaciones generales sobre estos aspectos del algoritmo LMS en:
[8] B. Widrow y S. Stearns, Adaptative Signal Processing, Prentice-Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985.
Se puede demostrar que tal predicción lineal adaptativa permite discriminar eficazmente entre ruido y voz ya que las muestras que contienen la voz se predecirán mucho mejor (errores cuadráticos más pequeños entre la predicción y la señal bruta) que los que sólo contienen ruido.
Más precisamente, las señales respectivas x(n) e y(n) (señal de voz con ruido y predicción lineal) se recortan en tramos de longitudes idénticas, y su transformada de Fourier a corto plazo (marcadas respectivamente X e Y) se calcula para cada tramo. Para evitar los efectos de los errores de precisión, el algoritmo prevé un recubrimiento del 50% entre tramos consecutivos, y las muestras se multiplican por los coeficientes de la ventana de Hanning de manera que la suma de los tramos pares e impares corresponde a la señal de origen propiamente dicha. Para el segmento de espectro k de un tramo l par, se tiene:
Y para el segmento de espectro k de un tramo l impar:
siendo h la ventana de Hanning.
Una primera posibilidad consiste en definir la señal de referencia tomando la transformada de Fourier del error de predicción:
No obstante, se constata en la práctica un cierto desfase entre X e Y debido a una convergencia imperfecta del algoritmo LMS, impidiendo una buena discriminación entre voz y ruido. Por consiguiente, se prefiere adoptar para la señal de referencia otra definición que compense este desfase, a saber:
Se supone que la energía espectral de la señal de referencia se puede describir bajo la forma:
donde
25 representan la atenuación en la señal de referencia de las tres señales en cada segmento de espectro.
La etapa siguiente consiste en entregar una estimación q(k,l) de la probabilidad de ausencia de voz en la señal con ruido:
Ho(k,l) indicando la ausencia de voz (y H1(k,l) la presencia de voz) en el késimo segmento de espectro del lésimo tramo.
La discriminación entre ruido transitorio y voz se puede operar mediante una técnica comparable a la de Cohen y Berdugo (5, citada anteriormente). Más precisamente, el algoritmo de la invención evalúa un ratio de las energías 35 transitorias en las dos vías, dado por:
siendo S una estimación suavizada de la energía instantánea:
40 siendo b una ventana en el dominio temporal y siendo M un estimador de la energía pseudoestacionaria, que se puede obtener por ejemplo por un método MCRA (Mínima Controlled Recursive Averaging) del mismo tipo que el descrito por Cohen y Berdugo [5, citado anteriormente] (no obstante existen varias alternativas en la literatura).
Inversamente, en ausencia de voz pero en presencia de ruidos transitorios:
Si se supone que en general:
5 un procedimiento de estimación de q(k,l) se da por el algoritmo en metalenguaje siguiente: Para cada tramo l y para cada segmento de espectro k,
(i) Calcular SX(k,l), MX(k,l), SRef(k,l) y MRef(k,l). Ir a (ii) 10 (ii) Si SX(k,l) > LxMX(k,l) (detección de transitorios en la vía de voz con ruido), entonces ir a (iii) si no
q(k,l) = 1
(iii) Si SRef(k,l) > LRefMRef(k,l) (detección de transitorios en la vía de referencia), entonces ir a (iv) si no
q(k,l) = 0
(iv)
Calcular o(k,l), ir a (v)
(v)
Calcular:
Las constantes Lx y LRef son umbrales de detección de transitorios. omin(k) y omax(k) son los límites superior e inferior para cada segmento de espectro. Estos diversos parámetros se escogen de manera que correspondan con situaciones típicas, próximas a la realidad.
25 La etapa siguiente (correspondiente al bloque 26 de la figura 1) consiste en operar la eliminación de ruido propiamente dicha (refuerzo de la componente de voz). El estimador que se acaba de describir se aplicará al modelo estadístico descrito por Ephraim y Malah [2, citado anteriormente], que supone que el ruido y la voz en cada segmento de espectro son procesos gaussianos independientes de varianzas respectivas Ax(k,l) y Ad(k,l).
30 Esta etapa puede aplicar ventajosamente el algoritmo de ganancia OM-LSA (Optimally Modified Log-Spectral Amplitude Gain) descrito por Cohen y Berdugo [3, citado anteriormente]. La relación señal/ruido a priori se define por:
La relación señal/ruido a posteriori se define por:
40 La probabilidad condicional de presencia de la señal es:
Con la hipótesis gaussiana y los parámetros anteriores, viene:
con:
50 La óptima estimación de la voz con eliminación de ruido S(k,l) se da por:
siendo GH1 la ganancia en la hipótesis en la que la voz está presente, que se define por:
La ganancia Gmin en la hipótesis de ausencia de voz es un límite inferior para la reducción del ruido, a fin de limitar la distorsión de la voz.
10 La fórmula clásica de estimación de la relación señal/ruido a priori es:
La estimación de la energía del ruido se da por:
El parámetro de suavizado ãd evoluciona entre un límite inferior ad y 1, en función de la probabilidad de presencia condicional:
siendo � un factor de sobreestimación que compensa el sesgo en ausencia de señal.
La señal obtenida después de este procesamiento se somete a una transformada de Fourier inversa (bloque 28) 25 para dar la estimación final de la voz con eliminación de ruido.
El algoritmo de la presente invención resulta particularmente eficaz en los entornos ruidosos, a la vez parasitados por ruidos mecánicos, vibraciones, etc., así como por ruidos musicales, situaciones características encontradas en el habitáculo de un coche. Los espectrogramas muestran que la atenuación del ruido no es sólo eficaz, sino que se
30 realiza sin distorsión notable de la voz tras la eliminación de ruido.

Claims (7)

  1. REIVINDICACIONES
    1. Un procedimiento de procesamiento de una señal de audio, para la eliminación de ruido de una señal original con ruido que consta de una componente de voz combinada con una componente de ruido, esta
    5 componente de ruido comprende ella misma una componente de ruido transitoria y una componente de ruido pseudoestacionaria, caracterizado por que este procedimiento es un procedimiento de análisis de coherencia temporal de la señal con ruido muestreada que comprende las etapas de:
    10 a) determinación de una señal de referencia por aplicación a la señal con ruido de un procesamiento (10,18) propio para atenuar de manera más importante las componentes de voz que las componentes de ruido de esta señal con ruido, dicho procesamiento comprendiendo:
    a1) la aplicación de un algoritmo de predicción lineal adaptativo que opera sobre una
    15 combinación lineal de las muestras anteriores de la señal con ruido, y a2) la determinación de dicha señal de referencia por una sustracción, con compensación del desfase, entre la señal con ruido original, no filtrada previamente y la señal entregada por el algoritmo de predicción lineal;
    20 b) determinación (24) de una probabilidad de presencia/ausencia de voz a priori a partir de los niveles de energía respectivos en el dominio espectral de la señal con ruido y de la señal de referencia; y
    c) utilización de esta probabilidad de ausencia de voz a priori para estimar un espectro de ruido y 25 derivar (26) de la señal con ruido una estimada con eliminación de ruido de la señal de voz.
  2. 2. El procedimiento de la reivindicación 1, en el que dicha señal de referencia se determina por aplicación en la etapa a2) de una relación del tipo:
    donde X(k,l) e Y(k,l) son las transformadas de Fourier a corto plazo de cada segmento de espectro k de 35 cada tramo l, respectivamente de la señal original con ruido y de la señal entregada por el algoritmo de predicción lineal.
  3. 3.
    El procedimiento de la reivindicación 1, en el que el algoritmo de predicción lineal (10) es un algoritmo del tipo método de mínimos cuadrados LMS.
  4. 4.
    El procedimiento de la reivindicación 1, en el que el algoritmo de predicción lineal (10) es un algoritmo adaptativo recursivo.
  5. 5.
    El procedimiento de la reivindicación 1, en el que la etapa b) comprende la aplicación de un algoritmo de
    45 estimación de la energía de la componente de ruido pseudoestacionaria en la señal de referencia y en la señal con ruido.
  6. 6. El procedimiento de la reivindicación 5, en el que el algoritmo de estimación de la energía de la
    componente de ruido pseudoestacionaria es un algoritmo de tipo de cálculo recursivo del promedio 50 controlado por mínimos MRCA.
  7. 7. El procedimiento de la reivindicación 1, en el que la etapa c) comprende la aplicación de un algoritmo de ganancia variable función de la probabilidad de presencia/ausencia de voz.
    55 8. El procedimiento de la reivindicación 7, en el que el algoritmo de ganancia variable es un algoritmo de tipo ganancia de amplitud log-espectral modificado optimizado OM-LSA.
    SEÑAL CON RUIDO
    C�?LCULO DE LA PROBABI-LIDAD DE AUSENCIA DE VOZ
    ESTIMACIÓN DE LA VOZ CON ELIMINACIÓN DE RUIDO
    SEÑAL CON RUIDO SEÑAL CON RUIDO
    ESTIM. RUIDO PSEUDOESTACIONARIO
    SEÑAL CON RUIDO
    ESTIM. RUIDO PSEUDOESTACIONARIO
ES07290219T 2006-03-01 2007-02-21 Procedimiento de eliminación de ruido de una señal de audio Active ES2378482T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0601822 2006-03-01
FR0601822A FR2898209B1 (fr) 2006-03-01 2006-03-01 Procede de debruitage d'un signal audio

Publications (1)

Publication Number Publication Date
ES2378482T3 true ES2378482T3 (es) 2012-04-13

Family

ID=36992693

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07290219T Active ES2378482T3 (es) 2006-03-01 2007-02-21 Procedimiento de eliminación de ruido de una señal de audio

Country Status (6)

Country Link
US (1) US7953596B2 (es)
EP (1) EP1830349B1 (es)
AT (1) ATE535905T1 (es)
ES (1) ES2378482T3 (es)
FR (1) FR2898209B1 (es)
WO (1) WO2007099222A1 (es)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
FR2908005B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Circuit de reduction de l'echo acoustique pour un dispositif "mains libres"utilisable avec un telephone portable
FR2908004B1 (fr) * 2006-10-26 2008-12-12 Parrot Sa Circuit de reduction de l'echo acoustique pour un dispositif "mains libres"utilisable avec un telephone portable
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
FR2932332B1 (fr) * 2008-06-04 2011-03-25 Parrot Systeme de controle automatique de gain applique a un signal audio en fonction du bruit ambiant
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
EP2151820B1 (en) * 2008-07-21 2011-10-19 Siemens Medical Instruments Pte. Ltd. Method for bias compensation for cepstro-temporal smoothing of spectral filter gains
JP5459688B2 (ja) 2009-03-31 2014-04-02 ▲ホア▼▲ウェイ▼技術有限公司 復号信号のスペクトルを調整する方法、装置、および音声復号システム
FR2945696B1 (fr) * 2009-05-14 2012-02-24 Parrot Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite.
WO2010151183A1 (en) * 2009-06-23 2010-12-29 Telefonaktiebolaget L M Ericsson (Publ) Method and an arrangement for a mobile telecommunications network
FR2948484B1 (fr) 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
KR101587844B1 (ko) * 2009-08-26 2016-01-22 삼성전자주식회사 마이크로폰의 신호 보상 장치 및 그 방법
FR2950461B1 (fr) 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8219394B2 (en) * 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
EP2395506B1 (en) * 2010-06-09 2012-08-22 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing system for interference and noise suppression in binaural microphone configurations
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
FR2974655B1 (fr) 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
FR2976111B1 (fr) 2011-06-01 2013-07-05 Parrot Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
US9258653B2 (en) * 2012-03-21 2016-02-09 Semiconductor Components Industries, Llc Method and system for parameter based adaptation of clock speeds to listening devices and audio applications
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US20140270249A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP3152756B1 (en) * 2014-06-09 2019-10-23 Dolby Laboratories Licensing Corporation Noise level estimation
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US10605941B2 (en) 2014-12-18 2020-03-31 Conocophillips Company Methods for simultaneous source separation
US20170018273A1 (en) * 2015-07-16 2017-01-19 GM Global Technology Operations LLC Real-time adaptation of in-vehicle speech recognition systems
CA2999920A1 (en) 2015-09-28 2017-04-06 Conocophillips Company 3d seismic acquisition
FR3044197A1 (fr) 2015-11-19 2017-05-26 Parrot Casque audio a controle actif de bruit, controle anti-occlusion et annulation de l'attenuation passive, en fonction de la presence ou de l'absence d'une activite vocale de l'utilisateur de casque.
US10251002B2 (en) 2016-03-21 2019-04-02 Starkey Laboratories, Inc. Noise characterization and attenuation using linear predictive coding
US10564925B2 (en) * 2017-02-07 2020-02-18 Avnera Corporation User voice activity detection methods, devices, assemblies, and components
US10809402B2 (en) 2017-05-16 2020-10-20 Conocophillips Company Non-uniform optimal survey design principles
US10079026B1 (en) * 2017-08-23 2018-09-18 Cirrus Logic, Inc. Spatially-controlled noise reduction for headsets with variable microphone array orientation
CN108899043A (zh) * 2018-06-15 2018-11-27 深圳市康健助力科技有限公司 数字助听器瞬时噪声抑制算法的研究及实现
US11481677B2 (en) 2018-09-30 2022-10-25 Shearwater Geoservices Software Inc. Machine learning based signal recovery
JP2020144204A (ja) * 2019-03-06 2020-09-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 信号処理装置及び信号処理方法
FR3113537B1 (fr) 2020-08-19 2022-09-02 Faurecia Clarion Electronics Europe Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé
CN112233688B (zh) * 2020-09-24 2022-03-11 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN116644281B (zh) * 2023-07-27 2023-10-24 东营市艾硕机械设备有限公司 一种游艇船体偏移检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658426A (en) * 1985-10-10 1987-04-14 Harold Antin Adaptive noise suppressor
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
US5924061A (en) * 1997-03-10 1999-07-13 Lucent Technologies Inc. Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
EP1580882B1 (en) * 2004-03-19 2007-01-10 Harman Becker Automotive Systems GmbH Audio enhancement system and method
US7813499B2 (en) * 2005-03-31 2010-10-12 Microsoft Corporation System and process for regression-based residual acoustic echo suppression

Also Published As

Publication number Publication date
EP1830349A1 (fr) 2007-09-05
ATE535905T1 (de) 2011-12-15
FR2898209A1 (fr) 2007-09-07
WO2007099222A1 (fr) 2007-09-07
FR2898209B1 (fr) 2008-12-12
US20070276660A1 (en) 2007-11-29
US7953596B2 (en) 2011-05-31
EP1830349B1 (fr) 2011-11-30

Similar Documents

Publication Publication Date Title
ES2378482T3 (es) Procedimiento de eliminación de ruido de una señal de audio
US6289309B1 (en) Noise spectrum tracking for speech enhancement
JP5186510B2 (ja) スピーチ明瞭度強化方法と装置
US8560320B2 (en) Speech enhancement employing a perceptual model
KR100821177B1 (ko) 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
US8577677B2 (en) Sound source separation method and system using beamforming technique
US8374855B2 (en) System for suppressing rain noise
US7359838B2 (en) Method of processing a noisy sound signal and device for implementing said method
Shao et al. A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system
Erell et al. Energy conditioned spectral estimation for recognition of noisy speech
Yao et al. Noise adaptive speech recognition based on sequential noise parameter estimation
Tashev et al. Unified framework for single channel speech enhancement
Tran et al. Speech enhancement using modified IMCRA and OMLSA methods
Sunnydayal et al. A survey on statistical based single channel speech enhancement techniques
Fingscheidt et al. Data-driven speech enhancement
Funaki Speech enhancement based on iterative wiener filter using complex speech analysis
Parchami et al. Model-based estimation of late reverberant spectral variance using modified weighted prediction error method
WO2006114100A1 (en) Estimation of signal from noisy observations
Rao et al. Speech enhancement using perceptual Wiener filter combined with unvoiced speech—A new Scheme
Erkelens et al. Single-microphone late-reverberation suppression in noisy speech by exploiting long-term correlation in the DFT domain
Dashtbozorg et al. Adaptive MMSE speech spectral amplitude estimator under signal presence uncertainty
Astudillo et al. Uncertainty propagation for speech recognition using RASTA features in highly nonstationary noisy environments
Gouhar et al. Speech enhancement using new iterative minimum statistics approach
Ykhlef A time-varying smoothing factor for the decision-directed approach in speech enhancement
Zhang et al. An improved MMSE-LSA speech enhancement algorithm based on human auditory masking property