FR3113537A1 - Method and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product - Google Patents

Method and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product Download PDF

Info

Publication number
FR3113537A1
FR3113537A1 FR2008572A FR2008572A FR3113537A1 FR 3113537 A1 FR3113537 A1 FR 3113537A1 FR 2008572 A FR2008572 A FR 2008572A FR 2008572 A FR2008572 A FR 2008572A FR 3113537 A1 FR3113537 A1 FR 3113537A1
Authority
FR
France
Prior art keywords
audio signal
noise
signals
signal
vocal part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR2008572A
Other languages
French (fr)
Other versions
FR3113537B1 (en
Inventor
Mounira RIGAUD-MAAZAOUI
Paul GAGNEUR
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Europe SAS
Original Assignee
Faurecia Clarion Electronics Europe SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Faurecia Clarion Electronics Europe SAS filed Critical Faurecia Clarion Electronics Europe SAS
Priority to FR2008572A priority Critical patent/FR3113537B1/en
Publication of FR3113537A1 publication Critical patent/FR3113537A1/en
Application granted granted Critical
Publication of FR3113537B1 publication Critical patent/FR3113537B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé L’invention concerne un procédé de réduction du bruit dans un signal audio apte à être reçu par M microphones (16) sous forme de M signaux acquis. Le signal audio comprend au moins un bruit () et une partie vocale (). Le procédé comprend les étapes suivantes : - traitement (110) des signaux acquis par transformée de Fourier des signaux acquis pour obtenir M signaux fréquentiels, - estimation (150) de densités spectrales de puissance () et () respectives à la partie vocale () et au bruit (, - calcul (160) de rapports signal sur bruit a posteriori () et a priori (), - calcul (170) d’un gain OM-LSA () à partir des rapports signal sur bruit a posteriori () et a priori (), - application (200) du gain OM-LSA () à un signal représentatif des signaux fréquentiels pour obtenir un signal audio estimé () moins bruité que le signal audio. Figure pour l'abrégé : Figure 2 Method and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product The invention relates to a method for reducing noise in an audio signal capable of being received by M microphones (16) in the form of M acquired signals. The audio signal includes at least a noise () and a voice part (). The process includes the following steps: - processing (110) of the acquired signals by Fourier transform of the acquired signals to obtain M frequency signals, - estimation (150) of power spectral densities () and () respective to the vocal part () and to the noise (, - calculation (160) of a posteriori () and a priori () signal-to-noise ratios, - calculation (170) of an OM-LSA () gain from the a posteriori () and a priori () signal-to-noise ratios, - application (200) of the OM-LSA gain () to a signal representative of the frequency signals to obtain an estimated audio signal () less noisy than the audio signal. Figure for the abstract: Figure 2

Description

Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associéMethod and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product

L’invention concerne un procédé de réduction du bruit dans un signal audio, le signal audio comprenant au moins un bruit et une partie vocale, et étant apte à être reçu par plusieurs microphones, le procédé étant mis en œuvre par un dispositif électronique de réduction du bruit.The invention relates to a method for reducing noise in an audio signal, the audio signal comprising at least one noise and a voice part, and being able to be received by several microphones, the method being implemented by an electronic reduction device noise.

La présente invention concerne également un dispositif électronique de réduction du bruit dans un signal audio, le signal audio comprenant au moins un bruit une partie vocale et étant apte à être reçu par plusieurs microphones.The present invention also relates to an electronic device for reducing noise in an audio signal, the audio signal comprising at least one noise a voice part and being able to be received by several microphones.

La présente invention concerne aussi un programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un tel procédé de réduction du bruit.The present invention also relates to a computer program comprising software instructions which, when executed by a computer, implement such a noise reduction method.

L’invention concerne le domaine des systèmes de traitement de signal audio comportant une partie vocale et du bruit. L’invention concerne en particulier le domaine des systèmes de traitement de signal audio destinés à être embarqués à bord d’un véhicule de transport de passagers, en particulier à bord de véhicules automobiles.The invention relates to the field of audio signal processing systems comprising a voice part and noise. The invention relates in particular to the field of audio signal processing systems intended to be on board a passenger transport vehicle, in particular on board motor vehicles.

On connaît du document US 7953596 B2 un dispositif électronique de réduction du bruit du type précité. Ce document décrit un procédé et un système de traitement d’un signal audio bruité comprenant une partie vocale, pour la réduction du bruit dans le signal audio. Dans ce but, le procédé effectue une analyse de cohérence temporelle du signal audio bruité, afin de déterminer un signal de référence dont la partie vocale est atténuée. Ce signal de référence est alors utilisé, en combinaison avec le signal audio bruité et un bruit permanent estimé, afin de calculer une probabilité d’absence de la partie vocale dans le signal audio. Cette probabilité d’absence de la partie vocale est ensuite prise en compte pour la détermination d’un gain OM-LSA, également appelé méthode à amplitude log-spectrale modifiée optimisée (de l’anglaisOptimally Modified Log-Spectral Amplitude). Ce gain est alors appliqué au signal audio bruité afin de réduire l’amplitude de la composante de bruit, sans atténuer l’amplitude de la partie vocale.Document US 7953596 B2 discloses an electronic noise reduction device of the aforementioned type. This document describes a method and a system for processing a noisy audio signal comprising a voice part, for noise reduction in the audio signal. For this purpose, the method performs a temporal coherence analysis of the noisy audio signal, in order to determine a reference signal whose vocal part is attenuated. This reference signal is then used, in combination with the noisy audio signal and an estimated permanent noise, in order to calculate a probability of absence of the voice part in the audio signal. This probability of absence of the vocal part is then taken into account for the determination of an OM-LSA gain, also called method with optimized log-spectral amplitude (from the English Optimally Modified Log-Spectral Amplitude ). This gain is then applied to the noisy audio signal in order to reduce the amplitude of the noise component, without attenuating the amplitude of the vocal part.

Cependant, la réduction du bruit n’est pas toujours optimale.However, the noise reduction is not always optimal.

Le but de l’invention est donc de proposer un dispositif électronique et un procédé associé de réduction du bruit dans un signal audio comportant une partie vocale permettant une meilleure atténuation du bruit, en tirant profit de la diversité spatiale de l’acquisition du signal audio par plusieurs microphones.The object of the invention is therefore to propose an electronic device and an associated method for reducing noise in an audio signal comprising a voice part allowing better noise attenuation, by taking advantage of the spatial diversity of the acquisition of the audio signal. by several microphones.

A cet effet, l’invention a pour objet un procédé de réduction du bruit dans un signal audio, le signal audio comprenant au moins un bruit et une partie vocale le signal audio étant apte à être reçu par M microphones sous forme de M signaux acquis ( ), où est un indice temporel discret et M est un nombre entier supérieur ou égal à 2,To this end, the subject of the invention is a method for reducing noise in an audio signal, the audio signal comprising at least one noise and a voice part, the audio signal being able to be received by M microphones in the form of M acquired signals ( ), Or is a discrete time index and M is an integer greater than or equal to 2,

le procédé étant mis en œuvre par un dispositif électronique de réduction du bruit dans un signal audio et comprenant les étapes suivantes :the method being implemented by an electronic device for reducing noise in an audio signal and comprising the following steps:

- traitement des signaux acquis avec application d’une transformée de Fourier aux signaux acquis ( ) pour obtenir M signaux fréquentiels ( ) où est un indice fréquentiel et est un indice de trame temporelle,- processing of the acquired signals with application of a Fourier transform to the acquired signals ( ) to obtain M frequency signals ( ) Or is a frequency index and is a time frame index,

- estimation d’une densité spectrale de puissance ( ) de la partie vocale ( ) et d’une densité spectrale de puissance ( ) du bruit ( à partir de signaux représentatifs des signaux fréquentiels,- estimation of a power spectral density ( ) of the vocal part ( ) and a power spectral density ( ) noise ( from signals representative of the frequency signals,

- calcul d’un rapport signal sur bruit a posteriori ( ) du signal audio et d’un rapport signal sur bruit a priori ( ) du signal audio, à partir des densités spectrales de puissance estimées,- calculation of a signal-to-noise ratio a posteriori ( ) of the audio signal and an a priori signal-to-noise ratio ( ) of the audio signal, from the estimated power spectral densities,

- calcul d’un gain OM-LSA ( ) à partir du rapport signal sur bruit a posteriori ( ) et du rapport signal sur bruit a priori ( ),- calculation of an OM-LSA gain ( ) from the a posteriori signal-to-noise ratio ( ) and the a priori signal-to-noise ratio ( ),

- application du gain OM-LSA ( ) à un des signaux représentatifs des signaux fréquentiels ( ) pour obtenir un signal audio estimé ( ), le signal audio estimé ( ) comportant la partie vocale ( ) du signal audio et un bruit rémanent ( , le bruit rémanent ( ) ayant une plus faible amplitude que celle du bruit ( dans le signal audio.- application of the OM-LSA gain ( ) to one of the signals representative of the frequency signals ( ) to obtain an estimated audio signal ( ), the estimated audio signal ( ) including the vocal part ( ) of the audio signal and a residual noise ( , the residual noise ( ) having a lower amplitude than that of the noise ( in the audio signal.

Avec le procédé de réduction du bruit selon l’invention, la réduction du bruit est une réduction multicanale et nettement améliorée, car le gain OM-LSA est calculé à partir de signaux issus d’une acquisition multicanale.With the noise reduction method according to the invention, the noise reduction is a multichannel and markedly improved reduction, since the OM-LSA gain is calculated from signals resulting from a multichannel acquisition.

Le signal obtenu en sortie du procédé comporte la partie vocale du signal audio et un bruit dont l’amplitude est bien plus faible quand dans le signal audio avant le traitement. Le bruit restant dans le signal délivré en sortie du procédé nuit donc moins à la compréhension de l’information contenue dans la partie vocale du signal audio. L’expérience de l’utilisateur est alors bien meilleure, notamment lorsqu’il souhaite avoir une conversation téléphonique en mode mains libres, ou encore émettre une instruction vocale à destination d’un système de reconnaissance vocale.The signal obtained at the output of the process includes the voice part of the audio signal and a noise whose amplitude is much lower when in the audio signal before processing. The noise remaining in the signal delivered at the output of the process is therefore less harmful to the understanding of the information contained in the voice part of the audio signal. The user experience is then much better, especially when he wishes to have a telephone conversation in hands-free mode, or to issue a voice instruction intended for a voice recognition system.

En complément facultatif, le procédé de réduction du bruit comprend une ou plusieurs des caractéristiques suivantes, prises isolément ou suivant toutes les combinaisons techniquement possibles :As an optional addition, the noise reduction method includes one or more of the following characteristics, taken individually or in all technically possible combinations:

- la partie vocale ( ) présente une probabilité ( ) de présence dans le signal audio, la probabilité ( ) étant estimée pour chaque indice fréquentiel et pour chaque indice de trame temporelle , et- the vocal part ( ) has a probability ( ) of presence in the audio signal, the probability ( ) being estimated for each frequency index and for each time frame index , And

lors de l’étape de calcul du gain OM-LSA, le gain OM-LSA ( ) est calculé à partir du rapport signal sur bruit a posteriori ( ), du rapport signal sur bruit a priori ( ) et de la probabilité de présence ( ) de la partie vocale ( ),during the step of calculating the OM-LSA gain, the OM-LSA gain ( ) is calculated from the a posteriori signal-to-noise ratio ( ), the a priori signal-to-noise ratio ( ) and the probability of presence ( ) of the vocal part ( ),

- le procédé comprend, entre l’étape de calcul d’un gain OM-LSA et l’étape d’application, une étape de détermination d’un gain lissé à partir du gain OM-LSA et de la probabilité de présence de la partie vocale dans le signal audio,- the method comprises, between the step of calculating an OM-LSA gain and the step of applying, a step of determining a smoothed gain from OM-LSA gain and the probability of the presence of the vocal part in the audio signal,

ladite étape de détermination comportant :said determining step comprising:

- une transformation cepstrale du gain OM-LSA produisant un cepstre du gain OM-LSA ( ), où est un indice cepstral- a cepstral transformation of the OM-LSA gain producing a cepstrum of the OM-LSA gain ( ), Or is a cepstral index

- un calcul d’un cepstre lissé ( ) à partir du cepstre du gain OM-LSA ( ) et d’un coefficient de lissage dépendant de l’indice cepstral ( ), le coefficient de lissage étant dépendant de la probabilité ( ) de présence de la partie vocale ( ) dans le signal audio,- a calculation of a smooth cepstrum ( ) from the OM-LSA gain cepstrum ( ) and a smoothing coefficient depending on the cepstral index ( ), the smoothing coefficient being dependent on the probability ( ) presence of the vocal part ( ) in the audio signal,

lors de l’étape d’application, le gain lissé étant alors appliqué à l’un des signaux représentatifs des signaux fréquentiels pour obtenir le signal audio estimé ( ),during the application step, the smoothed gain then being applied to one of the signals representative of the frequency signals to obtain the estimated audio signal ( ),

- lors de l’étape de détermination, un indice cepstral vocale ( ) correspondant à une fréquence fondamentale de la partie vocale ( ) est estimé à partir de la probabilité ( ) de présence de la partie vocale ( ), le paramètre de lissage étant proche de 0 pour :- during the determination step, a vocal cepstral index ( ) corresponding to a fundamental frequency of the vocal part ( ) is estimated from the probability ( ) presence of the vocal part ( ), the smoothing parameter being close to 0 for:

- les indices cepstraux inférieurs à un seuil cepstral, et- cepstral indices below a cepstral threshold, and

- pour les indices cepstraux ( ), ( ), et ( ),- for the cepstral indices ( ), ( ), And ( ),

le paramètre de lissage étant proche de 1 pour tout autres indices cepstraux,the smoothing parameter being close to 1 for all other cepstral indices,

- le procédé comprend en outre, entre l’étape de traitement et l’étape de d’estimation, une étape de détermination d’une direction d’arrivée ( ) de la partie vocale ( ) du signal audio, à partir des signaux fréquentiels ( ), et- the method further comprises, between the processing step and the estimation step, a step of determining a direction of arrival ( ) of the vocal part ( ) of the audio signal, from the frequency signals ( ), And

dans lequel les signaux représentatifs des signaux fréquentiels ( ) comportent un signal spatialement filtré ( ) obtenu par application de filtres de formation de voies relatifs à la direction d’arrivée ( ) aux signaux fréquentiels ( ,wherein the signals representative of the frequency signals ( ) include a spatially filtered signal ( ) obtained by applying lane formation filters relative to the direction of arrival ( ) to frequency signals ( ,

- les signaux représentatifs des signaux fréquentiels comportent M signaux en phase ( ) obtenus par application, à chacun des M signaux fréquentiels ( ), d’un délai de phase respectif, les délais de phase étant déterminés en fonction de la direction d’arrivée ( ) de la partie vocale ( ) du signal audio,- the signals representative of the frequency signals comprise M signals in phase ( ) obtained by application, to each of the M frequency signals ( ), a respective phase delay, the phase delays being determined according to the direction of arrival ( ) of the vocal part ( ) of the audio signal,

- lors de l’étape d’estimation, la densité spectrale de puissance ( ) de la partie vocale ( ) et la densité spectrale de puissance ( ) du bruit ( ) sont estimées à partir de M bruits de référence ( ), déterminés par application aux signaux en phase ( ), d’une matrice ( ) de blocage de la partie vocale ( ), la matrice de blocage ( ) dépendant du signal spatialement filtré ( ) et des M signaux en phase ( ),- during the estimation step, the power spectral density ( ) of the vocal part ( ) and the power spectral density ( ) noise ( ) are estimated from M reference noises ( ), determined by application to the in-phase signals ( ), a matrix ( ) blocking of the vocal part ( ), the blocking matrix ( ) depending on the spatially filtered signal ( ) and M in-phase signals ( ),

- lors de l’étape d’estimation, une densité spectrale de puissance de l’ensemble des bruits de référence ( ) et une densité spectrale de l’ensemble des signaux en phase sont estimées ( ), puis la densité spectrale de puissance de la partie vocale ( ) et la densité spectrale de puissance du bruit ( ) sont chacune estimées à partir de la densité spectrale de puissance de l’ensemble des bruits de référence ( ) et de la densité spectrale de puissance de l’ensemble des signaux en phase ( ).- during the estimation step, a power spectral density of all the reference noises ( ) and a spectral density of all in-phase signals are estimated ( ), then the power spectral density of the vocal part ( ) and the noise power spectral density ( ) are each estimated from the power spectral density of the set of reference noises ( ) and the power spectral density of all in-phase signals ( ).

L’invention a aussi pour objet un produit programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé.The invention also relates to a computer program product comprising software instructions which, when executed by a computer, implement a method.

L’invention a également pour objet un dispositif électronique de réduction du bruit le signal audio comprenant au moins un bruit ( ) et une partie vocale ( ), le signal audio étant apte à être reçu par M microphones sous forme de M signaux acquis ( ), où est un indice temporel discret et M est un nombre entier supérieur ou égal à 2, le dispositif étant apte à être connecté aux M microphones, le dispositif comprenant :The invention also relates to an electronic device for reducing noise, the audio signal comprising at least one noise ( ) and a vocal part ( ), the audio signal being capable of being received by M microphones in the form of M acquired signals ( ), Or is a discrete time index and M is an integer greater than or equal to 2, the device being able to be connected to the M microphones, the device comprising:

- un module de traitement configuré pour appliquer une transformée de Fourier aux signaux acquis ( ) pour obtenir M signaux fréquentiels ( ), où est un indice fréquentiel et est un indice de trame temporelle,- a processing module configured to apply a Fourier transform to the acquired signals ( ) to obtain M frequency signals ( ), Or is a frequency index and is a time frame index,

- un module d’estimation configuré pour estimer une densité spectrale de puissances ( ) de la partie vocale ( ) et une densité spectrale de puissance ( ) du bruit ( ) à partir de signaux représentatifs des signaux fréquentiels ( ),- an estimation module configured to estimate a power spectral density ( ) of the vocal part ( ) and a power spectral density ( ) noise ( ) from signals representative of the frequency signals ( ),

- un premier module de calcul configuré pour calculer un rapport signal sur bruit a posteriori ( ) du signal audio et un rapport signal sur bruit a priori ( ) du signal audio à partir des densités spectrales de puissance estimées,- a first calculation module configured to calculate a signal-to-noise ratio a posteriori ( ) of the audio signal and an a priori signal-to-noise ratio ( ) of the audio signal from the estimated power spectral densities,

- un deuxième module de calcul configuré pour calculer un gain OM-LSA ( ) à partir du rapport signal sur bruit a posteriori ( ), du rapport signal sur bruit a priori ( ), et- a second calculation module configured to calculate an OM-LSA gain ( ) from the a posteriori signal-to-noise ratio ( ), the a priori signal-to-noise ratio ( ), And

- un module d’application configuré pour appliquer le gain OM-LSA ( ) à un des signaux représentatifs des signaux fréquentiels ( ) pour obtenir un signal audio estimé ( ), le signal audio estimé comportant la partie vocale ( ) du signal audio et un bruit rémanent ( , le bruit rémanent ayant une plus faible amplitude que celle du bruit ( dans le signal audio - an application module configured to apply the OM-LSA gain ( ) to one of the signals representative of the frequency signals ( ) to obtain an estimated audio signal ( ), the estimated audio signal comprising the vocal part ( ) of the audio signal and a residual noise ( , the remanent noise having a lower amplitude than that of the noise ( in the audio signal

Ces caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :These characteristics and advantages of the invention will appear more clearly on reading the following description, given solely by way of non-limiting example, and made with reference to the appended drawings, in which:

la est une vue schématique d’un véhicule de transport de passagers comprenant une source de parole et un système de traitement de signaux audio, le système de traitement comportant M microphones et un dispositif électronique de réduction du bruit dans un signal audio, there is a schematic view of a passenger transport vehicle comprising a speech source and an audio signal processing system, the processing system comprising M microphones and an electronic device for reducing noise in an audio signal,

la est un organigramme d’un procédé, selon l’invention, de réduction de bruit dans le signal audio, le procédé étant mis en œuvre par le dispositif électronique de réduction du bruit de la , there is a flowchart of a method, according to the invention, of noise reduction in the audio signal, the method being implemented by the electronic noise reduction device of the ,

la représente l’amplitude de deux signaux comportant une composante de parole intermittente, un gain OM-LSA étant appliqué à l’un des deux signaux, there represents the amplitude of two signals comprising an intermittent speech component, an OM-LSA gain being applied to one of the two signals,

la comporte trois spectrogrammes représentant l’amplitude de trois signaux respectifs en fonction du temps et de la fréquence à savoir, le signal audio en entrée du dispositif de réduction du bruit, un signal résultant d’un traitement dudit signal audio n’utilisant qu’un microphone et un signal résultant du traitement du signal audio via le procédé de réduction du bruit selon l’invention, et there comprises three spectrograms representing the amplitude of three respective signals as a function of time and frequency, namely, the audio signal at the input of the noise reduction device, a signal resulting from a processing of said audio signal using only one microphone and a signal resulting from the processing of the audio signal via the noise reduction method according to the invention, and

la est une courbe du niveau de bruit en fonction de la fréquence, pour d’une part un signal audio traité par un procédé de réduction du bruit monocanal et, d’autre part, un signal audio traité par le procédé de réduction du bruit selon l’invention. there is a curve of the noise level as a function of the frequency, for on the one hand an audio signal processed by a single-channel noise reduction method and, on the other hand, an audio signal processed by the noise reduction method according to l 'invention.

Sur la , un véhicule de transport de passagers 10 comprend une source de parole 12 et un système de traitement de signaux audio 14. Le véhicule de transport de passagers 10 est par exemple un véhicule automobile.On the , a passenger transport vehicle 10 comprises a speech source 12 and an audio signal processing system 14. The passenger transport vehicle 10 is for example a motor vehicle.

Le véhicule de transport de passagers 10 comprend un habitacle, non représenté, à l'intérieur duquel est disposé le système de traitement de signaux audio 14.The passenger transport vehicle 10 comprises a passenger compartment, not shown, inside which the audio signal processing system 14 is arranged.

La source de parole 12 est par exemple une personne parlant à l’intérieur de l’habitacle. Le signal audio comprend au moins une partie vocale issue de la source de parole, et du bruit d’origine variée.The speech source 12 is for example a person speaking inside the passenger compartment. The audio signal includes at least a voice portion from the source of speech, and noise of varied origin.

Le système de traitement de signaux audio 14 comporte M microphones 16, M étant un nombre entier supérieur ou égal à 2, et un dispositif de réduction du bruit 18 relié aux microphones 16.The audio signal processing system 14 comprises M microphones 16, M being an integer greater than or equal to 2, and a noise reduction device 18 connected to the microphones 16.

Les M microphones 16 sont positionnés sous forme d’un réseau dans l’habitacle. La position des microphones 16 est connue, et la distance D entre les microphones est le résultat d’un compromis entre des effets de repliements de spectre en hautes fréquences et des performances du filtre de formation de voies en basses fréquence, associés à la fréquence d’échantillonnage des signaux.The M microphones 16 are positioned in the form of a network in the passenger compartment. The position of the microphones 16 is known, and the distance D between the microphones is the result of a compromise between spectrum aliasing effects at high frequencies and the performance of the channel-forming filter at low frequencies, associated with the frequency d signal sampling.

La partie vocale du signal audio, présente une direction d’arrivée par rapport au réseau de microphones 16 et une probabilité de présence dans le signal audio. Les microphones 16 sont chacun configurés pour acquérir le signal audio, résultant en M signaux acquis ( ) , étant un indice temporel discret.The vocal part of the audio signal, has a direction of arrival relative to the array of microphones 16 and a probability of presence in the audio signal. The microphones 16 are each configured to acquire the audio signal, resulting in M acquired signals ( ) , being a discrete time index.

Le dispositif électronique de réduction du bruit 18 est configuré pour réduire l’amplitude du bruit dans le signal audio, ceci en altérant le moins possible la partie vocale .The electronic noise reduction device 18 is configured to reduce the amplitude of the noise in the audio signal, this by altering the voice part as little as possible .

Le dispositif électronique de réduction du bruit 18 comporte une unité de traitement amont 20 configurée pour déterminer, à partir des M signaux audio, M signaux fréquentiels. L’unité de traitement amont 20 est optionnellement configurée pour déterminer, à partir de M signaux audio, un signal spatialement filtré et M signaux en phase ( ), désignant un indice fréquentiel et est un indice de trame temporelle. Chaque trame temporelle correspond à une section temporelle d’un signal respectif, dont au moins une partie est contenue dans la trame temporelle précédente et/ou dans la trame temporelle suivante. Le dispositif électronique de réduction du bruit 18 comporte facultativement un module 22 de détection d’une activité vocale dans le signal audio.The electronic noise reduction device 18 comprises an upstream processing unit 20 configured to determine, from the M audio signals, M frequency signals. The upstream processing unit 20 is optionally configured to determine, from M audio signals, a spatially filtered signal and M in-phase signals ( ), designating a frequency index and is a time frame index. Each time frame corresponds to a time section of a respective signal, at least a part of which is contained in the previous time frame and/or in the following time frame. The electronic noise reduction device 18 optionally includes a module 22 for detecting voice activity in the audio signal.

L’homme du métier notera que, de manière générale et dans toute la description, les indices et notés sous forme de doublet (ou couple) entre parenthèses, comme par exemple dans le signal en phase , ne désignent ni une colonne, ni une ligne d’une quelconque matrice, mais indiquent que la variable ou grandeur associée à ce doublet est celle pour l’indice fréquentiel et l’indice de trame temporelle .Those skilled in the art will note that, generally and throughout the description, the indices And noted as a doublet (or couple) in parentheses, as for example in the in-phase signal , do not designate either a column or a row of any matrix, but indicate that the variable or quantity associated with this doublet is that for the frequency index and the time frame index .

Le dispositif de réduction du bruit 18 comporte un module 24 d’estimation de densités spectrales de puissance, un premier module 26 de calcul de rapports signal sur bruit, un second module 28 de calcul d’un gain OM-LSA , et un premier module 32 d’application du gain OM-LSA au signal spatialement filtré .The noise reduction device 18 comprises a module 24 for estimating power spectral densities, a first module 26 for calculating signal-to-noise ratios, a second module 28 for calculating an OM-LSA gain , and a first module 32 for applying gain OM-LSA to the spatially filtered signal .

En complément facultatif, le dispositif de réduction du bruit 18 comporte un premier module 30 de détermination d’un gain lissé et un module de traitement aval 34 configuré pour effectuer une transformée de Fourier inverse. Selon ce complément facultatif, le premier module d’application 32 est alors configuré pour appliquer le gain lissé au signal spatialement filtré .As an optional addition, the noise reduction device 18 comprises a first module 30 for determining a smoothed gain and a downstream processing module 34 configured to perform an inverse Fourier transform. According to this optional complement, the first application module 32 is then configured to apply the smoothed gain to the spatially filtered signal .

L’unité de traitement amont 20 comporte un module de traitement amont 36 configuré pour recevoir et appliquer une transformée de Fourier aux signaux audio . L’unité de traitement amont 20 comporte optionnellement un deuxième module 38 de détermination de la direction d’arrivée de la partie vocale du signal audio, un troisième module 40 de détermination du signal spatialement filtré , et un deuxième module 42 d’application de délais de phase aux signaux acquis issus du module 36, pour produire les M signaux en phase ( ). L’unité de traitement amont 20, est apte à être connectée aux microphones 16.The upstream processing unit 20 comprises an upstream processing module 36 configured to receive and apply a Fourier transform to the audio signals . The upstream processing unit 20 optionally comprises a second module 38 for determining the direction of arrival of the vocal part of the audio signal, a third module 40 for determining the spatially filtered signal , and a second module 42 for applying phase delays to the signals acquired from the module 36, to produce the M signals in phase ( ). The upstream processing unit 20 is able to be connected to the microphones 16.

Le module de détection 22 est connecté en sortie de l’unité de traitement amont 20, et plus particulièrement en sortie du troisième module de détermination 40. Le module de détection 22 est configuré pour détecter l’activité vocale dans le signal audio. Le module de détection 22 est aussi configuré pour estimer la probabilité de présence de la partie vocale dans le signal audio. Le module de détection 22 est par exemple apte à recevoir le signal spatialement filtré en entrée, puis à estimer la probabilité de présence de la partie vocale à partir dudit signal spatialement filtré .The detection module 22 is connected at the output of the upstream processing unit 20, and more particularly at the output of the third determination module 40. The detection module 22 is configured to detect voice activity in the audio signal. The detection module 22 is also configured to estimate the probability presence of the vocal part in the audio signal. The detection module 22 is for example capable of receiving the spatially filtered signal input, then to estimate the probability of presence of the vocal part from said spatially filtered signal .

En variante, le module de détection 22 est apte à recevoir au moins une information d’un capteur vidéo et à détecter la présence de la partie vocale à partir de cette ou ces information(s) selon l’indice de trame temporelle . Le module de détection 22 est alors configuré pour estimer la probabilité de présence de la partie vocale selon l’indice fréquentiel à partir du signal spatialement filtré .As a variant, the detection module 22 is able to receive at least one item of information from a video sensor and to detect the presence of the voice part from this or these information(s) according to the time frame index . The detection module 22 is then configured to estimate the probability of presence of the vocal part according to the frequency index from the spatially filtered signal .

Le module d’estimation 24 est connecté en sortie de l’unité de traitement amont 20 lorsqu’elle est présente, plus particulièrement en sortie du troisième module de détermination 40 et du deuxième module d’application 42. Le module d’estimation 24 est aussi connecté en sortie du module de détection 22 lorsqu’il est présent. Le module d’estimation 24 est configuré pour estimer une densité spectrale de puissance de la partie vocale et une densité spectrale de puissance du bruit à partir de signaux représentatifs des M signaux fréquentiels. A partir des signaux en phase ( ) et du signal spatialement filtré , le module d’estimation 24 est avantageusement configuré pour estimer, une pluralité de bruits de référence ( ). Les bruits de référence correspondent chacun aux bruits dans un canal respectif, ne provenant pas de la direction d’arrivée de la partie vocale . Chacun des bruits de référence est estimé selon formule suivante :The estimation module 24 is connected at the output of the upstream processing unit 20 when it is present, more particularly at the output of the third determination module 40 and of the second application module 42. The estimation module 24 is also connected at the output of the detection module 22 when it is present. The estimation module 24 is configured to estimate a power spectral density of the vocal part and a power spectral density noise from signals representative of the M frequency signals. From the in-phase signals ( ) and the spatially filtered signal , the estimation module 24 is advantageously configured to estimate a plurality of reference noises ( ). The reference noises each correspond to the noises in a respective channel, not coming from the direction of arrival of the vocal part . Each of the reference noises is estimated according to the following formula:

sont des coefficients complexes à déterminer.Or are complex coefficients to determine.

Les coefficients sont déterminés de telle sorte que les signaux et soient en phase et que la partie vocale soit la plus atténuée possible dans les bruits de référence ( ). Autrement dit, les bruits de référence ( ) correspondent aux bruits dans chacun des canaux après traitement spatial. Plus particulièrement, chaque bruit de référence ( ) est exprimé comme une combinaison linéaire des signaux en phase, telle queThe coefficients are determined such that the signals And are in phase and that the vocal part be as attenuated as possible in the reference noises ( ). In other words, the reference noises ( ) correspond to the noises in each of the channels after spatial processing. More specifically, each reference noise ( ) is expressed as a linear combination of the in-phase signals, such that

est un vecteur comprenant l’ensemble des bruits de référence ( ),Or is a vector comprising the set of reference noises ( ),

est un vecteur comprenant l’ensemble des signaux en phase ( ), et is a vector comprising the set of in-phase signals ( ), And

est une matrice de blocage (de l’anglaisblocking matrix). La matrice de blocage est destinée à limiter l’amplitude de la partie vocale dans les bruits de référence ( ). is a blocking matrix . The blocking matrix is intended to limit the amplitude of the vocal part in the reference noises ( ).

L’homme du métier notera que l’indice de positionnement, dans le vecteur de chaque signal en phase est le nombre entier compris entre 0 et M-1, ce vecteur comportant M composantes. Cette notation indicielle de chaque composante de vecteur est également utilisée pour tous les autres vecteurs de la description.Those skilled in the art will note that the positioning index, in the vector of each signal in phase is the whole number between 0 and M-1, this vector comprising M components. This index notation of each vector component is also used for all the other vectors in the description.

Les coefficients de la matrice de blocage sont estimés par application d’un algorithme à erreur quadratique minimale normalisée, lorsque la probabilité de présence de la partie vocale est supérieure à un premier seuil.Blocking matrix coefficients are estimated by applying a normalized minimum squared error algorithm, when the probability presence of the vocal part is greater than a first threshold.

A partir des bruits de référence préalablement estimés, le module d’estimation 24 est configuré pour estimer une densité spectrale de puissance de l’ensemble des bruits de référence ( ) organisés en vecteur colonne et une densité spectrale de puissance de l’ensemble des signaux en phase ( ), de la manière suivanteFrom the previously estimated reference noises, the estimation module 24 is configured to estimate a power spectral density of the set of reference noises ( ) organized in column vector and a power spectral density of the set of in-phase signals ( ), as follows

L’homme du métier reconnaitra que , respectivement , désigne le complexe conjugué transposé du vecteur , respectivement .Those skilled in the art will recognize that , respectively , denotes the transposed conjugate complex of the vector , respectively .

Enfin, le module d’estimation 24 est configuré pour estimer une densité spectrale de puissance de la partie vocale et une densité spectrale de puissance du bruit , à partir de la densité spectrale de puissance de l’ensemble des bruits de référence ( ) et de la densité spectrale de puissance de l’ensemble signaux en phase ( ), selon les équations suivantesFinally, the estimation module 24 is configured to estimate a power spectral density of the vocal part and a power spectral density noise , from the power spectral density of the set of reference noises ( ) and power spectral density of the set signals in phase ( ), according to the following equations

et sont des premier et deuxième coefficients à déterminer.Or And are first and second coefficients to be determined.

Le module d’estimation 24 est configuré pour déterminer les premier et deuxième coefficients et lorsque la probabilité de présence de la partie vocale dans le signal audio est inférieure à un deuxième seuil. Ainsi, lorsque la partie vocale est absente du signal audio, la densité spectrale de puissance de la partie vocale est nulle.The estimation module 24 is configured to determine the first and second coefficients And when the probability presence of the vocal part in the audio signal is below a second threshold. Thus, when the vocal part is absent from the audio signal, the power spectral density of the vocal part is zero.

En complément facultatif, le module d’estimation 24 est alors configuré pour estimer le premier coefficient comme coefficient de passage du bruit au niveau des microphones 16 au bruit présent dans le signal spatialement filtré . Suivant la même condition sur la partie vocale , le module d’estimation 24 est configuré pour estimer le deuxième coefficient de telle sorte que la densité spectrale de puissance de l’ensemble des signaux en phase ( ) et la densité spectrale de puissance de l’ensemble des bruits de référence ( ) soient égales.As an optional addition, the estimation module 24 is then configured to estimate the first coefficient as noise passage coefficient at the level of the microphones 16 to the noise present in the spatially filtered signal . Following the same condition on the vocal part , the estimation module 24 is configured to estimate the second coefficient such that the power spectral density of the set of in-phase signals ( ) and the power spectral density of the set of reference noises ( ) are equal.

L’homme du métier pourra noter que, dans la mesure où la densité spectrale de puissance de la partie vocale et la densité spectrale de puissance du bruit sont estimées à partir de signaux tirant profit de la diversité spatiale des microphones 16, le module d’estimation est configuré pour effectuer une estimation spatiale.Those skilled in the art will be able to note that, insofar as the power spectral density of the vocal part and the power spectral density noise are estimated from signals taking advantage of the spatial diversity of the microphones 16, the estimation module is configured to perform a spatial estimation.

Le premier module de calcul 26 est connecté en sortie du module d’estimation 24 et en entrée du deuxième module de calcul 28. Le premier module de calcul 26 est configuré pour calculer un rapport signal sur bruit a posteriori à partir de la densité spectrale de puissance de la partie vocale et de la densité spectrale de puissance du bruit , selon la formule suivante :The first calculation module 26 is connected at the output of the estimation module 24 and at the input of the second calculation module 28. The first calculation module 26 is configured to calculate a signal-to-noise ratio a posteriori from the power spectral density of the vocal part and power spectral density noise , according to the following formula:

Le premier module de calcul 26 est aussi configuré pour calculer un rapport signal sur bruit a priori . Le rapport signal sur bruit a priori correspond à une version lissée du rapport signal sur bruit a posteriori , prenant en considération le gain calculé par le deuxième module de calcul 28 à l’indice de trame temporelle précédent . Le premier module de calcul 26 est configuré pour calculer le rapport signal sur bruit a priori selon la formule suivante :The first calculation module 26 is also configured to calculate an a priori signal to noise ratio . The a priori signal-to-noise ratio corresponds to a smoothed version of the a posteriori signal-to-noise ratio , taking into consideration the gain calculated by the second calculation module 28 at the previous time frame index . The first calculation module 26 is configured to calculate the a priori signal to noise ratio according to the following formula:

où le coefficient est un coefficient de lissage prédéfini, généralement compris entre 0 et 1 ;where the coefficient is a predefined smoothing coefficient, generally between 0 and 1;

le gain désigne une partie d’un gain OM-LSA, calculé par le deuxième module de calcul 28, présenté ci-après, à l’indice fréquentiel et l’indice de trame temporelle .Gain denotes a part of an OM-LSA gain, calculated by the second calculation module 28, presented below, at the frequency index and the time frame index .

Autrement dit, est une partie du gain OM-LSA calculé à l’itération temporelle précédente.In other words, is a part of the OM-LSA gain calculated at the previous time iteration.

Le deuxième module de calcul 28 est connecté en sortie du premier module de calcul 26, et connecté en sortie du module de détection 22 lorsqu’il est présent. Le deuxième module de calcul 28 est configuré pour calculer le gain OM-LSA , en appliquant l’algorithme OM-LSA, également appelé algorithme à amplitude log-spectrale modifiée optimisée (de l’anglaisOptimally Modified Log-Spectral Amplitude). Le deuxième module de calcul 28 est configuré pour calculer le gain OM-LSA selon la forme suivante :The second calculation module 28 is connected at the output of the first calculation module 26, and connected at the output of the detection module 22 when it is present. The second calculation module 28 is configured to calculate the OM-LSA gain , by applying the OM-LSA algorithm, also called the Optimally Modified Log-Spectral Amplitude algorithm. The second calculation module 28 is configured to calculate the OM-LSA gain according to the following form:

est un gain minimum prédéfini et constant,Or is a predefined and constant minimum gain,

est la probabilité de présence de la partie vocale dans le signal audio, et is the probability of presence of the vocal part in the audio signal, and

est un gain variable. is a variable gain.

Le deuxième module 28 de calcul est configuré pour calculer le gain variable à partir du rapport signal sur bruit a posteriori et du rapport signal sur bruit a priori , selon l’équation suivante :The second calculation module 28 is configured to calculate the variable gain from the a posteriori signal-to-noise ratio and the a priori signal-to-noise ratio , according to the following equation:

avecwith

désigne la fonction exponentielle.Or denotes the exponential function.

Le premier module de détermination 30 est connecté en sortie du deuxième module de calcul 28 et aussi en sortie du module de détection 22. Le premier module de détermination 30 est configuré pour déterminer un gain lissé à partir du gain OM-LSA , tel que décrit dans l’article «Cepstral Smoothing of Spectral Filter Gains for Speech Enhancement Without Musical Noise» de C. Breithaupt publié le 12 décembre 2007 au volume 14 numéro 12 deIEEE Signal Processing Letters. Pour ce faire, le premier module de détermination 30 est configuré pour calculer le cepstre du gain OM-LSA Cette opération correspond à l’application d’une transformée de Fourier inverse au logarithme du gain OM-LSA . Autrement dit, le premier module de détermination 30 est configuré pour effectuer la transformée cepstrale du gain OM-LSA selon la formule suivante :The first determination module 30 is connected to the output of the second calculation module 28 and also to the output of the detection module 22. The first determination module 30 is configured to determine a smoothed gain from OM-LSA gain , as described in the article " Cepstral Smoothing of Spectral Filter Gains for Speech Enhancement Without Musical Noise " by C. Breithaupt published on December 12, 2007 in volume 14 number 12 of IEEE Signal Processing Letters . To do this, the first determination module 30 is configured to calculate the cepstrum of the OM-LSA gain This operation corresponds to the application of an inverse Fourier transform to the logarithm of the OM-LSA gain . In other words, the first determination module 30 is configured to perform the cepstral transform of the OM-LSA gain according to the following formula:

correspond à la transformée de Fourier discrète inverse (de l’anglais, Inverse Discrete Fourier Transform),Or corresponds to the inverse discrete Fourier transform (from English , Inverse Discrete Fourier Transform ),

est un indice du domaine cepstral, aussi nommé par la suite indice cepstral, et is a cepstral domain index, also called cepstral index, and

est un cepstre du gain OM-LSA . is a cepstrum of the OM-LSA gain .

Par suite, le premier module de détermination 30 est configuré pour déterminer un cepstre lissé , à partir de l’équation récurrente suivante :Consequently, the first determination module 30 is configured to determine a smoothed cepstrum , from the following recurrent equation:

est un paramètre de lissage dépendant de l’indice du domaine cepstral .Or is a smoothing parameter depending on the index of the cepstral domain .

Ainsi pour les premiers indices cepstraux , le paramètre de lissage correspondant est faible. Les premiers indices cepstraux sont compris ici comme les indices cepstraux inférieurs à un seuil cepstral prédéterminés.Thus for the first cepstral indices , the corresponding smoothing parameter is weak. The first cepstral indices are understood here as the cepstral indices below a predetermined cepstral threshold.

Le premier module de détermination 30 est configuré pour déterminer un indice cepstral vocale correspondant à une fréquence fondamentale de la partie vocale dans les trames temporelles où la partie vocale est présente. Une présence ou absence de la partie vocale , dans une trame temporelle respective, est déterminée par la probabilité de présence de la partie vocale dans le signal audio. Le paramètre de lissage est faible pour les indices cepstraux égaux à : , , et afin de préserver le contenu voisé de la partie vocale .The first determination module 30 is configured to determine a vocal cepstral index corresponding to a fundamental frequency of the vocal part in time frames where the vocal part is present. A presence or absence of the vocal part , in a time frame respective, is determined by the probability presence of the vocal part in the audio signal. The smoothing parameter is weak for cepstral indices equal to: , , And in order to preserve the voiced content of the vocal part .

Autrement dit, pour tous les indices cepstraux pour lesquelles la probabilité de présence de la partie vocale est faible, le gain correspondant est proche de 1.In other words, for all cepstral indices for which the probability presence of the vocal part is low, the corresponding gain is close to 1.

Enfin, le premier module de détermination 30 est configuré pour déterminer un gain lissé à partir du cepstre lissé , par application d’une transformée cepstrale inverse. Autrement dit, le troisième module de détermination 38 est configuré pour déterminer un gain lissé , avec la formule :Finally, the first determination module 30 is configured to determine a smoothed gain from the cepstrum smoothed , by applying an inverse cepstral transform. In other words, the third determination module 38 is configured to determine a smoothed gain , with the formula:

correspond à la transformée de Fourier discrète (de l’anglais,Discrete Fourier Transform).Or corresponds to the Discrete Fourier Transform .

Le premier module d’application 32 est connecté en sortie du premier module de détermination 30 et en sortie de l’unité de traitement amont 30. Plus précisément, le premier module d’application 32 est par exemple connecté en sortie du troisième module de détermination 40. Le premier module d’application 32 est configuré pour appliquer un gain issu du premier module de détermination 30 au signal spatialement filtré pour obtenir un signal audio estimé .The first application module 32 is connected at the output of the first determination module 30 and at the output of the upstream processing unit 30. More precisely, the first application module 32 is for example connected at the output of the third determination module 40. The first application module 32 is configured to apply a gain from the first determination module 30 to the spatially filtered signal to obtain an estimated audio signal .

Le module de traitement aval 34 est connecté en sortie du premier module d’application 32. Le module de traitement aval 34 est configuré pour appliquer une transformée de Fourier inverse au signal audio estimé afin d’obtenir un signal audio temporel estimé . Le module de traitement aval 34 est avantageusement configuré pour appliquer une transformée de Fourier à court terme inverse au signal audio estimé .The downstream processing module 34 is connected to the output of the first application module 32. The downstream processing module 34 is configured to apply an inverse Fourier transform to the estimated audio signal to obtain an estimated temporal audio signal . The downstream processing module 34 is advantageously configured to apply an inverse short-term Fourier transform to the estimated audio signal .

Le module de traitement amont 36 est apte à être connecté aux microphones 16. Le module de traitement amont 36 est configuré pour recevoir M signaux acquis ( ) et leur appliquer une transformée de Fourier. Les signaux acquis appartenant au domaine discret, la transformée de Fourier est avantageusement une transformée de Fourier à court terme. Le module de traitement fréquentiel amont est alors configuré pour fournir en sortie M signaux fréquentiels ( ).The upstream processing module 36 is able to be connected to the microphones 16. The upstream processing module 36 is configured to receive M acquired signals ( ) and apply a Fourier transform to them. Since the signals acquired belong to the discrete domain, the Fourier transform is advantageously a short-term Fourier transform. The upstream frequency processing module is then configured to output M frequency signals ( ).

Le deuxième module de détermination 38 est connecté en sortie du module de traitement amont 36. Le deuxième module de détermination 38 est configuré pour déterminer la direction d’arrivée de la partie vocale dans le signal audio. Cette détermination est, par exemple, réalisée par maximisation de l’énergie reçue selon différentes directions ciblées. Afin de ne sélectionner que le signal provenant d’une direction ciblée , le deuxième module de détermination 38 est, par exemple, configuré pour filtrer chacun des signaux fréquentiels ( ) avec un gain spatial respectif, variant de 0 à M-1, par exemple selon la formule :The second determination module 38 is connected to the output of the upstream processing module 36. The second determination module 38 is configured to determine the direction of arrival of the vocal part in the audio signal. This determination is, for example, carried out by maximizing the energy received in different targeted directions. In order to select only the signal coming from a targeted direction , the second determination module 38 is, for example, configured to filter each of the frequency signals ( ) with spatial gain respective, varying from 0 to M-1, for example according to the formula:

est une matrice de cohérence d’un bruit diffus, ce qui est une approximation réaliste du bruit dans l’habitacle, etOr is a coherence matrix of diffuse noise, which is a realistic approximation of noise in the passenger compartment, and

est un vecteur directionnel vers la direction ciblée . is a directional vector to the targeted direction .

Le deuxième module de détermination 38 est configuré pour additionner les signaux résultant de l’application à chaque signal fréquentiel du gain spatial respectif pour obtenir un signal spatialement orienté vers la direction ciblée vérifiant la formule suivante :The second determination module 38 is configured to add the signals resulting from the application to each frequency signal of the respective spatial gain to obtain a spatially oriented signal towards the target direction verifying the following formula:

,Or ,

, et , And

désigne un vecteur complexe conjugué du vecteur . denotes a complex vector conjugate of the vector .

Le deuxième module de détermination 38 est configuré pour déterminer la direction d’arrivée de la partie vocale dans le signal audio, comme étant la direction ciblée pour laquelle l’énergie du signal spatialement orienté est maximale.The second determination module 38 is configured to determine the direction of arrival of the vocal part in the audio signal, as being the targeted direction for which the spatially oriented signal energy is maximum.

Le troisième module de détermination 40 est connecté en sortie du deuxième module de détermination 38 et en sortie du module de traitement amont 36. Le troisième module de détermination 40 est configuré pour calculer les filtres spatiaux ( ) tels que ceux définis par l’équation [Math 12], avec la direction d’arrivée de la partie vocale dans le signal audio comme direction ciblée . Le troisième module de détermination 40 est configuré pour déterminer le signal spatialement filtré par application, à chacun des signaux fréquentiels ( ) du gain spatial respectif et par addition des signaux obtenus après application des filtres spatiaux. La détermination du signal spatialement filtré est aussi connu sous le nom de formation de voies (de l’anglaisbeamforming).The third determination module 40 is connected at the output of the second determination module 38 and at the output of the upstream processing module 36. The third determination module 40 is configured to calculate the spatial filters ( ) such as those defined by the equation [Math 12], with the direction of arrival of the vocal part in the audio signal as the targeted direction . The third determination module 40 is configured to determine the spatially filtered signal by application, to each of the frequency signals ( ) of the respective spatial gain and by adding the signals obtained after application of the spatial filters. The determination of the spatially filtered signal is also known as beamforming .

Le deuxième module d’application 42 est connecté en sortie du deuxième module de détermination 38 et en sortie du module de traitement amont 36. Le deuxième module d’application 42 est configuré pour appliquer à chacun des signaux fréquentiels ( ) un délai de phase respectif de manière à obtenir les M signaux en phase ( ). En effet, de par la géométrie du réseau de microphones 16 et la direction d’arrivée , la partie vocale du signal audio n’atteint pas nécessairement chacun des microphones 16 au même instant temporel. Afin d’assurer la cohérence des signaux dans chacun des canaux, il est alors avantageux d’appliquer un délai de phase respectif à chacun des signaux fréquentiels ( ). Chacun de ces délais de phase est calculé à partir de la direction d’arrivée de la partie vocale dans le signal audio.The second application module 42 is connected at the output of the second determination module 38 and at the output of the upstream processing module 36. The second application module 42 is configured to apply to each of the frequency signals ( ) a respective phase delay so as to obtain the M signals in phase ( ). Indeed, by the geometry of the array of microphones 16 and the direction of arrival , the vocal part of the audio signal does not necessarily reach each of the microphones 16 at the same time instant. In order to ensure the coherence of the signals in each of the channels, it is then advantageous to apply a respective phase delay to each of the frequency signals ( ). Each of these phase delays is calculated from the direction of arrival of the vocal part in the audio signal.

Le fonctionnement du système de traitement de signaux audio 14, et en particulier du dispositif électronique de réduction du bruit 18 selon l’invention, va être à présent décrit en regard de la figure 2 représentant un organigramme du procédé, selon l’invention, de réduction du bruit dans le signal audio comprenant au moins la partie vocale et du bruit , le procédé étant mis en œuvre par le dispositif électronique de réduction du bruit 18.The operation of the audio signal processing system 14, and in particular of the electronic noise reduction device 18 according to the invention, will now be described with reference to FIG. 2 representing a flowchart of the method, according to the invention, of reduction of noise in the audio signal including at least the vocal part and noise , the method being implemented by the electronic noise reduction device 18.

Lors de l’étape initiale 100, le dispositif de réduction du bruit 18 reçoit, via le module de traitement amont 36, les M signaux acquis ( ).During the initial step 100, the noise reduction device 18 receives, via the upstream processing module 36, the M acquired signals ( ).

Lors d’une étape suivante 110, le dispositif de réduction du bruit 18 applique, via son module de traitement amont 36, une transformée de Fourier aux M signaux acquis ( ), produisant les M signaux fréquentiels ( ). L’obtention des signaux fréquentiels est préférentiellement réalisée par une transformée de Fourier à court terme.During a following step 110, the noise reduction device 18 applies, via its upstream processing module 36, a Fourier transform to the M acquired signals ( ), producing the M frequency signals ( ). The frequency signals are preferably obtained by a short-term Fourier transform.

Lors d’une étape suivante 120 optionnelle, le dispositif de réduction du bruit 18 détermine la direction d’arrivée de la partie vocale du signal audio, via son deuxième module de détermination 38. Cette détermination est effectuée en choisissant la direction d’arrivée maximisant l’énergie reçue. Pour cela, pour la direction ciblée , le gain spatial , variant de 0 à M-1, est calculé, par exemple via l’équation [Math 12]. Le signal spatialement orienté est déterminé à partir de l’application à chacun des signaux fréquentiels du gain spatial respectif, puis l’addition des signaux résultants de l’application des gains spatiaux. La direction d’arrivée de la partie vocale dans le signal audio est déterminée par maximisation sur la direction ciblée de l’énergie du signal spatialement orienté .During a next optional step 120, the noise reduction device 18 determines the direction of arrival of the vocal part of the audio signal, via its second determination module 38. This determination is made by choosing the direction of arrival maximizing the energy received. For this, for the targeted direction , the spatial gain , varying from 0 to M-1, is calculated, for example via the equation [Math 12]. The spatially oriented signal is determined from the application to each of the frequency signals of the respective spatial gain, then the addition of the signals resulting from the application of the spatial gains. The direction of arrival of the vocal part in the audio signal is determined by maximization on the targeted direction spatially oriented signal energy .

Le dispositif de réduction du bruit 18 passe ensuite aux étapes 130 et 135 optionnelles.The noise reduction device 18 then proceeds to optional steps 130 and 135.

Lors de l’étape 130, le dispositif de réduction du bruit 18 détermine le signal spatialement filtré , via son troisième module de détermination 40, à partir des signaux fréquentiels ( ) et de la direction d’arrivée de la partie vocale dans le signal audio. Le dispositif de réduction du bruit 18 détermine alors le signal spatialement filtré comme étant le signal spatialement orienté vers la direction d’arrivée . Le signal spatialement filtré est par exemple déterminé par application de l’équation (14) avec la direction d’arrivée comme direction ciblée pour le calcul des gains spatiaux.During step 130, the noise reduction device 18 determines the spatially filtered signal , via its third determination module 40, from the frequency signals ( ) and the direction of arrival of the vocal part in the audio signal. The noise reduction device 18 then determines the spatially filtered signal to be the spatially oriented signal towards the direction of arrival . The spatially filtered signal is for example determined by applying equation (14) with the direction of arrival as target direction for calculating spatial gains.

Lors de l’étape 135, le dispositif de réduction du bruit 18 applique, via son troisième module d‘application 42, un délai de phase respectif à chacun des signaux fréquentiels de manière à obtenir les M signaux en phase ( ).During step 135, the noise reduction device 18 applies, via its third application module 42, a respective phase delay to each of the frequency signals so as to obtain the M signals in phase ( ).

Lors d’une étape suivante 140 optionnelle, le dispositif de réduction du bruit 18 détecte, via son module de détection 22, une activité vocale. Le module de détection 28 estime par exemple la probabilité de présence de la partie vocale dans le signal audio. Cette détection est avantageusement réalisée à partir du signal spatialement filtré . En variante, La détection d’activité vocale peut être améliorée par un algorithme de reconnaissance d’images.During a next optional step 140, the noise reduction device 18 detects, via its detection module 22, voice activity. The detection module 28 estimates for example the probability presence of the vocal part in the audio signal. This detection is advantageously carried out from the spatially filtered signal . Alternatively, voice activity detection can be enhanced by an image recognition algorithm.

Le dispositif de réduction du bruit 18 estime ensuite, lors de l’étape 150, la densité spectrale de puissance de la partie vocale et la densité spectrale de puissance , du bruit , via son module d’estimation 24, à partir des bruits de référence ( ), du signal spatialement filtré et des signaux en phase ( ).The noise reduction device 18 then estimates, during step 150, the power spectral density of the vocal part and the power spectral density , noise , via its estimation module 24, from the reference noises ( ), of the spatially filtered signal and in-phase signals ( ).

Les bruits de référence ( ) sont estimés à partir des signaux en phase ( ) et du signal spatialement filtré via la matrice de blocage . L’estimation des bruits de référence ( ) est, par exemple réalisée, selon les équations (1) et (2).The reference noises ( ) are estimated from the in-phase signals ( ) and the spatially filtered signal via blocking matrix . The estimate of the reference noises ( ) is, for example, carried out according to equations (1) and (2).

Ensuite, toujours lors de l’étape 150, le dispositif de réduction du bruit 18 estime, via le module d’estimation 24, une densité de puissance de l’ensemble des bruits de référence ( ) et une densité de puissance de l’ensemble des signaux en phase ( ), par exemple via l’équation (3). Enfin, le module d’estimation 24, estime la densité spectrale de puissance de la partie vocale et la densité spectrale de puissance du bruit à l’aide des premier et deuxième coefficients et , par exemple selon l’équation (4).Then, still during step 150, the noise reduction device 18 estimates, via the estimation module 24, a power density of the set of reference noises ( ) and a power density of the set of in-phase signals ( ), for example via equation (3). Finally, the estimation module 24 estimates the power spectral density of the vocal part and the power spectral density noise using the first and second coefficients And , for example according to equation (4).

En complément facultatif, lors de l’étape 150, si la probabilité de présence de la partie vocale dans le signal audio est supérieure au premier seuil, les coefficients de la matrice de blocage sont adaptés de manière à obtenir l’ensemble de bruits de référence ( ) dans lequel l’amplitude de la partie vocale est réduite au minimum.As an optional addition, during step 150, if the probability presence of the vocal part in the audio signal is greater than the first threshold, the coefficients of the blocking matrix are adapted so as to obtain the set of reference noises ( ) in which the amplitude of the vocal part is reduced to a minimum.

En complément facultatif, lors de l’étape 150, si la probabilité de présence de la partie vocale dans le signal audio est inférieure au second seuil, le deuxième coefficient est estimé de manière à ce que la densité spectrale de puissance de l’ensemble des bruits de références ( ) corresponde à la densité spectrale de puissance de l’ensemble des signaux en phase ( ). De même, le premier coefficient est estimé de manière à ce que la densité spectrale de puissance de l’ensemble des bruits de références ( ) corresponde à la densité spectrale de puissance du signal spatialement filtré .As an optional addition, during step 150, if the probability presence of the vocal part in the audio signal is less than the second threshold, the second coefficient is estimated such that the power spectral density of the set of reference noises ( ) corresponds to the power spectral density of the set of in-phase signals ( ). Similarly, the first coefficient is estimated such that the power spectral density of the set of reference noises ( ) corresponds to the power spectral density of the spatially filtered signal .

Le dispositif de réduction du bruit 18 calcule ensuite, lors de l’étape 160 et via son premier module de calcul 26, le rapport signal sur bruit a posteriori et le rapport signal sur bruit a priori . Le calcul du rapport signal sur bruit a posteriori est effectué à partir de la densité spectrale de puissance de la partie vocale et de la densité spectrale de puissance du bruit , préalablement estimées lors de l’étape 150. Ce calcul est réalisé, par exemple, à l’aide de l’équation (5). Le calcul du rapport signal sur bruit a priori est quant à lui, effectué à partir du rapport signal sur bruit a posteriori de l’indice de trame temporelle en cours , du rapport signal sur bruit a posteriori de l’indice de trame temporelle précédent , d’un coefficient prédéfini de lissage , et d’une partie du gain calculé lors de l’étape 170 à la trame précédent . Le rapport signal sur bruit a priori est par exemple calculé suivant l’équation (6).The noise reduction device 18 then calculates, during step 160 and via its first calculation module 26, the signal-to-noise ratio a posteriori and the a priori signal-to-noise ratio . The calculation of the signal-to-noise ratio a posteriori is performed from the power spectral density of the vocal part and power spectral density noise , previously estimated during step 150. This calculation is performed, for example, using equation (5). The calculation of the a priori signal-to-noise ratio is itself made from the signal-to-noise ratio a posteriori current time frame index , of the a posteriori signal-to-noise ratio of the previous time frame index , a predefined smoothing coefficient , and part of the gain calculated during step 170 at the previous frame . The a priori signal-to-noise ratio is for example calculated according to equation (6).

Le dispositif de réduction du bruit 18 calcule ensuite, lors de l’étape 170 et via son deuxième module de calcul 28, le gain OM-LSA à partir du rapport signal sur bruit a posteriori , du rapport signal sur bruit a priori et de la probabilité de présence de la partie vocale dans le signal audio.The noise reduction device 18 then calculates, during step 170 and via its second calculation module 28, the OM-LSA gain from the a posteriori signal-to-noise ratio , of the a priori signal-to-noise ratio and the probability presence of the vocal part in the audio signal.

Le gain OM-LSA , comporte préférentiellement et comme présenté dans l’équation (7) un gain minimum constant prédéfini, idéalement appliqué lorsque le signal audio ne comporte pas de partie vocale. Le gain OM-LSA comporte également le gain variable calculé, par exemple, selon l’équation (8). Ce gain variable est idéalement appliqué uniquement lorsque le signal audio comporte une partie vocale d’amplitude non-nulle.The OM-LSA gain , preferentially comprises and as presented in equation (7) a predefined constant minimum gain, ideally applied when the audio signal does not comprise a vocal part. The OM-LSA gain also includes the variable gain calculated, for example, according to equation (8). This variable gain is ideally applied only when the audio signal includes a vocal part of non-zero amplitude.

Le dispositif de réduction du bruit 18 passe ensuite à l’étape 180 lors de laquelle il détermine un gain lissé via son premier module de détermination 30, à partir du gain OM-LSA et le probabilité de présence de la partie vocale dans le signal audio.Noise reduction device 18 then proceeds to step 180 where it determines a smoothed gain via its first determination module 30, from the OM-LSA gain and the probability presence of the vocal part in the audio signal.

Pour ce faire, le procédé calcul le cepstre du gain OM-LSA selon l’équation (9). Le procédé détermine ensuite un cepstre lissé à partir du cepstre du gain OM-LSA selon l’équation (10). Le paramètre de lissage varie entre 0 et 1 en fonction de l’indice cepstral de manière à accroître le lissage pour les indices fréquentiels et temporels dans lesquels la partie vocale n’est pas présente dans le signal audio. La valeur de est donc déterminée à partir, ou en tenant compte, de la probabilité de présence de la partie vocale dans le signal audio. Le dispositif de réduction du bruit 18 passe alors à une étape suivante 200.To do this, the method calculates the cepstrum of the OM-LSA gain according to equation (9). The method then determines a smoothed cepstrum from the OM-LSA gain cepstrum according to equation (10). The smoothing parameter varies between 0 and 1 as a function of the cepstral index so as to increase the smoothing for the frequency and temporal indices in which the vocal part is not present in the audio signal. The value of is therefore determined from, or taking into account, the probability presence of the vocal part in the audio signal. The noise reduction device 18 then goes to a next step 200.

Lors de l’étape 200, le dispositif de réduction du bruit 18 applique, via son deuxième module d’application 40, au signal spatialement filtré , le gain lissé fourni afin d’obtenir un signal audio estimé .During step 200, the noise reduction device 18 applies, via its second application module 40, to the spatially filtered signal , the smoothed gain provided to obtain an estimated audio signal .

Le signal audio estimé comporte la partie vocale du signal audio et un bruit rémanent . L’amplitude du bruit rémanent est alors nettement plus faible que celle du bruit dans le signal audio en entrée du dispositif de réduction du bruit 18.The estimated audio signal includes the vocal part audio signal and residual noise . The amplitude of the residual noise is then significantly lower than that of the noise in the audio signal at the input of the noise reduction device 18.

A l’issue de l’étape 200, le dispositif de réduction du bruit 18 traite, via son module de traitement aval 42 et lors d’une étape 210, le signal audio estimé par transformée de Fourier inverse pour obtenir un signal audio temporel estimé . La transformée de Fourier inverse est avantageusement une transformée de Fourier à court terme inverse.At the end of step 200, the noise reduction device 18 processes, via its downstream processing module 42 and during a step 210, the estimated audio signal by inverse Fourier transform to obtain an estimated temporal audio signal . The inverse Fourier transform is advantageously an inverse short-term Fourier transform.

Le traitement réalisé par l’unité de traitement amont 20 tire profit de l’acquisition multicanale du signal audio. Ce traitement permet, à partir de plusieurs signaux acquis ( ), de déterminer un signal spatialement filtré dont l’amplitude du bruit restant est plus faible que dans chacun des signaux acquis.The processing carried out by the upstream processing unit 20 takes advantage of the multichannel acquisition of the audio signal. This processing allows, from several acquired signals ( ), to determine a spatially filtered signal whose remaining noise amplitude is lower than in each of the acquired signals.

La détermination du signal spatialement filtré et l’utilisation des signaux fréquentiels alignés en phase ( ) permettent une meilleure estimation de la densité spectrale de puissance de la partie vocale et de la densité spectrale de puissance du bruit . Cette meilleure estimation conduit via le rapport signal sur bruit a priori et le rapport signal sur bruit a posteriori , au calcul d’un gain OM-LSA plus adapté au traitement du signal audio.The determination of the spatially filtered signal and the use of phase-aligned frequency signals ( ) allow a better estimation of the power spectral density of the vocal part and power spectral density noise . This best estimate leads via the a priori signal-to-noise ratio and the signal-to-noise ratio a posteriori , to the calculation of an OM-LSA gain more suited to the processing of the audio signal.

La est une schématisation de l’effet du gain OM-LSA sur un signal bruité (signal 300 en trait plein). En effet, le niveau de bruit est nettement plus faible grâce à l’algorithme OM-LSA (signal 310 en trait pointillé). De plus, la partie vocale est mise en exergue grâce au traitement OM-LSA.There is a diagram of the effect of the OM-LSA gain on a noisy signal (signal 300 in solid line). Indeed, the noise level is markedly lower thanks to the OM-LSA algorithm (signal 310 in dotted line). In addition, the vocal part is highlighted thanks to the OM-LSA processing.

La montre le résultat d’un essai réalisé au sein d’un véhicule automobile à une vitesse de 250km/h avec une partie vocale émise dans l’habitacle du véhicule. La comporte 3 spectrogrammes du signal audio selon les traitements qui lui sont appliqués. Chaque spectrogramme représente l’amplitude d’un signal en fonction d’un temps sur l’axe horizontal et d’une fréquence sur l’axe vertical. Le temps est compté en numérotation d’échantillons temporels successifs. L’amplitude du signal est représentée en niveau de gris, avec la convention que plus l’amplitude est faible, plus le ton est sombre, et corollairement plus l’amplitude est élevée, plus le ton est clair.There shows the result of a test carried out in a motor vehicle at a speed of 250 km/h with a vocal part emitted in the passenger compartment of the vehicle. There includes 3 spectrograms of the audio signal according to the processing applied to it. Each spectrogram represents the amplitude of a signal as a function of time on the horizontal axis and of frequency on the vertical axis. Time is counted by numbering successive time samples. The amplitude of the signal is represented in gray level, with the convention that the lower the amplitude, the darker the tone, and as a corollary, the higher the amplitude, the brighter the tone.

Sur chacune des vues, pour une même plage d’échantillons temporels, un même motif clair est visible à différentes fréquences. Ce motif représente une partie vocale . L’homme du métier reconnaitra alors que la présence de la partie vocale à plusieurs fréquences est liée aux différentes harmoniques de la voix. Le fond sombre de chaque spectrogramme correspond au bruit .On each of the views, for the same range of time samples, the same clear pattern is visible at different frequencies. This pattern represents a vocal part . A person skilled in the art will then recognize that the presence of the vocal part at several frequencies is related to the different harmonics of the voice. The dark background of each spectrogram corresponds to the noise .

Ainsi, un critère de comparaison entre les différentes vues, en termes de rapport signal sur bruit, est la capacité à distinguer les motifs clairs parmi le fond sombre.Thus, a comparison criterion between the different views, in terms of signal-to-noise ratio, is the ability to distinguish the light patterns from the dark background.

La vue 400 est un spectrogramme du signal audio en entrée du dispositif de réduction du bruit 18, la vue 410 est un spectrogramme du signal audio traité par un procédé monocanal similaire à celui du document US 7953596 B2 de l’état de la technique, et la vue 420 est un spectrogramme du même signal audio traité par le procédé selon l’invention.View 400 is a spectrogram of the audio signal at the input of the noise reduction device 18, view 410 is a spectrogram of the audio signal processed by a single-channel method similar to that of document US 7953596 B2 of the state of the art, and view 420 is a spectrogram of the same audio signal processed by the method according to the invention.

La figure 4 montre alors que le signal audio en entrée du dispositif de réduction du bruit 18 est fortement bruité, le bruit et la partie vocale ayant des amplitudes très similaires, puisqu’ils sont représentés par des nuances de gris très proches sur la vue 410. La distinction entre le bruit et la partie vocale est alors difficile, et le rapport signal sur bruit, c’est-à-dire partie vocale sur bruit, est faible.FIG. 4 then shows that the audio signal at the input of the noise reduction device 18 is highly noisy, the noise and the vocal part having very similar amplitudes, since they are represented by very close shades of gray on view 410. The distinction between noise and the vocal part is then difficult, and the signal-to-noise ratio, that is to say vocal part to noise, is low.

La vue 420 illustre l’amélioration de la qualité du signal après traitement par un procédé analogue à celui de l’état de la technique. En effet, le bruit est atténué, sa représentation est plus sombre tandis que la représentation de la partie vocale est plus claire donnant plus de contraste au spectrogramme. Ceci se traduit en pratique par une meilleure capacité à distinguer la partie vocale du bruit dans le signal audio, et donc par un meilleur rapport signal sur bruit. Certaines harmoniques de la partie vocale restent néanmoins difficiles à distinguer du bruit, notamment pour une plage d’échantillons temporels comprise entre 520 et 550 et une fréquence comprise 3200 Hz et 3800 Hz.View 420 illustrates the improvement in the quality of the signal after processing by a method analogous to that of the state of the art. In fact, the noise is attenuated, its representation is darker while the representation of the vocal part is brighter giving more contrast to the spectrogram. This translates in practice into a better ability to distinguish the vocal part noise in the audio signal, and therefore by a better signal-to-noise ratio. Certain harmonics of the vocal part nevertheless remain difficult to distinguish from the noise, in particular for a range of time samples between 520 and 550 and a frequency between 3200 Hz and 3800 Hz.

La vue 430 démontre l’amélioration liée au procédé selon l’invention dans la réduction du bruit vis-à-vis de celui de l’état de la technique. En effet, le bruit est fortement atténué, sa représentation est presque noire alors que la partie vocale est mise en exergue. Le rapport signal sur bruit est donc encore amélioré. Ainsi, le contraste est bien meilleur que dans les vues 410 et 420. En effet, certaines harmoniques de la partie vocale indétectables dans la vue 420, le sont sur la vue 430.View 430 demonstrates the improvement linked to the method according to the invention in the reduction of noise compared to that of the state of the art. In fact, the noise is strongly attenuated, its representation is almost black while the vocal part is highlighted. The signal-to-noise ratio is therefore further improved. Thus, the contrast is much better than in views 410 and 420. Indeed, certain harmonics of the vocal part undetectable in view 420, are on view 430.

La représente des courbes 500 et 510 du niveau de bruit résiduel après la réduction de bruit, dans les mêmes conditions que celles de la . Un signal audio comprend une partie utile dont la fréquence varie entre 100 Hz et 10 kHz, et du bruit dû à l’environnement du véhicule. Ce signal audio est traité, par un procédé analogue à celui du document US 7953596 B2 de l’état de la technique illustré via la courbe 510 en trait gras, et par le procédé selon l’invention illustré via la courbe en trait plein 500. Le résultat montre que l’atténuation du bruit est systématiquement meilleure avec le procédé selon l’invention pour des fréquences supérieures à 200 Hz. Ainsi l’atténuation du bruit est nettement meilleure pour toutes les fréquences du spectre de la parole.There represents curves 500 and 510 of the residual noise level after the noise reduction, under the same conditions as those of the . An audio signal comprises a useful part whose frequency varies between 100 Hz and 10 kHz, and noise due to the environment of the vehicle. This audio signal is processed by a method similar to that of document US 7953596 B2 of the state of the art illustrated via the curve 510 in bold line, and by the method according to the invention illustrated via the curve in solid line 500. The result shows that the noise attenuation is systematically better with the method according to the invention for frequencies above 200 Hz. Thus the noise attenuation is markedly better for all the frequencies of the speech spectrum.

En complément facultatif, la détermination de la direction d’arrivée est réalisée tout au long du procédé, et permet alors de prendre en compte plusieurs sources de parole dans l’habitacle, ou une source de parole mobile.As an optional addition, the determination of the direction of arrival is carried out throughout the process, and then makes it possible to take into account several speech sources in the passenger compartment, or a mobile speech source.

En complément facultatif, la réévaluation des coefficients de la matrice de blocage et des premier et deuxième coefficients et permet au gain OM-LSA de s’adapter au bruit dont la fréquence et l’amplitude sont susceptibles de fortement varier au cours du temps.In addition optional, the revaluation of the coefficients of the matrix of blocking and first and second coefficients And allows the OM-LSA gain to adapt to noise whose frequency and amplitude are likely to vary greatly over time.

La détermination d’un gain lissé par le premier module de détermination 30 permet de prévenir du bruit musical susceptible d’apparaître lorsque la réduction du bruit est trop forte.The determination of a smoothed gain by the first determination module 30 makes it possible to prevent musical noise likely to appear when the noise reduction is too strong.

La détermination d’un gain lissé par le premier module de détermination 30 par utilisation de la transformée cepstrale permet de conserver le timbre de la partie vocale fournissant ainsi une meilleure expérience utilisateur.The determination of a smoothed gain by the first determination module 30 by use of the cepstral transform makes it possible to preserve the timbre of the vocal part, thus providing a better user experience.

On conçoit que le dispositif électronique de réduction du bruit 18, et le procédé de réduction du bruit associé, permettent une meilleure atténuation du bruit que les dispositifs et procédés de l’état de la technique, en tirant profit de l’acquisition du signal audio par plusieurs microphones 16.It is understood that the electronic noise reduction device 18, and the associated noise reduction method, allow better noise attenuation than the devices and methods of the state of the art, by taking advantage of the acquisition of the audio signal by several microphones 16.

Claims (10)

Procédé de réduction du bruit dans un signal audio, le signal audio comprenant au moins un bruit ( ) et une partie vocale ( ), le signal audio étant apte à être reçu par M microphones (16) sous forme de M signaux acquis ( ), où est un indice temporel discret et M est un nombre entier supérieur ou égal à 2,
le procédé étant mis en œuvre par un dispositif électronique de réduction du bruit dans un signal audio (18) et comprenant les étapes suivantes :
- traitement (110) des signaux acquis avec application d’une transformée de Fourier aux signaux acquis ( ) pour obtenir M signaux fréquentiels ( ) où est un indice fréquentiel et est un indice de trame temporelle,
- estimation (150) d’une densité spectrale de puissance ( ) de la partie vocale ( ) et d’une densité spectrale de puissance ( ) du bruit ( à partir de signaux représentatifs des signaux fréquentiels,
- calcul (160) d’un rapport signal sur bruit a posteriori ( ) du signal audio et d’un rapport signal sur bruit a priori ( ) du signal audio, à partir des densités spectrales de puissance estimées,
- calcul (170) d’un gain OM-LSA ( ) à partir du rapport signal sur bruit a posteriori ( ) et du rapport signal sur bruit a priori ( ),
- application (200) du gain OM-LSA ( ) à un des signaux représentatifs des signaux fréquentiels ( ) pour obtenir un signal audio estimé ( ), le signal audio estimé ( ) comportant la partie vocale ( ) du signal audio et un bruit rémanent ( , le bruit rémanent ( ) ayant une plus faible amplitude que celle du bruit ( dans le signal audio.
A method of reducing noise in an audio signal, the audio signal comprising at least one noise ( ) and a vocal part ( ), the audio signal being capable of being received by M microphones (16) in the form of M acquired signals ( ), Or is a discrete time index and M is an integer greater than or equal to 2,
the method being implemented by an electronic device for reducing noise in an audio signal (18) and comprising the following steps:
- processing (110) of the acquired signals with application of a Fourier transform to the acquired signals ( ) to obtain M frequency signals ( ) Or is a frequency index and is a time frame index,
- estimation (150) of a power spectral density ( ) of the vocal part ( ) and a power spectral density ( ) noise ( from signals representative of the frequency signals,
- calculation (160) of a signal-to-noise ratio a posteriori ( ) of the audio signal and an a priori signal-to-noise ratio ( ) of the audio signal, from the estimated power spectral densities,
- calculation (170) of an OM-LSA gain ( ) from the a posteriori signal-to-noise ratio ( ) and the a priori signal-to-noise ratio ( ),
- application (200) of the OM-LSA gain ( ) to one of the signals representative of the frequency signals ( ) to obtain an estimated audio signal ( ), the estimated audio signal ( ) including the vocal part ( ) of the audio signal and a residual noise ( , the residual noise ( ) having a lower amplitude than that of the noise ( in the audio signal.
Procédé selon la revendication 1, dans lequel la partie vocale ( ) présente une probabilité ( ) de présence dans le signal audio, la probabilité ( ) étant estimée pour chaque indice fréquentiel et pour chaque indice de trame temporelle , et
lors de l’étape de calcul (170) du gain OM-LSA, le gain OM-LSA ( ) est calculé à partir du rapport signal sur bruit a posteriori ( ), du rapport signal sur bruit a priori ( ) et de la probabilité de présence ( ) de la partie vocale ( ).
A method according to claim 1, wherein the vocal part ( ) has a probability ( ) of presence in the audio signal, the probability ( ) being estimated for each frequency index and for each time frame index , And
during the calculation step (170) of the OM-LSA gain, the OM-LSA gain ( ) is calculated from the a posteriori signal-to-noise ratio ( ), the a priori signal-to-noise ratio ( ) and the probability of presence ( ) of the vocal part ( ).
Procédé selon la revendication 2, dans lequel le procédé comprend, entre l’étape de calcul (170) d’un gain OM-LSA et l’étape d’application (200), une étape (190) de détermination d’un gain lissé à partir du gain OM-LSA et de la probabilité de présence ( ) de la partie vocale dans le signal audio,
ladite étape de détermination (190) comportant :
- une transformation cepstrale du gain OM-LSA produisant un cepstre du gain OM-LSA ( ), où est un indice cepstral,
- un calcul d’un cepstre lissé ( ) à partir du cepstre du gain OM-LSA ( ) et d’un coefficient de lissage dépendant de l’indice cepstral ( ), le coefficient de lissage étant dépendant de la probabilité ( ) de présence de la partie vocale ( ) dans le signal audio,
lors de l’étape d’application (200), le gain lissé étant alors appliqué à l’un des signaux représentatifs des signaux fréquentiels pour obtenir le signal audio estimé ( ).
A method according to claim 2, wherein the method comprises, between the step of calculating (170) an OM-LSA gain and the step of applying (200), a step (190) of determining an smooth from OM-LSA gain and the probability of presence ( ) of the vocal part in the audio signal,
said determining step (190) comprising:
- a cepstral transformation of the OM-LSA gain producing a cepstrum of the OM-LSA gain ( ), Or is a cepstral index,
- a calculation of a smooth cepstrum ( ) from the OM-LSA gain cepstrum ( ) and a smoothing coefficient depending on the cepstral index ( ), the smoothing coefficient being dependent on the probability ( ) presence of the vocal part ( ) in the audio signal,
during the application step (200), the smoothed gain then being applied to one of the signals representative of the frequency signals to obtain the estimated audio signal ( ).
Procédé selon la revendication 3, dans lequel lors de l’étape de détermination (190), un indice cepstrale vocale ( ) correspondant à une fréquence fondamentale de la partie vocale ( ) est estimé à partir de la probabilité ( ) de présence de la partie vocale ( ), le paramètre de lissage étant proche de 0 pour :
- les indices cepstraux inférieurs à un seuil cepstral, et
- pour les indices cepstraux ( ), ( ), et ( ),
le paramètre de lissage étant proche de 1 pour tout autres indices cepstraux.
A method according to claim 3, wherein in the step of determining (190), a cepstral vocal index ( ) corresponding to a fundamental frequency of the vocal part ( ) is estimated from the probability ( ) presence of the vocal part ( ), the smoothing parameter being close to 0 for:
- cepstral indices below a cepstral threshold, and
- for the cepstral indices ( ), ( ), And ( ),
the smoothing parameter being close to 1 for all other cepstral indices.
Procédé selon l’une quelconque des revendications précédentes, dans lequel le procédé comprend en outre, entre l’étape de traitement (110) et l’étape de d’estimation (150), une étape de détermination (120) d’une direction d’arrivée ( ) de la partie vocale ( ) du signal audio, à partir des signaux fréquentiels ( ), et
dans lequel les signaux représentatifs des signaux fréquentiels ( ) comportent un signal spatialement filtré ( ) obtenu par application de filtres de formation de voies relatifs à la direction d’arrivée ( ) aux signaux fréquentiels ( .
A method according to any preceding claim, wherein the method further comprises, between the step of processing (110) and the step of estimating (150), a step of determining (120) a direction of arrival ( ) of the vocal part ( ) of the audio signal, from the frequency signals ( ), And
wherein the signals representative of the frequency signals ( ) include a spatially filtered signal ( ) obtained by applying lane formation filters relative to the direction of arrival ( ) to frequency signals ( .
Procédé selon la revendication 5, dans lequel les signaux représentatifs des signaux fréquentiels comportent M signaux en phase ( ) obtenus par application, à chacun des M signaux fréquentiels ( ), d’un délai de phase respectif, les délais de phase étant déterminés en fonction de la direction d’arrivée ( ) de la partie vocale ( ) du signal audio.Method according to Claim 5, in which the signals representative of the frequency signals comprise M signals in phase ( ) obtained by application, to each of the M frequency signals ( ), a respective phase delay, the phase delays being determined according to the direction of arrival ( ) of the vocal part ( ) of the audio signal. Procédé selon la revendication 6, dans lequel, lors de l’étape d’estimation, la densité spectrale de puissance ( ) de la partie vocale ( ) et la densité spectrale de puissance ( ) du bruit ( ) sont estimées à partir de M bruits de référence ( ), déterminés par application aux signaux en phase ( ), d’une matrice ( ) de blocage de la partie vocale ( ), la matrice de blocage ( ) dépendant du signal spatialement filtré ( ) et des M signaux en phase ( ).A method as claimed in claim 6, wherein in the step of estimating the power spectral density ( ) of the vocal part ( ) and the power spectral density ( ) noise ( ) are estimated from M reference noises ( ), determined by application to the in-phase signals ( ), a matrix ( ) blocking of the vocal part ( ), the blocking matrix ( ) depending on the spatially filtered signal ( ) and M in-phase signals ( ). Procédé selon la revendication 7, dans lequel, lors de l’étape d’estimation (150), une densité spectrale de puissance de l’ensemble des bruits de référence ( ) et une densité spectrale de l’ensemble des signaux en phase sont estimées ( ), puis la densité spectrale de puissance de la partie vocale ( ) et la densité spectrale de puissance du bruit ( ) sont chacune estimées à partir de la densité spectrale de puissance de l’ensemble des bruits de référence ( ) et de la densité spectrale de puissance de l’ensemble des signaux en phase ( ).A method according to claim 7, wherein in the step of estimating (150), a power spectral density of the set of reference noises ( ) and a spectral density of all in-phase signals are estimated ( ), then the power spectral density of the vocal part ( ) and the noise power spectral density ( ) are each estimated from the power spectral density of the set of reference noises ( ) and the power spectral density of all in-phase signals ( ). Programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé selon l’une quelconque des revendications précédentes.A computer program comprising software instructions which, when executed by a computer, implement a method according to any preceding claim. Dispositif électronique de réduction du bruit (18) dans un signal audio, le signal audio comprenant au moins un bruit ( ) et une partie vocale ( ), le signal audio étant apte à être reçu par M microphones (16) sous forme de M signaux acquis ( ), où est un indice temporel discret et M est un nombre entier supérieur ou égal à 2, le dispositif (18) étant apte à être connecté aux M microphones (16), le dispositif (18) comprenant :
- un module de traitement (36) configuré pour appliquer une transformée de Fourier aux signaux acquis ( ) pour obtenir M signaux fréquentiels ( ), où est un indice fréquentiel et est un indice de trame temporelle,
- un module d’estimation (24) configuré pour estimer une densité spectrale de puissances ( ) de la partie vocale ( ) et une densité spectrale de puissance ( ) du bruit ( ) à partir de signaux représentatifs des signaux fréquentiels ( ),
- un premier module de calcul (26) configuré pour calculer un rapport signal sur bruit a posteriori ( ) du signal audio et un rapport signal sur bruit a priori ( ) du signal audio à partir des densités spectrales de puissance estimées,
- un deuxième module de calcul (28) configuré pour calculer un gain OM-LSA ( ) à partir du rapport signal sur bruit a posteriori ( ), du rapport signal sur bruit a priori ( ), et
- un module d’application (32) configuré pour appliquer le gain OM-LSA ( ) à un des signaux représentatifs des signaux fréquentiels ( ) pour obtenir un signal audio estimé ( ), le signal audio estimé comportant la partie vocale ( ) du signal audio et un bruit rémanent ( , le bruit rémanent ayant une plus faible amplitude que celle du bruit ( dans le signal audio.
An electronic device for reducing noise (18) in an audio signal, the audio signal comprising at least one noise ( ) and a vocal part ( ), the audio signal being capable of being received by M microphones (16) in the form of M acquired signals ( ), Or is a discrete time index and M is an integer greater than or equal to 2, the device (18) being able to be connected to the M microphones (16), the device (18) comprising:
- a processing module (36) configured to apply a Fourier transform to the acquired signals ( ) to obtain M frequency signals ( ), Or is a frequency index and is a time frame index,
- an estimation module (24) configured to estimate a power spectral density ( ) of the vocal part ( ) and a power spectral density ( ) noise ( ) from signals representative of the frequency signals ( ),
- a first calculation module (26) configured to calculate a signal-to-noise ratio a posteriori ( ) of the audio signal and an a priori signal-to-noise ratio ( ) of the audio signal from the estimated power spectral densities,
- a second calculation module (28) configured to calculate an OM-LSA gain ( ) from the a posteriori signal-to-noise ratio ( ), the a priori signal-to-noise ratio ( ), And
- an application module (32) configured to apply the OM-LSA gain ( ) to one of the signals representative of the frequency signals ( ) to obtain an estimated audio signal ( ), the estimated audio signal comprising the vocal part ( ) of the audio signal and a residual noise ( , the remanent noise having a lower amplitude than that of the noise ( in the audio signal.
FR2008572A 2020-08-19 2020-08-19 Method and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product Active FR3113537B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR2008572A FR3113537B1 (en) 2020-08-19 2020-08-19 Method and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2008572 2020-08-19
FR2008572A FR3113537B1 (en) 2020-08-19 2020-08-19 Method and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product

Publications (2)

Publication Number Publication Date
FR3113537A1 true FR3113537A1 (en) 2022-02-25
FR3113537B1 FR3113537B1 (en) 2022-09-02

Family

ID=73698987

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2008572A Active FR3113537B1 (en) 2020-08-19 2020-08-19 Method and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product

Country Status (1)

Country Link
FR (1) FR3113537B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060222184A1 (en) * 2004-09-23 2006-10-05 Markus Buck Multi-channel adaptive speech signal processing system with noise reduction
US7953596B2 (en) 2006-03-01 2011-05-31 Parrot Societe Anonyme Method of denoising a noisy signal including speech and noise components

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060222184A1 (en) * 2004-09-23 2006-10-05 Markus Buck Multi-channel adaptive speech signal processing system with noise reduction
US7953596B2 (en) 2006-03-01 2011-05-31 Parrot Societe Anonyme Method of denoising a noisy signal including speech and noise components

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BREITHAUPT C ET AL: "Cepstral Smoothing of Spectral Filter Gains for Speech Enhancement Without Musical Noise", IEEE SIGNAL PROCESSING LETTERS, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 14, no. 12, 1 December 2007 (2007-12-01), pages 1036 - 1039, XP011194896, ISSN: 1070-9908, DOI: 10.1109/LSP.2007.906208 *
C. BREITHAUPT: "Cepstral Smoothing of Spectral Filter Gains for Speech Enhancement Without Musical Noise", EEE SIGNAL PROCESSING LETTERS, vol. 14, no. 12, 12 December 2007 (2007-12-12), XP011194896, DOI: 10.1109/LSP.2007.906208
CHANG DAH-CHUNG ET AL: "Adaptive Generalized Sidelobe Canceler Beamforming With Time-Varying Direction-of-Arrival Estimation for Arrayed Sensors", IEEE SENSORS JOURNAL, IEEE SERVICE CENTER, NEW YORK, NY, US, vol. 20, no. 8, 25 December 2019 (2019-12-25), pages 4403 - 4412, XP011779207, ISSN: 1530-437X, [retrieved on 20200317], DOI: 10.1109/JSEN.2019.2962215 *
COHEN I: "Multichannel Post-Filtering in Nonstationary Noise Environments", IEEE TRANSACTIONS ON SIGNAL PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, US, vol. 52, no. 5, 1 May 2004 (2004-05-01), pages 1149 - 1160, XP011110519, ISSN: 1053-587X, DOI: 10.1109/TSP.2004.826166 *

Also Published As

Publication number Publication date
FR3113537B1 (en) 2022-09-02

Similar Documents

Publication Publication Date Title
EP2309499B1 (en) Method for optimised filtering of non-stationary interference captured by a multi-microphone audio device, in particular a hands-free telephone device for an automobile.
EP1789956B1 (en) Method of processing a noisy sound signal and device for implementing said method
EP2293594B1 (en) Method for filtering lateral non stationary noise for a multi-microphone audio device
EP1830349B1 (en) Method of noise reduction of an audio signal
EP1356461B1 (en) Noise reduction method and device
EP2538409B1 (en) Noise reduction method for multi-microphone audio equipment, in particular for a hands-free telephony system
EP2057835B1 (en) Method of reducing the residual acoustic echo after echo removal in a hands-free device
EP2430825B1 (en) Method for selecting a microphone among a plurality of microphones in a speech processing system such as a hands-free telephone device operating in a noisy environment
EP2772916B1 (en) Method for suppressing noise in an audio signal by an algorithm with variable spectral gain with dynamically adaptive strength
EP0918317B1 (en) Frequency filtering method using a Wiener filter applied to noise reduction of audio signals
FR2831717A1 (en) INTERFERENCE ELIMINATION METHOD AND SYSTEM FOR MULTISENSOR ANTENNA
FR2883656A1 (en) CONTINUOUS SPEECH TREATMENT USING HETEROGENEOUS AND ADAPTED TRANSFER FUNCTION
FR3012928A1 (en) MODIFIERS BASED ON EXTERNALLY ESTIMATED SNR FOR INTERNAL MMSE CALCULATIONS
EP0998166A1 (en) Device for audio processing,receiver and method for filtering the wanted signal and reproducing it in presence of ambient noise
FR2729804A1 (en) ACOUSTIC ECHO CANCELLER WITH ADAPTIVE FILTER AND PASSAGE IN THE FREQUENTIAL DOMAIN
FR3012929A1 (en) SPEECH PROBABILITY PRESENCE MODIFIER IMPROVING NOISE REMOVAL PERFORMANCE BASED ON LOG-MMSE
EP3192073B1 (en) Discrimination and attenuation of pre-echoes in a digital audio signal
EP0884926B1 (en) Method and device for optimized processing of an interfering signal when recording sound
EP0534837B1 (en) Speech processing method in presence of acoustic noise using non-linear spectral subtraction and hidden Markov models
FR3113537A1 (en) Method and electronic device for reducing multi-channel noise in an audio signal comprising a voice part, associated computer program product
WO2001011605A1 (en) Method and device for detecting voice activity
EP2515300B1 (en) Method and system for noise reduction
FR2878399A1 (en) Soundproofing device for e.g. global system for mobile communication system, of e.g. car, has units to apply weight function to coherence between signals captured by microphones, to limit voice signal distortion and suppress estimated noise
CA2389785A1 (en) Process and system for pre- and post-treatment of an audio signal for transmission on a channel with a high degree of interference

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20220225

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4