EP2070389B1

EP2070389B1 - Techniques facilitant le dialogue

Info

Publication number: EP2070389B1
Application number: EP07802317A
Authority: EP
Inventors: Hyen-O Oh; Yang Won Jung; Christof Faller
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-09-14
Filing date: 2007-09-14
Publication date: 2011-05-18
Anticipated expiration: 2027-09-14
Also published as: WO2008035227A2; JP2010504008A; US20080165975A1; JP2010515290A; KR20090053951A; AU2007296933A1; US20080165286A1; ATE510421T1; DE602007010330D1; BRPI0716521A2; AU2007296933B2; US8275610B2; EP2070391A2; EP2070391B1; KR101061415B1; WO2008035227A3; EP2064915A2; WO2008031611A1; US8184834B2; KR20090053950A

Claims

Procédé de traitement d'un signal audio, comprenant :
l'obtention d'un signal audio à canaux multiples incluant un signal de composante de parole et un signal d'une autre composante ;

la détermination de valeurs de gain pour au moins deux canaux du signal audio à canaux multiples, les valeurs de gain représentant un niveau pour chaque canal des au moins deux canaux ;

la détermination d'une corrélation croisée entre les au moins deux canaux ;

la détermination d'une localisation spatiale du signal de composante de parole en utilisant au moins l'une de la corrélation croisée et des valeurs de gain ;

l'identification du signal de composante de parole sur la base de la localisation spatiale du signal de composante de parole ;

la modification du signal de composante de parole en appliquant un gain au signal de composante de parole ; et

la génération d'un signal audio modifié incluant le signal de composante de parole modifié.
Procédé selon la revendication 1, où la modification du signal de composante de parole comprend en outre :
l'identification du signal de composante de parole sur la base d'un domaine spectral du signal de composante de parole.
Procédé selon la revendication 1, où le gain est une fonction de la localisation du signal de composante de parole et un gain désiré pour le signal de composante de parole.
Procédé selon la revendication 3, où la fonction est une fonction adaptative de gain de signal ayant une région de gain qui se rapporte à une sensibilité directionnelle du facteur de gain.
Procédé selon l'une quelconque des revendications 1, 2, 3 et 4, comprenant en outre :
la normalisation du signal audio à canaux multiples avec un facteur de normalisation dans un domaine temporel ou un domaine fréquentiel.
Procédé selon l'une quelconque des revendications 1, 2, 3, 4 et 5, comprenant en outre :
la comparaison de la corrélation croisée avec une ou plusieurs valeurs de seuil ;

la détermination si le signal audio à canaux multiples est sensiblement mono sur la base de résultats de la comparaison ; et

la modification du signal de composante de parole lorsque le signal audio à canaux multiples n'est pas sensiblement mono.
Procédé selon l'une quelconque des revendications 1, 2, 3, 4, 5 et 6, comprenant en outre :
la décomposition (502) du signal audio à canaux multiples en un certain nombre de signaux en sous-bandes de fréquences, dans lequel:
la détermination des valeurs de gain comprend l'estimation (504) d'un premier ensemble de puissances pour les au moins deux canaux en utilisant les signaux en sous-bandes,

la détermination de la corrélation croisée comprend la détermination (506) de la corrélation croisée en utilisant le premier ensemble de puissances estimées, et

la détermination de la localisation spatiale du signal de composante de parole comprend l'estimation (508) d'un facteur de gain de décomposition en utilisant le premier ensemble de puissances estimées et la corrélation croisée, dans lequel le facteur de gain de décomposition donne une marque de localisation du signal de composante de parole.
Procédé selon la revendication 7, dans lequel la largeur de bande d'au moins une sous-bande est choisie de manière à être égale à une bande critique d'un système auditif humain.
Procédé selon la revendication 7, comprenant en outre:
l'estimation (510) d'un deuxième ensemble de puissances pour le signal de composante de parole et un signal de composante d'ambiance à partir du premier ensemble de puissances et de la corrélation croisée dans lequel l'autre signal de composante inclut le signal de composante d'ambiance.
Procédé selon la revendication 9, comprenant en outre:
l'estimation (512) du signal de composante de parole et du signal de composante d'ambiance en utilisant le deuxième ensemble de puissances et le facteur de gain de décomposition.
Procédé selon la revendication 9, où les signaux de composantes de parole et d'ambiance estimés sont déterminés en utilisant une estimation par les moindres carrés.
Procédé selon la revendication 10, comprenant en outre la normalisation de la corrélation croisée.
Procédé selon la revendication 11 ou 12, comprenant en outre une post-mise à l'échelle (514) du signal de composante de parole estimé et du signal de composante d'ambiance estimé.
Procédé selon l'une quelconque des revendications 10 à 13, comprenant en outre :
la synthèse (516) des signaux en sous-bandes en utilisant les deuxièmes puissances estimées et un gain spécifié par l'utilisateur, dans lequel le gain inclut le gain spécifié par l'utilisateur et la génération du signal audio modifié comprend la conversion (518) des signaux en sous-bandes synthétisés en un signal audio dans le domaine temporel ayant un signal de composante de parole qui est modifié par le gain spécifié par l'utilisateur.
Appareil de traitement d'un signal audio, comprenant:
une interface (602) configurable pour obtenir un signal audio à canaux multiples incluant un signal de composante de parole et un signal d'une autre composante ;

une interface de saisie d'utilisateur (610) configurable pour recevoir une information se rapportant à un gain pour commander un niveau du signal de composante de parole ;

un estimateur de puissances (622) configurable pour déterminer des valeurs de gain pour au moins deux canaux du signal audio à canaux multiples, les valeurs de gain représentant un niveau pour chaque canal des au moins deux canaux;

un estimateur de signaux (624) configurable pour :
déterminer une corrélation croisée entre les au moins deux canaux,

déterminer une localisation spatiale du signal de composante de parole en utilisant au moins l'une de la corrélation croisée et des valeurs de gain, et

identifier le signal de composante de parole sur la base de la localisation spatiale du signal de composante de parole ;

un synthétiseur de signaux (628) couplé à l'estimateur de signaux et configurable pour :

modifier le signal de composante de parole en appliquant une valeur de gain au signal de composante de parole, et

générer un signal audio modifié incluant le signal de composante de parole modifié ; et

une unité de sortie (608) configurable pour délivrer en sortie le signal audio modifié.