FR2892846A1 - Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference - Google Patents

Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference Download PDF

Info

Publication number
FR2892846A1
FR2892846A1 FR0553332A FR0553332A FR2892846A1 FR 2892846 A1 FR2892846 A1 FR 2892846A1 FR 0553332 A FR0553332 A FR 0553332A FR 0553332 A FR0553332 A FR 0553332A FR 2892846 A1 FR2892846 A1 FR 2892846A1
Authority
FR
France
Prior art keywords
segment
similarity
segments
class
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR0553332A
Other languages
English (en)
Inventor
Mikael Collet
Delphine Charlet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0553332A priority Critical patent/FR2892846A1/fr
Priority to PCT/FR2006/051105 priority patent/WO2007051940A1/fr
Publication of FR2892846A1 publication Critical patent/FR2892846A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

L'invention concerne un procédé de calcul d'une mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio, la mesure de similarité étant obtenue à partir de mesures de similarité dites élémentaires entre le segment de référence et chacun des segments de ladite classe. Le procédé est tel qu'il comporte les étapes suivantes:- détermination d'un facteur de pondération pour chacun des segments de ladite classe;- attribution du facteur de pondération déterminé, à la mesure de similarité élémentaire du segment correspondant; et- obtention de la mesure de similarité à partir des mesures de similarité élémentaires ainsi pondérées.L'invention concerne l'application de ce procédé de calcul de mesure de similarité dans un procédé de suivi de locuteur. Enfin, l'invention se rapporte aux dispositifs mettant en oeuvre les procédés respectifs.

Description

La présente invention se rapporte un procédé de calcul de mesure de
similarité entre un segment audio de référence et un segment audio à tester notamment lors d'une application dans un procédé de suivi d'un locuteur de référence dans un document audio. Pour comparer et mesurer des similarités entre segments audio, plusieurs techniques existent. On peut par exemple calculer une mesure de similarité entre deux représentations de segments de parole X et Y en utilisant une modélisation par les modèles d'ancrage comme explicité dans le document de D,Sturim; D,Reynolds; E,Singer et J,Campbell intitulé "speaker indexing in large audio databases using anchor models" (ICASSP2001, pages 429-432). Dans ce type de calcul, la confiance apportée à la mesure de similarité est d'autant plus faible que les segments X et Y sont courts. Pour pallier à ces inconvénients et augmenter la fiabilité d'une mesure de similarité sur un segment X qui peut être court, il est connu de répertorier les segments audio Y, provenant par exemple d'un même document audio, en classes de segments, chaque classe regroupant des segments Yk les plus proches en terme de similarité. Ces segments proches proviennent de préférence d'un même locuteur. Ainsi, la mesure de similarité entre une représentation (X) d'un segment de référence X et une représentation () d'un segment Y à tester appartenant à une classe C comportant k segments s'effectue par le calcul d'une moyenne de toutes les mesures de similarité entre et les représentations des segments Yk de la classe. Ceci est par exemple formulé comme possibilité d'obtention de mesure de distance entre deux segments dans le document intitulé "Speaker tracking in broadcast audio material in the framework of the THISL project" proposé par Couvreur,L et Boite, J.M (Proc.of the ESCA ETRW workshop Accessing Information in Spoken audio, pages 84-89, 1999). Ce document décrit également un moyen de construire de telles classes et de répertorier de façon automatique les segments audio, issus par exemple d'un document audio, dans leur classe respective. - 2
Un inconvénient d'une telle technique est que ce type de construction automatique de classe de segments engendre des regroupements de segments non homogènes provenant par exemple de locuteurs différents. Un calcul de mesure de similarité basé sur l'utilisation de telles classes, comme mentionné précédemment, sera alors imprécis. La non homogénéité des segments d'une même classe a en effet une influence non négligeable sur le calcul d'une mesure de similarité d'un élément de cette classe. L'invention a pour but de pallier à ces inconvénients en proposant un procédé de calcul de mesure de similarité qui utilise les avantages d'un calcul basé sur l'utilisation de classes de segments tout en limitant l'influence de la non homogénéité des segments au sein d'une classe. A cet effet, l'invention propose un procédé de calcul d'une mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio, la mesure de similarité étant obtenue à partir de mesures de similarité dites élémentaires entre le segment de référence et chacun des segments de ladite classe. Le procédé selon l'invention comporte les étapes suivantes: - détermination d'un facteur de pondération pour chacun des segments de ladite classe; attribution du facteur de pondération déterminé, à la mesure de similarité élémentaire du segment correspondant; et - obtention de la mesure de similarité à partir des mesures de similarité élémentaires ainsi pondérées.
Ainsi, l'attribution d'un facteur de pondération adapté à chaque segment de la classe permet de différencier l'influence des segments sur le calcul de la mesure de similarité entre une représentation d'un segment de référence et une représentation d'un segment à tester appartenant à la classe. Dans un mode préféré de réalisation, le facteur de pondération pour un segment donné de ladite classe est représentatif d'une mesure de similarité dite intraclasse entre une représentation du segment audio à tester et une représentation dudit segment. Ainsi, l'influence d'un segment de la classe est plus ou moins importante selon que cc segment est proche du segment à tester.
Avantageusement, le facteur de pondération est de faible valeur lorsque la mesure de similarité intraclasse est faible et élevée dans le cas contraire. Dans un mode particulier de réalisation, la mesure de similarité intraclasse est obtenue par l'application d'une fonction de calcul de mesure de similarité différente de celle utilisée pour le calcul de mesure de similarité élémentaire.
Ceci a pour avantage d'adapter le calcul de mesure de similarité à l'environnement dans lequel se trouvent les segments et ainsi optimiser le procédé. Dans un autre mode particulier de réalisation, dans un souci de simplification, la mesure de similarité intraclasse est obtenue par l'application d'une fonction de calcul de mesure de similarité identique à celle utilisée pour le calcul de mesure de similarité élémentaire. Dans une variante de réalisation, le segment de référence appartient à une classe de référence comportant une pluralité de segments audio de référence et le procédé comporte en outre une étape d'attribution d'un second facteur de pondération pour chacun des segments de référence de la classe de référence.
De manière préférée, le second facteur de pondération pour un segment de référence donné, est fonction d'une mesure de similarité entre une représentation d'un segment de référence courant et une représentation dudit segment de référence donné, les segments appartenant à la classe de référence. L'invention vise également un procédé de suivi d'un locuteur de référence dans un document audio, qui comporte les étapes suivantes: -segmentation du document à tester en une pluralité de segments audio; -affectation de chacun des segments issus de l'étape de segmentation à une classe de segments; pour chacun des segments issus de la segmentation: -4-
- calcul de la mesure de similarité entre une représentation d'un segment correspondant au locuteur de référence et une représentation du segment courant de la segmentation par la mise en oeuvre d'un procédé tel que décrit précédemment; - décision quant à la reconnaissance du locuteur de référence pour le segment courant par comparaison à un seuil prédéterminé de la mesure de similarité correspondante issue du calcul. L'utilisation du procédé de calcul de mesure de similarité selon l'invention dans un procédé de suivi de locuteur augmente ainsi la précision du résultat issu de ce procédé de suivi de locuteur.
L'invention vise également un dispositif de calcul de mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio. Le dispositif comporte des moyens de calcul de mesures de similarité dites élémentaires entre le segment de référence et chacun des segments de ladite classe, et comporte en outre: - des moyens de détermination d'un facteur de pondération pour chacun des segments de ladite classe; - des moyens d'attribution du facteur de pondération issu des moyens de détermination à la mesure de similarité élémentaire du segment correspondant; et - des moyens d'obtention de la mesure de similarité à partir des mesures de similarité élémentaires pondérées. L'invention vise aussi un dispositif de suivi d'un locuteur de référence dans un document audio. Ce dispositif comporte: - des moyens de segmentation du document à tester en une pluralité de segments audio; - des moyens d'affectation de chacun des segments provenant des moyens de segmentation à une classe de segments; - un dispositif de calcul de la mesure de similarité entre une représentation d'un segment correspondant au locuteur de référence et une représentation d'un -5-
segment provenant des moyens de segmentation, tel que décrit précédemment, le dispositif étant appliqué à chacun des segments provenant des moyens de segmentation; - des moyens de décision quant à la reconnaissance du locuteur de référence appliqués à chacun des segments provenant des moyens de segmentation, comportant des moyens de comparaison à un seuil prédéterminé de la mesure de similarité correspondante provenant du dispositif de calcul de mesure de similarité. Ces dispositifs mettent en oeuvre les procédés de calcul de mesure de similarité et de suivi de locuteur respectivement.
L'invention concerne également un programme d'ordinateur comportant des instructions de programme adaptées à la mise en oeuvre d'un procédé de calcul de mesure de similarité selon l'invention tel que décrit précédemment et/ou d'un procédé de suivi de locuteur tel que décrit précédemment, lorsque le dit programme est chargé et exécuté dans un système informatique.
Enfin, l'invention vise un moyen de stockage, éventuellement totalement ou partiellement amovible, lisible par un ordinateur, stockant un jeu d'instructions exécutables par ledit ordinateur pour mettre en oeuvre le procédé de mesure de similarité et/ou le procédé de suivi de locuteur selon l'invention. D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: la figure 1 représente un mode de réalisation d'un dispositif mettant en oeuvre l'invention; la figure 2 illustre les principaux consii~u~ri `ü 1 ~ éléments constitutifs u dispositif de calcul de mesure de similarité et de suivi de locuteur selon l'invention; la figure 3 représente un organigramme illustrant les principales étapes du procédé de calcul de mesure de similarité selon l'invention; et -6
La figure 4 représente un organigramme illustrant les principales étapes du procédé de suivi de locuteur selon l'invention.
Selon un mode de réalisation choisi et représenté à la figure 1, un dispositif mettant en oeuvre l'invention est par exemple un micro-ordinateur 10 qui comporte de façon connue, notamment une unité de traitement 12 équipée d'un microprocesseur, une mémoire morte de type ROM 13, une mémoire vive de type RAM 14. Le micro-ordinateur 10 peut comporter de manière classique et non exhaustive les éléments suivants: un clavier, un écran, un microphone, un haut- parleur, une interface de communication, un lecteur de disque, un moyen de stockage... La mémoire morte 13 comporte des registres mémorisant un programme d'ordinateur PG1 comportant des instructions de programme adaptées à mettre en oeuvre un procédé de calcul d'une mesure de similarité selon l'invention tel que décrit ultérieurement en référence à la figure 3. Ce programme PG1 est ainsi adapté à calculer une mesure de similarité entre une représentation d'un segment de référence X que l'unité de traitement reçoit en entrée 15 et une représentation d'un segment Y que l'unité de traitement reçoit en entrée 11 via un document audio à tester par exemple.
La mémoire morte 13 comporte également un programme PG2 comportant des instructions de programme adaptées à mettre en oeuvre un procédé de suivi de locuteur tel que décrit en référence à la figure 4. Ce programme PG2 est adapté à effectuer un suivi de locuteur correspondant au locuteur de référence représenté par le segment X en entrée 15 du module de traitement, dans un document audio i i fourni en entrée de l'unité de traitement. L'unité de traitement mettant en oeuvre le programme PG2 fournit en sortie 16, les segments correspondants au locuteur de référence qui ont été détectés dans le document audio à tester 11. Ces entrées, segment X 15 et document audio 11, peuvent provenir d'une base de données externe (via un réseau informatique par exemple) ou interne au dispositif.
Lors de la mise sous tension, les programmes PG1 et PG2 stockés dans la mémoire morte 13 sont transférés dans la mémoire vive qui contiendra alors le code exécutable de l'invention ainsi que des registres pour mémoriser les variables nécessaires à la mise en oeuvre de l'invention.
De manière plus générale un moyen de stockage, lisible par un ordinateur ou par un microprocesseur, intégré ou non au dispositif, éventuellement amovible, mémorise un programme mettant en oeuvre le procédé de calcul de mesure de similarité selon l'invention et/ou un programme mettant en oeuvre le procédé de suivi de locuteur selon l'invention.
En référence à la figure 2, on va décrire les éléments constitutifs d'un dispositif de suivi de locuteur selon l'invention, intégrant un dispositif de calcul de mesure de similarité selon l'invention. Le dispositif de calcul de similarité peut être indépendant ou être intégré dans d'autres dispositifs nécessitant ce type de mesure de similarité.
Le dispositif ainsi décrit est par exemple intégré dans un ordinateur ou un appareil de traitement du son. Le dispositif de suivi de locuteur 20 comporte un module de segmentation 22 d'un document audio. Un document audio à tester 21, provenant par exemple d'une base de données de documents audio, est fourni au module de segmentation 22 qui comporte des moyens de segmentation adaptés à segmenter ce document audio en une pluralité de segments audio Yi, i allant de 1 à N. Un module d'affectation de classe 23 comporte des moyens d'affectation aptes à affecter chacun des segments Yi provenant du module de segmentation à une classe CY, de segments comportant une pluralité de segments proches en teille de similarité. Une classe CYi comporte par exemple les segments Yk, k allant de 1 à K. Un dispositif de calcul de mesure de similarité 25, que l'on va décrire ultérieurement est adapté à mettre en oeuvre le procédé de calcul de mesure de similarité selon l'invention. Un calcul pondéré est effectué par le dispositif 25, à partir d'un segment X de référence, référencé 24 sur la figure 2, fourni en entrée de ce dispositif et qui provient d'un locuteur de référence. En sortie de ce dispositif, un module de décision 29 comporte des moyens de décision aptes à comparer la mesure de similarité reçue du dispositif de calcul 25 à un seuil prédéterminé afin de décider de la similarité de (représentation du segment Y; courant) avec l (représentation du segment de référence X). Cc module de décision fournit en sortie, un ensemble de segments 30 qui sont considérés comme appartenant au locuteur de référence. Le dispositif de calcul de mesure de similarité 25 comporte un module de calcul de mesure de similarité intraclasse 26 comportant des moyens de calcul de mesure de similarité adaptés à calculer une mesure de similarité intraclasse entre une représentation () d'un segment à tester Y; courant appartenant à une classe Cy, et 10 une représentation (Y;) d'un segment Yk de la même classe. Cc calcul s'effectue à partir d'un segment à tester Y; courant, pour tous les segments Yk de la même classe. Un module d'attribution d'un facteur de pondération comporte des moyens de détermination d'un facteur de pondération Pik en fonction des mesures de similarité intraclasses reçues en sortie du module 26 et des moyens d'attribution du 15 facteur de pondération ainsi déterminé à une mesure de similarité élémentaire entre une représentation (X) du segment de référence X et une représentation (Y )) d'un segment Yk de la classe Cy, qui contient le segment Yi à tester. En sortie du module 27, se trouve un module 28 d'obtention de la mesure de similarité entre une représentation du segment de référence X et une représentation du segment à tester 20 Yi, à partir des mesures de similarités élémentaires pondérées. Ce module 28 comporte des moyens de calcul pondéré aptes à prendre en compte les facteurs de pondération associés aux mesures de similarité élémentaires. Cette mesure de similarité peut être effectuée pour tous les segments à tester Y, contenu dans le document audio 21, afin qu'une décision soit prise par le module 25 de décision 29 pour tous les segments du document audio. On va décrire à présent, en référence à la figure 3, les principales étapes d'un procédé de calcul de mesure de similarité selon l'invention. Le procédé de calcul de mesure de similarité entre une représentation d'un segment audio de référence X et une représentation d'un segment audio à tester Y, selon l'invention est mis en oeuvre par le dispositif de calcul de mesure de similarité 25 décrit en référence à la figure 2. A partir d'un segment audio à tester Y, appartenant à une classe de segment Cy, regroupant K segments Yk, une étape préalable 32 calcule une mesure de similarité intraclasse entre une représentation du segment à tester Y, appartenant à la classe Cy, et une représentation de chacun des segments Yk appartenant à la même classe Cy,. Une représentation d'un segment est par exemple obtenue après une étape d'analyse acoustique et une étape de traitement spécifique. On peut par exemple utiliser une représentation par modèle d'ancrage comme ceci est décrit dans le document intitulé "speaker indexing in large audio databases using anchor models" des auteurs D,Sturim; D,Reynolds, E,Singer et J,Campbell (ICASSP2001, pages 429-432). L'étape 33 est une étape d'obtention d'un facteur de pondération plk pour chacun des segments Yk de la classe Cy, dans laquelle le segment à tester Y, est inclus. Ce facteur de pondération est selon un mode préféré de réalisation fonction d'une mesure de similarité intraclasse obtenue dans l'étape préalable 32. L'étape 33 est suivie de l'étape 34 où le facteur de pondération plk déterminé est attribué à une mesure de similarité élémentaire entre une représentation du segment de référence X référencé ici en 35 et provenant d'un locuteur de référence et une représentation d'un segment Yk de la classe Cy,. Cette attribution permet d'obtenir à l'étape 36, des mesures de similarité élémentaires pondérées qui vont permettre d'obtenir la mesure de similarité entre une représentation d'un segment de féi cl crie u.pi eseut,illuil d'un segment à tester par une fonction &mu selon l'équation (1) du t pe. - 10 -
où p,k est fonction, comme décrit précédemment, de la mesure de similarité intraclasse 8(Y,.,YX) . Ce facteur de pondération peut être défini par exemple par l'équation (2): P,k = + tanh(5(0.5 -8(f , t ))) (2) Dans un mode particulier de réalisation, les fonctions de calcul de mesures de similarité d et é sont les mêmes. Ceci a pour avantage d'utiliser des moyens communs et ainsi de simplifier la mise en oeuvre. Ces mesures de similarités sont définies par exemple par une mesure de similarité de type mesure de similarité de corrélation p proposée par les auteurs Collet,M; Charlet,D; et Bimbot,F dans le document intitulé "A correlation metric for speaker tracking using anchor models" (IEEE international Conference on Acoustics, Speech and signal processing; 2005). Dans un autre mode particulier de réalisation, les fonctions de calcul d et 8 sont différentes.
Ainsi, la première fonction de calcul de mesure de similarité élémentaire d entre représentations de segments audio provenant de documents audio différents, donc avec des conditions acoustiques différentes, doit être robuste aux variations d'environnement acoustique. De même, une représentation des segments utilisés pour ce calcul peut être 20 avantageusement obtenue par une étape d'analyse acoustique robuste aux variations d'environnement acoustique. La fonction é de calcul de mesure de similarité intraclasse n'a quant à elle, pas besoin d'être robuste aux variations d'environnement acoustique. De même, l'analyse acoustique utilisée pour obtenir une représentation du segment, n'a pas 25 besoin d'être robuste aux variations environnement acoustique. Ainsi, l'utilisation de fonctions différentes pour l'obtention de mesure de similarité élémentaire et intraclasse, voire l'utilisation de représentations de segment différentes pour chacune des mesures, présente l'avantage d'obtenir des mesures adaptées et optimales. -11- La première fonction, d peut par exemple être basée sur une fonction de corrélation comme mentionné précédemment, la deuxième fonction peut être une fonction utilisant une mesure angulaire comme mentionné dans le même document "A correlation metric for speaker tracking using anchor models" (IEEE international Conference on Acoustics, Speech and signal processing; 2005). Le procédé de calcul d'une mesure de similarité entre une représentation d'un segment de référence X et une représentation d'un segment à tester Y; s'achève par l'obtention de cette mesure de similarité dp (X, Y) . Dans cet exemple de réalisation, il a été considéré qu'un seul segment de référence X provenant d'un locuteur de référence. Dans une variante de réalisation, le procédé de calcul de similarité peut s'effectuer entre deux classes, le segment de référence X appartenant alors à une classe de référence nommée Cx comportant Kx segments et le segment à tester Y appartenant une classe nommée Cy comportant Ky segments.
Dans cette variante, le procédé détermine un premier facteur de pondération pjk, fonction d'une mesure de similarité intraclasse de Cy entre des représentations de segments Yj et Yk appartenants à la classe Cy et un second facteur de pondération pik, fonction d'une mesure de similarité intraclasse de Cx entre des représentations de segments de référence Xi et Xk appartenants à la classe de référence Cx.
Le calcul pondéré s'effectue alors selon l'équation (4) suivante: K ((CX ,CY) ù l d(X,.,YJ.) (4) tzr J.ca. 1=1 j=1 1=1 t=1 Nous allons à présent décrire, en référence à la figure 4, le procédé de suivi 25 de locuteur selon l'invention. A l'étape 42, une segmentation en locuteurs est effectuée sur le document audio à tester 41. Cette segmentation permet de découper le document audio à tester nk, Ky 1 p~~ 1 Pi* où at = et aJ = K,. KY k=1 - 12 -
en segments homogènes, c'est-à-dire prononcés par un même locuteur. Une méthode de segmentation est proposée par les auteurs P.Delacourt et C.J;Wellekens dans un document intitulé "Segmentation en locuteurs d'un document audio" (CORESA99: 5ièmes journées d'études et d'échanges COmpression et Représentation des Signaux Audiovisuels, Sophia Antipolis1999). A l'issue de l'étape 42, on obtient une pluralité de segments audio à tester Y,, i allant de 1 à N. L'étape 42 est suivie de l'étape 43 d'affectation des segments Y à une classe de segments Cy,. Cette étape d'affectation de classe encore appelée en anglais "clustering" consiste dans un premier temps à regrouper dans une même I O classe un segment et son plus proche voisin. Dans un deuxième temps, on fusionne les classes qui ont une intersection vide. On obtient ainsi un ensemble de classes dans lesquelles sont répartis les segments Y, issus de la segmentation. L'étape 43 est suivie de l'étape 45 de calcul pondéré mettant en oeuvre le procédé de calcul de mesure de similarité décrit en référence à la figure 3. Ce calcul 15 pondéré est effectué par rapport à un segment de référence X, référencé 44, provenant d'un locuteur de référence que l'on veut retrouver dans le document à tester. A l'issue de l'étape 45, on obtient une mesure de similarité entre une représentation du segment de référence X et une représentation du segment courant Y, provenant du document audio. Cette étape de calcul pondéré est effectuée pour tous les segments audio à tester Y appartenant au document audio à tester. Toutes ces mesures de similarité sont ensuite comparées à un seuil 0 à l'étape 45. Le seuil 0 peut par exemple avoir une valeur de 0,5. Si la mesure de similarité d(X,Y.) est inférieure au seuil A, alors une décision est prise quant à l'appartenance du segment Y, au locuteur de référence. Tous les segments ainsi détectés comme étant des segments audio prononcés par le tuteur de référence sont regroupés est 47 ce qui termine le: procédé de suivi de_.. Iocutcur.

Claims (12)

REVENDICATIONS
1. Procédé de calcul d'une mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio, la mesure de similarité étant obtenue à partir de mesures de similarité dites élémentaires entre le segment de référence et chacun des segments de ladite classe, caractérisé en ce qu'il comporte les étapes suivantes: détermination d'un facteur de pondération pour chacun des segments de ladite classe; attribution du facteur de pondération déteiniiné, à la mesure de similarité élémentaire du segment correspondant; et obtention de la mesure de similarité à partir des mesures de similarité élémentaires ainsi pondérées.
2. Procédé selon la revendication 1, caractérisé en ce que le facteur de pondération pour un segment donné de ladite classe est représentatif d'une mesure de similarité dite intraclasse entre une représentation du segment audio à tester et une représentation dudit segment.
3. Procédé selon la revendication 2, caractérisé en ce que le facteur de pondération est de faible valeur lorsque la mesure de similarité intraclasse est faible et élevée dans le cas contraire.
4. Procédé selon la revendication 2 ou 3, caractérisé en ce que la mesure de similarité intraclasse est obtenue par l'application d'une fonction de calcul de mesure de similarité différente de celle utilisée pour le calcul de mesure de 25 similarité élémentaire.
5. Procédé selon la revendication 2 ou 3, caractérisé en ce que la mesure de similarité intraclasse est obtenue par l'application d'une fonction de calcul de mesure de similarité identique à celle utilisée pour le calcul de mesure de similarité élémentaire.-14-
6. Procédé selon l'une des revendications 1 à 5, caractérisé en ce que le segment de référence appartient à une classe de référence comportant une pluralité de segments audio de référence et en ce qu'il comporte en outre une étape d'attribution d'un second facteur de pondération pour chacun des segments de référence de la classe de référence.
7. Procédé selon la revendication 6, caractérisé en ce que le second facteur de pondération pour un segment de référence donné, est fonction d'une mesure de similarité entre une représentation d'un segment de référence courant et une représentation dudit segment de référence donné, les segments appartenant à la classe de référence.
8. Procédé de suivi d'un locuteur de référence dans un document audio, caractérisé en ce qu'il comporte les étapes suivantes: - segmentation du document à tester en une pluralité de segments audio; - affectation de chacun des segments issus de l'étape de segmentation à une classe de segments; pour chacun des segments issus de la segmentation: - calcul de la mesure de similarité entre une représentation d'un segment correspondant au locuteur de référence et une représentation du segment courant de la segmentation par la mise en oeuvre d'un procédé conforme à l'une des revendications 1 à 7; et - décision quant à la reconnaissance du locuteur de référence pour le segment courant par comparaison à un seuil prédéterminé de la mesure de similarité correspondante issue du calcul. de mesure lari
9. Dispositif de calcul de de u~ similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio, le dispositif comportant des moyens de calcul de mesures de similarité dites élémentaires entre le segment de référence et chacun des segments de ladite classe, caractérisé en ce qu'il comporte en outre:- 15 - - des moyens de détermination d'un facteur de pondération pour chacun des segments de ladite classe; - des moyens d'attribution du facteur de pondération issu des moyens de détermination à la mesure de similarité élémentaire du segment correspondant; et - des moyens d'obtention de la mesure de similarité à partir des mesures de similarité élémentaires pondérées.
10. Dispositif selon la revendication 9, caractérisé en ce qu'il comporte en outre des moyens de calcul de mesure de similarité dite intraclasse entre le segment audio à tester et chacun des segments de ladite classe.
11. Dispositif de suivi d'un locuteur de référence dans un document audio, caractérisé en ce qu'il comporte: - des moyens de segmentation du document à tester en une pluralité de segments audio; - des moyens d'affectation de chacun des segments provenant des moyens de segmentation à une classe de segments; - un dispositif de calcul de la mesure de similarité entre une représentation d'un segment correspondant au locuteur de référence et une représentation d'un segment provenant des moyens de segmentation, confoune à l'une des revendications 9 à 10, le dispositif étant appliqué à chacun des segments provenant des moyens de segmentation; et - des moyens de décision quant à la reconnaissance du locuteur de référence appliqués à chacun des segments provenant des moyens de segmentation, comportant des moyens de comparaison à un seuil prédéterminé de la mesure de similarité correspondante provenant du dispositif de calcul de mesure de similarité.
12. Programme d'ordinateur comportant des instructions de programme adaptées à la mise en oeuvre d'un procédé de calcul de mesure de similarité selon l'une quelconque des revendications 1 à 7 et/ou d'un procédé de suivi de locuteur selon la revendication 8, lorsque le dit programme est chargé et exécuté dans un système informatique.
FR0553332A 2005-11-03 2005-11-03 Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference Pending FR2892846A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR0553332A FR2892846A1 (fr) 2005-11-03 2005-11-03 Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference
PCT/FR2006/051105 WO2007051940A1 (fr) 2005-11-03 2006-10-25 Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0553332A FR2892846A1 (fr) 2005-11-03 2005-11-03 Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference

Publications (1)

Publication Number Publication Date
FR2892846A1 true FR2892846A1 (fr) 2007-05-04

Family

ID=36648289

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0553332A Pending FR2892846A1 (fr) 2005-11-03 2005-11-03 Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference

Country Status (2)

Country Link
FR (1) FR2892846A1 (fr)
WO (1) WO2007051940A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793615A (zh) * 2021-09-15 2021-12-14 北京百度网讯科技有限公司 说话人识别方法、模型训练方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
US9396723B2 (en) 2013-02-01 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559415A2 (fr) * 1992-03-04 1993-09-08 Sony Corporation Méthode pour la comparaison des formes, appareil pour la reconnaissance des formes et appareil pour la reconnaissance de parole

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559415A2 (fr) * 1992-03-04 1993-09-08 Sony Corporation Méthode pour la comparaison des formes, appareil pour la reconnaissance des formes et appareil pour la reconnaissance de parole

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
COLLET M ET AL: "A Correlation Metric for Speaker Tracking Using Anchor Models", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP '05). IEEE INTERNATIONAL CONFERENCE ON PHILADELPHIA, PENNSYLVANIA, USA MARCH 18-23, 2005, PISCATAWAY, NJ, USA,IEEE, 18 March 2005 (2005-03-18), pages 713 - 716, XP010792137, ISBN: 0-7803-8874-7 *
LIN H ET AL: "A weighted minimum distance classifier for pattern recognition", ELECTRICAL AND COMPUTER ENGINEERING, 1993. CANADIAN CONFERENCE ON VANCOUVER, BC, CANADA 14-17 SEPT. 1993, NEW YORK, NY, USA,IEEE, 14 September 1993 (1993-09-14), pages 904 - 907, XP010118157, ISBN: 0-7803-1443-3 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793615A (zh) * 2021-09-15 2021-12-14 北京百度网讯科技有限公司 说话人识别方法、模型训练方法、装置、设备及存储介质
CN113793615B (zh) * 2021-09-15 2024-02-27 北京百度网讯科技有限公司 说话人识别方法、模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2007051940A1 (fr) 2007-05-10

Similar Documents

Publication Publication Date Title
CN109473123B (zh) 语音活动检测方法及装置
EP3155608B1 (fr) Procedé de suivi d'une partition musicale et modélisation associée
EP1886304B1 (fr) Procede, dispositif et programme d'ordinateur pour la reconnaissance de la parole
WO2016075409A1 (fr) Procédé de surveillance d'un moteur d'aéronef en fonctionnement dans un environnement donné
CN112232276A (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
FR2892846A1 (fr) Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference
EP3161689B1 (fr) Dérivation de score probabiliste pour un alignement de séquences audio
FR2846458A1 (fr) Procede de traitement automatique d'un signal de parole.
FR3002805A1 (fr) Procede de traitement d'un ensemble de donnees destinees a etre utilisees ulterieurement en vue de la generation graphique d'un schema electrique d'un systeme electrique
FR2893733A1 (fr) Procede d'authentification de donnees sequentielles et equipements mettant en oeuvre un tel procede
KR101398059B1 (ko) 표준편차 기반의 음원의 특징 축소 방법을 이용하는 음악 분위기 자동 판별 시스템 및 방법
EP3846047A1 (fr) Procédé et système d'identification de variables pertinentes
CN112786068A (zh) 一种音频音源分离方法、装置及存储介质
Mohri et al. Robust Music Identification, Detection, and Analysis.
FR2873832A1 (fr) Procede et systeme d'evaluation de tests d'un programme d'ordinateur par analyse de mutations
CN113836012B (zh) 算法测试方法、装置、电子设备及存储介质
WO2004038346A1 (fr) Procede et dispositif de test comportant un capteur de signaux vibratoires
FR3012882A1 (fr) Procede d'essai technique
FR3102603A1 (fr) Procédé et dispositif d’évaluation d’un système de reconnaissance vocale
US20030163312A1 (en) Speech processing apparatus and method
FR3143787A1 (fr) Procédé d’identification ou d’authentification d’un occupant de véhicule automobile
FR2905790A1 (fr) Traitement d'un signal vocal, en vue d'une comparaison a une reference.
FR2844079A1 (fr) Systeme associatif flou de description d'objets multimedia
EP4109785A1 (fr) Procede et dispositif de verification du fonctionnement d'un dispositif electronique
CN117270502A (zh) 基于机器学习的新能源汽车的故障反馈诊断方法及***