DE60004331T2 - Sprecher-erkennung - Google Patents

Sprecher-erkennung Download PDF

Info

Publication number
DE60004331T2
DE60004331T2 DE60004331T DE60004331T DE60004331T2 DE 60004331 T2 DE60004331 T2 DE 60004331T2 DE 60004331 T DE60004331 T DE 60004331T DE 60004331 T DE60004331 T DE 60004331T DE 60004331 T2 DE60004331 T2 DE 60004331T2
Authority
DE
Germany
Prior art keywords
speaker
feature vectors
sequence
model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60004331T
Other languages
English (en)
Other versions
DE60004331D1 (de
Inventor
Nicholas Simon Ipswich DOWNEY
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9905627.7A external-priority patent/GB9905627D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE60004331D1 publication Critical patent/DE60004331D1/de
Application granted granted Critical
Publication of DE60004331T2 publication Critical patent/DE60004331T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Telephonic Communication Services (AREA)
  • Measuring Fluid Pressure (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Character Discrimination (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf Sprechererkennung. Bei der Sprechererkennung wird die Identität des Sprechers identifiziert oder verifiziert. Bei der Sprechererkennung wird der Sprecher entweder als einer von einer Gruppe von bekannten Sprechern identifiziert oder als ein unbekannter Sprecher abgewiesen. Beim Verifizieren des Sprechers wird der Sprecher entweder mit der behaupteten Identität akzeptiert oder abgewiesen. Der Sprecher kann eine behauptete Identität eingeben, z. B., mittels eines Passwortes, einer persönlichen Identifikationsnummer oder einer Magnetstreifenkarte.
  • Im allgemeinen zielt Sprachverarbeitung bei der Sprechererkennung darauf ab, bei verschiedenen Sprechern die Auswirkungen auf das gesprochene Wort zu erhöhen, wogegen bei Spracherkennung, bei der ein bestimmtes Wort (oder manchmal ein Satz oder ein Phonem, oder anderer gesprochener Text) erkannt wird, die Sprachverarbeitung darauf abzielt, die Auswirkungen verschiedener Sprecher auf das gesprochene Wort zu verringern.
  • Es ist üblich, Sprachdaten, typischerweise in digitaler Form, in einen Prozessor am Frontend einzugeben, der aus dem Strom eingegebener Daten kompaktere, für die Erkennung signifikante Daten ableitet, die als Eingangsmerkmalsvektoren (oder manchmal als Frontend-Merkmalsvektoren) bezeichnet werden. Wenn der Sprecher ein vorher festgelegtes Wort spricht, das der Erkennungsvorrichtung und dem Sprecher bekannt ist (z. B. eine persönliche Identifikationsnummer bei Bankgeschäften), ist das Verfahren als "textabhängig" bekannt. Bei manchen Anwendungen der Sprechererkennung wird ein Verfahren verwendet, das nicht erfordert, dass die Sprache vorher festgelegt werden muss, solche Verfahren sind als "textunabhängige" Verfahren bekannt.
  • In textabhängigen Verfahren wird eine gespeicherte Darstellung des Wortes, die als Schablone oder Modell bekannt ist, vorher von einem Sprecher abgeleitet, von dem bekannt ist, dass er authentisch ist. Die Eingangsmerkmalsvektoren, die von dem zu erkennenden Sprecher abgeleitet wurden, werden mit der Schablone verglichen, und ein Maß der Ähnlichkeit zwischen den beiden wird mit einem Schwellwert für eine Entscheidung über die Akzeptanz verglichen. Der Vergleich kann mittels dynamischer Zeitverzerrung ausgeführt werden, wie in "On the evaluation of Speech Recognisers and Data Bases using a Reference System", Chollet & Gagnoulet, 1982 IEEE, International Conference on Acoustics, Speech and Signal Processing, pp 2026–2029. Andere Einrichtungen zum Vergleichen schließen die Verarbeitung mit versteckten Markov-Modellen und neuronalen Netze ein. Diese Verfahren sind in British Telecom Technology Journal, Vol. 6, No. 2 April 1988, "Hidden Markov Models for Automatic Speech Recognition : Theory and Applicatoin", SJ Cox Seiten 105–115, "Multi-layer perceptrons applied to speech technology", McCullough et al, Seiten 131–139 und "Neural arrays for speech recognition", Tattershall et al Seiten 140–163 beschrieben.
  • Verschiedene Typen von Merkmalen sind für die Sprachverarbeitung verwendet oder vorgeschlagen worden. Da im allgemeinen beabsichtigt ist, mit den für die Spracherkennung verwendeten Merkmalen ein Wort von einem anderen ohne Empfindlichkeit bezüglich des Sprechers zu unterscheiden, wogegen es für die Sprechererkennung beabsichtigt ist, mit einem bekannten Wort oder Worten zwischen den Sprechern zu unterscheiden, kann ein für einen Typ der Erkennung geeigneter Merkmalstyp auch für den anderen geeignet sein. Manche Merkmalstypen, wie für die Sprechererkennung geeignet sind, sind in "Automatic Recognition of Speakers from their voices", Atal, Proc. IEEE vol 64 pp 406–475, April 1976 beschrieben.
  • EP-A-0 501 631 veröffentlicht ein System und ein Verfahren zur automatischen zeitlichen Dekorrelation der Verifikation der Spre cherstimme, mit einem Sammler für den Empfang von Spracheingaben von einem unbekannten Sprecher, der eine bestimmte Identität beansprucht, einem Sprachmerkmalsberechner auf Wortebene zur Erzeugung eines Sprachmerkmalsspeichers auf Wortebene zum Speichern von Sprachmerkmalsvektoren auf Wortebene, von denen bekannt ist, dass sie zu einem Sprecher mit einer bestimmten Identität gehören, einem Vektorzähler auf Wortebene zur Berechnung eines Ergebnisses bezüglich der Ähnlichkeit zwischen den von dem unbekannten Sprecher empfangenen Sprachmerkmalsvektoren auf Wortebene und den vom Sprachmerkmalsspeicher auf Wortebene empfangenen Sprachmerkmalsvektoren, und einer Logik für die Entscheidung über die Verifikation des Sprechers auf Basis des Ergebnisses der Ähnlichkeit zur Bestimmung, ob die Identität des unbekannten Sprechers mit der behaupteten übereinstimmt. Der Vektorzähler auf Wortebene schließt außerdem eine Logik zur Verkettung als auch einen wortspezifischen orthogonalen linearen Transformierer ein.
  • Nach der vorliegenden Erfindung wird ein Verfahren zur Sprechererkennung vorgeschlagen, mit den Schritten Aufnehmen eines Sprachsignals von einem unbekannten Sprecher; Speichern einer Vielzahl von Transformationen für Sprecher, wobei jede Transformation jeweils einem der Vielzahl von Sprechern zugeordnet ist; Speichern einer Vielzahl von Sprechermodellen, wobei jedes Sprechermodell jeweils einem der Vielzahl von Sprechern zugeordnet ist; Transformieren des aufgenommenen Sprachsignals mit einer ausgewählten der gespeicherten Transformationen, wobei die ausgewählte Transformation einem bestimmten Sprecher zugeordnet ist; Vergleichen des transformierten Sprachsignals mit einem ausgewählten der gespeicherten Modelle, wobei das ausgewählte Modell den bestimmten Sprecher darstellt; und Liefern eines Parameters als Ausgabe, der von der Wahrscheinlichkeit abhängt, dass der unbekannte Sprecher der bestimmte Sprecher ist.
  • Vorzugsweise umfasst der Transformationsschritt die Unterschritte Erkennen eines Zeitpunktes des Beginns des Sprechens und eines Zeitpunktes des Endes des Sprechens innerhalb des aufgenommenen Sprachsignals; Erzeugen einer Folge von Merkmalsvektoren, die aus dem aufgenommenen Sprachsignal abgeleitet werden; und Ausrichten der Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erkannten Zeitpunkt des Beginns des Sprechens und dem erkannten Zeitpunkt des Endes des Sprechens entsprechen, an einer für den bestimmten Sprecher repräsentativen Folge von Merkmalsvektoren, sodass jeder Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
  • Vorteilhafterweise umfasst der Transformationsschritt außerdem den Unterschritt, aus jedem Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren und dem entsprechenden Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren den Mittelwert zu bilden.
  • Bevorzugt ist das Modell ein verstecktes Markov-Modell und kann ein verstecktes Links-Rechts-Markov-Modell sein. Vorteilhafterweise enthält die gespeicherte repräsentative Folge von Merkmalsvektoren dieselbe Anzahl von Vektoren wie die Anzahl von Zuständen in den entsprechenden gespeicherten versteckten Markov-Modellen.
  • Nach einem anderen Aspekt der Erfindung wird eine Vorrichtung zur Sprechererkennung vorgeschlagen, mit einer Aufnahmeeinrichtung zum Aufnehmen von Sprachsignalen von einem unbekannten Sprecher; einem Sprechertransformationsspeicher zum Speichern einer Vielzahl von Sprechertransformationen, wobei jede Transformati on jeweils einem aus einer Vielzahl von Sprechern zugeordnet ist; einen Sprechermodellspeicher zum Speichern einer Vielzahl von Sprechermodellen, wobei jedes Sprechermodell jeweils einem von einer Vielzahl von Sprechern zugeordnet ist; einer Transformationseinrichtung, die mit der Aufnahmeeinrichtung und dem Sprechertransformationsspeicher gekoppelt ist, und die bei der Verwendung dazu eingerichtet ist, die empfangenen Sprachsignale nach einer ausgewählten Sprechertransformation zu transformieren;
    einer Vergleichseinrichtung, die mit der Transformationseinrichtung und dem Sprechermodellspeicher gekoppelt ist, und die bei der Verwendung dazu eingerichtet ist, das transformierte Sprachsignal mit dem entsprechenden Sprechermodell zu vergleichen; und einer Ausgabeeinrichtung zum Liefern eines Signals, das die Wahrscheinlichkeit anzeigt, dass der unbekannte Sprecher der Sprecher ist, dem die ausgewählte Sprechertransformation zugeordnet ist.
  • Bevorzugt umfasst die Transformationseinrichtung einen Startzeitpunktdetektor und einen Endzeitpunktdetektor zum Erkennen des Zeitpunktes des Beginns des Sprechens und des Zeitpunktes des Endes des Sprechens innerhalb eines aufgenommenen Sprachsignals, einen Merkmalsvektorerzeuger zur Erzeugung einer Folge von Merkmalsvektoren, die aus der eingegebenen Sprache abgeleitet werden, und eine Ausrichtungseinrichtung zum Ausrichten der Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erkannten Startzeitpunkt und dem erkannten Endzeitpunkt entsprechen, an einer repräsentativen Folge von Merkmalsvektoren, sodass jeder Merkmalsvektor in der resultierenden ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
  • Vorteilhafterweise umfasst die Transformationseinrichtung außerdem eine Einrichtung zur Mittelwertbildung aus jedem Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren und dem entsprechenden Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren.
  • Bevorzugt ist der Sprechermodellspeicher dazu eingerichtet, das Sprechermodell in Form eines versteckten Markov-Modells speichern, und kann dazu eingerichtet sein, das Sprechermodell in Form eines versteckten Links-Rechts-Markov-Modells zu speichern.
  • Vorteilhafterweise enthält die repräsentative Folge von Merkmalsvektoren dieselbe Anzahl von Vektoren wie die Anzahl von Zuständen in dem entsprechenden gespeicherten versteckten Markov-Modell.
  • Es ist wohlbekannt, dass der Sprechapparat eines Sprechers während der Erzeugung von Sprache als zeitlich variabler Filter modelliert werden kann. In dieser Erfindung werden die Merkmalsvektoren vor dem Vergleich mit Merkmalsvektoren, die von Sprache mit einem gespeicherten Referenzmodell abgeleitet sind, verarbeitet, indem eine dem Sprecher zugeordnete Transformation angewendet wird, die zu den Eigenschaften des Sprechapparates eines bestimmten Sprechers passt. Merkmale, die von Sprache abgeleitet sind, die sehr verschiedene Eigenschaften im Vergleich zu dem Sprecher hat, dem die Transformation zugeordnet ist, kann durch die Transformation stark verzerrt werden, wogegen Sprachmerkmale, die ähnliche Eigenschaften im Vergleich zu denen des Sprechers haben, dem die Transformation zugeordnet ist, viel weniger verzerrt werden. Eine solche sprecherabhängige Transformation kann als ähnlicher Prozess wie der der herkömmlichen Matched-Filterung angesehen werden, bei dem ein gefiltertes Signal bei Verwendung eines Matched-Filters kei ne Verzerrung erleidet. Merkmale, die auf diese Weise transformiert worden sind, liefern folglich mehr Unterscheidungskraft zwischen Sprechern. Solche transformierten Merkmale werden dann in einem herkömmlichen Vergleichsprozess für Sprechererkennung verwendet.
  • Die Erfindung wird nun, nur als Beispiel, mit Bezug auf die Figuren beschrieben, in denen:
  • 1 ein Telekommunikationssystem zeigt, das einen Erkennungsprozessor enthält,
  • 2 einen Teil des Erkennungsprozessors von 1 zeigt, der einen Extraktor für das Spektrum enthält;
  • 3 den Extraktor für das Spektrum der 2 zeigt;
  • 4a ein Flussdiagramm ist, das die Betriebsweise des Erkennungsprozessors der 1 während der Sprecherverifikation zeigt;
  • 4b ein Flussdiagramm ist, das die Betriebsweise des Erkennungsprozessors von 1 während der Sprecheridentifikation zeigt;
  • 5 ein Beispiel einer Verzerrungsfunktion zwischen zwei Merkmalsvektoren M und R zeigt;
  • 6 zeigt ein Beispiel einer Gewichtungsfunktion, die während der Verzerrung angewendet werden kann;
  • 7 ist ein Flussdiagramm, das die Berechnung der zeitlich normierten Distanz zweier Merkmalsvektoren zeigt;
  • 8 ist ein Beispiel eines Markov-Modells;
  • 9 zeigt die Übergangsmatrix und ein Beispiel eines Initialisierungsvektors für das Markov-Modell in 8;
  • 10 stellt die Berechnung von Vorwärtswahrscheinlichkeiten für ein verstecktes Markov-Modell mit sechs Zuständen dar; und
  • 11 stellt eine Abfolge möglicher Zustände dar, die unter Verwendung des Viterbi-Algorithmus berechnet wurden.
  • In 1 ist ein Telekommunikationssystem gezeigt, mit einer Sprechererkennungsvorrichtung mit einem Mikrofon 1, das typischerweise einen Teil eines Telefonhandgerätes bildet, einem Telekommunikationsnetzwerk 2 (z. B. ein öffentliches vermitteltes Telekommunikationsnetzwerk (PSTN, Public Switched Telephone Network) oder ein digitales Telekommunikationsnetzwerk), und mit einer Vorrichtung 4, die an den Erkennungsprozessor 3 angeschlossen ist, und dazu eingerichtet ist, von ihm ein Spracherkennungssignal zu empfangen, das die Erkennung oder Sonstiges von einem bestimmten Sprecher anzeigt, und als Reaktion hierauf in Aktion tritt. Die Nutzvorrichtung 4 kann zum Beispiel ein fernbedienter Bankschalteranschluss zur Durchführung von Bankgeschäften sein. In vielen Fällen erzeugt die Nutzvorrichtung 4 eine hörbare Antwort für den Benutzer, die über das Netzwerk 2 an einen Lautsprecher 5 übertragen wird, der typischerweise einen Teil des Telefonhandgerätes bildet.
  • Im Betrieb spricht ein Sprecher in das Mikrofon 1 und ein analoges Sprachsignal wird von dem Mikrofon 1 über das Netzwerk 2 zu dem Erkennungsprozessor 3 übertragen, wo das Sprachsignal analysiert wird und ein Signal, das die Erkennung oder Sonstiges eines bestimmten Sprechers anzeigt, erzeugt und an die Nutzvorrichtung 4 übertragen wird, die dann im Falle der Erkennung oder Sonstigem von dem bestimmten Sprecher geeignete Maßnahmen ergreift. Wenn der Erkennungspozessor um Sprecheridentifikation durchführt, dann zeigt das Signal entweder den identifizierten Sprecher an, oder dass der Sprecher abgewiesen wurde. Wenn der Erkennungsprozessor Sprecherverifizierung durchführt, zeigt das Signal an, dass der Sprecher der behauptete Sprecher ist oder nicht.
  • Der Erkennungsprozessor muss Daten erfassen, die die Identität des Sprechers betreffen, mit denen das Sprachsignal verglichen wird. Diese Datenerfassung kann von dem Erkennungsprozessor in einer zweiten Betriebsart durchgeführt werden, bei der der Erkennungsprozessor 3 nicht mit der Nutzvorrichtung 4 verbunden ist, aber ein Sprachsignal von dem Mikrofon 1 empfängt, um die Erkennungsdaten für diesen Sprecher zu erzeugen. Andere Methoden der Erfassung der Sprechererkennungsdaten sind jedoch auch möglich; z. B. können Sprechererkennungsdaten auf einer Karte gespeichert sein, die der Sprecher bei sich trägt, und die in einen Kartenleser eingesetzt werden kann, von dem vor der Übertragung des Sprachsignals die Daten gelesen und über das Netzwerk an den Anerkennungsprozessor übertragen werden.
  • Üblicherweise kennt der Erkennungsprozessor 3 nicht den Weg, den das Signal von dem Mikrofon 1 zum und durch das Netzwerk 2 nimmt; das Mikrofon 1 kann z. B. durch eine mobile analoge oder eine digitale Funkverbindung mit dem Netzwerk 2 verbunden sein, oder kann aus einem anderen Land stammen. Das Mikrofon kann ein Teil eines Aufnahmehandgerätes aus einer großen Vielfalt von Typen und Qualitäten sein. Ebenso kann innerhalb des Netzwerks 2 irgendeiner aus einer großen Vielzahl von Übertragungswegen genommen werden, einschließlich Funkverbindungen, analogen und digitalen Pfaden usw.
  • 2 zeigt einen Teil des Erkennungsprozessors 3. Digitale Sprachsignale werden von einem Extraktor für das Spektrum 20 zum Beispiel aus einem digitalen Telefonnetzwerk empfangen, oder von einem Analog-Digital-Wandler. Eine Anzahl von Merkmalsvektoren, von denen jeder eine Anzahl von zusammenhängenden digitalen Messwerten darstellt, werden aus den digitalen Sprachsignalen abgeleitet. Sprachsignale können zum Beispiel mit einer Abtastrate von 8 kHz empfangen werden, und der Merkmalsvektor kann ein Fenster von 256 zusammenhängenden Messwerten darstellen, das heißt 32 ms Sprache.
  • Der Extraktor für das Spektrum 20 liefert Merkmalsvektoren an einen Endpunktdetektor 24, der als Ausgangssignale den Startpunkt und den Endpunkt der empfangenen Sprachsignale anzeigt. Die Merkmalsvektoren werden vor der Verarbeitung durch einen Sprechererkennungsprozessor 21 auch in den Fensterpuffern 25 gespeichert.
  • Die Start- und Endpunkte der Sprache werden von einem herkömmlichen energiebasierten Endanzeiger bereitgestellt. Bei einer verbesserten Methode können Signale von einem Spracherkenner verwendet werden, der dazu eingerichtet ist, das spezielle Wort zu erkennen.
  • Eine Vielzahl von Merkmalsvektoren wird von dem Sprechererkennungsprozessor 21 empfangen, der eine sprecherabhängige Transformationsmatrix, die einem bestimmten Sprecher zugeordnet ist, aus dem Sprechertransformationsspeicher 22 und ein Referenzmodell, das einem bestimmten Sprecher zugeordnet ist, von einem Sprechermodellspeicher 23 ausliest. Der Sprechererkennungsprozessor verarbeitet dann die empfangenen Merkmalsvektoren in Abhängigkeit von der abgerufenen Sprechertransformationsmatrix und dem Modell und erzeugt ein Ausgangssignal in Abhängigkeit von der Wahrscheinlichkeit, dass der Sprecher, der von dem abgerufenen Modell und der sprecherabhängigen Transformation dargestellt wird, die Sprache erzeugt hat, die von den empfangene Merkmalsvektoren dargestellt wird. Der Betrieb des Sprechererkennungsprozessors wird später vollständiger mit Bezug auf 4a und 4b beschrieben. Der Sprechererkennungsprozessor 21 stellt die Transformationseinrichtung, die Vergleichseinrichtung und die Ausgabeeinrichtung der vorliegenden Erfindung dar.
  • Nun wird mit Bezug auf 3 der Betrieb des Extraktors für das Spektrum 20 detaillierter beschrieben. Ein Filter zur Verstärkung hoher Frequenzen 10 empfängt die digitalisierte Kurvenform der Sprache zum Beispiel mit der Abtastrate von 8 kHz als eine Folge von 8-Bit-Zahlen und führt einen Filterprozess zur Verstärkung hoher Frequenzen aus (zum Beispiel, indem ein Filter mit 1–0,95·z–1 angewendet wird), um die Amplituden bei höheren Frequenzen zu erhöhen.
  • Ein Fenster von zusammenhängenden Messwerten des gefilterten Signals wird von einem Fensterprozessor 11 zum Beispiel unter Verwendung eines Hamming-Fensters definiert (das heißt, die Messwerte werden mit vorher festgelegten Gewichtungskonstanten multipliziert), um unerwünschte Artefakte zu reduzieren, die von den Rändern der Fenster erzeugt werden. In einer bevorzugten Ausführung überlappen sich die Fenster zum Beispiel um 50%, um in diesem Beispiel alle 16 ms ein Fenster bereitzustellen.
  • Jedes Fenster aus 256 gefensterten Messwerten wird dann von einem Melskala-Kepstralkoeffizienten (MFCC, Mel Frequency Cepstral Coefficient)-Erzeuger 12 verarbeitet, um einen MFCC-Merkmalsvektor zu extrahieren, der einen Satz von MFCCs umfasst (zum Beispiel 8 Koeffizienten).
  • Der MFCC-Merkmalsvektor wird abgeleitet, indem eine spektrale Transformation, zum Beispiel eine schnelle Fourier-Transformation (FFT), mit jedem Fenster eines Sprachsignals ausgeführt wird, um ein Signalspektrum abzuleiten; die Teile des Spektrums in einer Reihe von breiten Bändern integriert werden, die auf einer "Mel-Frequenz"-Skala entlang der Frequenzachse verteilt sind; die Logarithmen der Größe in jedem Band bestimmt werden; und dann eine weitere Transformation (z. B. eine diskrete Kosinustransformation (DCT, Discrete Cosine Transform)) ausgeführt wird, um den Satz von MFCC-Koeffizienten für das Fenster zu erzeugen. Die Mel-Frequenzskala besteht aus Frequenzbändern mit gleichmäßigem Abstand auf einer linearen Frequenzskala zwischen 0 und 1 kHz, und mit gleichmäßigem Abstand auf einer logarithmischen Frequenzskala oberhalb von 1 kHz.
  • Der Filter zur Verstärkung hoher Frequenzen 10, der Fensterprozessor 11, der MFCC-Erzeuger 12, der Endpunktdetektor 24 und der Sprechererkennungsprozesse 21 können durch einen oder mehreren geeignet programmierten digitalen Signalprozessoren (DSP) und/oder Mikroprozessoren bereitgestellt werden. Die Fensterpuffer 25, der Sprechertransformationsspeicher 22 und der Sprechermodellspeicher 23 können in Lese/Schreib-Speicherbausteinen bereitgestellt werden, die mit solchen Prozessorbausteinen verbunden sind.
  • 4a zeigt schematisch die Betriebsweise des Sprechererkennungsprozessors 21 während der Sprecherverifikation. Der Sprechererkennungsprozessor empfängt eine Folge von Merkmalsvektoren in Schritt 40 und einen von dem Endpunktdetektor 11 erfassen Startpunkt und Endpunkt. In Schritt 41 wählt der Sprechererkennungsprozessor eine sprecherabhängige Transformationsmatrix aus dem Sprechertransformationsspeicher 22 für den Sprecher, der behauptet, ein Benutzer zu sein, und liest ein entsprechendes Modell, das denselben Sprecher als repräsentative Merkmalsmatrix darstellt, aus dem Sprechermodellspeicher 23 ein.
  • Die sprecherabhängige Transformationsmatrix stellt ein bestimmtes Wort für einen bestimmten Sprecher dar. Es umfasst eine repräsentative Folge von Merkmalsvektoren des dargestellten Wortes, wenn es von dem dargestellten Sprecher ausgesprochen wird. Auf die sprecherabhängige Transformationsmatrix wird sich hier auch als Folge von repräsentativen Merkmalsvektoren bezogen. Die empfangene Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erfassten Startpunkt und dem erfassten Endpunkt entspricht, wird in Schritt 42 zeitlich mit der sprecherabhängigen Transformationsmatrix unter Verwendung des dynamischen Zeitverzerrungsprozesses (DTW, Dynamic Time Warp Process) ausgerichtet.
  • Die zeitliche Ausrichtung, die in Schritt 42 durchgeführt wird, wird nun detaillierter mit Bezug auf die 5, 6 und 7 beschrieben.
  • Die sprecherabhängige Transformationsmatrix umfasst eine repräsentative Folge von Merkmalsvektoren für ein bestimmtes Wort. M=m1, m2, ..., mi, ..., ml
  • Eine Folge von Merkmalsvektoren R = r1, r2, ..., rj, ..., rJ wird empfangen. Die empfangene Folge von Merkmalsvektoren wird zeitlich mit der repräsentativen Folge von Merkmalsvektoren wie folgt ausgerichtet.
  • Mit Bezug auf 5 wird die repräsentative Folge entlang der i-Achse dargestellt und die empfangene Folge entlang der j-Achse dargestellt.
  • Die Folge von Punkten C = (i,j) stellt eine "Verzerrungs"funktion F dar, die ungefähr eine Abbildung der Zeitachse der empfangenen Folge von Merkmalsvektoren auf die der repräsentativen Folge von Merkmalsvektoren darstellt. F = c(1), c(2), ..., c(k), ..., c(K) wobei c(k) =(r(k), m(k))
  • Als ein Maß der Differenz zwischen den zwei Merkmalsvektoren M und R wird ein Abstand d(c) = d(i,j) = ∥mirj∥ verwendet. Die Aufsummierung der Abstände in der Verzerrungsfunktion ist
    Figure 00140001
    was ein Maß dafür ergibt, wie gut die Verzerrungsfunktion F einen Satz von Merkmalsvektoren auf einen anderen abbildet. Das Maß erreicht einen Minimalwert, wenn F so bestimmt wird, dass Differenzen im zeitlichen Ablauf zwischen den zwei Folgen von Merkmalsvektoren optimal eingestellt werden. Alternativ kann eine Gewichtungsfunktion eingesetzt werden, sodass eine gewichtete Summation verwendet wird
    Figure 00140002
    und ω(k) verwendet wird, um die Maße des Abstands zu gewichten. Ein Beispiel einer Gewichtungsfunktion ist: ω(K) =(i(K)) – i(K–1)) + (j(K) – j(K–1))die in 6 grafisch gezeigt ist.
  • Der zeitlich normierte Abstand zwischen zwei Folgen von Vektoren wird definiert als
    Figure 00140003
  • Der Verzerrungsfunktion F können verschiedene Einschränkungen auferlegt werden, wie in "Dynamic Programming Algorithm Optimisation for Spoken Word Recognition", Skoe and Chiba, IEEE Transactions on Acoustic Speech and Signal Processing, Vol. 26, No. 1, February 1978 beschrieben ist. Die Gleichungen zur Berechnung des zeitlich normierten Abstands zusammen mit der Verzerrungsfunktion F, die den erforderlichen Minimalwert liefert, sind die Folgenden:
    Figure 00150001
    die als Gleichung der "dynamischen Programmierung" bekannt ist,
    wobei der zeitlich normierte Abstand
    Figure 00150002
    ist.
  • Wenn die oben gezeigte Gewichtungsfunktion verwendet wird, dann wird die Gleichung der dynamischen Programmierung (DP) zu
    Figure 00150003
  • Ein Flussdiagramm, das die Berechnung des zeitlich normierten Abstandes mit der Gewichtungsfunktion der 6 zeigt, ist in 7 gezeigt.
  • In Schritt 74 werden i und j mit 1 initialisiert. Im Schritt 76 wird der Anfangswert von g(1,1) gleich m1–r1 (d(1,1)) multipliziert mit 2 (entsprechend der Gewichtungsfunktion w) gesetzt. Dann wird in Schritt 78i um 1 erhöht, und wenn i in Schritt 80 nicht größer als 1 ist, wird die Gleichung der dynamischen Programmierung in Schritt 86 berechnet. Wenn i größer als 1 ist, dann wird j in Schritt 88 inkrementiert und i im Schritt 96 auf 1 zurückgesetzt. Die Schritte 78 und 86 werden dann wiederholt, bis schließlich die Gleichung der dynamischen Programmierung für alle Werte von I und J berechnet worden ist, und dann wird der zeitlich nominierte Abstand in Schritt 92 berechnet.
  • In einem effizienteren Algorithmus wird die Gleichung der dynamischen Programmierung nur für Werte innerhalb eines beschränkten Fensters der Größe r berechnet, sodass j – r ≤ i ≤ j + r
  • Die Verzerrungsfunktion F kann dann durch "Rückverfolgung" wie folgt bestimmt werden:
    Figure 00160001
  • Wenn die Verzerrungsfunktion F = C(1), C(2), C(3), ..., C(k), ... C(K)einmal bekannt ist, wobei C(k) = (r(k), m(k)) ist,
    dann ist es möglich, eine Folge von "zeitlich ausgerichteten" empfangenen Merkmalsvektoren ω = ω1, ω2, ..., ωI zu bestimmen. In dem in 5 gezeigten Beispiel ist
    C(1) = (1,1)
    C(2) = (1,2)
    C(3) = (2,2)
    C(4) = (3,3)
    C(5) = (4,3)
    das heißt, r1 wird auf m1 abgebildet, r1 wird auf m2 abgebildet, r2 wird auf m2 abgebildet, r3 wird auf ms abgebildet usw.
  • Man kann sehen, dass sowohl r1 als auch r2 auf m2 abgebildet wurden, und es muss eine Entscheidung getroffen werden, welcher empfangene Merkmalsvektor für den zeitlich ausgerichteten Merkmalsvektor in diesem Fall verwendet werden soll. Eine Alternative zum Auswählen eines der empfangenen Merkmalsvektoren ist, einen Mittelwert der empfangenen Merkmalsvektoren zu berechnen, der auf einen einzelnen repräsentativen Merkmalsvektor abgebildet wird.
  • Wenn der Erste solcher empfangener Merkmalsvektoren verwendet wird, dann ist ωp = rq, wobei
    Figure 00170001
    oder wenn der letzte solcher empfangenen Merkmalsvektoren verwendet wird, dann ist ωp = rs wobei
    Figure 00170002
    oder wenn ein Durchschnittswert verwendet wird,
    Figure 00180001
  • Wenn also im Beispiel der 5 angenommen wird, dass der erste solche empfangene Vektor verwendet wird, ist
    ω1 = r1
    ω2 = r2
    ω3 = r3
    ω4 = r4
    usw.
  • Es ist klar, das ein solcher Ausrichtungsprozess zu einer ausgerichteten Folge von Merkmalsvektoren führt, bei der jeder Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
  • Noch einmal mit Bezug auf 4a wird in einer verbesserten Version des Transformationsprozesses aus jedem der zeitlich ausgerichteten empfangenen Merkmalsvektoren und dem entsprechenden Merkmalsvektor der sprecherabhängigen Transformationsmatrix in einem optionalen Schritt 43 der Mittelwert gebildet. Wenn die zeitlich ausgerichteten empfangenen Merkmalsvektoren wesentlich von den entsprechenden Merkmalsvektoren der sprecherabhängigen Transformationsmatrix verschieden sind, verzerrt ein solcher Schritt der Mittelwertbildung die zeitlich ausgerichteten empfangenen Merkmalsvektoren schwerwiegend, wenn dagegen die zeitlich ausgerichteten Merkmalsvektor der sprecherabhängige Transformationsmatrix ähnlich sind, dann verzerrt der Prozess der Mittelwertbildung die empfangene Merkmalsmatrix sehr wenig. Solche transformierten Merkmale erhöhen das Auflösungsvermögen in allen nachfolgenden Vergleichsprozessen.
  • Die transformierten Merkmale werden dann in einem herkömmlichen Vergleichsprozess zur Sprechererkennung in Schritt 44 verwendet. In dieser Ausführung der Erfindung wird das Sprechermodell von einem versteckten Links-Rechts-Markov-Modell bereitgestellt, und der Vergleich wird mit dem Viterbi-Algorithmus durchgeführt, wie kurz mit Bezug auf die 8 bis 11 beschrieben wird. Eine Maß für den Abstand, das die Wahrscheinlichkeit anzeigt, dass der dargestellte Sprecher die Sprache erzeugt hat, die von den empfangenen Merkmalsvektoren dargestellt wird, wird erzeugt und nachfolgend in Schritt 45 mit einem Schwellwert verglichen. Wenn der Abstand geringer als der Schwellwert ist, wird der Sprecher in Schritt 47 als der gespeicherten Schablone entsprechend akzeptiert; ansonsten wird der Sprecher im Schritt 46 abgewiesen.
  • Die Prinzipien der Modellierung von Sprache mit versteckten Markov-Modellen und Viterbi-Erkennung wird nun mit Bezug auf die 8 bis 11 beschrieben.
  • 8 zeigt ein beispielhaftes HMM (Hidden Markov Model, verstecktes Markov-Modell). Die fünf Kreise 100, 102, 104, 106 und 108 stellen die Zustände des HMMs dar, und zu einem diskreten Zeitpunkt t wird das Modell als in einem der Zustände befindlich betrachtet, und angenommen, dass es eine Beobachtung Ot sendet. Bei Sprach- oder Sprechererkennung entspricht jede Beobachtung im allgemeinen einem Merkmalsvektor.
  • Zum Zeitpunkt t+1 geht das Modell entweder in einen neuen Zustand über oder bleibt in dem gleichen Zustand, und in beiden Fällen sendet es eine weitere Beobachtung usw. Die gesendete Beobachtung hängt nur von dem aktuellen Bestand des Modells ab. Der zum Zeit punkt t+1 besetzte Zustand hängt nur von dem Zustand ab, der zum Zeitpunkt t besetzt war (diese Eigenschaft ist als die Markov-Eigenschaft bekannt). Die Übergangswahrscheinlichkeiten von einem Zustand in einen anderen können in einer N×N-Matrix der Zustandsübergänge (A = [aij]) wie in 9 gezeigt tabellarisiert werden. Der Eintrag in der i-ten Reihe und der j-ten Spalte der Matrix ist die Wahrscheinlichkeit des Übergangs vom Zustand si zum Zeitpunkt t in den Zustand sj zum Zeitpunkt t+1. Wenn die Übergangswahrscheinlichkeit von einem Zustand 1,0 ist (wenn das Modell in demselben Zustand bleibt, dann wird dies als Übergang zu sich selbst betrachtet), jede Reihe der Matrix ergibt in der Summe 1,0. In dem gezeigten Beispiel hat die Matrix der Zustandsübergänge nur Einträge im oberen Dreieck, weil dieses Beispiel ein Links-Rechts-Modell ist, bei dem keine "Rückwärts"übergänge erlaubt sind. In einem allgemeineren können Übergänge des HMM von jedem Zustand zu jedem anderen Zustand erfolgen. Es ist auch einen Initialisierungsvektor (π) gezeigt, dessen i-te Komponente die Wahrscheinlichkeit der Annahme des Zustandes Si zum Zeitpunkt t=1 ist.
  • Nimmt man an, dass W solcher Modelle M1 ... MW existieren, von denen jedes einen bestimmten Sprecher darstellt, und dass ein Sprachsignal von einem unbekannten Sprecher von einer Folge von T Beobachtungen O1, O2, O3, ..., OT dargestellt wird, dann ist das Problem, zu bestimmen, welches Modell am wahrscheinlichsten diese Folge von Beobachtungen gesendet hat, das heißt, k zu bestimmen, wobei
    Figure 00200001
  • Pr(O|M) wird wie folgt rekursiv berechnet:
    die Vorwärts Wahrscheinlichkeit Δt(j) wird als die Wahrscheinlichkeit eines Modells definiert, das die partielle Beobachtungsfolge O1, O2, ..., Ot sendet und den Zustand Sj zum Zeitpunkt t annimmt.
  • Deshalb ist
    Figure 00210001
  • Die Wahrscheinlichkeit, dass das Modell den Zustand Sj zum Zeitpunkt t+1 annimmt und die Beobachtung Ot+1 sendet, kann aus den Vorwärtswahrscheinlichkeiten zum Zeitpunkt t berechnet werden, wobei die Übergangswahrscheinlichkeiten der Zustände (aij) und die Wahrscheinlichkeit b(Ot+1), dass der Zustand Sj die Beobachtung Ot+1 wie folgt aussendet:
    Figure 00210002
  • 10 stellt die Berechnung von αt+1(4) für ein HMM mit sechs Zuständen dar.
  • Die Rekursion wird initialisiert, indem αi(j)=π(j) bj(O1) gesetzt wird.
  • Eine rechnerisch effizientere Variante des obigen Algorithmus ist als Viterbi-Algorithmus bekannt. Im Viterbi-Algorithmus wird statt wie beschrieben der Aufsummierung der Vorwärtswahrscheinlichkeiten das Maximum der Vorwärtswahrscheinlichkeiten verwendet.
  • Das heißt,
    Figure 00210003
  • Wenn es erforderlich ist, die Folge der wahrscheinlichsten Zustände zu bekommen, dann wird jeder Zeitpunkt ϕt berechnet. ψt(j) wird aufgenommen, wobei ψt(j) der wahrscheinlichste Zustand zum Zeitpunkt t–1 mit der Vorgabe des Zustandes sj zum Zeitpunkt t ist, das heißt, der Zustand, der die rechte Seite der obigen Gleichung maximiert. Der wahrscheinlichste Zustand zum Zeitpunkt T ist, dass der Zustand sk, für den ϕT(j) maximal ist, und ψT(j) den wahrscheinlichsten Zustand zum Zeitpunkt T–1 ergeben usw.
  • 11 stellt eine mögliche Zustandsfolge dar, die mit dem Viterbi-Algorithmus für eine Folge von Beobachtungen (oder Merkmalsvektoren) von 16 Fenstern und ein verstecktes Links-Rechts-Markov-Modell mit fünf Zuständen berechnet wurde.
  • 4b zeigt die entsprechende Betriebsweise des Sprechererkennungsprozesses 21 bei der Sprecheridentifizierung; in diesem Fall wird eine Vielzahl von Sprechertransformationen und entsprechenden Sprechermodellen verwendet. Jede sprecherabhängige Transformation wird der Reihe nach ausgewählt und verwendet, um die empfangenen Merkmalsvektoren in Schritt 42 zeitlich auszurichten. Die zeitlich ausgerichtete Folge von empfangenen Merkmalsvektoren wird dann in Schritt 48 mit dem entsprechenden Sprechermodell verglichen. Wie oben mit Bezug auf 4a beschrieben kann auch aus jedem der zeitlich ausgerichteten empfangenen Merkmalsvektoren mit dem entsprechenden Merkmalsvektor der sprecherabhängigen Transformationsmatrix in dem optionalen Schritt 43 ein Mittelwert gebildet werden. Der Sprecher wird dann durch das Abstandsmaß, das die größte Wahrscheinlichkeit anzeigt, dass der bekannte Sprecher dem unbekannten Sprecher entspricht, als der bekannte Sprecher identifiziert. Wenn jedoch im Schritt 53 das kleinste Abstandsmaß größer als der Schwellwert ist, was anzeigt, dass es keine besonders hohe Wahrscheinlichkeit dafür gibt, dass der Sprecher der unbekannte Sprecher ist, dann wird der Sprecher in Schritt 54 als dem System unbekannt abgewiesen.
  • In der Vergangenheit hat ein Vergleichsprozess mit dynamischer Zeitverzerrung für die Sprechererkennung besser als ein Vergleichs prozess mit versteckten Markov-Modellen funktioniert. Ein Unterschied zwischen dem Vergleichen einer Folge von Merkmalsvektoren mit einem versteckten Markov-Modell und dem Vergleichen der gleichen Folge von Merkmalsvektoren mit einer repräsentativen Schablone mit einem dynamischen Zeitverzerrungs-Algorithmus liegt in der Stufe des Angleichens der Muster. In einem DTW(Dynamic Time Warp, dynamische Zeitverzerrung)-Ansatz kann ein empfangener Merkmalsvektor mit zwei oder mehr repräsentativen Merkmalsvektoren in Übereinstimmung gebracht werden, was einem horizontalen Pfad in 5 entspricht. In einem Ansatz mit versteckten Markov-Modellen kann jeder empfangene Merkmalsvektor nur mit einem Zustand in Übereinstimmung gebracht werden. Es ist nicht möglich, einen horizontalen Pfad in 11 zu bekommen. Die Ausrichtung der Folge von empfangenen Merkmalsvektoren an der sprecherabhängigen Transformationsmatrix ergibt mehr Möglichkeiten zur Abbildung empfangener Merkmalsvektoren auf Zustände von einem HMM, und kann folglich die Leistungsfähigkeit einer auf HMMs basierenden Sprechererkennung verbessern.
  • Ein anderer Unterschied zwischen einem HMM-basierten Sprechererkenner und einem DTW-basierten Sprechererkenner ist, dass DTW-Schablonen vollständig auf der Sprache einer Person basieren, wogegen eine einzelne Topologie eines HMMs oft vor dem Trainieren eines Satzes von Modellen mit der Sprache einer Person definiert wird. In einer verbesserten Ausführung der Erfindung werden die Sprechermodelle von den HMMs bereitgestellt, die unterschiedliche Anzahlen von Zuständen haben, die von der Sprache beim Training jeder Person abhängen. Zum Beispiel kann die Mindestanzahl von Merkmalsvektoren in einem Satz von Äußerungen im Training einer bestimmten Person für ein bestimmtes Wort verwendet werden, um die Anzahl von Zuständen auszuwählen, die für das HMM für dieses bestimmte Wort für die bestimmte Person verwendet wird. Die Anzahl von Merkmalen in der sprecherabhängigen Transformationsmatrix kann ähnlich definiert werden, wobei die Anzahl von Merkmalen in der Folge von repräsentativen Merkmalsvektoren die gleiche Anzahl wie die Anzahl von Zuständen in dem versteckten Markov-Modell ist.
  • Die Erfindung wurde mit Bezug auf MFCCs beschrieben, aber es ist klar, dass jede geeignete spektrale Darstellung verwendet werden kann, zum Beispiel kepstrale Koeffizienten mit linearen Vorhersagekoeffizienten (LPC, Linear Predicition Coefficients), schnelle Fourier-Transformation (FFT), kepstrale Koeffizienten mit Line Spectral Pair(LSP)-Koeffizienten usw.
  • Während ein Vergleichsprozess mit versteckten Markov-Modellen diskutiert wurde, ist die Erfindung auch auf Sprechererkennung anwendbar, die andere Typen von Vergleichsprozessen einsetzt, z. B. zeitliche Verzerrungsmethoden oder Methoden mit neuronalen Netzen.
  • Die vorliegende Erfindung setzt eine sprecherabhängige Transformation für jeden zu identifizierenden Sprecher ein. In der hier beschriebenen Ausführung der Erfindung werden sprecherabhängige Transformationsmatrizen durch eine repräsentative Folge von Merkmalsvektoren für jedes Wort bereitgestellt.
  • Verfahren zur Ableitung repräsentativer Folgen von Merkmalsvektoren sind wohlbekannt, und für das Verständnis der vorliegenden Erfindung ist es ausreichend, darauf hinzuweisen, dass jede repräsentative Folgen von Merkmalsvektoren mit einem Prozess des Empfangens von einer Vielzahl von Äußerungen desselben Wortes durch einen Sprecher und der Ableitung eines Satzes von Merkmalsvektoren wie oben beschrieben für jede der Äußerungen gebildet werden kann. Die Folgen werden dann beispielsweise wie oben beschrieben zeitlich ausgerichtet, und dann aus den zeitlich ausgerichteten Folgen von Merkmalsvektoren für die Vielzahl von Äußerungen ein Mittelwert gebildet, um eine gemittelte Folge von Merkmalsvektoren abzuleiten, die die sprecherabhängige Transformationsmatrix bereitstellt.

Claims (12)

  1. Verfahren zur Sprechererkennung, das die folgenden Schritte umfasst: Aufnehmen (40) eines Sprachsignals von einem unbekannten Sprecher; Speichern einer Vielzahl von Transformationen für Sprecher, wobei jede Transformation jeweils einem der Vielzahl von Sprechern zugeordnet ist; Speichern einer Vielzahl von Sprechermodellen, wobei jedes Sprechermodell jeweils einem der Vielzahl von Sprechern zugeordnet ist; Transformieren (42, 43) des aufgenommenen Sprachsignals mit einer ausgewählten der gespeicherten Transformationen, wobei die ausgewählte Transformation einem bestimmten Sprecher zugeordnet ist; Vergleichen (44) des transformierten Sprachsignals mit einem ausgewählten der gespeicherten Modelle, wobei das ausgewählte Modell den bestimmten Sprecher darstellt; und Liefern (47) eines Parameters als Ausgabe, der von der Wahrscheinlichkeit abhängt, dass der unbekannte Sprecher der bestimmte Sprecher ist.
  2. Verfahren nach Anspruch 1, wobei der Transformationsschritt die folgenden Unterschritte umfasst: Erkennen eines Zeitpunktes des Beginns des Sprechens und eines Zeitpunktes des Endes des Sprechens innerhalb des aufgenommenen Sprachsignals; Erzeugen einer Folge von Merkmalsvektoren, die aus dem aufgenommenen Sprachsignal abgeleitet werden; und Ausrichten der Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erkannten Zeitpunkt des Beginns des Sprechens und dem erkannten Zeitpunkt des Endes des Sprechens entsprechen, an einer für den bestimmten Sprecher repräsentativen Folge von Merkmalsvektoren, sodass jeder Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
  3. Verfahren nach Anspruch 2, bei dem der Transformationsschritt außerdem den Unterschritt umfasst, aus jedem Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren und dem entsprechenden Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren den Mittelwert zu bilden.
  4. Verfahren nach irgend einem der vorangehenden Ansprüche, bei dem das Modell ein verstecktes Markov-Modell ist.
  5. Verfahren nach Anspruch 4, bei dem das Modell ein verstecktes Links-Rechts-Markov-Modell ist.
  6. Verfahren nach Anspruch 5, wenn Anspruch 4 entweder von Anspruch 2 oder von Anspruch 3 abhängig ist, bei dem die repräsentative Folge von Merkmalsvektoren die selbe Anzahl von Merkmalsvektoren wie die Anzahl von Zuständen in den versteckten Markov-Modellen enthält.
  7. Vorrichtung zur Sprechererkennung mit: einer Aufnahmeeinrichtung (1) zum Aufnehmen von Sprachsignalen von einem unbekannten Sprecher; einem Sprechertransformationsspeicher (22) zum Speichern einer Vielzahl von Sprechertransformationen, wobei jede Transformation jeweils einem von einer Vielzahl von Sprechern zugeordnet ist; einem Sprechermodellspeicher (23) zum Speichern einer Vielzahl von Sprechermodellen, wobei jedes Sprechermodell jeweils einem von einer Vielzahl von Sprechern zugeordnet ist; einer Transformationseinrichtung (21), die mit der Aufnahmeeinrichtung und dem Sprechertransformationsspeicher gekoppelt ist, und die bei der Verwendung dazu eingerichtet ist, die empfangenen Sprachsignale nach einer ausgewählten Sprechertransformation zu transformieren; einer Vergleichseinrichtung (21), die mit der Transformationseinrichtung und dem Sprechermodellspeicher gekoppelt ist, und die bei der Verwendung dazu eingerichtet ist, das transformierte Sprachsignal mit dem entsprechenden Sprechermodell zu vergleichen; und einer Ausgabeeinrichtung zum Liefern eines Signals, das die Wahrscheinlichkeit anzeigt, dass der unbekannte Sprecher der Sprecher ist, dem die ausgewählte Sprechertransformation zugeordnet ist.
  8. Vorrichtung nach Anspruch 7, bei der der Transformationsspeicher jede der Transformationen als eine repräsentative Folge von Merkmalsvektoren speichert; und bei der die Transformationseinrichtung folgendes umfasst: einen Startzeitpunktdetektor und einen Endzeitpunktdetektor zum Erkennen des Zeitpunktes des Beginns des Sprechens und des Zeitpunktes des Endes des Sprechens innerhalb eines aufgenommenen Sprachsignals, einen Merkmalsvektorerzeuger zur Erzeugung einer Folge von Merkmalsvektoren, die aus der eingegebenen Sprache abgeleitet werden, und eine Ausrichtungseinrichtung zum Ausrichten der Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erkannten Startzeitpunkt und dem erkannten Endzeitpunkt entsprechen, an einer repräsentativen Folge von Merkmalsvektoren, sodass jeder Merkmalsvektor in der resultierenden ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
  9. Vorrichtung nach Anspruch 8, bei der die Transformationseinrichtung außerdem eine Einrichtung zur Mittelwertbildung aus jedem Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren und dem entsprechenden Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren umfasst.
  10. Vorrichtung nach irgendeinem der Ansprüche 7 bis 9, bei der der Sprechermodellspeicher dazu eingerichtet ist, das Sprechermodell in Form eines versteckten Markov-Modells speichern.
  11. Vorrichtung nach Anspruch 10, bei der der Sprechermodellspeicher dazu eingerichtet ist, das Sprechermodell in Form eines versteckten Links-Rechts-Markov-Modells zu speichern.
  12. Vorrichtung nach Anspruch 11, wenn Anspruch 10 von Anspruch 8 oder Anspruch 9 abhängig ist, bei der die gespeicherte repräsentative Folge von Merkmalsvektoren dieselbe Anzahl von Vektoren wie die Anzahl von Zuständen in den entsprechenden gespeicherten versteckten Markov-Modellen umfasst.
DE60004331T 1999-03-11 2000-02-25 Sprecher-erkennung Expired - Lifetime DE60004331T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB9905627 1999-03-11
GBGB9905627.7A GB9905627D0 (en) 1999-03-11 1999-03-11 Speaker recognition
EP99305278 1999-07-02
EP99305278 1999-07-02
PCT/GB2000/000660 WO2000054257A1 (en) 1999-03-11 2000-02-25 Speaker recognition

Publications (2)

Publication Number Publication Date
DE60004331D1 DE60004331D1 (de) 2003-09-11
DE60004331T2 true DE60004331T2 (de) 2005-05-25

Family

ID=26153521

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60004331T Expired - Lifetime DE60004331T2 (de) 1999-03-11 2000-02-25 Sprecher-erkennung

Country Status (11)

Country Link
US (1) US6922668B1 (de)
EP (1) EP1159737B9 (de)
KR (1) KR20010102549A (de)
CN (1) CN1148720C (de)
AT (1) ATE246835T1 (de)
AU (1) AU2684100A (de)
CA (1) CA2366892C (de)
DE (1) DE60004331T2 (de)
ES (1) ES2204516T3 (de)
IL (1) IL145285A0 (de)
WO (1) WO2000054257A1 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437286B2 (en) 2000-12-27 2008-10-14 Intel Corporation Voice barge-in in telephony speech recognition
CA2480509C (en) * 2002-03-28 2011-06-07 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
GB2388947A (en) * 2002-05-22 2003-11-26 Domain Dynamics Ltd Method of voice authentication
US20060129399A1 (en) * 2004-11-10 2006-06-15 Voxonic, Inc. Speech conversion system and method
CN101124623B (zh) * 2005-02-18 2011-06-01 富士通株式会社 语音认证***及语音认证方法
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
KR100826875B1 (ko) * 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
JP5396044B2 (ja) * 2008-08-20 2014-01-22 株式会社コナミデジタルエンタテインメント ゲーム装置、ゲーム装置の制御方法、及びプログラム
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
EP2713367B1 (de) * 2012-09-28 2016-11-09 Agnitio, S.L. Sprechererkennung
US10013996B2 (en) * 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
AU2017327003B2 (en) 2016-09-19 2019-05-23 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
US10755718B2 (en) * 2016-12-07 2020-08-25 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
WO2019013770A1 (en) * 2017-07-11 2019-01-17 Hewlett-Packard Development Company, L.P. VOICE AUTHENTICATION BASED ON VOICE MODULATION
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US11646018B2 (en) 2019-03-25 2023-05-09 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0380489B1 (de) * 1987-07-03 1993-08-25 Btg International Limited Verfahren zum herstellen einer zerstäuberdüse
US5129002A (en) * 1987-12-16 1992-07-07 Matsushita Electric Industrial Co., Ltd. Pattern recognition apparatus
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
JP2797949B2 (ja) * 1994-01-31 1998-09-17 日本電気株式会社 音声認識装置
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5706397A (en) 1995-10-05 1998-01-06 Apple Computer, Inc. Speech recognition system with multi-level pruning for acoustic matching
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods
US5995927A (en) * 1997-03-14 1999-11-30 Lucent Technologies Inc. Method for performing stochastic matching for use in speaker verification
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
CA2304747C (en) * 1997-10-15 2007-08-14 British Telecommunications Public Limited Company Pattern recognition using multiple reference models

Also Published As

Publication number Publication date
WO2000054257A1 (en) 2000-09-14
EP1159737B1 (de) 2003-08-06
AU2684100A (en) 2000-09-28
DE60004331D1 (de) 2003-09-11
CN1148720C (zh) 2004-05-05
CA2366892A1 (en) 2000-09-14
CA2366892C (en) 2009-09-08
ES2204516T3 (es) 2004-05-01
IL145285A0 (en) 2002-06-30
EP1159737B9 (de) 2004-11-03
CN1343352A (zh) 2002-04-03
KR20010102549A (ko) 2001-11-15
US6922668B1 (en) 2005-07-26
ATE246835T1 (de) 2003-08-15
EP1159737A1 (de) 2001-12-05

Similar Documents

Publication Publication Date Title
DE60004331T2 (de) Sprecher-erkennung
DE69432570T2 (de) Spracherkennung
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69814195T2 (de) Vorrichtung zur Sprechererkennung
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69636057T2 (de) Sprecherverifizierungssystem
DE60301767T9 (de) Normalisierung eines Verifizierungsmasses in einer Vorrichtung zur Sprecherverifikation
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
US7904295B2 (en) Method for automatic speaker recognition with hurst parameter based features and method for speaker classification based on fractional brownian motion classifiers
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE112010005959T5 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE69819438T2 (de) Verfahren zur Spracherkennung
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition