DE60004331T2

DE60004331T2 - Sprecher-erkennung

Info

Publication number: DE60004331T2
Application number: DE60004331T
Authority: DE
Inventors: Nicholas Simon Ipswich DOWNEY
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1999-03-11
Filing date: 2000-02-25
Publication date: 2005-05-25
Anticipated expiration: 2020-02-26
Also published as: WO2000054257A1; EP1159737B1; AU2684100A; DE60004331D1; CN1148720C; CA2366892A1; CA2366892C; ES2204516T3; IL145285A0; EP1159737B9; CN1343352A; KR20010102549A; US6922668B1; ATE246835T1; EP1159737A1

Description

Die vorliegende Erfindung bezieht sich auf Sprechererkennung. Bei der Sprechererkennung wird die Identität des Sprechers identifiziert oder verifiziert. Bei der Sprechererkennung wird der Sprecher entweder als einer von einer Gruppe von bekannten Sprechern identifiziert oder als ein unbekannter Sprecher abgewiesen. Beim Verifizieren des Sprechers wird der Sprecher entweder mit der behaupteten Identität akzeptiert oder abgewiesen. Der Sprecher kann eine behauptete Identität eingeben, z. B., mittels eines Passwortes, einer persönlichen Identifikationsnummer oder einer Magnetstreifenkarte.
Im allgemeinen zielt Sprachverarbeitung bei der Sprechererkennung darauf ab, bei verschiedenen Sprechern die Auswirkungen auf das gesprochene Wort zu erhöhen, wogegen bei Spracherkennung, bei der ein bestimmtes Wort (oder manchmal ein Satz oder ein Phonem, oder anderer gesprochener Text) erkannt wird, die Sprachverarbeitung darauf abzielt, die Auswirkungen verschiedener Sprecher auf das gesprochene Wort zu verringern.
Es ist üblich, Sprachdaten, typischerweise in digitaler Form, in einen Prozessor am Frontend einzugeben, der aus dem Strom eingegebener Daten kompaktere, für die Erkennung signifikante Daten ableitet, die als Eingangsmerkmalsvektoren (oder manchmal als Frontend-Merkmalsvektoren) bezeichnet werden. Wenn der Sprecher ein vorher festgelegtes Wort spricht, das der Erkennungsvorrichtung und dem Sprecher bekannt ist (z. B. eine persönliche Identifikationsnummer bei Bankgeschäften), ist das Verfahren als "textabhängig" bekannt. Bei manchen Anwendungen der Sprechererkennung wird ein Verfahren verwendet, das nicht erfordert, dass die Sprache vorher festgelegt werden muss, solche Verfahren sind als "textunabhängige" Verfahren bekannt.
In textabhängigen Verfahren wird eine gespeicherte Darstellung des Wortes, die als Schablone oder Modell bekannt ist, vorher von einem Sprecher abgeleitet, von dem bekannt ist, dass er authentisch ist. Die Eingangsmerkmalsvektoren, die von dem zu erkennenden Sprecher abgeleitet wurden, werden mit der Schablone verglichen, und ein Maß der Ähnlichkeit zwischen den beiden wird mit einem Schwellwert für eine Entscheidung über die Akzeptanz verglichen. Der Vergleich kann mittels dynamischer Zeitverzerrung ausgeführt werden, wie in "On the evaluation of Speech Recognisers and Data Bases using a Reference System", Chollet & Gagnoulet, 1982 IEEE, International Conference on Acoustics, Speech and Signal Processing, pp 2026–2029. Andere Einrichtungen zum Vergleichen schließen die Verarbeitung mit versteckten Markov-Modellen und neuronalen Netze ein. Diese Verfahren sind in British Telecom Technology Journal, Vol. 6, No. 2 April 1988, "Hidden Markov Models for Automatic Speech Recognition : Theory and Applicatoin", SJ Cox Seiten 105–115, "Multi-layer perceptrons applied to speech technology", McCullough et al, Seiten 131–139 und "Neural arrays for speech recognition", Tattershall et al Seiten 140–163 beschrieben.
Verschiedene Typen von Merkmalen sind für die Sprachverarbeitung verwendet oder vorgeschlagen worden. Da im allgemeinen beabsichtigt ist, mit den für die Spracherkennung verwendeten Merkmalen ein Wort von einem anderen ohne Empfindlichkeit bezüglich des Sprechers zu unterscheiden, wogegen es für die Sprechererkennung beabsichtigt ist, mit einem bekannten Wort oder Worten zwischen den Sprechern zu unterscheiden, kann ein für einen Typ der Erkennung geeigneter Merkmalstyp auch für den anderen geeignet sein. Manche Merkmalstypen, wie für die Sprechererkennung geeignet sind, sind in "Automatic Recognition of Speakers from their voices", Atal, Proc. IEEE vol 64 pp 406–475, April 1976 beschrieben.
EP-A-0 501 631 veröffentlicht ein System und ein Verfahren zur automatischen zeitlichen Dekorrelation der Verifikation der Spre cherstimme, mit einem Sammler für den Empfang von Spracheingaben von einem unbekannten Sprecher, der eine bestimmte Identität beansprucht, einem Sprachmerkmalsberechner auf Wortebene zur Erzeugung eines Sprachmerkmalsspeichers auf Wortebene zum Speichern von Sprachmerkmalsvektoren auf Wortebene, von denen bekannt ist, dass sie zu einem Sprecher mit einer bestimmten Identität gehören, einem Vektorzähler auf Wortebene zur Berechnung eines Ergebnisses bezüglich der Ähnlichkeit zwischen den von dem unbekannten Sprecher empfangenen Sprachmerkmalsvektoren auf Wortebene und den vom Sprachmerkmalsspeicher auf Wortebene empfangenen Sprachmerkmalsvektoren, und einer Logik für die Entscheidung über die Verifikation des Sprechers auf Basis des Ergebnisses der Ähnlichkeit zur Bestimmung, ob die Identität des unbekannten Sprechers mit der behaupteten übereinstimmt. Der Vektorzähler auf Wortebene schließt außerdem eine Logik zur Verkettung als auch einen wortspezifischen orthogonalen linearen Transformierer ein.
Nach der vorliegenden Erfindung wird ein Verfahren zur Sprechererkennung vorgeschlagen, mit den Schritten Aufnehmen eines Sprachsignals von einem unbekannten Sprecher; Speichern einer Vielzahl von Transformationen für Sprecher, wobei jede Transformation jeweils einem der Vielzahl von Sprechern zugeordnet ist; Speichern einer Vielzahl von Sprechermodellen, wobei jedes Sprechermodell jeweils einem der Vielzahl von Sprechern zugeordnet ist; Transformieren des aufgenommenen Sprachsignals mit einer ausgewählten der gespeicherten Transformationen, wobei die ausgewählte Transformation einem bestimmten Sprecher zugeordnet ist; Vergleichen des transformierten Sprachsignals mit einem ausgewählten der gespeicherten Modelle, wobei das ausgewählte Modell den bestimmten Sprecher darstellt; und Liefern eines Parameters als Ausgabe, der von der Wahrscheinlichkeit abhängt, dass der unbekannte Sprecher der bestimmte Sprecher ist.
Vorzugsweise umfasst der Transformationsschritt die Unterschritte Erkennen eines Zeitpunktes des Beginns des Sprechens und eines Zeitpunktes des Endes des Sprechens innerhalb des aufgenommenen Sprachsignals; Erzeugen einer Folge von Merkmalsvektoren, die aus dem aufgenommenen Sprachsignal abgeleitet werden; und Ausrichten der Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erkannten Zeitpunkt des Beginns des Sprechens und dem erkannten Zeitpunkt des Endes des Sprechens entsprechen, an einer für den bestimmten Sprecher repräsentativen Folge von Merkmalsvektoren, sodass jeder Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
Vorteilhafterweise umfasst der Transformationsschritt außerdem den Unterschritt, aus jedem Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren und dem entsprechenden Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren den Mittelwert zu bilden.
Bevorzugt ist das Modell ein verstecktes Markov-Modell und kann ein verstecktes Links-Rechts-Markov-Modell sein. Vorteilhafterweise enthält die gespeicherte repräsentative Folge von Merkmalsvektoren dieselbe Anzahl von Vektoren wie die Anzahl von Zuständen in den entsprechenden gespeicherten versteckten Markov-Modellen.
Nach einem anderen Aspekt der Erfindung wird eine Vorrichtung zur Sprechererkennung vorgeschlagen, mit einer Aufnahmeeinrichtung zum Aufnehmen von Sprachsignalen von einem unbekannten Sprecher; einem Sprechertransformationsspeicher zum Speichern einer Vielzahl von Sprechertransformationen, wobei jede Transformati on jeweils einem aus einer Vielzahl von Sprechern zugeordnet ist; einen Sprechermodellspeicher zum Speichern einer Vielzahl von Sprechermodellen, wobei jedes Sprechermodell jeweils einem von einer Vielzahl von Sprechern zugeordnet ist; einer Transformationseinrichtung, die mit der Aufnahmeeinrichtung und dem Sprechertransformationsspeicher gekoppelt ist, und die bei der Verwendung dazu eingerichtet ist, die empfangenen Sprachsignale nach einer ausgewählten Sprechertransformation zu transformieren;
einer Vergleichseinrichtung, die mit der Transformationseinrichtung und dem Sprechermodellspeicher gekoppelt ist, und die bei der Verwendung dazu eingerichtet ist, das transformierte Sprachsignal mit dem entsprechenden Sprechermodell zu vergleichen; und einer Ausgabeeinrichtung zum Liefern eines Signals, das die Wahrscheinlichkeit anzeigt, dass der unbekannte Sprecher der Sprecher ist, dem die ausgewählte Sprechertransformation zugeordnet ist.
Bevorzugt umfasst die Transformationseinrichtung einen Startzeitpunktdetektor und einen Endzeitpunktdetektor zum Erkennen des Zeitpunktes des Beginns des Sprechens und des Zeitpunktes des Endes des Sprechens innerhalb eines aufgenommenen Sprachsignals, einen Merkmalsvektorerzeuger zur Erzeugung einer Folge von Merkmalsvektoren, die aus der eingegebenen Sprache abgeleitet werden, und eine Ausrichtungseinrichtung zum Ausrichten der Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erkannten Startzeitpunkt und dem erkannten Endzeitpunkt entsprechen, an einer repräsentativen Folge von Merkmalsvektoren, sodass jeder Merkmalsvektor in der resultierenden ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
Vorteilhafterweise umfasst die Transformationseinrichtung außerdem eine Einrichtung zur Mittelwertbildung aus jedem Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren und dem entsprechenden Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren.
Bevorzugt ist der Sprechermodellspeicher dazu eingerichtet, das Sprechermodell in Form eines versteckten Markov-Modells speichern, und kann dazu eingerichtet sein, das Sprechermodell in Form eines versteckten Links-Rechts-Markov-Modells zu speichern.
Vorteilhafterweise enthält die repräsentative Folge von Merkmalsvektoren dieselbe Anzahl von Vektoren wie die Anzahl von Zuständen in dem entsprechenden gespeicherten versteckten Markov-Modell.
Es ist wohlbekannt, dass der Sprechapparat eines Sprechers während der Erzeugung von Sprache als zeitlich variabler Filter modelliert werden kann. In dieser Erfindung werden die Merkmalsvektoren vor dem Vergleich mit Merkmalsvektoren, die von Sprache mit einem gespeicherten Referenzmodell abgeleitet sind, verarbeitet, indem eine dem Sprecher zugeordnete Transformation angewendet wird, die zu den Eigenschaften des Sprechapparates eines bestimmten Sprechers passt. Merkmale, die von Sprache abgeleitet sind, die sehr verschiedene Eigenschaften im Vergleich zu dem Sprecher hat, dem die Transformation zugeordnet ist, kann durch die Transformation stark verzerrt werden, wogegen Sprachmerkmale, die ähnliche Eigenschaften im Vergleich zu denen des Sprechers haben, dem die Transformation zugeordnet ist, viel weniger verzerrt werden. Eine solche sprecherabhängige Transformation kann als ähnlicher Prozess wie der der herkömmlichen Matched-Filterung angesehen werden, bei dem ein gefiltertes Signal bei Verwendung eines Matched-Filters kei ne Verzerrung erleidet. Merkmale, die auf diese Weise transformiert worden sind, liefern folglich mehr Unterscheidungskraft zwischen Sprechern. Solche transformierten Merkmale werden dann in einem herkömmlichen Vergleichsprozess für Sprechererkennung verwendet.
Die Erfindung wird nun, nur als Beispiel, mit Bezug auf die Figuren beschrieben, in denen:
1 ein Telekommunikationssystem zeigt, das einen Erkennungsprozessor enthält,
2 einen Teil des Erkennungsprozessors von 1 zeigt, der einen Extraktor für das Spektrum enthält;
3 den Extraktor für das Spektrum der 2 zeigt;
4a ein Flussdiagramm ist, das die Betriebsweise des Erkennungsprozessors der 1 während der Sprecherverifikation zeigt;
4b ein Flussdiagramm ist, das die Betriebsweise des Erkennungsprozessors von 1 während der Sprecheridentifikation zeigt;
5 ein Beispiel einer Verzerrungsfunktion zwischen zwei Merkmalsvektoren M und R zeigt;
6 zeigt ein Beispiel einer Gewichtungsfunktion, die während der Verzerrung angewendet werden kann;
7 ist ein Flussdiagramm, das die Berechnung der zeitlich normierten Distanz zweier Merkmalsvektoren zeigt;
8 ist ein Beispiel eines Markov-Modells;
9 zeigt die Übergangsmatrix und ein Beispiel eines Initialisierungsvektors für das Markov-Modell in 8;
10 stellt die Berechnung von Vorwärtswahrscheinlichkeiten für ein verstecktes Markov-Modell mit sechs Zuständen dar; und
11 stellt eine Abfolge möglicher Zustände dar, die unter Verwendung des Viterbi-Algorithmus berechnet wurden.
In 1 ist ein Telekommunikationssystem gezeigt, mit einer Sprechererkennungsvorrichtung mit einem Mikrofon 1, das typischerweise einen Teil eines Telefonhandgerätes bildet, einem Telekommunikationsnetzwerk 2 (z. B. ein öffentliches vermitteltes Telekommunikationsnetzwerk (PSTN, Public Switched Telephone Network) oder ein digitales Telekommunikationsnetzwerk), und mit einer Vorrichtung 4, die an den Erkennungsprozessor 3 angeschlossen ist, und dazu eingerichtet ist, von ihm ein Spracherkennungssignal zu empfangen, das die Erkennung oder Sonstiges von einem bestimmten Sprecher anzeigt, und als Reaktion hierauf in Aktion tritt. Die Nutzvorrichtung 4 kann zum Beispiel ein fernbedienter Bankschalteranschluss zur Durchführung von Bankgeschäften sein. In vielen Fällen erzeugt die Nutzvorrichtung 4 eine hörbare Antwort für den Benutzer, die über das Netzwerk 2 an einen Lautsprecher 5 übertragen wird, der typischerweise einen Teil des Telefonhandgerätes bildet.
Im Betrieb spricht ein Sprecher in das Mikrofon 1 und ein analoges Sprachsignal wird von dem Mikrofon 1 über das Netzwerk 2 zu dem Erkennungsprozessor 3 übertragen, wo das Sprachsignal analysiert wird und ein Signal, das die Erkennung oder Sonstiges eines bestimmten Sprechers anzeigt, erzeugt und an die Nutzvorrichtung 4 übertragen wird, die dann im Falle der Erkennung oder Sonstigem von dem bestimmten Sprecher geeignete Maßnahmen ergreift. Wenn der Erkennungspozessor um Sprecheridentifikation durchführt, dann zeigt das Signal entweder den identifizierten Sprecher an, oder dass der Sprecher abgewiesen wurde. Wenn der Erkennungsprozessor Sprecherverifizierung durchführt, zeigt das Signal an, dass der Sprecher der behauptete Sprecher ist oder nicht.
Der Erkennungsprozessor muss Daten erfassen, die die Identität des Sprechers betreffen, mit denen das Sprachsignal verglichen wird. Diese Datenerfassung kann von dem Erkennungsprozessor in einer zweiten Betriebsart durchgeführt werden, bei der der Erkennungsprozessor 3 nicht mit der Nutzvorrichtung 4 verbunden ist, aber ein Sprachsignal von dem Mikrofon 1 empfängt, um die Erkennungsdaten für diesen Sprecher zu erzeugen. Andere Methoden der Erfassung der Sprechererkennungsdaten sind jedoch auch möglich; z. B. können Sprechererkennungsdaten auf einer Karte gespeichert sein, die der Sprecher bei sich trägt, und die in einen Kartenleser eingesetzt werden kann, von dem vor der Übertragung des Sprachsignals die Daten gelesen und über das Netzwerk an den Anerkennungsprozessor übertragen werden.
Üblicherweise kennt der Erkennungsprozessor 3 nicht den Weg, den das Signal von dem Mikrofon 1 zum und durch das Netzwerk 2 nimmt; das Mikrofon 1 kann z. B. durch eine mobile analoge oder eine digitale Funkverbindung mit dem Netzwerk 2 verbunden sein, oder kann aus einem anderen Land stammen. Das Mikrofon kann ein Teil eines Aufnahmehandgerätes aus einer großen Vielfalt von Typen und Qualitäten sein. Ebenso kann innerhalb des Netzwerks 2 irgendeiner aus einer großen Vielzahl von Übertragungswegen genommen werden, einschließlich Funkverbindungen, analogen und digitalen Pfaden usw.
2 zeigt einen Teil des Erkennungsprozessors 3. Digitale Sprachsignale werden von einem Extraktor für das Spektrum 20 zum Beispiel aus einem digitalen Telefonnetzwerk empfangen, oder von einem Analog-Digital-Wandler. Eine Anzahl von Merkmalsvektoren, von denen jeder eine Anzahl von zusammenhängenden digitalen Messwerten darstellt, werden aus den digitalen Sprachsignalen abgeleitet. Sprachsignale können zum Beispiel mit einer Abtastrate von 8 kHz empfangen werden, und der Merkmalsvektor kann ein Fenster von 256 zusammenhängenden Messwerten darstellen, das heißt 32 ms Sprache.
Der Extraktor für das Spektrum 20 liefert Merkmalsvektoren an einen Endpunktdetektor 24, der als Ausgangssignale den Startpunkt und den Endpunkt der empfangenen Sprachsignale anzeigt. Die Merkmalsvektoren werden vor der Verarbeitung durch einen Sprechererkennungsprozessor 21 auch in den Fensterpuffern 25 gespeichert.
Die Start- und Endpunkte der Sprache werden von einem herkömmlichen energiebasierten Endanzeiger bereitgestellt. Bei einer verbesserten Methode können Signale von einem Spracherkenner verwendet werden, der dazu eingerichtet ist, das spezielle Wort zu erkennen.
Eine Vielzahl von Merkmalsvektoren wird von dem Sprechererkennungsprozessor 21 empfangen, der eine sprecherabhängige Transformationsmatrix, die einem bestimmten Sprecher zugeordnet ist, aus dem Sprechertransformationsspeicher 22 und ein Referenzmodell, das einem bestimmten Sprecher zugeordnet ist, von einem Sprechermodellspeicher 23 ausliest. Der Sprechererkennungsprozessor verarbeitet dann die empfangenen Merkmalsvektoren in Abhängigkeit von der abgerufenen Sprechertransformationsmatrix und dem Modell und erzeugt ein Ausgangssignal in Abhängigkeit von der Wahrscheinlichkeit, dass der Sprecher, der von dem abgerufenen Modell und der sprecherabhängigen Transformation dargestellt wird, die Sprache erzeugt hat, die von den empfangene Merkmalsvektoren dargestellt wird. Der Betrieb des Sprechererkennungsprozessors wird später vollständiger mit Bezug auf 4a und 4b beschrieben. Der Sprechererkennungsprozessor 21 stellt die Transformationseinrichtung, die Vergleichseinrichtung und die Ausgabeeinrichtung der vorliegenden Erfindung dar.
Nun wird mit Bezug auf 3 der Betrieb des Extraktors für das Spektrum 20 detaillierter beschrieben. Ein Filter zur Verstärkung hoher Frequenzen 10 empfängt die digitalisierte Kurvenform der Sprache zum Beispiel mit der Abtastrate von 8 kHz als eine Folge von 8-Bit-Zahlen und führt einen Filterprozess zur Verstärkung hoher Frequenzen aus (zum Beispiel, indem ein Filter mit 1–0,95·z^–1 angewendet wird), um die Amplituden bei höheren Frequenzen zu erhöhen.
Ein Fenster von zusammenhängenden Messwerten des gefilterten Signals wird von einem Fensterprozessor 11 zum Beispiel unter Verwendung eines Hamming-Fensters definiert (das heißt, die Messwerte werden mit vorher festgelegten Gewichtungskonstanten multipliziert), um unerwünschte Artefakte zu reduzieren, die von den Rändern der Fenster erzeugt werden. In einer bevorzugten Ausführung überlappen sich die Fenster zum Beispiel um 50%, um in diesem Beispiel alle 16 ms ein Fenster bereitzustellen.
Jedes Fenster aus 256 gefensterten Messwerten wird dann von einem Melskala-Kepstralkoeffizienten (MFCC, Mel Frequency Cepstral Coefficient)-Erzeuger 12 verarbeitet, um einen MFCC-Merkmalsvektor zu extrahieren, der einen Satz von MFCCs umfasst (zum Beispiel 8 Koeffizienten).
Der MFCC-Merkmalsvektor wird abgeleitet, indem eine spektrale Transformation, zum Beispiel eine schnelle Fourier-Transformation (FFT), mit jedem Fenster eines Sprachsignals ausgeführt wird, um ein Signalspektrum abzuleiten; die Teile des Spektrums in einer Reihe von breiten Bändern integriert werden, die auf einer "Mel-Frequenz"-Skala entlang der Frequenzachse verteilt sind; die Logarithmen der Größe in jedem Band bestimmt werden; und dann eine weitere Transformation (z. B. eine diskrete Kosinustransformation (DCT, Discrete Cosine Transform)) ausgeführt wird, um den Satz von MFCC-Koeffizienten für das Fenster zu erzeugen. Die Mel-Frequenzskala besteht aus Frequenzbändern mit gleichmäßigem Abstand auf einer linearen Frequenzskala zwischen 0 und 1 kHz, und mit gleichmäßigem Abstand auf einer logarithmischen Frequenzskala oberhalb von 1 kHz.
Der Filter zur Verstärkung hoher Frequenzen 10, der Fensterprozessor 11, der MFCC-Erzeuger 12, der Endpunktdetektor 24 und der Sprechererkennungsprozesse 21 können durch einen oder mehreren geeignet programmierten digitalen Signalprozessoren (DSP) und/oder Mikroprozessoren bereitgestellt werden. Die Fensterpuffer 25, der Sprechertransformationsspeicher 22 und der Sprechermodellspeicher 23 können in Lese/Schreib-Speicherbausteinen bereitgestellt werden, die mit solchen Prozessorbausteinen verbunden sind.
4a zeigt schematisch die Betriebsweise des Sprechererkennungsprozessors 21 während der Sprecherverifikation. Der Sprechererkennungsprozessor empfängt eine Folge von Merkmalsvektoren in Schritt 40 und einen von dem Endpunktdetektor 11 erfassen Startpunkt und Endpunkt. In Schritt 41 wählt der Sprechererkennungsprozessor eine sprecherabhängige Transformationsmatrix aus dem Sprechertransformationsspeicher 22 für den Sprecher, der behauptet, ein Benutzer zu sein, und liest ein entsprechendes Modell, das denselben Sprecher als repräsentative Merkmalsmatrix darstellt, aus dem Sprechermodellspeicher 23 ein.
Die sprecherabhängige Transformationsmatrix stellt ein bestimmtes Wort für einen bestimmten Sprecher dar. Es umfasst eine repräsentative Folge von Merkmalsvektoren des dargestellten Wortes, wenn es von dem dargestellten Sprecher ausgesprochen wird. Auf die sprecherabhängige Transformationsmatrix wird sich hier auch als Folge von repräsentativen Merkmalsvektoren bezogen. Die empfangene Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erfassten Startpunkt und dem erfassten Endpunkt entspricht, wird in Schritt 42 zeitlich mit der sprecherabhängigen Transformationsmatrix unter Verwendung des dynamischen Zeitverzerrungsprozesses (DTW, Dynamic Time Warp Process) ausgerichtet.
Die zeitliche Ausrichtung, die in Schritt 42 durchgeführt wird, wird nun detaillierter mit Bezug auf die 5, 6 und 7 beschrieben.
Die sprecherabhängige Transformationsmatrix umfasst eine repräsentative Folge von Merkmalsvektoren für ein bestimmtes Wort. M=m1, m2, ..., mi, ..., ml
Eine Folge von Merkmalsvektoren R = r1, r2, ..., rj, ..., rJ wird empfangen. Die empfangene Folge von Merkmalsvektoren wird zeitlich mit der repräsentativen Folge von Merkmalsvektoren wie folgt ausgerichtet.
Mit Bezug auf 5 wird die repräsentative Folge entlang der i-Achse dargestellt und die empfangene Folge entlang der j-Achse dargestellt.
Die Folge von Punkten C = (i,j) stellt eine "Verzerrungs"funktion F dar, die ungefähr eine Abbildung der Zeitachse der empfangenen Folge von Merkmalsvektoren auf die der repräsentativen Folge von Merkmalsvektoren darstellt. F = c(1), c(2), ..., c(k), ..., c(K) wobei c(k) =(r(k), m(k))
Als ein Maß der Differenz zwischen den zwei Merkmalsvektoren M und R wird ein Abstand d(c) = d(i,j) = ∥m_ir_j∥ verwendet. Die Aufsummierung der Abstände in der Verzerrungsfunktion ist
was ein Maß dafür ergibt, wie gut die Verzerrungsfunktion F einen Satz von Merkmalsvektoren auf einen anderen abbildet. Das Maß erreicht einen Minimalwert, wenn F so bestimmt wird, dass Differenzen im zeitlichen Ablauf zwischen den zwei Folgen von Merkmalsvektoren optimal eingestellt werden. Alternativ kann eine Gewichtungsfunktion eingesetzt werden, sodass eine gewichtete Summation verwendet wird
und ω(k) verwendet wird, um die Maße des Abstands zu gewichten. Ein Beispiel einer Gewichtungsfunktion ist: ω(K) =(i(K)) – i(K–1)) + (j(K) – j(K–1))die in 6 grafisch gezeigt ist.
Der zeitlich normierte Abstand zwischen zwei Folgen von Vektoren wird definiert als
Der Verzerrungsfunktion F können verschiedene Einschränkungen auferlegt werden, wie in "Dynamic Programming Algorithm Optimisation for Spoken Word Recognition", Skoe and Chiba, IEEE Transactions on Acoustic Speech and Signal Processing, Vol. 26, No. 1, February 1978 beschrieben ist. Die Gleichungen zur Berechnung des zeitlich normierten Abstands zusammen mit der Verzerrungsfunktion F, die den erforderlichen Minimalwert liefert, sind die Folgenden:
die als Gleichung der "dynamischen Programmierung" bekannt ist,
wobei der zeitlich normierte Abstand
ist.
Wenn die oben gezeigte Gewichtungsfunktion verwendet wird, dann wird die Gleichung der dynamischen Programmierung (DP) zu
Ein Flussdiagramm, das die Berechnung des zeitlich normierten Abstandes mit der Gewichtungsfunktion der 6 zeigt, ist in 7 gezeigt.
In Schritt 74 werden i und j mit 1 initialisiert. Im Schritt 76 wird der Anfangswert von g(1,1) gleich m₁–r₁ (d(1,1)) multipliziert mit 2 (entsprechend der Gewichtungsfunktion w) gesetzt. Dann wird in Schritt 78i um 1 erhöht, und wenn i in Schritt 80 nicht größer als 1 ist, wird die Gleichung der dynamischen Programmierung in Schritt 86 berechnet. Wenn i größer als 1 ist, dann wird j in Schritt 88 inkrementiert und i im Schritt 96 auf 1 zurückgesetzt. Die Schritte 78 und 86 werden dann wiederholt, bis schließlich die Gleichung der dynamischen Programmierung für alle Werte von I und J berechnet worden ist, und dann wird der zeitlich nominierte Abstand in Schritt 92 berechnet.
In einem effizienteren Algorithmus wird die Gleichung der dynamischen Programmierung nur für Werte innerhalb eines beschränkten Fensters der Größe r berechnet, sodass j – r ≤ i ≤ j + r
Die Verzerrungsfunktion F kann dann durch "Rückverfolgung" wie folgt bestimmt werden:
Wenn die Verzerrungsfunktion F = C(1), C(2), C(3), ..., C(k), ... C(K)einmal bekannt ist, wobei C(k) = (r(k), m(k)) ist,
dann ist es möglich, eine Folge von "zeitlich ausgerichteten" empfangenen Merkmalsvektoren ω = ω1, ω2, ..., ωI zu bestimmen. In dem in 5 gezeigten Beispiel ist
C(1) = (1,1)
C(2) = (1,2)
C(3) = (2,2)
C(4) = (3,3)
C(5) = (4,3)
das heißt, r₁ wird auf m₁ abgebildet, r₁ wird auf m₂ abgebildet, r₂ wird auf m₂ abgebildet, r₃ wird auf ms abgebildet usw.
Man kann sehen, dass sowohl r₁ als auch r₂ auf m₂ abgebildet wurden, und es muss eine Entscheidung getroffen werden, welcher empfangene Merkmalsvektor für den zeitlich ausgerichteten Merkmalsvektor in diesem Fall verwendet werden soll. Eine Alternative zum Auswählen eines der empfangenen Merkmalsvektoren ist, einen Mittelwert der empfangenen Merkmalsvektoren zu berechnen, der auf einen einzelnen repräsentativen Merkmalsvektor abgebildet wird.
Wenn der Erste solcher empfangener Merkmalsvektoren verwendet wird, dann ist ω_p = r_q, wobei
oder wenn der letzte solcher empfangenen Merkmalsvektoren verwendet wird, dann ist ω_p = r_s wobei
oder wenn ein Durchschnittswert verwendet wird,
Wenn also im Beispiel der 5 angenommen wird, dass der erste solche empfangene Vektor verwendet wird, ist
ω₁ = r₁
ω₂ = r₂
ω₃ = r₃
ω₄ = r₄
usw.
Es ist klar, das ein solcher Ausrichtungsprozess zu einer ausgerichteten Folge von Merkmalsvektoren führt, bei der jeder Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
Noch einmal mit Bezug auf 4a wird in einer verbesserten Version des Transformationsprozesses aus jedem der zeitlich ausgerichteten empfangenen Merkmalsvektoren und dem entsprechenden Merkmalsvektor der sprecherabhängigen Transformationsmatrix in einem optionalen Schritt 43 der Mittelwert gebildet. Wenn die zeitlich ausgerichteten empfangenen Merkmalsvektoren wesentlich von den entsprechenden Merkmalsvektoren der sprecherabhängigen Transformationsmatrix verschieden sind, verzerrt ein solcher Schritt der Mittelwertbildung die zeitlich ausgerichteten empfangenen Merkmalsvektoren schwerwiegend, wenn dagegen die zeitlich ausgerichteten Merkmalsvektor der sprecherabhängige Transformationsmatrix ähnlich sind, dann verzerrt der Prozess der Mittelwertbildung die empfangene Merkmalsmatrix sehr wenig. Solche transformierten Merkmale erhöhen das Auflösungsvermögen in allen nachfolgenden Vergleichsprozessen.
Die transformierten Merkmale werden dann in einem herkömmlichen Vergleichsprozess zur Sprechererkennung in Schritt 44 verwendet. In dieser Ausführung der Erfindung wird das Sprechermodell von einem versteckten Links-Rechts-Markov-Modell bereitgestellt, und der Vergleich wird mit dem Viterbi-Algorithmus durchgeführt, wie kurz mit Bezug auf die 8 bis 11 beschrieben wird. Eine Maß für den Abstand, das die Wahrscheinlichkeit anzeigt, dass der dargestellte Sprecher die Sprache erzeugt hat, die von den empfangenen Merkmalsvektoren dargestellt wird, wird erzeugt und nachfolgend in Schritt 45 mit einem Schwellwert verglichen. Wenn der Abstand geringer als der Schwellwert ist, wird der Sprecher in Schritt 47 als der gespeicherten Schablone entsprechend akzeptiert; ansonsten wird der Sprecher im Schritt 46 abgewiesen.
Die Prinzipien der Modellierung von Sprache mit versteckten Markov-Modellen und Viterbi-Erkennung wird nun mit Bezug auf die 8 bis 11 beschrieben.
8 zeigt ein beispielhaftes HMM (Hidden Markov Model, verstecktes Markov-Modell). Die fünf Kreise 100, 102, 104, 106 und 108 stellen die Zustände des HMMs dar, und zu einem diskreten Zeitpunkt t wird das Modell als in einem der Zustände befindlich betrachtet, und angenommen, dass es eine Beobachtung O_t sendet. Bei Sprach- oder Sprechererkennung entspricht jede Beobachtung im allgemeinen einem Merkmalsvektor.
Zum Zeitpunkt t+1 geht das Modell entweder in einen neuen Zustand über oder bleibt in dem gleichen Zustand, und in beiden Fällen sendet es eine weitere Beobachtung usw. Die gesendete Beobachtung hängt nur von dem aktuellen Bestand des Modells ab. Der zum Zeit punkt t+1 besetzte Zustand hängt nur von dem Zustand ab, der zum Zeitpunkt t besetzt war (diese Eigenschaft ist als die Markov-Eigenschaft bekannt). Die Übergangswahrscheinlichkeiten von einem Zustand in einen anderen können in einer N×N-Matrix der Zustandsübergänge (A = [a_ij]) wie in 9 gezeigt tabellarisiert werden. Der Eintrag in der i-ten Reihe und der j-ten Spalte der Matrix ist die Wahrscheinlichkeit des Übergangs vom Zustand s_i zum Zeitpunkt t in den Zustand s_j zum Zeitpunkt t+1. Wenn die Übergangswahrscheinlichkeit von einem Zustand 1,0 ist (wenn das Modell in demselben Zustand bleibt, dann wird dies als Übergang zu sich selbst betrachtet), jede Reihe der Matrix ergibt in der Summe 1,0. In dem gezeigten Beispiel hat die Matrix der Zustandsübergänge nur Einträge im oberen Dreieck, weil dieses Beispiel ein Links-Rechts-Modell ist, bei dem keine "Rückwärts"übergänge erlaubt sind. In einem allgemeineren können Übergänge des HMM von jedem Zustand zu jedem anderen Zustand erfolgen. Es ist auch einen Initialisierungsvektor (π) gezeigt, dessen i-te Komponente die Wahrscheinlichkeit der Annahme des Zustandes S_i zum Zeitpunkt t=1 ist.
Nimmt man an, dass W solcher Modelle M₁ ... M_W existieren, von denen jedes einen bestimmten Sprecher darstellt, und dass ein Sprachsignal von einem unbekannten Sprecher von einer Folge von T Beobachtungen O₁, O₂, O₃, ..., O_T dargestellt wird, dann ist das Problem, zu bestimmen, welches Modell am wahrscheinlichsten diese Folge von Beobachtungen gesendet hat, das heißt, k zu bestimmen, wobei
Pr(O|M) wird wie folgt rekursiv berechnet:
die Vorwärts Wahrscheinlichkeit Δ_t(j) wird als die Wahrscheinlichkeit eines Modells definiert, das die partielle Beobachtungsfolge O₁, O₂, ..., O_t sendet und den Zustand S_j zum Zeitpunkt t annimmt.
Deshalb ist
Die Wahrscheinlichkeit, dass das Modell den Zustand S_j zum Zeitpunkt t+1 annimmt und die Beobachtung O_t+1 sendet, kann aus den Vorwärtswahrscheinlichkeiten zum Zeitpunkt t berechnet werden, wobei die Übergangswahrscheinlichkeiten der Zustände (a_ij) und die Wahrscheinlichkeit b(O_t+1), dass der Zustand S_j die Beobachtung O_t+1 wie folgt aussendet:
10 stellt die Berechnung von α_t+1(4) für ein HMM mit sechs Zuständen dar.
Die Rekursion wird initialisiert, indem α_i(j)=π(j) b_j(O₁) gesetzt wird.
Eine rechnerisch effizientere Variante des obigen Algorithmus ist als Viterbi-Algorithmus bekannt. Im Viterbi-Algorithmus wird statt wie beschrieben der Aufsummierung der Vorwärtswahrscheinlichkeiten das Maximum der Vorwärtswahrscheinlichkeiten verwendet.
Das heißt,
Wenn es erforderlich ist, die Folge der wahrscheinlichsten Zustände zu bekommen, dann wird jeder Zeitpunkt ϕ_t berechnet. ψ_t(j) wird aufgenommen, wobei ψ_t(j) der wahrscheinlichste Zustand zum Zeitpunkt t–1 mit der Vorgabe des Zustandes s_j zum Zeitpunkt t ist, das heißt, der Zustand, der die rechte Seite der obigen Gleichung maximiert. Der wahrscheinlichste Zustand zum Zeitpunkt T ist, dass der Zustand s_k, für den ϕ_T(j) maximal ist, und ψ_T(j) den wahrscheinlichsten Zustand zum Zeitpunkt T–1 ergeben usw.
11 stellt eine mögliche Zustandsfolge dar, die mit dem Viterbi-Algorithmus für eine Folge von Beobachtungen (oder Merkmalsvektoren) von 16 Fenstern und ein verstecktes Links-Rechts-Markov-Modell mit fünf Zuständen berechnet wurde.
4b zeigt die entsprechende Betriebsweise des Sprechererkennungsprozesses 21 bei der Sprecheridentifizierung; in diesem Fall wird eine Vielzahl von Sprechertransformationen und entsprechenden Sprechermodellen verwendet. Jede sprecherabhängige Transformation wird der Reihe nach ausgewählt und verwendet, um die empfangenen Merkmalsvektoren in Schritt 42 zeitlich auszurichten. Die zeitlich ausgerichtete Folge von empfangenen Merkmalsvektoren wird dann in Schritt 48 mit dem entsprechenden Sprechermodell verglichen. Wie oben mit Bezug auf 4a beschrieben kann auch aus jedem der zeitlich ausgerichteten empfangenen Merkmalsvektoren mit dem entsprechenden Merkmalsvektor der sprecherabhängigen Transformationsmatrix in dem optionalen Schritt 43 ein Mittelwert gebildet werden. Der Sprecher wird dann durch das Abstandsmaß, das die größte Wahrscheinlichkeit anzeigt, dass der bekannte Sprecher dem unbekannten Sprecher entspricht, als der bekannte Sprecher identifiziert. Wenn jedoch im Schritt 53 das kleinste Abstandsmaß größer als der Schwellwert ist, was anzeigt, dass es keine besonders hohe Wahrscheinlichkeit dafür gibt, dass der Sprecher der unbekannte Sprecher ist, dann wird der Sprecher in Schritt 54 als dem System unbekannt abgewiesen.
In der Vergangenheit hat ein Vergleichsprozess mit dynamischer Zeitverzerrung für die Sprechererkennung besser als ein Vergleichs prozess mit versteckten Markov-Modellen funktioniert. Ein Unterschied zwischen dem Vergleichen einer Folge von Merkmalsvektoren mit einem versteckten Markov-Modell und dem Vergleichen der gleichen Folge von Merkmalsvektoren mit einer repräsentativen Schablone mit einem dynamischen Zeitverzerrungs-Algorithmus liegt in der Stufe des Angleichens der Muster. In einem DTW(Dynamic Time Warp, dynamische Zeitverzerrung)-Ansatz kann ein empfangener Merkmalsvektor mit zwei oder mehr repräsentativen Merkmalsvektoren in Übereinstimmung gebracht werden, was einem horizontalen Pfad in 5 entspricht. In einem Ansatz mit versteckten Markov-Modellen kann jeder empfangene Merkmalsvektor nur mit einem Zustand in Übereinstimmung gebracht werden. Es ist nicht möglich, einen horizontalen Pfad in 11 zu bekommen. Die Ausrichtung der Folge von empfangenen Merkmalsvektoren an der sprecherabhängigen Transformationsmatrix ergibt mehr Möglichkeiten zur Abbildung empfangener Merkmalsvektoren auf Zustände von einem HMM, und kann folglich die Leistungsfähigkeit einer auf HMMs basierenden Sprechererkennung verbessern.
Ein anderer Unterschied zwischen einem HMM-basierten Sprechererkenner und einem DTW-basierten Sprechererkenner ist, dass DTW-Schablonen vollständig auf der Sprache einer Person basieren, wogegen eine einzelne Topologie eines HMMs oft vor dem Trainieren eines Satzes von Modellen mit der Sprache einer Person definiert wird. In einer verbesserten Ausführung der Erfindung werden die Sprechermodelle von den HMMs bereitgestellt, die unterschiedliche Anzahlen von Zuständen haben, die von der Sprache beim Training jeder Person abhängen. Zum Beispiel kann die Mindestanzahl von Merkmalsvektoren in einem Satz von Äußerungen im Training einer bestimmten Person für ein bestimmtes Wort verwendet werden, um die Anzahl von Zuständen auszuwählen, die für das HMM für dieses bestimmte Wort für die bestimmte Person verwendet wird. Die Anzahl von Merkmalen in der sprecherabhängigen Transformationsmatrix kann ähnlich definiert werden, wobei die Anzahl von Merkmalen in der Folge von repräsentativen Merkmalsvektoren die gleiche Anzahl wie die Anzahl von Zuständen in dem versteckten Markov-Modell ist.
Die Erfindung wurde mit Bezug auf MFCCs beschrieben, aber es ist klar, dass jede geeignete spektrale Darstellung verwendet werden kann, zum Beispiel kepstrale Koeffizienten mit linearen Vorhersagekoeffizienten (LPC, Linear Predicition Coefficients), schnelle Fourier-Transformation (FFT), kepstrale Koeffizienten mit Line Spectral Pair(LSP)-Koeffizienten usw.
Während ein Vergleichsprozess mit versteckten Markov-Modellen diskutiert wurde, ist die Erfindung auch auf Sprechererkennung anwendbar, die andere Typen von Vergleichsprozessen einsetzt, z. B. zeitliche Verzerrungsmethoden oder Methoden mit neuronalen Netzen.
Die vorliegende Erfindung setzt eine sprecherabhängige Transformation für jeden zu identifizierenden Sprecher ein. In der hier beschriebenen Ausführung der Erfindung werden sprecherabhängige Transformationsmatrizen durch eine repräsentative Folge von Merkmalsvektoren für jedes Wort bereitgestellt.
Verfahren zur Ableitung repräsentativer Folgen von Merkmalsvektoren sind wohlbekannt, und für das Verständnis der vorliegenden Erfindung ist es ausreichend, darauf hinzuweisen, dass jede repräsentative Folgen von Merkmalsvektoren mit einem Prozess des Empfangens von einer Vielzahl von Äußerungen desselben Wortes durch einen Sprecher und der Ableitung eines Satzes von Merkmalsvektoren wie oben beschrieben für jede der Äußerungen gebildet werden kann. Die Folgen werden dann beispielsweise wie oben beschrieben zeitlich ausgerichtet, und dann aus den zeitlich ausgerichteten Folgen von Merkmalsvektoren für die Vielzahl von Äußerungen ein Mittelwert gebildet, um eine gemittelte Folge von Merkmalsvektoren abzuleiten, die die sprecherabhängige Transformationsmatrix bereitstellt.

Claims

Verfahren zur Sprechererkennung, das die folgenden Schritte umfasst: Aufnehmen (40) eines Sprachsignals von einem unbekannten Sprecher; Speichern einer Vielzahl von Transformationen für Sprecher, wobei jede Transformation jeweils einem der Vielzahl von Sprechern zugeordnet ist; Speichern einer Vielzahl von Sprechermodellen, wobei jedes Sprechermodell jeweils einem der Vielzahl von Sprechern zugeordnet ist; Transformieren (42, 43) des aufgenommenen Sprachsignals mit einer ausgewählten der gespeicherten Transformationen, wobei die ausgewählte Transformation einem bestimmten Sprecher zugeordnet ist; Vergleichen (44) des transformierten Sprachsignals mit einem ausgewählten der gespeicherten Modelle, wobei das ausgewählte Modell den bestimmten Sprecher darstellt; und Liefern (47) eines Parameters als Ausgabe, der von der Wahrscheinlichkeit abhängt, dass der unbekannte Sprecher der bestimmte Sprecher ist.
Verfahren nach Anspruch 1, wobei der Transformationsschritt die folgenden Unterschritte umfasst: Erkennen eines Zeitpunktes des Beginns des Sprechens und eines Zeitpunktes des Endes des Sprechens innerhalb des aufgenommenen Sprachsignals; Erzeugen einer Folge von Merkmalsvektoren, die aus dem aufgenommenen Sprachsignal abgeleitet werden; und Ausrichten der Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erkannten Zeitpunkt des Beginns des Sprechens und dem erkannten Zeitpunkt des Endes des Sprechens entsprechen, an einer für den bestimmten Sprecher repräsentativen Folge von Merkmalsvektoren, sodass jeder Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
Verfahren nach Anspruch 2, bei dem der Transformationsschritt außerdem den Unterschritt umfasst, aus jedem Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren und dem entsprechenden Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren den Mittelwert zu bilden.
Verfahren nach irgend einem der vorangehenden Ansprüche, bei dem das Modell ein verstecktes Markov-Modell ist.
Verfahren nach Anspruch 4, bei dem das Modell ein verstecktes Links-Rechts-Markov-Modell ist.
Verfahren nach Anspruch 5, wenn Anspruch 4 entweder von Anspruch 2 oder von Anspruch 3 abhängig ist, bei dem die repräsentative Folge von Merkmalsvektoren die selbe Anzahl von Merkmalsvektoren wie die Anzahl von Zuständen in den versteckten Markov-Modellen enthält.
Vorrichtung zur Sprechererkennung mit: einer Aufnahmeeinrichtung (1) zum Aufnehmen von Sprachsignalen von einem unbekannten Sprecher; einem Sprechertransformationsspeicher (22) zum Speichern einer Vielzahl von Sprechertransformationen, wobei jede Transformation jeweils einem von einer Vielzahl von Sprechern zugeordnet ist; einem Sprechermodellspeicher (23) zum Speichern einer Vielzahl von Sprechermodellen, wobei jedes Sprechermodell jeweils einem von einer Vielzahl von Sprechern zugeordnet ist; einer Transformationseinrichtung (21), die mit der Aufnahmeeinrichtung und dem Sprechertransformationsspeicher gekoppelt ist, und die bei der Verwendung dazu eingerichtet ist, die empfangenen Sprachsignale nach einer ausgewählten Sprechertransformation zu transformieren; einer Vergleichseinrichtung (21), die mit der Transformationseinrichtung und dem Sprechermodellspeicher gekoppelt ist, und die bei der Verwendung dazu eingerichtet ist, das transformierte Sprachsignal mit dem entsprechenden Sprechermodell zu vergleichen; und einer Ausgabeeinrichtung zum Liefern eines Signals, das die Wahrscheinlichkeit anzeigt, dass der unbekannte Sprecher der Sprecher ist, dem die ausgewählte Sprechertransformation zugeordnet ist.
Vorrichtung nach Anspruch 7, bei der der Transformationsspeicher jede der Transformationen als eine repräsentative Folge von Merkmalsvektoren speichert; und bei der die Transformationseinrichtung folgendes umfasst: einen Startzeitpunktdetektor und einen Endzeitpunktdetektor zum Erkennen des Zeitpunktes des Beginns des Sprechens und des Zeitpunktes des Endes des Sprechens innerhalb eines aufgenommenen Sprachsignals, einen Merkmalsvektorerzeuger zur Erzeugung einer Folge von Merkmalsvektoren, die aus der eingegebenen Sprache abgeleitet werden, und eine Ausrichtungseinrichtung zum Ausrichten der Folge von Merkmalsvektoren, die dem Sprachsignal zwischen dem erkannten Startzeitpunkt und dem erkannten Endzeitpunkt entsprechen, an einer repräsentativen Folge von Merkmalsvektoren, sodass jeder Merkmalsvektor in der resultierenden ausgerichteten Folge von Merkmalsvektoren einem Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren entspricht.
Vorrichtung nach Anspruch 8, bei der die Transformationseinrichtung außerdem eine Einrichtung zur Mittelwertbildung aus jedem Merkmalsvektor in der ausgerichteten Folge von Merkmalsvektoren und dem entsprechenden Merkmalsvektor in der repräsentativen Folge von Merkmalsvektoren umfasst.
Vorrichtung nach irgendeinem der Ansprüche 7 bis 9, bei der der Sprechermodellspeicher dazu eingerichtet ist, das Sprechermodell in Form eines versteckten Markov-Modells speichern.
Vorrichtung nach Anspruch 10, bei der der Sprechermodellspeicher dazu eingerichtet ist, das Sprechermodell in Form eines versteckten Links-Rechts-Markov-Modells zu speichern.
Vorrichtung nach Anspruch 11, wenn Anspruch 10 von Anspruch 8 oder Anspruch 9 abhängig ist, bei der die gespeicherte repräsentative Folge von Merkmalsvektoren dieselbe Anzahl von Vektoren wie die Anzahl von Zuständen in den entsprechenden gespeicherten versteckten Markov-Modellen umfasst.