DE69420400T2

DE69420400T2 - Verfahren und gerät zur sprechererkennung

Info

Publication number: DE69420400T2
Application number: DE69420400T
Authority: DE
Inventors: Mark Pawlewski; Joseph Gordon Tang
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1993-03-25
Filing date: 1994-03-25
Publication date: 2000-07-13
Anticipated expiration: 2014-03-26
Also published as: KR100312919B1; FI954527A0; DE69420400D1; SG50502A1; AU6432994A; EP0691024A1; SG50487A1; AU685788B2; KR960701428A; US5583961A; EP0691024B1; CA2158847A1; CA2158847C; FI954527A; JPH08508107A

Description

Die vorliegende Erfindung betrifft die Sprachverarbeitung und insbesondere eine Verarbeitung zur Sprechererkennung. Die Erkennungsverarbeitung umfaßt eine Sprechererkennung, bei der die Identität des Sprechers erfaßt oder überprüft wird, und eine Spracherkennung, bei der ein bestimmtes Wort (oder gelegentlich ein Satz oder ein Phonem oder eine andere gesprochene Äußerung) erfaßt wird. Die Spracherkennung umfaßt eine sogenannte sprecherunabhängige Erkennung, bei der von mehreren Sprechern erhaltene Sprachdaten bei der Erkennungsverarbeitung verwendet werden, und eine sogenannte sprecherabhängige Erkennung, bei der von einem einzigen Sprecher erhaltene Sprachdaten bei der Erkennungsverarbeitung verwendet werden. Im allgemeinen zielt die Verarbeitung bei der Spracherkennung auf eine Verringerung der Auswirkungen von unterschiedlichen Sprechern auf das gesprochene Wort ab, wogegen bei der Sprechererkennung das Gegenteil der Fall ist.
Bei der Erkennungsverarbeitung ist es üblich, Sprachdaten, typischer Weise in digitaler Form, in einen sogenannten Eingangsprozessor einzugeben, der aus dem Strom eingegebener Sprachdaten ein kompakteren, hinsichtlich der Unterscheidbarkeit signifikanteren Satz von Daten ableitet, der als Eingangsmerkmalssatz oder -vektor bezeichnet wird. Sprache wird beispielsweise typischer Weise über ein Mikrofon eingegeben, abgetastet, digitalisiert und (beispielsweise bei einer Abtastung mit 8 kHz) in Rahmen mit Längen von 10-20 ms segmentiert, und für jeden Rahmen wird ein Satz von K (typischer Weise 5-25) Koeffizienten berechnet. Da N Rahmen, bei spielsweise 25-100, pro Wort vorhanden sind, befinden sich N · K (in der Größenordnung von 1.000) Koeffizienten in einem Merkmalsvektor. Bei der Sprechererkennung wird im allgemeinen davon ausgegangen, daß der zu erkennende Sprecher ein vorgegebenes Wort (bei Banktransaktionen beispielsweise einen PIN) ausspricht, das der Erkennungsvorrichtung und dem Sprecher bekannt ist. Eine als Templat bekannte gespeicherte Repräsentation des Worts umfaßt eine vorab von einem Sprecher, dessen Identität bekannt ist, erhaltene Bezugsmerkmalsmatrix dieses Worts. Die von dem zu erkennenden Sprecher eingegebene Merkmalsmatrix wird mit dem Templat verglichen, und ein Meßwert für die Ähnlichkeit zwischen beiden wird mit einem Schwellenwert für eine Akzeptanzentscheidung verglichen.
Ein Problem entsteht durch die Tendenz von Sprechern, die Geschwindigkeit, mit der Worte gesprochen werden, zu variieren, so daß eine einem gegebenen Wort entsprechende eingegebene Sprachmatrix länger (d. h. aus mehr Rahmen bestehen) oder kürzer als das Templat für dieses Wort sein kann. Es ist daher erforderlich, daß die Erkennungsvorrichtung die beiden Matrizen zeitlich ausrichtet, bevor ein Vergleich erfolgen kann, und ein allgemeines Verfahren zur zeitlichen Ausrichtung und zum Vergleich ist das beispielsweise in "Speaker Independent Recognition of Words Using Clustering Techniques", Rabiner et al., "IEEE Trans. on ASSP", Bd. 24, Nr. 4, August 1979 beschriebene DTW-Verfahren (DTW, Dynamic Time Warp, dynamische Zeitverformung).
Für die Erkennungsverarbeitung wurden verschiedene Merkmale verwendet bzw. vorgeschlagen. Da die zur Spracherkennung verwendeten Merkmale im allgemeinen zur Unterscheidung eines Worts von einem anderen ohne eine Erfassung des Sprechers gedacht sind, wogegen die zur Sprechererkennung zur Unterscheidung von Sprechern anhand eines bekannten Worts bzw. bekannter Worte gedacht sind, kann ein für einen Typ von Erkennung geeignetes Merkmal für den anderen ungeeignet sein.
Einige Merkmale zur Sprechererkennung sind in "Automatic Recognition of Speakers From Their Voices", Atal, "Proc IEEE", Bd. 64, S. 460-475, April 1976 beschrieben.
Ein bekannter Typ von Merkmalskoeffizient ist das Cepstrum. Cepstra werden durch eine Spektralzerlegung (beispielsweise eine Spektraltransformation, wie eine Fouriertransfomation), die Verwendung des Logarithmus der Transformationskoeffizienten und eine inverse Spektralzerlegung erzeugt.
Bei der Sprechererkennung sind das LPC-Cepstrum-Merkmal (LPC, Linear Prediction Coefficient, linearer Vorhersagekoeffizient) und das LFT-Cepstrum-Merkmal (LFT, Fast Fourier Transfom, schnelle Fouriertransformation) bekannt, wobei die Verwendung des zuerst genannten verbreiteter ist.
Bei der Spracherkennung ist ein bekanntes Merkmal der Mel-Frequenz-Cepstrum-Koeffizient (MFCC). Eine Beschreibung eines Algorithmus zur Berechnung von MFCCs und zur Berechnung eines Abstandsmaßes zwischen einem MFCC-Merkmalsvektor und einem Worttemplat unter Verwendung des Dynamic-Time-Warp- Verfahrens ist in "On the Evaluation of Speech Recognisers and Data Bases Using a Reference System", Chollet & Gagnoulet, "1982 IEEE, International Conference on Acoustics, Speech and Signal Processing", S. 2026-2029 zu finden.
Ein MFCC-Merkmalsvektor wird im allgemeinen durch Ausführen einer Spektraltransformation (beispielsweise einer FFT) an jedem Rahmen eines Sprachsignals zum Ermitteln eines Siganlspektrums, Integrieren der Begriffe des Spektrums in eine Folge von in einer ungeraden, sogenannten "Mel-Frequenz- Skala" längs der Frequenzachse verteilten Breitbänden ermitteln der Logarithmen der Größe in jedem Band und anschließendes Ausführen einer weiteren Transformation (beispielsweise einer diskreten Cosinus-Transformation (DCT) zur Erzeugung des für den Rahmen eingestellten MFCC-Koeffizientensatzes ermittelt. Es ist festzustellen, daß die brauchbaren Informa tionen im allgemeinen auf die Koeffizienten niedrigerer Ordnung begrenzt ist. Die Mel-Frequenz-Skala kann beispielsweise zwischen 0-1 kHz aus auf einer linearen Frequenz-Skala gleichmäßig beabstandeten und über 1 kHz auf einer logarithmischen Frequenz-Skala gleichmäßig beabstandeten Frequenzbändern bestehen.
MFCCs eliminieren Spitzeninformationen, eine Wirkung, die bei der Spracherkennung nützlich ist, bei der Sprechererkennung jedoch unzweckmäßig, da sie zwischen Sprechern schwanken. MFCCs wurden dementsprechend bei der Sprechererkennung nicht bevorzugt.
In "Speaker Recognition by Statistical Features and Dynamic Features", "Review of Electrical Communications Laboratories", Bd. 30, Nr. 3, 1982, S. 467-482 beschreibt S. Furui vier Verfahren zur Sprechererkennung und vergleicht sie. Bei zwei der Verfahren wird die spektrale Hülle durch log- Bereichsverhältnisse repräsentiert, und bei den anderen beiden durch LPC-Cepstrum-Koeffizienten. Bei der Verwendung von LPC-Cepstrum-Koeffizienten wird über die Dauer der gesamten Äußerung, die mehrere Worte (beispielsweise bis zu sieben) enthalten kann, ein Durchschnittswert der Koeffizienten ermittelt, und die Durchschnittswerte werden von den Cepstrum- Koeffizienten jedes Rahmens subtrahiert, um durch das Übertragungssystem eingebrachte Frequenzreaktionsverzerrungen zu kompensieren. Zeitfunktionen für die normalisierten Cepstrum- Koeffizienten werden dann durch eine orthogonale, polynominale Repräsentation über 90 ms in Intervallen von jeweils 10 ms erweitert. Die polynominale Verarbeitung ergibt eine polynominale Repräsentation, die dem Durchschnittswert, der Neigung und der Krümmung jedes Cepstrum-Koeffizienten in jedem Segment entspricht. Die ursprünglichen Zeitfunktionen der Cepstrum-Koeffizienten werden zusammen mit den polynominalen Koeffizienten erster und zweiter Ordnung anstelle der polynominalen Koeffizienten nullter Ordnung verwendet, so daß jede Äußerung durch eine Zeitfunktion eines 30-dimensionalen Vektors repräsentiert wird. Aus diesen 30 Elementen wird unter dem Gesichtspunkt einer Erweiterung der Gesamt-Abstandsverteilung von (in einer ausgedehnten Lern-/Eintragungsphase bestimmten) Kunden- und Ausgangsproben von Äußerungen ein Satz von 18 Elementen ausgewählt. Bei einer alternativen Verarbeitungsanordnung folgt der LPC-Analyse ein statistischer Merkmalsextraktionsprozeß, der unter anderem die Erzeugung von Fourier-Cosinus-Expansions-Koeffizienten einschließt. Bei dieser alternativen Verarbeitung besteht der endgültige Merkmalssatz aus 60 ausgewählten Elementen. Es wurde berichtet, daß diese zuletzt genannte Verarbeitungsanordnung ("Verfahren 2"), bei der statistische Merkmale einschließlich aus Zeitfunktionen von LPC-Cepstrum-Koeffizienten und einer Grundfrequenz extrahierte Fourier-Koeffizienten verwendet wurden, bei den besonderen verwendeten Lern- und Anfangsdaten eine 99,9- prozentige Erkennungsgenauigkeit erzeugt. Furui schloß, daß die Ergebnisse "angeben, daß LPC-Cepstrum-Koeffizienten wesentlich effektiver als log-Bereichsverhältnisse sind". Furui bietet weder Theorien bezüglich der Verwendung anderer Cepstra, noch einer Filterung der eingegebenen Sprache in mehrere vorgegebene Frequenzbänder. Darüber hinaus lehrt Furui implizit den Wert der Verwendung eines sehr großen Merkmalssatzes (von beispielsweise bis zur 60 Elementen) - etwas, dessen Vermeidung selbstverständlich wünschenswert ist, insbesondere, wenn die für die Erkennungseinrichtung relevante Population sehr groß ist.
In "Speaker Verification over Long Distance Telephone Lines", "ICASSP 89" Bd. 1, 23. Mai 1989, Seiten 524-527, vergleichen J. M. Naik et al. Sprecherüberprüfungstechniken, bei denen entweder das auf Templaten basierende Dynamic-Time- Warp-Verfahren oder das Hidden-Markov-Modell-Verfahren verwendet werden. Erneut erfolgte eine LPC-Analyse zur Erzeugung der vorverarbeiteten Informationen, aus denen Merkmale extrahiert wurden.
Ursprünglich wurden für jeden Rahmen aus LPC-Daten 32 Parameter berechnet:
* Sprachpegelschätzung in dB;
* RMS-Rahmenenergie in dB;
* Skalenmessung der Geschwindigkeit der spektralen Veränderung;
* 14 Filterbankgrößen in dB,
- Mel-beabstandete simulierte Filterbänke,
- normalisierte Rahmenenergie;
* Zeitdifferenz der Rahmenenergie über 40 ms;
* Zeitdifferenz der 14 Filterbankgrößen über 40 ms.
Die zum Vergleich der Bezugs- und Prüftemplate verwendeten Sprachmerkmale wurden durch eine lineare Transformation dieser 32 Parameter zur Erzeugung eines Satzes von 18 Merkmalen zur Verwendung als Templat erhalten. Es wird keine Erklärung für die Verwendung der Mel-beabstandeten Filterbänke gegeben, und es wird absolut kein Hinweis bezüglich der Verwendung einer anderen Form von Cepstra als LPC gegeben.
Dementsprechend wird durch die Erfindung ein Verfahren zur Sprechererkennung geschaffen, das die Schritte der Erkennung mehrerer Sprachstartpunkte und entsprechender Sprachendpunkte, wobei jeder Startpunkt und entsprechende Endpunkt eine einzelne Äußerung innerhalb eines eingegebenen Sprachsignals betreffen, der Erzeugung von Erkennungsmerkmaldaten für aufeinanderfolgende Zeitperioden des eingegebenen Sprachsignals, wobei die Erkennungsmerkmaldaten mehrere Koeffizienten aufweisen, die mit der Sprachsignalgröße in mehreren vorbestimmten Frequenzbändern in Beziehung stehen, den Vergleich der Merkmaldaten mit vorbestimmten Sprecherbezugsdaten und die Anzeige der Erkennung eines Sprechers in Abhängigkeit vom Vergleich umfaßt, wobei der Schritt der Erzeugung der Koeffizienten einen Unterschritt aufweist, in dem ein durchschnitt licher Koeffizient bezüglich Zeitperioden hergeleitet wird, die zwischen den erfaßten Start- und Endpunkten jeder der einzelnen Äußerungen ergehen, und einen Unterschritt, in dem zumindest einer der Koeffizienten in Abhängigkeit von dem Durchschnittskoeffizienten so bearbeitet wird, daß ein normalisierter Koeffizient erzeugt wird. Eine entsprechende Vorrichtung wird ebenfalls geschaffen.
Die Normalisierung wirkt zur Verringerung des Effekts jeder langfristigen Filterung des Sprachsignals, beispielsweise durch einen Telekommunikationskanal, den es passiert.
Die Koeffizienten können sich beispielsweise auf die Größe des Sprachsignals in mehreren vorgegebenen Frequenzbändern beziehen, die auf der Mel-Frequenzskala verteilt sind. In diesem Fall können sie Mel-Frequenz-Cepstrum-Koeffizienten sein. Wenn die Koeffizienten von dem Logarithmus der Größe des Sprachsignals abgeleitet werden, wird der normalisierte Koeffizient durch eine Subtraktion des durchschnittlichen Koeffizienten erzeugt, wobei die Subtraktion einer Division durch das geometrische Mittel des Koeffizienten entspricht.
Es wurde festgestellt, daß auf diese Weise normalisierte Mel-Frequenz-Kepstrum-Koeffizienten einen zuverlässigen Merkmalssatz zur Erkennung von Sprechern bieten, wobei nur eine verhältnismäßig geringe Anzahl an Koeffizienten verwendet wird und ihre Verwendung überdies besonders für Telekommunikationsanwendungen geeignet ist, da die Abhängigkeit von Eigenschaften des Übertragungskanals zwischen dem Sprecher und der Erkennungsvorrichtung erheblich vermindert wird.
Weitere Aspekte und bevorzugte Ausführungsformen der Erfindung sind wie im Vorliegenden offenbart und beansprucht und weisen Vorteile auf, die nachstehend ersichtlich werden.
Die Erfindung wird nun unter Bezugnahme auf die folgende Beschreibung und die Zeichnungen nur anhand von Beispielen beschrieben. Es zeigen:
Fig. 1 schematisch die Verwendung eines erfindungsgemäßen Erkennungsprozessors in einer Telekommunikationsumgebung;
Fig. 2 ein Blockdiagramm, das schematisch die funktionellen Elemente eines Erkennungsprozessors gemäß einer Ausführungsform der Erfindung zeigt;
Fig. 3 ein Ablaufdiagramm, das schematisch die Funktionsweise eines MFCC-Generators zeigt, der einen Teil von Fig. 2 bildet;
Fig. 4 ein veranschaulichendes Diagram in der Frequenzdomäne, das einen Teil des Prozesses gemäß Fig. 3 illustriert;
Fig. 5 ein Ablaufdiagramm, das die Funktionsweise eines Endpunktdetektors genauer zeigt, der einen Teil von Fig. 2 bildet;
Fig. 6 ein veranschaulichendes Diagramm, das zur Veranschaulichung des Prozesses gemäß Fig. 5 die Amplitude in bezug auf die Zeit zeigt;
Fig. 7 ein Ablaufdiagramm, das schematisch die Funktionsweise eines Normalisierungsprozessors darstellt, der bei einer bevorzugten Ausführungsform einen Teil von Fig. 2 bildet;
Fig. 8a ein Ablaufdiagramm, das die Funktionsweise eines Vergleichsprozessors darstellt, der bei einer Ausführungsform der Sprecheridentifikation einen Teil von Fig. 2 bildet;
Fig. 9 ein Ablaufdiagramm, das die Funktionsweise eines Normalisierungsprozessors zeigt, der bei einer alternativen Ausführungsform zu der gemäß Fig. 7 einen Teil von Fig. 2 bildet;
Fig. 10a eine veranschaulichende Abbildung von MFCC- Koeffizientenwerten in bezug auf die Zeit für jeden von zwei verschiedenen Telekommunikationskanälen und
Fig. 10b eine entsprechende Abbildung von normalisierten Koeffizienten gemäß der bevorzugten Ausführungsform gemäß Fig. 7.

BEVORZUGTE AUSFÜHRUNGSFORM

Gemäß Fig. 1 umfaßt ein eine Sprechererkennung enthaltendes Telekommunikationssystem im allgemeinen ein Mikrofon 1, das typischer Weise einen Teil eines Telefonhörers bildet, ein Telekommunikationsnetz 2 (typischer Weise ein öffentlich geschaltetes Telekommunikationsnetz (PSTN)), einen Erkennungsprozessor 3, der derart angeschlossen ist, daß er ein Stimmsignal von dem Netz 2 empfängt, und eine an den Erkennungsprozessor 3 angeschlossene Nutzungsvorrichtung 4, die derart angeordnet ist, daß sie von diesem ein Stimmerkennungssignal empfängt, das eine Erkennung oder Nicht-Erkennung eines bestimmten Sprechers angibt und als Reaktion darauf eine Aktion einleitet. Die Nutzungsvorrichtung kann beispielsweise ein fernbetätigter Bankanschluß zur Veranlassung von Banktransaktionen sein.
In vielen Fällen erzeugt die Nutzungsvorrichtung 4 eine hörbare Antwort für den Sprecher, die über das Netz 2 an einen Lautsprecher 5 übertragen wird, der typischer Weise einen Teil des Telefonhörers des Kunden bildet.
Beim Betrieb spricht ein Sprecher in das Mikrofon 1, und ein analoges Sprachsignal wird von dem Mikrofon 1 in das Netz 2 und an den Erkennungsprozessor 3 übertragen, in dem das Sprachsignal analysiert und ein Signal, das die Identifikation oder Nicht-Identifikation eines bestimmten Sprechers angibt, erzeugt und an die Nutzungsvorrichtung 4 übertragen werden, die dann im Falle einer Erkennung des Sprechers einen geeigneten Vorgang einleitet.
Typischer Weise muß der Erkennungsprozessor die Identität des Sprechers betreffende Daten beschaffen, anhand derer das Sprachsignal zu überprüfen ist, und diese Datenbeschaffung kann von dem Erkennungsprozessor in einem zweiten Betriebsmodus ausgeführt werden, in dem der Erkennungsprozessor 3 nicht an die Nutzungsvorrichtung 4 angeschlossen ist, sondern ein Sprachsignal von dem Mikrofon 1 empfängt, um die Erkennungsdaten für diesen Sprecher zu erzeugen. Es sind jedoch auch andere Verfahren zur Beschaffung der Sprechererkennungsdaten möglich; die Sprechererkennungsdaten können beispielsweise auf einer von dem Sprecher mitgeführten und in einen Kartenleser, von dem die Daten gelesen und vor der Übertragung des Sprachsignals über das PSTN an den Erkennungsprozessor übertragen werden, einführbaren Karte gehalten werden.
Typischer Weise ist dem Erkennungsprozessor 3 der von dem Signal von dem Mikrofon 1 in und durch das Netzwerk 2 genommene Pfad nicht bekannt; das Mikrofon 1 kann beispielsweise über eine analoge oder digitale mobile Funkverbindung mit einem Netz 2 verbunden sein oder seinen Ursprung in einem anderen Land haben oder von einem unter einer breiten Vielfalt von Typen und Qualitäten von Empfangsapparaten stammen. Auf die gleiche Weise kann innerhalb des Netzes 2 jeder unter einer breiten Vielfalt von Übertragungspfaden verwendet werden, einschließlich Funkverbindungen, analogen und digitalen Pfaden etc. verwendet werden. Dementsprechend entspricht das den Erkennungsprozessor 3 erreichende Sprachsignal Y dem am Mikrofon 1 empfangenen, von den Übertragungskennlinien des Mikrofons 1, der Verbindung zu dem Netz 2, dem Kanal durch das Netz 2 und der Verbindung zu dem Erkennungsprozessor 3, die zusammengefaßt und durch eine einzige Übertragungskennlinie H bezeichnet werden können, überlagerten Sprachsignal S.

Der Erkennungsprozessor 3

In Fig. 2 sind die funktionellen Elemente einer Erkennungseinrichtung gemäß der bevorzugten Ausführungsform dargestellt. Ein Hochanhebungsfilter 210 empfängt die digitalisierte Sprachschwingungsform mit einer Abtastgeschwindigkeit von beispielsweise 8 kHz als Folge von 8-Bit-Zahlen und führt zur Steigerung der Amplitude höherer Frequenzen (beispielsweise durch Ausführen einer 1-0,95 z&supmin;¹ - Filterung) einen Hochanhebungsfilterprozeß aus. Ein Sprachrahmengenerator 220 empfängt das gefilterte Signal und bildet eine Folge von Rahmen aus aufeinanderfolgenden Proben. Die Rahmen können beispielsweise jeweils 256 aufeinanderfolgende Proben enthalten, und jeder Rahmen kann den nachfolgenden und den vorhergehenden Rahmen um 50% überlappen, um mit einer Geschwindigkeit von einem pro 16 ms Rahmen mit einer Länge von 32 ms zu erzeugen. Zwei Rahmenpuffer 221, 222 mit einer um 16 ms unterschiedlichen Verzögerung können beispielsweise parallel gefüllt und abwechselnd gelesen werden.
Zum Eliminieren von unechten Frequenzartefakten aufgrund der Diskontinuitäten am Anfang und am Ende jedes Rahmens wird dann vorzugsweise jeder Rahmen durch einen Hamming- Fensterprozessor 223 geleitet, der (wie allgemein bekannt) die Proben zu der Kante jedes Fensters herunterskaliert.
Jeder Rahmen aus 256 durch die Fenstertechnik verarbeiteten Proben wird dann von einem MFCC-Generator 230 verarbeitet, um einen Satz von MFCC-Koeffizienten (beispielsweise von 8 Koeffizienten) zu extrahieren. Gleichzeitig wird jeder durch die Fenstertechnik verarbeitete Rahmen einem Endpunktdetektor 240 zugeführt, der den Beginn und das Ende einer Sprachäußerung erfaßt und einer Normalisiereinrichtung 250 mit einem Koeffizientenspeicher 251 und einem Normalisierungsprozessor 252 ein Sprach-/Nicht-Sprach-Steuersignal zuführt. Die Normalisiereinrichtung 250 speichert nach dem Empfang eines 'Sprachbeginn'-Signals von dem Endzeiger 240 eini ge oder sämtliche der acht Koeffizienten für jeden aufeinanderfolgenden Rahmen in dem Normalisierungskoeffizientenspeicher 251, bis das Signal für das 'Ende-der-Sprache' von dem Endzeiger 240 empfangen wird. Zu diesem Zeitpunkt berechnet der Normalisierungsprozesser 252 anhand der gespeicherten Koeffizienten für jeden Sprachrahmen in dem Speicher 251 einen arithmetischen Koeffizientenrnittelwert für jeden der acht Koeffizienten. Der arithmetische Koeffizientenmittelwert wird dann von dem jeweiligen gespeicherten Koeffizientenwert für jeden Rahmen subtrahiert, um eine normalisierte Matrix mit 8 N Koeffizienten zu erzeugen (wobei N die Anzahl der Rahmen zwischen dem Anfangspunkt und dem Endpunkt einer gesprochenen Äußerung ist).
Diese normalisierte Koeffizientenmatrix wird einem Vergleichsprozessor 260 zugeführt, der eine entsprechende, zu einem gegebenen Sprecher gehörige Matrix aus einem Sprechertemplat 270 liest, einen Vergleich zwischen den beiden ausführt und abhängig von der Ähnlichkeit zwischen dem normalisierten Sprachvektor und dem Sprechertemplat aus dem Sprechertemplatspeicher 270 ein Erkennungs-/Nicht-Erkennungs- Ausgangssignal erzeugt.
Das Hochanhebungsfilter 210, der Fensterprozessor 223, der MFCC-Generator 230 und der Endzeiger 240, der Normalisierungsprozessor 252 und der Vergleichsprozessor 260 können aus einer oder mehreren digitalen Signalprozessorvorrichtungen (DSP-Vorrichtungen) und/oder geeignet programmierten Mikroprozessoren bestehen, wobei die Rahmenpuffer 221, 222, der Koeffizientenspeicher 251 und der Sprechertemplatspeicher 270, die in dem Lese-/Schreibspeichervorrichtungen vorgesehen sind, daran angeschlossen sind.

Die MFCC-Erzeugung

Gemäß Fig. 3 umfaßt der von dem MFCC-Generator 230 ausgeführte Prozeß das Ausführen einer Fourier-Transformation an jedem Rahmen, das Erzeugen von 256 Transformationskoeffizienten in einem Schritt 401, das Erzeugen des Leistungsspektrums des Sprachsignals anhand der Fourier-Koeffizienten durch Summieren der Quadrate der realen und imaginären Komponenten bei jeder Frequenz zur Erzeugung eines Leistungsspektrums mit 128 Koeffizienten in einem Schritt 402, die Integration des Leistungsspektrums über 19 Frequenzbänder in einem Schritt 403, wie nachstehend unter Bezugnahme auf Fig. 4 genauer erläutert, zur Erzeugung von 19 Bandleistungskoeffizienten, das Ermitteln des Logarithmus (beispielsweise mit der Basis 10) jedes der 19 Koeffizienten in einem Schritt 404; das Ausführen einer diskreten Cosinustransformation an den 19 Logarithmuswerten in einem Schritt 405 und die Auswahl der 8 Koeffizienten niedrigster Ordnung in einem Schritt 406. Die diskrete Cosinustransformation ist allgemein bekannt und beispielsweise in der vorstehend erwähnten Druckschrift von Chollet und Gagnoulet beschrieben; kurz ausgedrückt ist die N-te Cosinuskomponente von Mm durch
gegeben, wobei N die Anzahl der diskreten Frequenzbänder (in diesem Fall 20, wobei eine Frequenzdomänenrotation angewendet wird, um den zwanzigsten Punkt zu erhalten) und A(n) die Amplitude in dem m-ten Frequenzband ist. Die Wirkung des DCT ist die Dekorrelation der Koeffizienten A(n) in einem hohen Ausmaß.
In Fig. 4 stellt Fig. 4a einen Abschnitt des im Schritt 402 erzeugten Leistungsspektrums notional dar. Fig. 4b zeigt einen entsprechenden Abschnitt der Mel-Frequenz- Dreiecksintegrationsfenster längs der Frequenzachse. Die Dreiecksfenster umfassen zehn linear längs der Frequenzachse beabstandete Fenster, die ihre Nachbarn jeweils zwischen 0- 1 kHz um 50% überlappen, und weitere zehn Fenster, die dreieckig sind und einander auf einer logarithmischen Frequenzskala über 1 kHz um 50% überlappen.
Fig. 4c zeigt schematisch die Wirkung der punktweisen Multiplikation jeder Probe in dem Leistungsspektrum mit dem entsprechenden Term in einem der Dreiecksfenster; aus Gründen der Klarheit sind nur geradzahlige Fenster dargestellt.
Als nächstes werden die durch die Fenstertechnik verarbeiteten Werte gemäß Fig. 4c über jedes Fenster integriert, um einen einzigen, diesem Fenster entsprechenden, summierten Koeffizienten zu erzeugen, wie in Fig. 4d dargestellt.
Die derart erzeugten 19 Koeffizienten (der Null- Frequenz-Koeffizient M&sub0; wird ignoriert) entsprechen daher der Leistung, die bei der Ausgabe jedes eines entsprechenden Satzes von Bandpaßfiltern erzeugt würde, wobei Filter unter 1 kHz gleiche, gleichmäßig verteilte Bandbreiten aufweisen und die über 1 kHz gleiche und gleichmäßig auf einer logarithmischen Frequenzskala verteile Bandbreiten aufweisen.

Die Funktionsweise des Endzeigers

Unter Bezugnahme auf die Fig. 5 und 6 wird nun die Funktionsweise des Endzeigers 240 gemäß Fig. 2 genauer erläutert.
Der Endzeiger 240 quadriert und summiert anfänglich die Signalwerte in jedem Rahmen, um einen Meßwert P der Leistung bzw. Energie in dem Rahmen zu erzeugen.
Der Wert P wird anhand des ersten Schwellenwerts PL überprüft, der auf einen verhältnismäßig niedrigen Pegel eingestellt ist, so daß er gelegentlich von Rauschsignalen über kreuzt wird. Es wird kein Vorgang eingeleitet, bis ein Rahmen einen Leistungspegel über diesem niedrigen Schwellenwert PL aufweist. Bei einem Rahmen, der über den niedrigen Schwellenwert PL ansteigt, wird eine (in Fig. 5 als Variable "START" dargestellte) Flagge gespeichert, die eine diesem Rahmen zugewiesene Nummer angibt.
Wenn der Wert der Leistung P in einem Rahmen über einen oberen Schwellenwert PH ansteigt, der dem Vorhandensein von Sprache entspricht und auf einen Pegel über wahrscheinlichen Rauschpegeln eingestellt ist, wird von einem Vorhandensein von Sprache ausgegangen. Der als Startpunkt der Sprache verwendete Punkt ist ein Rahmen, dem eine vorgegebene Anzahl ("LEAD") von Rahmen vor dem Rahmen ("START") vorangeht, bei dem das Signal über den niedrigen Schwellenwert PL angestiegen ist. Auf diese Weise geht der Beginn der Äußerung nicht verloren, obwohl das Vorhandensein von Sprache nur bestätigt wird, wenn der Signalpegel über den hohen Schwellenwert ansteigt. Dementsprechend wird zur Steuerung der Normalisiereinrichtung 250 die Nummer des derart als Startpunkt berechneten Rahmens durch den Endzeiger 240 ausgegeben.
Wenn der Pegel des Sprachsignals länger als über eine vorgegebene Zeitspanne Tmax zwischen den beiden Schwellenwerten bleibt, wird der Wert "START" gelöscht.
Bei einem Abfallen der Rahmenenergie von dem oberen Schwellenwert PH unter den unteren Schwellenwert PL wartet der Endzeiger 240 eine vorgegebene Anzahl von Rahmen, die als "Überhang"-Zeitspanne T0h bezeichnet wird. Wenn der Pegel innerhalb der Überhangzeitspanne wieder über den unteren Schwellenwert PL ansteigt, wird davon ausgegangen, daß nach wie vor Sprache vorhanden ist. Ist der Leistungspegel des Signal einmal für mehr als T0h Rahmen unter den unteren Schwellenwert PL gefallen, wird davon ausgegangen, daß die Äußerung beendet ist, und der Endzeiger gibt eine Endpunktrahmennummer aus, die der aktuellen Rahmennummer abzüglich der Anzahl T0h der Rahmen (d. h. dem Punkt, an dem sich das Signal zuletzt auf dem Schwellenwert PL befand) plus einer als "LAG" bezeichneten, vorgegebenen Anzahl von Rahmen entspricht.

Die Normalisierung

Unter Bezugnahme auf Fig. 7 wird nun der von der Normalisiereinrichtung 250 ausgeführte Normalisierungsprozeß genauer beschrieben.
Die Rahmen von acht MFCC-Koeffizienten pro Rahmen werden nacheinander in dem Koeffizientenpuffer 251 gespeichert. Nach der Erfassung des Endes der gesprochenen Äußerung durch den Endzeiger 240 signalisiert dieser die Nummern des Anfangs- und des Endrahmens an die Normalisiereinrichtung 250. Der Normalisierungsprozessor 252 ruft dann für sämtliche Rahmen zwischen dem Anfangs- und dem Endrahmen für jeden der acht Koeffizienten den Wert des Koeffizienten aus dem Speicher ab und erzeugt durch Addieren der Koeffizientenwerte und eine Division durch N, die Anzahl der Rahmen zwischen dem Anfangs- und dem Endrahmen, das arithmetische Mittel. Dadurch wird ein Satz von acht Durchschnittswerten i (i = 1 bis 8) erzeugt.
Als nächstes berechnet der Normalisierungsprozessor 252 durch Subtrahieren des entsprechenden Durchschnittswerts , von jedem Koeffizientenwert Mi,k für jeden Koeffizienten jedes Rahmens einen normalisierten Koeffizientenwert Gi,k (wobei K die Rahmennummer ist).
Der Satz von 8 · N Koeffizienten, die den normalisierten Vektor Gi,k bilden, wird dann durch den Normalisierungsprozessor 252 ausgegeben.

Die Vergleichsverarbeitung

Eine genaue Beschreibung des Vergleichsprozessors 260 erübrigt sich, da er eine herkömmliche Funktionsweise aufweist. Fig. 8a zeigt schematisch die Funktionsweise des Vergleichsprozessors bei der Sprecherüberprüfung; im wesentlichen liest der Vergleichsprozessor den Merkmalsvektor G, der die normalisierten MFCCs enthält, liest ein Sprechertemplat T, das einen entsprechenden Bezugsvektor aus Koeffizienten enthält, führt, beispielsweise unter Verwendung eines allgemein bekannten Dynamic-Time-Warp-Algorithmus (beispielsweise unter Verwendung des in dem vorstehend erwähnten Druckschrift von Chollet und Gagnoulet angegebenen Algorithmus) zur zeitlichen Ausrichtung der beiden zur Erzeugung einer die Differenz zwischen den beiden Vektoren angebenden skalaren Abstandsmessung D, einen Vergleich zwischen den beiden Vektoren aus und überprüft die Abstandsmessung D anhand des Schwellenwerts. Wenn der Abstand D kleiner als der Schwellenwert ist, wird der Sprecher als dem gespeicherten Templat entsprechend akzeptiert, anderenfalls wird der Sprecher zurückgewiesen. Fig. 8b zeigt die entsprechende Operation des Vergleichsprozessors 260 bei der Sprecheridentifikation, wobei in diesem Fall mehrere unterschiedliche Vektoren Ti nacheinander aus dem Templatspeicher 270 gelesen werden und der Sprachvektor G mit jedem nacheinander verglichen wird, um einen entsprechenden Abstandsmeßwert Di zu erzeugen. Der Sprecher wird dann als dem Templat, von dem sich der Sprachvektor am wenigsten unterscheidet (d. h. das den kleinsten Meßwert Di verursacht hat), entsprechend identifiziert.

Alternative Ausführungsformen

Bei der vorstehend beschriebenen Ausführungsform müssen der Normalisiereinrichtung 250, wie unter Bezugnahme auf Fig. 7 erläutert, sowohl der Anfangspunkt als auch der Endpunkt einer Äußerung bekannt sein, bevor sie N (die Anzahl der Rahmen zwischen dem Startpunkt und dem Endpunkt) und die Summe der Koeffizientenwerte MTOT und damit den Durchschnittswert jedes Koeffizienten und damit den normalisierten Wert jedes Koeffizienten berechnen kann. Dementsprechend muß die Normalisiereinrichtung 250 die Erfassung des Endpunkts durch den Endzeiger 240 abwarten, und die anschließende Erkennungsverarbeitung wird bis zum Ende der Äußerung verzögert. Bei vielen Anwendungen und bei einer schnellen Hardware mag es sein, daß diese Verzögerung nicht zu Schwierigkeiten führt. Bei anderen Anwendungen kann es jedoch vorzuziehen sein, die Normalisierung vor dem Ende der Äußerung einzuleiten.
Dementsprechend werden bei einer ersten alternativen Ausführungsform statt einer Normalisierung der Koeffizienten durch Subtrahieren des arithmetischen Mittelwerts jedes Koeffizienten über die gesamte Äußerung die Koeffizienten durch Subtraktion eines laufenden Mittelwerts normalisiert, der (beispielsweise auf der Grundlage von einem Rahmen nach dem anderen) periodisch aktualisiert wird.
Gemäß Fig. 9 liest der Normalisierungsprozessor 252 bei dieser Ausführungsform dementsprechend für jeden Koeffizienten den aktuellen Durchschnittswert für diesen Koeffizienten i, nachdem der Endzeiger 240 den Beginn der Äußerung signalisiert hat, subtrahiert zur Erzeugung eines normalisierten Koeffizienten Gi den Koeffizienten i von dem Wert Mi des MFCC-Koeffizienten, inkrementiert einen Rahmenzähler N, addiert den Koeffizientenwert i zu dem aktuellen Gesamtwert MTOT und dividiert die Summe durch den Rahmenzähler N, wobei das Ergebnis als neuer Koeffizientendurchschnittswert i gespeichert wird. Die normalisierten Koeffizientenwerte Gi für jeden Rahmen können daher augenblicklich ausgegeben werden.
Es ist zu erwarten, daß bei einem laufend ermittelten Mittelwert dieser Art die Wahrscheinlichkeit einer geringfügig weniger guten Leistung als bei der bevorzugten Ausfüh rungsform besteht, da der "Durchschnittswert" anfänglich nicht anhand einer repräsentativen Anzahl von Proben gebildet wird. Eine gewisse Verbesserung der Leistung ist im Vergleich zu nicht normalisierten Koeffizienten nichtsdestotrotz zu erwarten. Natürlich sind andere Verfahren zur Berechnung eines laufenden Mittelwerts (beispielsweise unter Verwendung eines bewegten Fensters von vorhergehenden Proben oder durch eine weniger häufige Aktualisierung als bei jedem Rahmen) ebenso möglich. Bei Ausführungsformen dieser Art kann auf den Koeffizientenspeicher 251 verzichtet werden.
In bezug auf die vorstehend beschriebenen Ausführungsformen erfolgte eine Beschreibung der Endpunktbestimmung und der Normalisierung über eine einzige zusammenhängende Äußerung (d. h. ein einziges Wort). Wenn eine Sprecheridentifikation auf der Grundlage mehrerer separater Worte ausgeführt werden soll, könnte der im Zusammenhang mit den vorstehend erläuterten Ausführungsformen beschriebene Prozeß für jedes aufeinanderfolgende Wort isoliert ausgeführt werden. Einige zur Unterscheidung von Sprechern nützliche Informationen können jedoch in dem relativen Pegel der Koeffizientenwerte jedes Worts in bezug auf die anderen gefunden werden.
Dementsprechend wird bei einer weiteren Ausführungsform der von der Normalisiereinrichtung 250 erzeugte langfristige Durchschnittswert i über sämtliche Worte der Äußerung gebildet. Bei einem ersten Beispiel gemäß dieser Ausführungsform wird dies durch Bilden des Durchschnitts über sämtliche Rahmen zwischen den Start- und Endpunkten jedes Worts, als wenn die Worte, wie bei einer einzigen Äußerung, unmittelbar aufeinander folgten, und durch Ignorieren der Nicht-Sprach- Rahmen zwischen den Worten erreicht.
Das gleiche Ergebnis wird bei einem zweiten Beispiel, wie bei den vorhergehenden Ausführungen, durch Ermitteln separater Durchschnittswerte für jedes Wort und anschließendes Addieren der Durchschnittswerte, die jeweils durch die jewei lige Anzahl der Rahmen in dem Wort, anhand dessen sie ermittelt wurden, gewichtet werden, um anhand sämtlicher Worte einen gewichteten Durchschnittswert zu bilden, und darauffolgendes Dividieren jedes Koeffizienten jedes Worts durch den über sämtliche Worte ermittelten Durchschnittswert erreicht.
Bei den beiden vorstehend beschriebenen Beispielen verändert sich die dem jedem einzelnen Wort entsprechenden Durchschnittswert beigemessene Bedeutung abhängig von der Länge des Worts, die sich wiederum mit der Geschwindigkeit verändert, mit der der Sprecher das Wort ausspricht (und die unabhängig von den Spektralkennlinien der Art, in der der Sprecher das Wort ausspricht, veränderlich ist).
Dementsprechend wird bei einer alternativen Ausführungsform, wie zuvor, durch isoliertes Bilden des Durchschnittswerts über jedes Wort und anschließendes Bilden eines gewichteten Durchschnittswerts anhand der einzelnen Durchschnittswerte, jedoch durch Verwenden einer vorgegebenen Gewichtung, die, statt wie bei den vorstehend beschriebenen Beispielen der tatsächlichen Dauer des Worts, beispielsweise der Länge des entsprechenden in dem Templatspeicher gespeicherten, das Wort repräsentierenden Templats entspricht, ein langfristiger Durchschnittswert gebildet. Auf diese Weise wird die Abhängigkeit von der Geschwindigkeit verringert, mit der die Worte gesprochen werden.
Obwohl es unter einigen Umständen möglich sein könnte, auf den Endzeiger 240 zu verzichten und einen langfristigen Durchschnittswert über die gesamte Dauer des Telefonanrufs zu bilden, ist dies in der Praxis im allgemeinen nicht zweckmäßig, da während langen Perioden ohne Sprache der empfangene Signalpegel im allgemeinen zu niedrig ist, um eine zuverlässige Angabe des Spektrums des Kommunikationskanals zu erzeugten, und es überdies schwierig ist, das Spektrum des Kanals von dem eines vorhandenen Rauschens zu trennen.
Im Zusammenhang mit den vorstehend beschriebenen Ausführungsformen wurde eine zur Kopplung mit einer Telekommunikationszentrale geeignete Erkennungsvorrichtung beschrieben. Bei einer anderen Ausführungsform kann die Erfindung jedoch mit einer einfachen Vorrichtung ausgeführt werden, die mit einer an das Telefonnetz angeschlossenen herkömmlichen Kundenstation verbunden ist, wobei in diesem Fall eine Analog- /Digitalwandlereinrichtung zur Digitalisierung des herankommenden analogen Telefonsignals vorgesehen ist.
Obwohl auf die Verwendung programmierbarer digitaler Signalverarbeitungsvorrichtungen (DSP-Vorrichtungen) bezug genommen wird, ist ebenso zu erkennen, daß statt dessen ein mit ausreichender Geschwindigkeit arbeitender herkömmlicher Mehrzweck-Mikroprozessor verwendet werden kann. Ebenso könnte eine speziell konstruierte hochintegrierte logische Schaltung (LSI) verwendet werden.
Die Erfindung wurde unter Bezugnahme auf MFCCs beschrieben, es könnten jedoch Filterbänke mit ungleichmäßigen Frequenzskalen verwendet werden, die der Mel-Frequenzskala angenähert sind oder sich von dieser unterscheiden. Obwohl vorstehend dreieckige Fenster für die Integration in der Frequenzdomäne beschrieben wurden, ist ersichtlich, daß ebenso andere Fensterformen verwendet werden können. Obwohl ein digitaler Prozessor zur Berechnung von MFCC-Werten beschrieben wurde, wäre es im Prinzip möglich, statt dessen mehrere analoge oder digitale Bandpaßfilter vorzusehen, die den in Fig. 5b gezeigten Bändern entsprechen, und die Leistung in jedem Filterband abzutasten.
Obwohl gezeigt wurde, daß die Erfindung bei der Anwendung auf MFCCs erstaunlich vorteilhaft ist, ist ihre Anwendung auf weitere führende Merkmale (vorzugsweise Cepstrum- Merkmale) nicht ausgeschlossen.
Obwohl ein Vergleichsprozeß erläutert wurde, bei dem der Dynamic-Time-Warp-Prozeß (DTW-Prozeß) verwendet wird, ist die Erfindung ebenso auf eine Erkennung anwendbar, bei der andere Typen von Vergleichsverarbeitung verwendet werden. Es können beispielsweise eine Vergleichsverarbeitung, bei der ein verstecktes Markov-Modell-Verfahren (HMM-Verfahren) verwendet wird, wie im "British Telecom Technology Journal", Bd. 6, Nr. 2, April 1988, S. J. Cox, "Hidden Markov Models for Automatic Speech Recognition: Theory and Application", Seiten 105-115 offenbart, oder neuronale Netzwerke (beispielsweise das allgemein bekannte mehrschichtige Perceptron (MLP) oder "selbstorganisierende" Typen, die beide in der gleichen Ausgabe des "British Telecom Technology Journal" beschrieben sind) verwendet werden.
Obwohl hier die Anwendung der Erfindung auf die Sprechererkennung beschrieben wurde, ist offensichtlich, daß Aspekte der Erfindung auch auf andere Erkennungsaufgaben (beispielsweise die Spracherkennung) anwendbar sind.

Die Templaterzeugung

Im allgemeinen wird bei der vorliegenden Erfindung zur Identifikation des oder jedes zu identifizierenden Sprechers ein gespeichertes Bezugsmodell (ein "Templat" für die DTW- Erkennung) verwendet. Verfahren zur Ermittlung von Bezugsmodellen sind allgemein bekannt, und zum Verständnis der vorliegenden Erfindung reicht es daher aus, anzugeben, daß jedes Templat durch einen Prozeß erzeugt werden kann, bei dem mehrere Äußerungen des gleichen Worts durch einen Sprecher eingegeben, die Äußerungen digitalisiert, für jede der Äußerungen auf die gleiche Weise wie vorstehend erläutert der normalisierte Satz von Koeffizienten Gi ermittelt, die Äußerungen beispielsweise unter Verwendung eines Dynamic-Time-Warp- Prozesses in bezug auf die Zeit ausgerichtet und anschließend zur Ermittlung eines durchschnittlichen Koeffizientenvektors, der das Bezugsmodell T liefert, ein Mittelwert der zeitlich ausgerichteten Koeffizientenvektoren der Äußerungen ermittelt werden. Anders ausgedrückt ist der Prozeß zur Erzeugung eines Bezugsmodells zur Verwendung mit einem gegebenen Merkmalssatz bei einer anschließenden Erkennung im allgemeinen der gleiche wie der Prozeß zur Ermittlung des Merkmalssatzes selbst, wobei der Durchschnittswert einer Anzahl von Merkmalssätzen ermittelt wird, um das Bezugsmodell zu ermitteln.

Auswirkungen der Erfindung

In Fig. 10 zeigt Fig. 10a (die linke Spalte) ein Diagramm des Koeffizientenwerts über die Dauer einer Äußerung für jeden der acht MFCCs. In jedem Fall sind zwei Spuren gezeigt, diese entsprechen der gleichen aufgezeichneten Äußerung, die über zwei verschiedene Übertragungskanäle übertragen wird. Es ist festzustellen, daß insbesondere bei dem zweiten und dem siebten Koeffizienten der Kanal zu einem im wesentlichen konstanten Versatz zwischen den beiden Spuren führt, der der Differenz zwischen den Übertragungskennlinien der beiden Kanäle in den entsprechenden Frequenzbändern entspricht.
Bei dem Dynamic-Time-Warp-Prozeß werden, wie bei anderen Prozessen, bei denen Abschnitte von zwei zu vergleichenden Mustern in eine zeitliche Ausrichtung gebracht werden, im wesentlichen Abschnitte einer Schwingungsformen längs der Zeitachse verschoben, um eine Übereinstimmung mit einer weiteren Schwingungsform zu finden. Wenn, wie hier, zwei Schwingungsformen vertikal versetzt sind, führt dieser Prozeß der Verschiebung längs der Zeitachse (d. h. eine horizontale Verschiebung) zu einer Nichtübereinstimmung und damit zu einer gesteigerten Wahrscheinlichkeit einer Fehlerkennung bzw. einer verringerten Wahrscheinlichkeit einer korrekten Erkennung.
In Fig. 10b sind der rechten Spalte die entsprechenden Darstellungen erfindungsgemäßer normalisierter MFCCs gezeigt.
Durch eine Bezugnahme auf insbesondere den zweiten, den sechsten und den siebten Koeffizienten ist ersichtlich, daß ein Entfernen des Durchschnittswerts in jedem Fall die beiden Spuren in eine nähere Ausrichtung gebracht hat. Wenn daher ein Sprachvektor mit einem Templat verglichen wird, das über einen anderen Kommunikationskanal erhalten wurde, ist eine Fehlidentifikation eines Sprechers durch die Dynamic-Time- Warp-Vergleichsverarbeitung aufgrund des Effekts des Übertragungskanals weniger wahrscheinlich.
Wie vorstehend erwähnt kann der (im allgemeinen lineare) Pfad von dem Sprecher zu dem Erkennungsprozessor durch eine zusammengefaßte Übertragungskennlinie H repräsentiert werden, die das Produkt der Kaskadenübertragungsfunktionen der aufeinanderfolgenden Stufen des Pfads enthält. Daher enthält in der Frequenzdomäne jede Spektralkomponente des von dem Erkennungsprozessor empfangenen Sprachsignals das Produkt der Spektralkomponente der Stimme des Sprechers und der entsprechenden Spektralkomponente der Übertragungsfunktion des Kommunikationskanals bzw. -pfads. Wenn daher die Übertragungskennlinie H des Kanals bekannt wäre, könnten die Auswirkungen des Kanals auf das Sprachsignal durch Division jedes Terms des empfangenen Signalspektrums durch den entsprechenden Term der Übertragungskennlinie H entfernt werden.
Bei einem Telekommunikationssystem ist es jedoch aufgrund der diversen alternativen Signalpfade nicht möglich, die Kanalübertragungsfunktion H direkt zu modellieren. Es wurde jedoch beobachtet, daß die Kanalübertragungsfunktion im allgemeinen spektral stationär ist (d. h. sich mit der Zeit nicht wesentlich Verändert). Dementsprechend wirkt bei der Untersuchung einer Zeitfolge einer einzigen Spektralkomponente die Übertragungsfunktion als konstanter Multiplikationsfaktor für jeden Wert in der Folge. Das geometrische Mittel jeder Komponente in der Zeitfolge ist daher das Produkt dieses konstanten Faktors und des geometrischen Mittels der ur sprünglichen Zeitfolge. Daher werden die Auswirkungen des Kanals eliminiert, wenn jeder Term in dem empfangenen Sprachsignalspektrum durch seinen langfristigen Durchschnittswert dividiert wird.
Durch die Verwendung der Logarithmen jedes spektralen Terms statt der Bildung des langfristigen geometrischen Mittels und seine Division durch diesen ist es möglich, das langfristige arithmetische Mittel des protokollierten spektralen Terms zu erzeugen und dieses arithmetische Mittel von jedem spektralen Term zu subtrahieren.
In der Fensterverarbeitungs- und Integrationsstufe der Erzeugung von MFCCs wird davon ausgegangen, daß eine gewisse Umwandlung dieser Beziehung stattfindet, so daß die vorhergehende Analyse für die Normalisierung von MFCCs nicht vollständig gilt, sondern lediglich die Wirkungsweise der Erfindung veranschaulicht.
Durch den Normalisierungsprozeß werden nicht nur die Auswirkungen des Kanals, sondern auch einige Sprach- und Sprecherinformationen entfernt. Es könnte daher angenommen werden, daß durch die Entfernung von Daten, die zur Unterscheidung zwischen zwei Sprechern verwendet werden können, die Genauigkeit der Erkennung verringert wird. Tatsächlich haben wir anhand umfassender Experimente überraschender Weise festgestellt, daß dies nicht der Fall ist.

Claims

1. Verfahren zur Sprechererkennung, mit den Schritten:

- Erkennen mehrerer Sprachstartpunkte und entsprechender Sprachendpunkte, wobei jeder Startpunkt und entsprechende Endpunkt eine einzelne Äußerung innerhalb eines eingegebenen Sprachsignals betreffen,

- Erzeugen von Erkennungsmerkmaldaten für aufeinanderfolgende Zeitperioden des eingegebenen Sprachsignals, wobei die Erkennungsmerkmaldaten mehrere Koeffizienten aufweisen, die mit der Sprachsignalgröße in mehreren vorbestimmten Frequenzbändern in Beziehung stehen,

- Vergleichen der Merkmaldaten mit vorbestimmten Sprecherbezugsdaten, und

- Anzeigen der Erkennung eines Sprechers in Abhängigkeit vom Vergleich;

wobei der Schritt des Erzeugens der Koeffizienten einen Unterschritt aufweist, in dem ein durchschnittlicher Koeffizient bezüglich Zeitperioden hergeleitet wird, die zwischen den erfaßten Start- und Endpunkten jeder der einzelnen Äußerungen vergehen, und einen Unterschritt, in dem zumindest einer der Koeffizienten in Abhängigkeit von dem Durchschnittskoeffizienten so bearbeitet wird, daß ein normalisierter Koeffizient erzeugt wird.

2. Verfahren nach Anspruch 1, bei dem die Frequenzbänder auf einer Mel-Frequenz-Skala beabstandet sind.

3. Verfahren nach Anspruch 1, bei dem die Frequenzbänder linear bezüglich der Frequenz unterhalb einer vorbestimmten Grenze und logarithmisch bezüglich der Frequenz oberhalb der Grenze beabstandet sind.

4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem der Schritt des Erzeugens der Koeffizienten außerdem einen Unterschritt aufweist, in dem der Logarithmus der Sprachsignalgröße gebildet wird, und in dem der Unterschritt des Bearbeitens zumindest eines der Koeffizienten das Subtrahieren des Durchschnittskoeffizienten von dem einen der Koeffizienten aufweist.

5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem der Durchschnittskoeffizient periodisch über die Dauer des Sprachsignals hergeleitet wird.

6. Verfahren nach einem der vorherigen Ansprüche, in dem der Durchschnittskoeffizient durch folgende Unterschritte hergeleitet wird:

- Herleiten eines Durchschnittskoeffizienten für jeden Bereich des eingegebenen Sprachsignals zwischen einem erfaßten Startpunkt und einem erfaßten Endpunkt,

- Gewichten des Durchschnittskoeffizienten für jeden Bereich mit der Dauer des jeweiligen Bereichs, und

- Summieren der sich ergebenden gewichteten Durchschnittskoeffizienten.

7. Verfahren nach einem der Ansprüche 1 bis 5, in dem der Durchschnittskoeffizient durch folgende Unterschritte hergeleitet wird:

- Gewichten der Durchschnittskoeffizienten für jeden Bereich durch ein vorbestimmtes Gewicht entsprechend der erwarteten Dauer der jeweiligen Äußerung, der der Bereich entspricht, und

- Summieren der entstehenden gewichteten Durchschnittskoeffizienten.

8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt des Vergleichens das zeitliche Ausrichten der Merkmalsdaten im Hinblick auf die Bezugsdaten aufweist.

9. Vorrichtung zur Sprechererkennung mit

- einer Einrichtung (240) zum Erfassen mehrerer Sprachstartpunkte und entsprechender Sprachendpunkte, wobei jeder Startpunkt und entsprechende Endpunkt zu einer einzigen Äußerung innerhalb eines eingegebenen Sprachsignals gehört,

- einer Einrichtung (210, 220, 230) zum Erzeugen von Erkennungsmerkmalsdaten für aufeinanderfolgende Zeitperioden des eingegebenen Sprachsignals, wobei die Erkennungsmerkmalsdaten mehrere Koeffizienten aufweisen, von denen sich jeder zur Sprachsignalgröße in mehreren von vorbestimmten Frequenzbändern bezieht,

- einer Durchschnittsbildungs- und Normalisierungseinrichtung (250) zur Ermittlung eines Durchschnittskoeffizienten bezüglich Zeitperioden, die zwischen den erfaßten Start- und Endpunkten jeder von mehreren Einzeläußerungen auftreten, und zum Normalisieren zumindest eines Koeffizienten in Abhängigkeit von dem Durchschnittskoeffizienten, und

- einer Einrichtung (26), die mit der Durchschnittsbildungs- und Normalisierungseinrichtung (250) zum Vergleichen der Merkmalsdaten mit vorbestimmten Sprecherreferenzdaten verbunden ist, und zum Anzeigen der Erkennung eines Sprechers in Abhängigkeit vom Vergleich.

10. Vorrichtung nach Anspruch 9, bei der die Frequenzbänder auf einer Mel-Frequenz-Skala beabstandet sind.

11. Vorrichtung nach Anspruch 9, bei der die Frequenzbänder linear bezüglich der Frequenz unterhalb einer vorbestimmten Grenze und logarithmisch bezüglich der Frequenz über der Grenze beabstandet sind.

12. Vorrichtung nach einem der Ansprüche 9 bis 11, bei der die Einrichtung (230) zum Erzeugen der Koeffizienten dazu ausgelegt ist, einen Logarithmus der Sprachsignalgröße zu erzeugen, und bei der die Durchschnittsbildungs- und Normalisierungseinrichtung (250) dazu ausgelegt ist, den Durchschnittskoeffizienten von dem einen der Koeffizienten zu subtrahieren.

13. Vorrichtung nach einem der Ansprüche 9 bis 12, bei der die Durchschnittsbildungs- und Normalisierungseinrichtung (250) bei ihrer Verwendung dazu ausgelegt ist, den Koeffizientendurchschnitt periodisch über die Dauer des Sprachsignals herzuleiten.

14. Vorrichtung nach Anspruch 13, bei der die Durchschnittsbildungs- und Normalisierungseinrichtung (250) außerdem aufweist

- eine Einrichtung zum Herleiten eines Durchschnittskoeffizienten für jeden Bereich des eingegebenen Sprachsignals zwischen einem erfaßten Startpunkt und einem erfaßten Endpunkt,

- eine Einrichtung zum Gewichten des Durchschnittskoeffizienten für jeden Bereich mit der Dauer des jeweiligen Bereichs, und

- eine Einrichtung zum Summieren der entstehenden gewichteten Durchschnittskoeffizienten.

15. Vorrichtung nach Anspruch 13, bei der die Durchschnittsbildungs- und Normalisierungseinrichtung (250) außerdem aufweist

- eine Einrichtung zum Gewichten des Durchschnittskoeffizienten für jeden Bereich durch ein vorbestimmtes Ge wicht entsprechend der erwarteten Dauer der jeweiligen Äußerung, der der Bereich entspricht, und

16. Vorrichtung nach einem der Ansprüche 9 bis 15, die zur Verbindung mit einem Telephonnetzwerk ausgelegt ist.

17. Telephonnetzwerk mit einer Vorrichtung nach Anspruch 16.