DE69420400T2 - Verfahren und gerät zur sprechererkennung - Google Patents

Verfahren und gerät zur sprechererkennung

Info

Publication number
DE69420400T2
DE69420400T2 DE69420400T DE69420400T DE69420400T2 DE 69420400 T2 DE69420400 T2 DE 69420400T2 DE 69420400 T DE69420400 T DE 69420400T DE 69420400 T DE69420400 T DE 69420400T DE 69420400 T2 DE69420400 T2 DE 69420400T2
Authority
DE
Germany
Prior art keywords
coefficients
speech signal
recognition
coefficient
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69420400T
Other languages
English (en)
Other versions
DE69420400D1 (de
Inventor
Mark Pawlewski
Joseph Gordon Tang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Priority claimed from PCT/GB1994/000629 external-priority patent/WO1994022132A1/en
Publication of DE69420400D1 publication Critical patent/DE69420400D1/de
Application granted granted Critical
Publication of DE69420400T2 publication Critical patent/DE69420400T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)
  • Toys (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

  • Die vorliegende Erfindung betrifft die Sprachverarbeitung und insbesondere eine Verarbeitung zur Sprechererkennung. Die Erkennungsverarbeitung umfaßt eine Sprechererkennung, bei der die Identität des Sprechers erfaßt oder überprüft wird, und eine Spracherkennung, bei der ein bestimmtes Wort (oder gelegentlich ein Satz oder ein Phonem oder eine andere gesprochene Äußerung) erfaßt wird. Die Spracherkennung umfaßt eine sogenannte sprecherunabhängige Erkennung, bei der von mehreren Sprechern erhaltene Sprachdaten bei der Erkennungsverarbeitung verwendet werden, und eine sogenannte sprecherabhängige Erkennung, bei der von einem einzigen Sprecher erhaltene Sprachdaten bei der Erkennungsverarbeitung verwendet werden. Im allgemeinen zielt die Verarbeitung bei der Spracherkennung auf eine Verringerung der Auswirkungen von unterschiedlichen Sprechern auf das gesprochene Wort ab, wogegen bei der Sprechererkennung das Gegenteil der Fall ist.
  • Bei der Erkennungsverarbeitung ist es üblich, Sprachdaten, typischer Weise in digitaler Form, in einen sogenannten Eingangsprozessor einzugeben, der aus dem Strom eingegebener Sprachdaten ein kompakteren, hinsichtlich der Unterscheidbarkeit signifikanteren Satz von Daten ableitet, der als Eingangsmerkmalssatz oder -vektor bezeichnet wird. Sprache wird beispielsweise typischer Weise über ein Mikrofon eingegeben, abgetastet, digitalisiert und (beispielsweise bei einer Abtastung mit 8 kHz) in Rahmen mit Längen von 10-20 ms segmentiert, und für jeden Rahmen wird ein Satz von K (typischer Weise 5-25) Koeffizienten berechnet. Da N Rahmen, bei spielsweise 25-100, pro Wort vorhanden sind, befinden sich N · K (in der Größenordnung von 1.000) Koeffizienten in einem Merkmalsvektor. Bei der Sprechererkennung wird im allgemeinen davon ausgegangen, daß der zu erkennende Sprecher ein vorgegebenes Wort (bei Banktransaktionen beispielsweise einen PIN) ausspricht, das der Erkennungsvorrichtung und dem Sprecher bekannt ist. Eine als Templat bekannte gespeicherte Repräsentation des Worts umfaßt eine vorab von einem Sprecher, dessen Identität bekannt ist, erhaltene Bezugsmerkmalsmatrix dieses Worts. Die von dem zu erkennenden Sprecher eingegebene Merkmalsmatrix wird mit dem Templat verglichen, und ein Meßwert für die Ähnlichkeit zwischen beiden wird mit einem Schwellenwert für eine Akzeptanzentscheidung verglichen.
  • Ein Problem entsteht durch die Tendenz von Sprechern, die Geschwindigkeit, mit der Worte gesprochen werden, zu variieren, so daß eine einem gegebenen Wort entsprechende eingegebene Sprachmatrix länger (d. h. aus mehr Rahmen bestehen) oder kürzer als das Templat für dieses Wort sein kann. Es ist daher erforderlich, daß die Erkennungsvorrichtung die beiden Matrizen zeitlich ausrichtet, bevor ein Vergleich erfolgen kann, und ein allgemeines Verfahren zur zeitlichen Ausrichtung und zum Vergleich ist das beispielsweise in "Speaker Independent Recognition of Words Using Clustering Techniques", Rabiner et al., "IEEE Trans. on ASSP", Bd. 24, Nr. 4, August 1979 beschriebene DTW-Verfahren (DTW, Dynamic Time Warp, dynamische Zeitverformung).
  • Für die Erkennungsverarbeitung wurden verschiedene Merkmale verwendet bzw. vorgeschlagen. Da die zur Spracherkennung verwendeten Merkmale im allgemeinen zur Unterscheidung eines Worts von einem anderen ohne eine Erfassung des Sprechers gedacht sind, wogegen die zur Sprechererkennung zur Unterscheidung von Sprechern anhand eines bekannten Worts bzw. bekannter Worte gedacht sind, kann ein für einen Typ von Erkennung geeignetes Merkmal für den anderen ungeeignet sein.
  • Einige Merkmale zur Sprechererkennung sind in "Automatic Recognition of Speakers From Their Voices", Atal, "Proc IEEE", Bd. 64, S. 460-475, April 1976 beschrieben.
  • Ein bekannter Typ von Merkmalskoeffizient ist das Cepstrum. Cepstra werden durch eine Spektralzerlegung (beispielsweise eine Spektraltransformation, wie eine Fouriertransfomation), die Verwendung des Logarithmus der Transformationskoeffizienten und eine inverse Spektralzerlegung erzeugt.
  • Bei der Sprechererkennung sind das LPC-Cepstrum-Merkmal (LPC, Linear Prediction Coefficient, linearer Vorhersagekoeffizient) und das LFT-Cepstrum-Merkmal (LFT, Fast Fourier Transfom, schnelle Fouriertransformation) bekannt, wobei die Verwendung des zuerst genannten verbreiteter ist.
  • Bei der Spracherkennung ist ein bekanntes Merkmal der Mel-Frequenz-Cepstrum-Koeffizient (MFCC). Eine Beschreibung eines Algorithmus zur Berechnung von MFCCs und zur Berechnung eines Abstandsmaßes zwischen einem MFCC-Merkmalsvektor und einem Worttemplat unter Verwendung des Dynamic-Time-Warp- Verfahrens ist in "On the Evaluation of Speech Recognisers and Data Bases Using a Reference System", Chollet & Gagnoulet, "1982 IEEE, International Conference on Acoustics, Speech and Signal Processing", S. 2026-2029 zu finden.
  • Ein MFCC-Merkmalsvektor wird im allgemeinen durch Ausführen einer Spektraltransformation (beispielsweise einer FFT) an jedem Rahmen eines Sprachsignals zum Ermitteln eines Siganlspektrums, Integrieren der Begriffe des Spektrums in eine Folge von in einer ungeraden, sogenannten "Mel-Frequenz- Skala" längs der Frequenzachse verteilten Breitbänden ermitteln der Logarithmen der Größe in jedem Band und anschließendes Ausführen einer weiteren Transformation (beispielsweise einer diskreten Cosinus-Transformation (DCT) zur Erzeugung des für den Rahmen eingestellten MFCC-Koeffizientensatzes ermittelt. Es ist festzustellen, daß die brauchbaren Informa tionen im allgemeinen auf die Koeffizienten niedrigerer Ordnung begrenzt ist. Die Mel-Frequenz-Skala kann beispielsweise zwischen 0-1 kHz aus auf einer linearen Frequenz-Skala gleichmäßig beabstandeten und über 1 kHz auf einer logarithmischen Frequenz-Skala gleichmäßig beabstandeten Frequenzbändern bestehen.
  • MFCCs eliminieren Spitzeninformationen, eine Wirkung, die bei der Spracherkennung nützlich ist, bei der Sprechererkennung jedoch unzweckmäßig, da sie zwischen Sprechern schwanken. MFCCs wurden dementsprechend bei der Sprechererkennung nicht bevorzugt.
  • In "Speaker Recognition by Statistical Features and Dynamic Features", "Review of Electrical Communications Laboratories", Bd. 30, Nr. 3, 1982, S. 467-482 beschreibt S. Furui vier Verfahren zur Sprechererkennung und vergleicht sie. Bei zwei der Verfahren wird die spektrale Hülle durch log- Bereichsverhältnisse repräsentiert, und bei den anderen beiden durch LPC-Cepstrum-Koeffizienten. Bei der Verwendung von LPC-Cepstrum-Koeffizienten wird über die Dauer der gesamten Äußerung, die mehrere Worte (beispielsweise bis zu sieben) enthalten kann, ein Durchschnittswert der Koeffizienten ermittelt, und die Durchschnittswerte werden von den Cepstrum- Koeffizienten jedes Rahmens subtrahiert, um durch das Übertragungssystem eingebrachte Frequenzreaktionsverzerrungen zu kompensieren. Zeitfunktionen für die normalisierten Cepstrum- Koeffizienten werden dann durch eine orthogonale, polynominale Repräsentation über 90 ms in Intervallen von jeweils 10 ms erweitert. Die polynominale Verarbeitung ergibt eine polynominale Repräsentation, die dem Durchschnittswert, der Neigung und der Krümmung jedes Cepstrum-Koeffizienten in jedem Segment entspricht. Die ursprünglichen Zeitfunktionen der Cepstrum-Koeffizienten werden zusammen mit den polynominalen Koeffizienten erster und zweiter Ordnung anstelle der polynominalen Koeffizienten nullter Ordnung verwendet, so daß jede Äußerung durch eine Zeitfunktion eines 30-dimensionalen Vektors repräsentiert wird. Aus diesen 30 Elementen wird unter dem Gesichtspunkt einer Erweiterung der Gesamt-Abstandsverteilung von (in einer ausgedehnten Lern-/Eintragungsphase bestimmten) Kunden- und Ausgangsproben von Äußerungen ein Satz von 18 Elementen ausgewählt. Bei einer alternativen Verarbeitungsanordnung folgt der LPC-Analyse ein statistischer Merkmalsextraktionsprozeß, der unter anderem die Erzeugung von Fourier-Cosinus-Expansions-Koeffizienten einschließt. Bei dieser alternativen Verarbeitung besteht der endgültige Merkmalssatz aus 60 ausgewählten Elementen. Es wurde berichtet, daß diese zuletzt genannte Verarbeitungsanordnung ("Verfahren 2"), bei der statistische Merkmale einschließlich aus Zeitfunktionen von LPC-Cepstrum-Koeffizienten und einer Grundfrequenz extrahierte Fourier-Koeffizienten verwendet wurden, bei den besonderen verwendeten Lern- und Anfangsdaten eine 99,9- prozentige Erkennungsgenauigkeit erzeugt. Furui schloß, daß die Ergebnisse "angeben, daß LPC-Cepstrum-Koeffizienten wesentlich effektiver als log-Bereichsverhältnisse sind". Furui bietet weder Theorien bezüglich der Verwendung anderer Cepstra, noch einer Filterung der eingegebenen Sprache in mehrere vorgegebene Frequenzbänder. Darüber hinaus lehrt Furui implizit den Wert der Verwendung eines sehr großen Merkmalssatzes (von beispielsweise bis zur 60 Elementen) - etwas, dessen Vermeidung selbstverständlich wünschenswert ist, insbesondere, wenn die für die Erkennungseinrichtung relevante Population sehr groß ist.
  • In "Speaker Verification over Long Distance Telephone Lines", "ICASSP 89" Bd. 1, 23. Mai 1989, Seiten 524-527, vergleichen J. M. Naik et al. Sprecherüberprüfungstechniken, bei denen entweder das auf Templaten basierende Dynamic-Time- Warp-Verfahren oder das Hidden-Markov-Modell-Verfahren verwendet werden. Erneut erfolgte eine LPC-Analyse zur Erzeugung der vorverarbeiteten Informationen, aus denen Merkmale extrahiert wurden.
  • Ursprünglich wurden für jeden Rahmen aus LPC-Daten 32 Parameter berechnet:
  • * Sprachpegelschätzung in dB;
  • * RMS-Rahmenenergie in dB;
  • * Skalenmessung der Geschwindigkeit der spektralen Veränderung;
  • * 14 Filterbankgrößen in dB,
  • - Mel-beabstandete simulierte Filterbänke,
  • - normalisierte Rahmenenergie;
  • * Zeitdifferenz der Rahmenenergie über 40 ms;
  • * Zeitdifferenz der 14 Filterbankgrößen über 40 ms.
  • Die zum Vergleich der Bezugs- und Prüftemplate verwendeten Sprachmerkmale wurden durch eine lineare Transformation dieser 32 Parameter zur Erzeugung eines Satzes von 18 Merkmalen zur Verwendung als Templat erhalten. Es wird keine Erklärung für die Verwendung der Mel-beabstandeten Filterbänke gegeben, und es wird absolut kein Hinweis bezüglich der Verwendung einer anderen Form von Cepstra als LPC gegeben.
  • Dementsprechend wird durch die Erfindung ein Verfahren zur Sprechererkennung geschaffen, das die Schritte der Erkennung mehrerer Sprachstartpunkte und entsprechender Sprachendpunkte, wobei jeder Startpunkt und entsprechende Endpunkt eine einzelne Äußerung innerhalb eines eingegebenen Sprachsignals betreffen, der Erzeugung von Erkennungsmerkmaldaten für aufeinanderfolgende Zeitperioden des eingegebenen Sprachsignals, wobei die Erkennungsmerkmaldaten mehrere Koeffizienten aufweisen, die mit der Sprachsignalgröße in mehreren vorbestimmten Frequenzbändern in Beziehung stehen, den Vergleich der Merkmaldaten mit vorbestimmten Sprecherbezugsdaten und die Anzeige der Erkennung eines Sprechers in Abhängigkeit vom Vergleich umfaßt, wobei der Schritt der Erzeugung der Koeffizienten einen Unterschritt aufweist, in dem ein durchschnitt licher Koeffizient bezüglich Zeitperioden hergeleitet wird, die zwischen den erfaßten Start- und Endpunkten jeder der einzelnen Äußerungen ergehen, und einen Unterschritt, in dem zumindest einer der Koeffizienten in Abhängigkeit von dem Durchschnittskoeffizienten so bearbeitet wird, daß ein normalisierter Koeffizient erzeugt wird. Eine entsprechende Vorrichtung wird ebenfalls geschaffen.
  • Die Normalisierung wirkt zur Verringerung des Effekts jeder langfristigen Filterung des Sprachsignals, beispielsweise durch einen Telekommunikationskanal, den es passiert.
  • Die Koeffizienten können sich beispielsweise auf die Größe des Sprachsignals in mehreren vorgegebenen Frequenzbändern beziehen, die auf der Mel-Frequenzskala verteilt sind. In diesem Fall können sie Mel-Frequenz-Cepstrum-Koeffizienten sein. Wenn die Koeffizienten von dem Logarithmus der Größe des Sprachsignals abgeleitet werden, wird der normalisierte Koeffizient durch eine Subtraktion des durchschnittlichen Koeffizienten erzeugt, wobei die Subtraktion einer Division durch das geometrische Mittel des Koeffizienten entspricht.
  • Es wurde festgestellt, daß auf diese Weise normalisierte Mel-Frequenz-Kepstrum-Koeffizienten einen zuverlässigen Merkmalssatz zur Erkennung von Sprechern bieten, wobei nur eine verhältnismäßig geringe Anzahl an Koeffizienten verwendet wird und ihre Verwendung überdies besonders für Telekommunikationsanwendungen geeignet ist, da die Abhängigkeit von Eigenschaften des Übertragungskanals zwischen dem Sprecher und der Erkennungsvorrichtung erheblich vermindert wird.
  • Weitere Aspekte und bevorzugte Ausführungsformen der Erfindung sind wie im Vorliegenden offenbart und beansprucht und weisen Vorteile auf, die nachstehend ersichtlich werden.
  • Die Erfindung wird nun unter Bezugnahme auf die folgende Beschreibung und die Zeichnungen nur anhand von Beispielen beschrieben. Es zeigen:
  • Fig. 1 schematisch die Verwendung eines erfindungsgemäßen Erkennungsprozessors in einer Telekommunikationsumgebung;
  • Fig. 2 ein Blockdiagramm, das schematisch die funktionellen Elemente eines Erkennungsprozessors gemäß einer Ausführungsform der Erfindung zeigt;
  • Fig. 3 ein Ablaufdiagramm, das schematisch die Funktionsweise eines MFCC-Generators zeigt, der einen Teil von Fig. 2 bildet;
  • Fig. 4 ein veranschaulichendes Diagram in der Frequenzdomäne, das einen Teil des Prozesses gemäß Fig. 3 illustriert;
  • Fig. 5 ein Ablaufdiagramm, das die Funktionsweise eines Endpunktdetektors genauer zeigt, der einen Teil von Fig. 2 bildet;
  • Fig. 6 ein veranschaulichendes Diagramm, das zur Veranschaulichung des Prozesses gemäß Fig. 5 die Amplitude in bezug auf die Zeit zeigt;
  • Fig. 7 ein Ablaufdiagramm, das schematisch die Funktionsweise eines Normalisierungsprozessors darstellt, der bei einer bevorzugten Ausführungsform einen Teil von Fig. 2 bildet;
  • Fig. 8a ein Ablaufdiagramm, das die Funktionsweise eines Vergleichsprozessors darstellt, der bei einer Ausführungsform der Sprecheridentifikation einen Teil von Fig. 2 bildet;
  • Fig. 9 ein Ablaufdiagramm, das die Funktionsweise eines Normalisierungsprozessors zeigt, der bei einer alternativen Ausführungsform zu der gemäß Fig. 7 einen Teil von Fig. 2 bildet;
  • Fig. 10a eine veranschaulichende Abbildung von MFCC- Koeffizientenwerten in bezug auf die Zeit für jeden von zwei verschiedenen Telekommunikationskanälen und
  • Fig. 10b eine entsprechende Abbildung von normalisierten Koeffizienten gemäß der bevorzugten Ausführungsform gemäß Fig. 7.
  • BEVORZUGTE AUSFÜHRUNGSFORM
  • Gemäß Fig. 1 umfaßt ein eine Sprechererkennung enthaltendes Telekommunikationssystem im allgemeinen ein Mikrofon 1, das typischer Weise einen Teil eines Telefonhörers bildet, ein Telekommunikationsnetz 2 (typischer Weise ein öffentlich geschaltetes Telekommunikationsnetz (PSTN)), einen Erkennungsprozessor 3, der derart angeschlossen ist, daß er ein Stimmsignal von dem Netz 2 empfängt, und eine an den Erkennungsprozessor 3 angeschlossene Nutzungsvorrichtung 4, die derart angeordnet ist, daß sie von diesem ein Stimmerkennungssignal empfängt, das eine Erkennung oder Nicht-Erkennung eines bestimmten Sprechers angibt und als Reaktion darauf eine Aktion einleitet. Die Nutzungsvorrichtung kann beispielsweise ein fernbetätigter Bankanschluß zur Veranlassung von Banktransaktionen sein.
  • In vielen Fällen erzeugt die Nutzungsvorrichtung 4 eine hörbare Antwort für den Sprecher, die über das Netz 2 an einen Lautsprecher 5 übertragen wird, der typischer Weise einen Teil des Telefonhörers des Kunden bildet.
  • Beim Betrieb spricht ein Sprecher in das Mikrofon 1, und ein analoges Sprachsignal wird von dem Mikrofon 1 in das Netz 2 und an den Erkennungsprozessor 3 übertragen, in dem das Sprachsignal analysiert und ein Signal, das die Identifikation oder Nicht-Identifikation eines bestimmten Sprechers angibt, erzeugt und an die Nutzungsvorrichtung 4 übertragen werden, die dann im Falle einer Erkennung des Sprechers einen geeigneten Vorgang einleitet.
  • Typischer Weise muß der Erkennungsprozessor die Identität des Sprechers betreffende Daten beschaffen, anhand derer das Sprachsignal zu überprüfen ist, und diese Datenbeschaffung kann von dem Erkennungsprozessor in einem zweiten Betriebsmodus ausgeführt werden, in dem der Erkennungsprozessor 3 nicht an die Nutzungsvorrichtung 4 angeschlossen ist, sondern ein Sprachsignal von dem Mikrofon 1 empfängt, um die Erkennungsdaten für diesen Sprecher zu erzeugen. Es sind jedoch auch andere Verfahren zur Beschaffung der Sprechererkennungsdaten möglich; die Sprechererkennungsdaten können beispielsweise auf einer von dem Sprecher mitgeführten und in einen Kartenleser, von dem die Daten gelesen und vor der Übertragung des Sprachsignals über das PSTN an den Erkennungsprozessor übertragen werden, einführbaren Karte gehalten werden.
  • Typischer Weise ist dem Erkennungsprozessor 3 der von dem Signal von dem Mikrofon 1 in und durch das Netzwerk 2 genommene Pfad nicht bekannt; das Mikrofon 1 kann beispielsweise über eine analoge oder digitale mobile Funkverbindung mit einem Netz 2 verbunden sein oder seinen Ursprung in einem anderen Land haben oder von einem unter einer breiten Vielfalt von Typen und Qualitäten von Empfangsapparaten stammen. Auf die gleiche Weise kann innerhalb des Netzes 2 jeder unter einer breiten Vielfalt von Übertragungspfaden verwendet werden, einschließlich Funkverbindungen, analogen und digitalen Pfaden etc. verwendet werden. Dementsprechend entspricht das den Erkennungsprozessor 3 erreichende Sprachsignal Y dem am Mikrofon 1 empfangenen, von den Übertragungskennlinien des Mikrofons 1, der Verbindung zu dem Netz 2, dem Kanal durch das Netz 2 und der Verbindung zu dem Erkennungsprozessor 3, die zusammengefaßt und durch eine einzige Übertragungskennlinie H bezeichnet werden können, überlagerten Sprachsignal S.
  • Der Erkennungsprozessor 3
  • In Fig. 2 sind die funktionellen Elemente einer Erkennungseinrichtung gemäß der bevorzugten Ausführungsform dargestellt. Ein Hochanhebungsfilter 210 empfängt die digitalisierte Sprachschwingungsform mit einer Abtastgeschwindigkeit von beispielsweise 8 kHz als Folge von 8-Bit-Zahlen und führt zur Steigerung der Amplitude höherer Frequenzen (beispielsweise durch Ausführen einer 1-0,95 z&supmin;¹ - Filterung) einen Hochanhebungsfilterprozeß aus. Ein Sprachrahmengenerator 220 empfängt das gefilterte Signal und bildet eine Folge von Rahmen aus aufeinanderfolgenden Proben. Die Rahmen können beispielsweise jeweils 256 aufeinanderfolgende Proben enthalten, und jeder Rahmen kann den nachfolgenden und den vorhergehenden Rahmen um 50% überlappen, um mit einer Geschwindigkeit von einem pro 16 ms Rahmen mit einer Länge von 32 ms zu erzeugen. Zwei Rahmenpuffer 221, 222 mit einer um 16 ms unterschiedlichen Verzögerung können beispielsweise parallel gefüllt und abwechselnd gelesen werden.
  • Zum Eliminieren von unechten Frequenzartefakten aufgrund der Diskontinuitäten am Anfang und am Ende jedes Rahmens wird dann vorzugsweise jeder Rahmen durch einen Hamming- Fensterprozessor 223 geleitet, der (wie allgemein bekannt) die Proben zu der Kante jedes Fensters herunterskaliert.
  • Jeder Rahmen aus 256 durch die Fenstertechnik verarbeiteten Proben wird dann von einem MFCC-Generator 230 verarbeitet, um einen Satz von MFCC-Koeffizienten (beispielsweise von 8 Koeffizienten) zu extrahieren. Gleichzeitig wird jeder durch die Fenstertechnik verarbeitete Rahmen einem Endpunktdetektor 240 zugeführt, der den Beginn und das Ende einer Sprachäußerung erfaßt und einer Normalisiereinrichtung 250 mit einem Koeffizientenspeicher 251 und einem Normalisierungsprozessor 252 ein Sprach-/Nicht-Sprach-Steuersignal zuführt. Die Normalisiereinrichtung 250 speichert nach dem Empfang eines 'Sprachbeginn'-Signals von dem Endzeiger 240 eini ge oder sämtliche der acht Koeffizienten für jeden aufeinanderfolgenden Rahmen in dem Normalisierungskoeffizientenspeicher 251, bis das Signal für das 'Ende-der-Sprache' von dem Endzeiger 240 empfangen wird. Zu diesem Zeitpunkt berechnet der Normalisierungsprozesser 252 anhand der gespeicherten Koeffizienten für jeden Sprachrahmen in dem Speicher 251 einen arithmetischen Koeffizientenrnittelwert für jeden der acht Koeffizienten. Der arithmetische Koeffizientenmittelwert wird dann von dem jeweiligen gespeicherten Koeffizientenwert für jeden Rahmen subtrahiert, um eine normalisierte Matrix mit 8 N Koeffizienten zu erzeugen (wobei N die Anzahl der Rahmen zwischen dem Anfangspunkt und dem Endpunkt einer gesprochenen Äußerung ist).
  • Diese normalisierte Koeffizientenmatrix wird einem Vergleichsprozessor 260 zugeführt, der eine entsprechende, zu einem gegebenen Sprecher gehörige Matrix aus einem Sprechertemplat 270 liest, einen Vergleich zwischen den beiden ausführt und abhängig von der Ähnlichkeit zwischen dem normalisierten Sprachvektor und dem Sprechertemplat aus dem Sprechertemplatspeicher 270 ein Erkennungs-/Nicht-Erkennungs- Ausgangssignal erzeugt.
  • Das Hochanhebungsfilter 210, der Fensterprozessor 223, der MFCC-Generator 230 und der Endzeiger 240, der Normalisierungsprozessor 252 und der Vergleichsprozessor 260 können aus einer oder mehreren digitalen Signalprozessorvorrichtungen (DSP-Vorrichtungen) und/oder geeignet programmierten Mikroprozessoren bestehen, wobei die Rahmenpuffer 221, 222, der Koeffizientenspeicher 251 und der Sprechertemplatspeicher 270, die in dem Lese-/Schreibspeichervorrichtungen vorgesehen sind, daran angeschlossen sind.
  • Die MFCC-Erzeugung
  • Gemäß Fig. 3 umfaßt der von dem MFCC-Generator 230 ausgeführte Prozeß das Ausführen einer Fourier-Transformation an jedem Rahmen, das Erzeugen von 256 Transformationskoeffizienten in einem Schritt 401, das Erzeugen des Leistungsspektrums des Sprachsignals anhand der Fourier-Koeffizienten durch Summieren der Quadrate der realen und imaginären Komponenten bei jeder Frequenz zur Erzeugung eines Leistungsspektrums mit 128 Koeffizienten in einem Schritt 402, die Integration des Leistungsspektrums über 19 Frequenzbänder in einem Schritt 403, wie nachstehend unter Bezugnahme auf Fig. 4 genauer erläutert, zur Erzeugung von 19 Bandleistungskoeffizienten, das Ermitteln des Logarithmus (beispielsweise mit der Basis 10) jedes der 19 Koeffizienten in einem Schritt 404; das Ausführen einer diskreten Cosinustransformation an den 19 Logarithmuswerten in einem Schritt 405 und die Auswahl der 8 Koeffizienten niedrigster Ordnung in einem Schritt 406. Die diskrete Cosinustransformation ist allgemein bekannt und beispielsweise in der vorstehend erwähnten Druckschrift von Chollet und Gagnoulet beschrieben; kurz ausgedrückt ist die N-te Cosinuskomponente von Mm durch
  • gegeben, wobei N die Anzahl der diskreten Frequenzbänder (in diesem Fall 20, wobei eine Frequenzdomänenrotation angewendet wird, um den zwanzigsten Punkt zu erhalten) und A(n) die Amplitude in dem m-ten Frequenzband ist. Die Wirkung des DCT ist die Dekorrelation der Koeffizienten A(n) in einem hohen Ausmaß.
  • In Fig. 4 stellt Fig. 4a einen Abschnitt des im Schritt 402 erzeugten Leistungsspektrums notional dar. Fig. 4b zeigt einen entsprechenden Abschnitt der Mel-Frequenz- Dreiecksintegrationsfenster längs der Frequenzachse. Die Dreiecksfenster umfassen zehn linear längs der Frequenzachse beabstandete Fenster, die ihre Nachbarn jeweils zwischen 0- 1 kHz um 50% überlappen, und weitere zehn Fenster, die dreieckig sind und einander auf einer logarithmischen Frequenzskala über 1 kHz um 50% überlappen.
  • Fig. 4c zeigt schematisch die Wirkung der punktweisen Multiplikation jeder Probe in dem Leistungsspektrum mit dem entsprechenden Term in einem der Dreiecksfenster; aus Gründen der Klarheit sind nur geradzahlige Fenster dargestellt.
  • Als nächstes werden die durch die Fenstertechnik verarbeiteten Werte gemäß Fig. 4c über jedes Fenster integriert, um einen einzigen, diesem Fenster entsprechenden, summierten Koeffizienten zu erzeugen, wie in Fig. 4d dargestellt.
  • Die derart erzeugten 19 Koeffizienten (der Null- Frequenz-Koeffizient M&sub0; wird ignoriert) entsprechen daher der Leistung, die bei der Ausgabe jedes eines entsprechenden Satzes von Bandpaßfiltern erzeugt würde, wobei Filter unter 1 kHz gleiche, gleichmäßig verteilte Bandbreiten aufweisen und die über 1 kHz gleiche und gleichmäßig auf einer logarithmischen Frequenzskala verteile Bandbreiten aufweisen.
  • Die Funktionsweise des Endzeigers
  • Unter Bezugnahme auf die Fig. 5 und 6 wird nun die Funktionsweise des Endzeigers 240 gemäß Fig. 2 genauer erläutert.
  • Der Endzeiger 240 quadriert und summiert anfänglich die Signalwerte in jedem Rahmen, um einen Meßwert P der Leistung bzw. Energie in dem Rahmen zu erzeugen.
  • Der Wert P wird anhand des ersten Schwellenwerts PL überprüft, der auf einen verhältnismäßig niedrigen Pegel eingestellt ist, so daß er gelegentlich von Rauschsignalen über kreuzt wird. Es wird kein Vorgang eingeleitet, bis ein Rahmen einen Leistungspegel über diesem niedrigen Schwellenwert PL aufweist. Bei einem Rahmen, der über den niedrigen Schwellenwert PL ansteigt, wird eine (in Fig. 5 als Variable "START" dargestellte) Flagge gespeichert, die eine diesem Rahmen zugewiesene Nummer angibt.
  • Wenn der Wert der Leistung P in einem Rahmen über einen oberen Schwellenwert PH ansteigt, der dem Vorhandensein von Sprache entspricht und auf einen Pegel über wahrscheinlichen Rauschpegeln eingestellt ist, wird von einem Vorhandensein von Sprache ausgegangen. Der als Startpunkt der Sprache verwendete Punkt ist ein Rahmen, dem eine vorgegebene Anzahl ("LEAD") von Rahmen vor dem Rahmen ("START") vorangeht, bei dem das Signal über den niedrigen Schwellenwert PL angestiegen ist. Auf diese Weise geht der Beginn der Äußerung nicht verloren, obwohl das Vorhandensein von Sprache nur bestätigt wird, wenn der Signalpegel über den hohen Schwellenwert ansteigt. Dementsprechend wird zur Steuerung der Normalisiereinrichtung 250 die Nummer des derart als Startpunkt berechneten Rahmens durch den Endzeiger 240 ausgegeben.
  • Wenn der Pegel des Sprachsignals länger als über eine vorgegebene Zeitspanne Tmax zwischen den beiden Schwellenwerten bleibt, wird der Wert "START" gelöscht.
  • Bei einem Abfallen der Rahmenenergie von dem oberen Schwellenwert PH unter den unteren Schwellenwert PL wartet der Endzeiger 240 eine vorgegebene Anzahl von Rahmen, die als "Überhang"-Zeitspanne T0h bezeichnet wird. Wenn der Pegel innerhalb der Überhangzeitspanne wieder über den unteren Schwellenwert PL ansteigt, wird davon ausgegangen, daß nach wie vor Sprache vorhanden ist. Ist der Leistungspegel des Signal einmal für mehr als T0h Rahmen unter den unteren Schwellenwert PL gefallen, wird davon ausgegangen, daß die Äußerung beendet ist, und der Endzeiger gibt eine Endpunktrahmennummer aus, die der aktuellen Rahmennummer abzüglich der Anzahl T0h der Rahmen (d. h. dem Punkt, an dem sich das Signal zuletzt auf dem Schwellenwert PL befand) plus einer als "LAG" bezeichneten, vorgegebenen Anzahl von Rahmen entspricht.
  • Die Normalisierung
  • Unter Bezugnahme auf Fig. 7 wird nun der von der Normalisiereinrichtung 250 ausgeführte Normalisierungsprozeß genauer beschrieben.
  • Die Rahmen von acht MFCC-Koeffizienten pro Rahmen werden nacheinander in dem Koeffizientenpuffer 251 gespeichert. Nach der Erfassung des Endes der gesprochenen Äußerung durch den Endzeiger 240 signalisiert dieser die Nummern des Anfangs- und des Endrahmens an die Normalisiereinrichtung 250. Der Normalisierungsprozessor 252 ruft dann für sämtliche Rahmen zwischen dem Anfangs- und dem Endrahmen für jeden der acht Koeffizienten den Wert des Koeffizienten aus dem Speicher ab und erzeugt durch Addieren der Koeffizientenwerte und eine Division durch N, die Anzahl der Rahmen zwischen dem Anfangs- und dem Endrahmen, das arithmetische Mittel. Dadurch wird ein Satz von acht Durchschnittswerten i (i = 1 bis 8) erzeugt.
  • Als nächstes berechnet der Normalisierungsprozessor 252 durch Subtrahieren des entsprechenden Durchschnittswerts , von jedem Koeffizientenwert Mi,k für jeden Koeffizienten jedes Rahmens einen normalisierten Koeffizientenwert Gi,k (wobei K die Rahmennummer ist).
  • Der Satz von 8 · N Koeffizienten, die den normalisierten Vektor Gi,k bilden, wird dann durch den Normalisierungsprozessor 252 ausgegeben.
  • Die Vergleichsverarbeitung
  • Eine genaue Beschreibung des Vergleichsprozessors 260 erübrigt sich, da er eine herkömmliche Funktionsweise aufweist. Fig. 8a zeigt schematisch die Funktionsweise des Vergleichsprozessors bei der Sprecherüberprüfung; im wesentlichen liest der Vergleichsprozessor den Merkmalsvektor G, der die normalisierten MFCCs enthält, liest ein Sprechertemplat T, das einen entsprechenden Bezugsvektor aus Koeffizienten enthält, führt, beispielsweise unter Verwendung eines allgemein bekannten Dynamic-Time-Warp-Algorithmus (beispielsweise unter Verwendung des in dem vorstehend erwähnten Druckschrift von Chollet und Gagnoulet angegebenen Algorithmus) zur zeitlichen Ausrichtung der beiden zur Erzeugung einer die Differenz zwischen den beiden Vektoren angebenden skalaren Abstandsmessung D, einen Vergleich zwischen den beiden Vektoren aus und überprüft die Abstandsmessung D anhand des Schwellenwerts. Wenn der Abstand D kleiner als der Schwellenwert ist, wird der Sprecher als dem gespeicherten Templat entsprechend akzeptiert, anderenfalls wird der Sprecher zurückgewiesen. Fig. 8b zeigt die entsprechende Operation des Vergleichsprozessors 260 bei der Sprecheridentifikation, wobei in diesem Fall mehrere unterschiedliche Vektoren Ti nacheinander aus dem Templatspeicher 270 gelesen werden und der Sprachvektor G mit jedem nacheinander verglichen wird, um einen entsprechenden Abstandsmeßwert Di zu erzeugen. Der Sprecher wird dann als dem Templat, von dem sich der Sprachvektor am wenigsten unterscheidet (d. h. das den kleinsten Meßwert Di verursacht hat), entsprechend identifiziert.
  • Alternative Ausführungsformen
  • Bei der vorstehend beschriebenen Ausführungsform müssen der Normalisiereinrichtung 250, wie unter Bezugnahme auf Fig. 7 erläutert, sowohl der Anfangspunkt als auch der Endpunkt einer Äußerung bekannt sein, bevor sie N (die Anzahl der Rahmen zwischen dem Startpunkt und dem Endpunkt) und die Summe der Koeffizientenwerte MTOT und damit den Durchschnittswert jedes Koeffizienten und damit den normalisierten Wert jedes Koeffizienten berechnen kann. Dementsprechend muß die Normalisiereinrichtung 250 die Erfassung des Endpunkts durch den Endzeiger 240 abwarten, und die anschließende Erkennungsverarbeitung wird bis zum Ende der Äußerung verzögert. Bei vielen Anwendungen und bei einer schnellen Hardware mag es sein, daß diese Verzögerung nicht zu Schwierigkeiten führt. Bei anderen Anwendungen kann es jedoch vorzuziehen sein, die Normalisierung vor dem Ende der Äußerung einzuleiten.
  • Dementsprechend werden bei einer ersten alternativen Ausführungsform statt einer Normalisierung der Koeffizienten durch Subtrahieren des arithmetischen Mittelwerts jedes Koeffizienten über die gesamte Äußerung die Koeffizienten durch Subtraktion eines laufenden Mittelwerts normalisiert, der (beispielsweise auf der Grundlage von einem Rahmen nach dem anderen) periodisch aktualisiert wird.
  • Gemäß Fig. 9 liest der Normalisierungsprozessor 252 bei dieser Ausführungsform dementsprechend für jeden Koeffizienten den aktuellen Durchschnittswert für diesen Koeffizienten i, nachdem der Endzeiger 240 den Beginn der Äußerung signalisiert hat, subtrahiert zur Erzeugung eines normalisierten Koeffizienten Gi den Koeffizienten i von dem Wert Mi des MFCC-Koeffizienten, inkrementiert einen Rahmenzähler N, addiert den Koeffizientenwert i zu dem aktuellen Gesamtwert MTOT und dividiert die Summe durch den Rahmenzähler N, wobei das Ergebnis als neuer Koeffizientendurchschnittswert i gespeichert wird. Die normalisierten Koeffizientenwerte Gi für jeden Rahmen können daher augenblicklich ausgegeben werden.
  • Es ist zu erwarten, daß bei einem laufend ermittelten Mittelwert dieser Art die Wahrscheinlichkeit einer geringfügig weniger guten Leistung als bei der bevorzugten Ausfüh rungsform besteht, da der "Durchschnittswert" anfänglich nicht anhand einer repräsentativen Anzahl von Proben gebildet wird. Eine gewisse Verbesserung der Leistung ist im Vergleich zu nicht normalisierten Koeffizienten nichtsdestotrotz zu erwarten. Natürlich sind andere Verfahren zur Berechnung eines laufenden Mittelwerts (beispielsweise unter Verwendung eines bewegten Fensters von vorhergehenden Proben oder durch eine weniger häufige Aktualisierung als bei jedem Rahmen) ebenso möglich. Bei Ausführungsformen dieser Art kann auf den Koeffizientenspeicher 251 verzichtet werden.
  • In bezug auf die vorstehend beschriebenen Ausführungsformen erfolgte eine Beschreibung der Endpunktbestimmung und der Normalisierung über eine einzige zusammenhängende Äußerung (d. h. ein einziges Wort). Wenn eine Sprecheridentifikation auf der Grundlage mehrerer separater Worte ausgeführt werden soll, könnte der im Zusammenhang mit den vorstehend erläuterten Ausführungsformen beschriebene Prozeß für jedes aufeinanderfolgende Wort isoliert ausgeführt werden. Einige zur Unterscheidung von Sprechern nützliche Informationen können jedoch in dem relativen Pegel der Koeffizientenwerte jedes Worts in bezug auf die anderen gefunden werden.
  • Dementsprechend wird bei einer weiteren Ausführungsform der von der Normalisiereinrichtung 250 erzeugte langfristige Durchschnittswert i über sämtliche Worte der Äußerung gebildet. Bei einem ersten Beispiel gemäß dieser Ausführungsform wird dies durch Bilden des Durchschnitts über sämtliche Rahmen zwischen den Start- und Endpunkten jedes Worts, als wenn die Worte, wie bei einer einzigen Äußerung, unmittelbar aufeinander folgten, und durch Ignorieren der Nicht-Sprach- Rahmen zwischen den Worten erreicht.
  • Das gleiche Ergebnis wird bei einem zweiten Beispiel, wie bei den vorhergehenden Ausführungen, durch Ermitteln separater Durchschnittswerte für jedes Wort und anschließendes Addieren der Durchschnittswerte, die jeweils durch die jewei lige Anzahl der Rahmen in dem Wort, anhand dessen sie ermittelt wurden, gewichtet werden, um anhand sämtlicher Worte einen gewichteten Durchschnittswert zu bilden, und darauffolgendes Dividieren jedes Koeffizienten jedes Worts durch den über sämtliche Worte ermittelten Durchschnittswert erreicht.
  • Bei den beiden vorstehend beschriebenen Beispielen verändert sich die dem jedem einzelnen Wort entsprechenden Durchschnittswert beigemessene Bedeutung abhängig von der Länge des Worts, die sich wiederum mit der Geschwindigkeit verändert, mit der der Sprecher das Wort ausspricht (und die unabhängig von den Spektralkennlinien der Art, in der der Sprecher das Wort ausspricht, veränderlich ist).
  • Dementsprechend wird bei einer alternativen Ausführungsform, wie zuvor, durch isoliertes Bilden des Durchschnittswerts über jedes Wort und anschließendes Bilden eines gewichteten Durchschnittswerts anhand der einzelnen Durchschnittswerte, jedoch durch Verwenden einer vorgegebenen Gewichtung, die, statt wie bei den vorstehend beschriebenen Beispielen der tatsächlichen Dauer des Worts, beispielsweise der Länge des entsprechenden in dem Templatspeicher gespeicherten, das Wort repräsentierenden Templats entspricht, ein langfristiger Durchschnittswert gebildet. Auf diese Weise wird die Abhängigkeit von der Geschwindigkeit verringert, mit der die Worte gesprochen werden.
  • Obwohl es unter einigen Umständen möglich sein könnte, auf den Endzeiger 240 zu verzichten und einen langfristigen Durchschnittswert über die gesamte Dauer des Telefonanrufs zu bilden, ist dies in der Praxis im allgemeinen nicht zweckmäßig, da während langen Perioden ohne Sprache der empfangene Signalpegel im allgemeinen zu niedrig ist, um eine zuverlässige Angabe des Spektrums des Kommunikationskanals zu erzeugten, und es überdies schwierig ist, das Spektrum des Kanals von dem eines vorhandenen Rauschens zu trennen.
  • Im Zusammenhang mit den vorstehend beschriebenen Ausführungsformen wurde eine zur Kopplung mit einer Telekommunikationszentrale geeignete Erkennungsvorrichtung beschrieben. Bei einer anderen Ausführungsform kann die Erfindung jedoch mit einer einfachen Vorrichtung ausgeführt werden, die mit einer an das Telefonnetz angeschlossenen herkömmlichen Kundenstation verbunden ist, wobei in diesem Fall eine Analog- /Digitalwandlereinrichtung zur Digitalisierung des herankommenden analogen Telefonsignals vorgesehen ist.
  • Obwohl auf die Verwendung programmierbarer digitaler Signalverarbeitungsvorrichtungen (DSP-Vorrichtungen) bezug genommen wird, ist ebenso zu erkennen, daß statt dessen ein mit ausreichender Geschwindigkeit arbeitender herkömmlicher Mehrzweck-Mikroprozessor verwendet werden kann. Ebenso könnte eine speziell konstruierte hochintegrierte logische Schaltung (LSI) verwendet werden.
  • Die Erfindung wurde unter Bezugnahme auf MFCCs beschrieben, es könnten jedoch Filterbänke mit ungleichmäßigen Frequenzskalen verwendet werden, die der Mel-Frequenzskala angenähert sind oder sich von dieser unterscheiden. Obwohl vorstehend dreieckige Fenster für die Integration in der Frequenzdomäne beschrieben wurden, ist ersichtlich, daß ebenso andere Fensterformen verwendet werden können. Obwohl ein digitaler Prozessor zur Berechnung von MFCC-Werten beschrieben wurde, wäre es im Prinzip möglich, statt dessen mehrere analoge oder digitale Bandpaßfilter vorzusehen, die den in Fig. 5b gezeigten Bändern entsprechen, und die Leistung in jedem Filterband abzutasten.
  • Obwohl gezeigt wurde, daß die Erfindung bei der Anwendung auf MFCCs erstaunlich vorteilhaft ist, ist ihre Anwendung auf weitere führende Merkmale (vorzugsweise Cepstrum- Merkmale) nicht ausgeschlossen.
  • Obwohl ein Vergleichsprozeß erläutert wurde, bei dem der Dynamic-Time-Warp-Prozeß (DTW-Prozeß) verwendet wird, ist die Erfindung ebenso auf eine Erkennung anwendbar, bei der andere Typen von Vergleichsverarbeitung verwendet werden. Es können beispielsweise eine Vergleichsverarbeitung, bei der ein verstecktes Markov-Modell-Verfahren (HMM-Verfahren) verwendet wird, wie im "British Telecom Technology Journal", Bd. 6, Nr. 2, April 1988, S. J. Cox, "Hidden Markov Models for Automatic Speech Recognition: Theory and Application", Seiten 105-115 offenbart, oder neuronale Netzwerke (beispielsweise das allgemein bekannte mehrschichtige Perceptron (MLP) oder "selbstorganisierende" Typen, die beide in der gleichen Ausgabe des "British Telecom Technology Journal" beschrieben sind) verwendet werden.
  • Obwohl hier die Anwendung der Erfindung auf die Sprechererkennung beschrieben wurde, ist offensichtlich, daß Aspekte der Erfindung auch auf andere Erkennungsaufgaben (beispielsweise die Spracherkennung) anwendbar sind.
  • Die Templaterzeugung
  • Im allgemeinen wird bei der vorliegenden Erfindung zur Identifikation des oder jedes zu identifizierenden Sprechers ein gespeichertes Bezugsmodell (ein "Templat" für die DTW- Erkennung) verwendet. Verfahren zur Ermittlung von Bezugsmodellen sind allgemein bekannt, und zum Verständnis der vorliegenden Erfindung reicht es daher aus, anzugeben, daß jedes Templat durch einen Prozeß erzeugt werden kann, bei dem mehrere Äußerungen des gleichen Worts durch einen Sprecher eingegeben, die Äußerungen digitalisiert, für jede der Äußerungen auf die gleiche Weise wie vorstehend erläutert der normalisierte Satz von Koeffizienten Gi ermittelt, die Äußerungen beispielsweise unter Verwendung eines Dynamic-Time-Warp- Prozesses in bezug auf die Zeit ausgerichtet und anschließend zur Ermittlung eines durchschnittlichen Koeffizientenvektors, der das Bezugsmodell T liefert, ein Mittelwert der zeitlich ausgerichteten Koeffizientenvektoren der Äußerungen ermittelt werden. Anders ausgedrückt ist der Prozeß zur Erzeugung eines Bezugsmodells zur Verwendung mit einem gegebenen Merkmalssatz bei einer anschließenden Erkennung im allgemeinen der gleiche wie der Prozeß zur Ermittlung des Merkmalssatzes selbst, wobei der Durchschnittswert einer Anzahl von Merkmalssätzen ermittelt wird, um das Bezugsmodell zu ermitteln.
  • Auswirkungen der Erfindung
  • In Fig. 10 zeigt Fig. 10a (die linke Spalte) ein Diagramm des Koeffizientenwerts über die Dauer einer Äußerung für jeden der acht MFCCs. In jedem Fall sind zwei Spuren gezeigt, diese entsprechen der gleichen aufgezeichneten Äußerung, die über zwei verschiedene Übertragungskanäle übertragen wird. Es ist festzustellen, daß insbesondere bei dem zweiten und dem siebten Koeffizienten der Kanal zu einem im wesentlichen konstanten Versatz zwischen den beiden Spuren führt, der der Differenz zwischen den Übertragungskennlinien der beiden Kanäle in den entsprechenden Frequenzbändern entspricht.
  • Bei dem Dynamic-Time-Warp-Prozeß werden, wie bei anderen Prozessen, bei denen Abschnitte von zwei zu vergleichenden Mustern in eine zeitliche Ausrichtung gebracht werden, im wesentlichen Abschnitte einer Schwingungsformen längs der Zeitachse verschoben, um eine Übereinstimmung mit einer weiteren Schwingungsform zu finden. Wenn, wie hier, zwei Schwingungsformen vertikal versetzt sind, führt dieser Prozeß der Verschiebung längs der Zeitachse (d. h. eine horizontale Verschiebung) zu einer Nichtübereinstimmung und damit zu einer gesteigerten Wahrscheinlichkeit einer Fehlerkennung bzw. einer verringerten Wahrscheinlichkeit einer korrekten Erkennung.
  • In Fig. 10b sind der rechten Spalte die entsprechenden Darstellungen erfindungsgemäßer normalisierter MFCCs gezeigt.
  • Durch eine Bezugnahme auf insbesondere den zweiten, den sechsten und den siebten Koeffizienten ist ersichtlich, daß ein Entfernen des Durchschnittswerts in jedem Fall die beiden Spuren in eine nähere Ausrichtung gebracht hat. Wenn daher ein Sprachvektor mit einem Templat verglichen wird, das über einen anderen Kommunikationskanal erhalten wurde, ist eine Fehlidentifikation eines Sprechers durch die Dynamic-Time- Warp-Vergleichsverarbeitung aufgrund des Effekts des Übertragungskanals weniger wahrscheinlich.
  • Wie vorstehend erwähnt kann der (im allgemeinen lineare) Pfad von dem Sprecher zu dem Erkennungsprozessor durch eine zusammengefaßte Übertragungskennlinie H repräsentiert werden, die das Produkt der Kaskadenübertragungsfunktionen der aufeinanderfolgenden Stufen des Pfads enthält. Daher enthält in der Frequenzdomäne jede Spektralkomponente des von dem Erkennungsprozessor empfangenen Sprachsignals das Produkt der Spektralkomponente der Stimme des Sprechers und der entsprechenden Spektralkomponente der Übertragungsfunktion des Kommunikationskanals bzw. -pfads. Wenn daher die Übertragungskennlinie H des Kanals bekannt wäre, könnten die Auswirkungen des Kanals auf das Sprachsignal durch Division jedes Terms des empfangenen Signalspektrums durch den entsprechenden Term der Übertragungskennlinie H entfernt werden.
  • Bei einem Telekommunikationssystem ist es jedoch aufgrund der diversen alternativen Signalpfade nicht möglich, die Kanalübertragungsfunktion H direkt zu modellieren. Es wurde jedoch beobachtet, daß die Kanalübertragungsfunktion im allgemeinen spektral stationär ist (d. h. sich mit der Zeit nicht wesentlich Verändert). Dementsprechend wirkt bei der Untersuchung einer Zeitfolge einer einzigen Spektralkomponente die Übertragungsfunktion als konstanter Multiplikationsfaktor für jeden Wert in der Folge. Das geometrische Mittel jeder Komponente in der Zeitfolge ist daher das Produkt dieses konstanten Faktors und des geometrischen Mittels der ur sprünglichen Zeitfolge. Daher werden die Auswirkungen des Kanals eliminiert, wenn jeder Term in dem empfangenen Sprachsignalspektrum durch seinen langfristigen Durchschnittswert dividiert wird.
  • Durch die Verwendung der Logarithmen jedes spektralen Terms statt der Bildung des langfristigen geometrischen Mittels und seine Division durch diesen ist es möglich, das langfristige arithmetische Mittel des protokollierten spektralen Terms zu erzeugen und dieses arithmetische Mittel von jedem spektralen Term zu subtrahieren.
  • In der Fensterverarbeitungs- und Integrationsstufe der Erzeugung von MFCCs wird davon ausgegangen, daß eine gewisse Umwandlung dieser Beziehung stattfindet, so daß die vorhergehende Analyse für die Normalisierung von MFCCs nicht vollständig gilt, sondern lediglich die Wirkungsweise der Erfindung veranschaulicht.
  • Durch den Normalisierungsprozeß werden nicht nur die Auswirkungen des Kanals, sondern auch einige Sprach- und Sprecherinformationen entfernt. Es könnte daher angenommen werden, daß durch die Entfernung von Daten, die zur Unterscheidung zwischen zwei Sprechern verwendet werden können, die Genauigkeit der Erkennung verringert wird. Tatsächlich haben wir anhand umfassender Experimente überraschender Weise festgestellt, daß dies nicht der Fall ist.

Claims (17)

1. Verfahren zur Sprechererkennung, mit den Schritten:
- Erkennen mehrerer Sprachstartpunkte und entsprechender Sprachendpunkte, wobei jeder Startpunkt und entsprechende Endpunkt eine einzelne Äußerung innerhalb eines eingegebenen Sprachsignals betreffen,
- Erzeugen von Erkennungsmerkmaldaten für aufeinanderfolgende Zeitperioden des eingegebenen Sprachsignals, wobei die Erkennungsmerkmaldaten mehrere Koeffizienten aufweisen, die mit der Sprachsignalgröße in mehreren vorbestimmten Frequenzbändern in Beziehung stehen,
- Vergleichen der Merkmaldaten mit vorbestimmten Sprecherbezugsdaten, und
- Anzeigen der Erkennung eines Sprechers in Abhängigkeit vom Vergleich;
wobei der Schritt des Erzeugens der Koeffizienten einen Unterschritt aufweist, in dem ein durchschnittlicher Koeffizient bezüglich Zeitperioden hergeleitet wird, die zwischen den erfaßten Start- und Endpunkten jeder der einzelnen Äußerungen vergehen, und einen Unterschritt, in dem zumindest einer der Koeffizienten in Abhängigkeit von dem Durchschnittskoeffizienten so bearbeitet wird, daß ein normalisierter Koeffizient erzeugt wird.
2. Verfahren nach Anspruch 1, bei dem die Frequenzbänder auf einer Mel-Frequenz-Skala beabstandet sind.
3. Verfahren nach Anspruch 1, bei dem die Frequenzbänder linear bezüglich der Frequenz unterhalb einer vorbestimmten Grenze und logarithmisch bezüglich der Frequenz oberhalb der Grenze beabstandet sind.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem der Schritt des Erzeugens der Koeffizienten außerdem einen Unterschritt aufweist, in dem der Logarithmus der Sprachsignalgröße gebildet wird, und in dem der Unterschritt des Bearbeitens zumindest eines der Koeffizienten das Subtrahieren des Durchschnittskoeffizienten von dem einen der Koeffizienten aufweist.
5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem der Durchschnittskoeffizient periodisch über die Dauer des Sprachsignals hergeleitet wird.
6. Verfahren nach einem der vorherigen Ansprüche, in dem der Durchschnittskoeffizient durch folgende Unterschritte hergeleitet wird:
- Herleiten eines Durchschnittskoeffizienten für jeden Bereich des eingegebenen Sprachsignals zwischen einem erfaßten Startpunkt und einem erfaßten Endpunkt,
- Gewichten des Durchschnittskoeffizienten für jeden Bereich mit der Dauer des jeweiligen Bereichs, und
- Summieren der sich ergebenden gewichteten Durchschnittskoeffizienten.
7. Verfahren nach einem der Ansprüche 1 bis 5, in dem der Durchschnittskoeffizient durch folgende Unterschritte hergeleitet wird:
- Herleiten eines Durchschnittskoeffizienten für jeden Bereich des eingegebenen Sprachsignals zwischen einem erfaßten Startpunkt und einem erfaßten Endpunkt,
- Gewichten der Durchschnittskoeffizienten für jeden Bereich durch ein vorbestimmtes Gewicht entsprechend der erwarteten Dauer der jeweiligen Äußerung, der der Bereich entspricht, und
- Summieren der entstehenden gewichteten Durchschnittskoeffizienten.
8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt des Vergleichens das zeitliche Ausrichten der Merkmalsdaten im Hinblick auf die Bezugsdaten aufweist.
9. Vorrichtung zur Sprechererkennung mit
- einer Einrichtung (240) zum Erfassen mehrerer Sprachstartpunkte und entsprechender Sprachendpunkte, wobei jeder Startpunkt und entsprechende Endpunkt zu einer einzigen Äußerung innerhalb eines eingegebenen Sprachsignals gehört,
- einer Einrichtung (210, 220, 230) zum Erzeugen von Erkennungsmerkmalsdaten für aufeinanderfolgende Zeitperioden des eingegebenen Sprachsignals, wobei die Erkennungsmerkmalsdaten mehrere Koeffizienten aufweisen, von denen sich jeder zur Sprachsignalgröße in mehreren von vorbestimmten Frequenzbändern bezieht,
- einer Durchschnittsbildungs- und Normalisierungseinrichtung (250) zur Ermittlung eines Durchschnittskoeffizienten bezüglich Zeitperioden, die zwischen den erfaßten Start- und Endpunkten jeder von mehreren Einzeläußerungen auftreten, und zum Normalisieren zumindest eines Koeffizienten in Abhängigkeit von dem Durchschnittskoeffizienten, und
- einer Einrichtung (26), die mit der Durchschnittsbildungs- und Normalisierungseinrichtung (250) zum Vergleichen der Merkmalsdaten mit vorbestimmten Sprecherreferenzdaten verbunden ist, und zum Anzeigen der Erkennung eines Sprechers in Abhängigkeit vom Vergleich.
10. Vorrichtung nach Anspruch 9, bei der die Frequenzbänder auf einer Mel-Frequenz-Skala beabstandet sind.
11. Vorrichtung nach Anspruch 9, bei der die Frequenzbänder linear bezüglich der Frequenz unterhalb einer vorbestimmten Grenze und logarithmisch bezüglich der Frequenz über der Grenze beabstandet sind.
12. Vorrichtung nach einem der Ansprüche 9 bis 11, bei der die Einrichtung (230) zum Erzeugen der Koeffizienten dazu ausgelegt ist, einen Logarithmus der Sprachsignalgröße zu erzeugen, und bei der die Durchschnittsbildungs- und Normalisierungseinrichtung (250) dazu ausgelegt ist, den Durchschnittskoeffizienten von dem einen der Koeffizienten zu subtrahieren.
13. Vorrichtung nach einem der Ansprüche 9 bis 12, bei der die Durchschnittsbildungs- und Normalisierungseinrichtung (250) bei ihrer Verwendung dazu ausgelegt ist, den Koeffizientendurchschnitt periodisch über die Dauer des Sprachsignals herzuleiten.
14. Vorrichtung nach Anspruch 13, bei der die Durchschnittsbildungs- und Normalisierungseinrichtung (250) außerdem aufweist
- eine Einrichtung zum Herleiten eines Durchschnittskoeffizienten für jeden Bereich des eingegebenen Sprachsignals zwischen einem erfaßten Startpunkt und einem erfaßten Endpunkt,
- eine Einrichtung zum Gewichten des Durchschnittskoeffizienten für jeden Bereich mit der Dauer des jeweiligen Bereichs, und
- eine Einrichtung zum Summieren der entstehenden gewichteten Durchschnittskoeffizienten.
15. Vorrichtung nach Anspruch 13, bei der die Durchschnittsbildungs- und Normalisierungseinrichtung (250) außerdem aufweist
- eine Einrichtung zum Herleiten eines Durchschnittskoeffizienten für jeden Bereich des eingegebenen Sprachsignals zwischen einem erfaßten Startpunkt und einem erfaßten Endpunkt,
- eine Einrichtung zum Gewichten des Durchschnittskoeffizienten für jeden Bereich durch ein vorbestimmtes Ge wicht entsprechend der erwarteten Dauer der jeweiligen Äußerung, der der Bereich entspricht, und
- eine Einrichtung zum Summieren der entstehenden gewichteten Durchschnittskoeffizienten.
16. Vorrichtung nach einem der Ansprüche 9 bis 15, die zur Verbindung mit einem Telephonnetzwerk ausgelegt ist.
17. Telephonnetzwerk mit einer Vorrichtung nach Anspruch 16.
DE69420400T 1993-03-25 1994-03-25 Verfahren und gerät zur sprechererkennung Expired - Lifetime DE69420400T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP93302302 1993-03-25
PCT/GB1994/000629 WO1994022132A1 (en) 1993-03-25 1994-03-25 A method and apparatus for speaker recognition

Publications (2)

Publication Number Publication Date
DE69420400D1 DE69420400D1 (de) 1999-10-07
DE69420400T2 true DE69420400T2 (de) 2000-07-13

Family

ID=8214353

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69420400T Expired - Lifetime DE69420400T2 (de) 1993-03-25 1994-03-25 Verfahren und gerät zur sprechererkennung

Country Status (9)

Country Link
US (1) US5583961A (de)
EP (1) EP0691024B1 (de)
JP (1) JPH08508107A (de)
KR (1) KR100312919B1 (de)
AU (1) AU685788B2 (de)
CA (1) CA2158847C (de)
DE (1) DE69420400T2 (de)
FI (1) FI954527A (de)
SG (2) SG50502A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10012145A1 (de) * 2000-03-13 2001-09-27 Christian Popella Verfahren und Vorrichtung zur Klassifikation menschlicher Stimmen

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994022131A2 (en) * 1993-03-25 1994-09-29 British Telecommunications Public Limited Company Speech recognition with pause detection
JPH08508583A (ja) * 1993-03-31 1996-09-10 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 接続スピーチ認識
US6230128B1 (en) 1993-03-31 2001-05-08 British Telecommunications Public Limited Company Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
JP3962445B2 (ja) * 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
GB2357231B (en) 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
WO2001039179A1 (en) * 1999-11-23 2001-05-31 Infotalk Corporation Limited System and method for speech recognition using tonal modeling
US7043430B1 (en) 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7340398B2 (en) * 2003-08-21 2008-03-04 Hewlett-Packard Development Company, L.P. Selective sampling for sound signal classification
DE10361850A1 (de) * 2003-12-31 2005-07-28 Kress, Markus Verfahren zur Identifizierung von Personen
US8724447B2 (en) * 2004-01-28 2014-05-13 Qualcomm Incorporated Timing estimation in an OFDM receiver
JP2005308512A (ja) * 2004-04-21 2005-11-04 Agilent Technol Inc スペクトラム処理方法および該方法を用いる測定装置
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US7702505B2 (en) * 2004-12-14 2010-04-20 Electronics And Telecommunications Research Institute Channel normalization apparatus and method for robust speech recognition
GB2421317B (en) * 2004-12-15 2009-02-11 Agilent Technologies Inc A method and apparatus for detecting leading pulse edges
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
JP4527679B2 (ja) * 2006-03-24 2010-08-18 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
EP2096630A4 (de) * 2006-12-08 2012-03-14 Nec Corp Audioerkennungseinrichtung und audioerkennungsverfahren
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
JP4305509B2 (ja) * 2006-12-26 2009-07-29 ヤマハ株式会社 音声処理装置およびプログラム
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
BRPI0815972B1 (pt) 2007-08-27 2020-02-04 Ericsson Telefon Ab L M método para recuperação de espectro em decodificação espectral de um sinal de áudio, método para uso em codificação espectral de um sinal de áudio, decodificador, e, codificador
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
TWI356399B (en) * 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
JP2009157442A (ja) * 2007-12-25 2009-07-16 Toshiba Corp データ検索装置および方法
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
US8645131B2 (en) * 2008-10-17 2014-02-04 Ashwin P. Rao Detecting segments of speech from an audio stream
US10257191B2 (en) 2008-11-28 2019-04-09 Nottingham Trent University Biometric identity verification
GB2465782B (en) * 2008-11-28 2016-04-13 Univ Nottingham Trent Biometric identity verification
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
CN102356427B (zh) * 2009-04-02 2013-10-30 三菱电机株式会社 噪声抑制装置
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
JP2017508188A (ja) 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
US11853884B2 (en) 2017-02-10 2023-12-26 Synaptics Incorporated Many or one detection classification systems and methods
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
CN107527620B (zh) 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
US10540990B2 (en) * 2017-11-01 2020-01-21 International Business Machines Corporation Processing of speech signals
WO2020046831A1 (en) * 2018-08-27 2020-03-05 TalkMeUp Interactive artificial intelligence analytical system
US11205419B2 (en) * 2018-08-28 2021-12-21 International Business Machines Corporation Low energy deep-learning networks for generating auditory features for audio processing pipelines
US20220254332A1 (en) * 2019-07-30 2022-08-11 Dolby Laboratories Licensing Corporation Method and apparatus for normalizing features extracted from audio data for signal recognition or modification
CN112820300B (zh) * 2021-02-25 2023-12-19 北京小米松果电子有限公司 音频处理方法及装置、终端、存储介质
CN112951245B (zh) * 2021-03-09 2023-06-16 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113488070B (zh) * 2021-09-08 2021-11-16 中国科学院自动化研究所 篡改音频的检测方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10012145A1 (de) * 2000-03-13 2001-09-27 Christian Popella Verfahren und Vorrichtung zur Klassifikation menschlicher Stimmen
DE10012145C2 (de) * 2000-03-13 2002-02-21 Christian Popella Verfahren und Vorrichtung zur akustischen Erkennung erkrankungsbedingter physikalischer Veränderungen des Stimmbildapparates

Also Published As

Publication number Publication date
KR100312919B1 (ko) 2001-12-28
FI954527A0 (fi) 1995-09-25
DE69420400D1 (de) 1999-10-07
SG50502A1 (en) 1998-07-20
AU6432994A (en) 1994-10-11
EP0691024A1 (de) 1996-01-10
SG50487A1 (en) 1998-07-20
AU685788B2 (en) 1998-01-29
KR960701428A (ko) 1996-02-24
US5583961A (en) 1996-12-10
EP0691024B1 (de) 1999-09-01
CA2158847A1 (en) 1994-09-29
CA2158847C (en) 2000-03-14
FI954527A (fi) 1995-11-20
JPH08508107A (ja) 1996-08-27

Similar Documents

Publication Publication Date Title
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69705830T2 (de) Sprachverarbeitung
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE3306730C2 (de)
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE3752288T2 (de) Sprachprozessor
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE69800006T2 (de) Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE60004331T2 (de) Sprecher-erkennung
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE69616568T2 (de) Mustererkennung
DE68924134T2 (de) Spracherkennungssystem.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition