DE60036522T2 - Verziehung der Frequenzen für Spracherkennung - Google Patents

Verziehung der Frequenzen für Spracherkennung Download PDF

Info

Publication number
DE60036522T2
DE60036522T2 DE60036522T DE60036522T DE60036522T2 DE 60036522 T2 DE60036522 T2 DE 60036522T2 DE 60036522 T DE60036522 T DE 60036522T DE 60036522 T DE60036522 T DE 60036522T DE 60036522 T2 DE60036522 T2 DE 60036522T2
Authority
DE
Germany
Prior art keywords
expansion
contraction
spectrum
pattern
input pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60036522T
Other languages
English (en)
Other versions
DE60036522D1 (de
Inventor
Tadashi Minato-ku Emori
Koichi Minato-ku Shinoda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE60036522D1 publication Critical patent/DE60036522D1/de
Application granted granted Critical
Publication of DE60036522T2 publication Critical patent/DE60036522T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)
  • Machine Translation (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf ein Erkennungssystem und -verfahren der Sprache eines unbestimmten Sprechers sowie auf ein Akustikmodell-Lernverfahren und auf ein Aufzeichnungsmedium mit einem darin aufgezeichneten Spracherkennungsprogramm und insbesondere auf ein Spracherkennungssystem, das Sprecher auf der Frequenzachse normieren kann, auf ein Lernsystem für die Normierung, auf ein Spracherkennungsverfahren, auf ein Lernverfahren für die Normierung und auf ein Aufzeichnungsmedium, in dem ein Programm für die Spracherkennung und ein Lernprogramm für die Normierung gespeichert sind.
  • Spektrumumsetzer in Spracherkennungssystemen des Standes der Technik sind z. B. in der japanischen Offenlegungsschrift Nr. 6-214596 (als Dokument 1 bezeichnet) und in Puming Zhan und Martin Westphalk, "Speaker Normalization Based on Frequency Warping", ICASSP, 1039–1042, 1997 (als Dokument 2 bezeichnet) offenbart.
  • Das Dokument 1 offenbart z. B. ein Spracherkennungssystem, das eine Frequenzkorrektureinrichtung zum Korrigieren der Frequenzcharakteristik eines Eingangssprachsignals auf der Grundlage mehrerer vorgegebener verschiedener Frequenzcharakteristik-Korrekturkoeffizienten, eine Frequenzachse-Umsetzungseinrichtung zum Umsetzen der Frequenzachse des Eingangssprachsignals auf der Grundlage mehrerer vorgegebener Frequenzachse-Umsetzungskoeffizienten, eine Merkmalsmenge-Extraktionseinrichtung zum Extrahieren der Merkmalsmenge des Eingangssprachsignals als Eingangssprachmerkmalsmenge, eine Referenzsprache-Speichereinrichtung zum Speichern einer Referenzsprachmerkmalsmenge, eine Frequenzcharakteristik-Korrektureinrichtung, eine Frequenzachse-Umsetzungseinrichtung, eine Zuordnungseinrichtung zum Zuordnen der im Ergebnis des Prozesses in der Frequenzcharakteristik-Korrektureinrichtung erhaltenen Eingangssprachmerkmalsmenge und der in der Referenzsprachspeichereinrichtung gespeicherten Referenzsprachmerkmalsmenge, eine Sprecheranpassungsphasenfunktion und eine Spracherkennungsphasenfunktion umfasst, die in dem Spracherkennungssystem enthalten sind. In der Sprecheranpassungsphase wird in dem Spracherkennungsprozess in diesem System das Sprachsignal eines unbekannten Sprechers mit einem bekannten Inhalt in der Frequenzcharakteristik-Korrektureinrichtung, in der Frequenzachse-Umsetzeinrichtung und in der Merk malsmenge-Extraktionseinrichtung für jeden von mehreren verschiedenen Frequenzcharakteristik-Korrekturkoeffizienten verarbeitet und werden die mehreren verschiedenen Frequenzachse-Umsetzungskoeffizienten, die Eingangssprachmerkmalsmenge für jeden Koeffizienten und eine Referenzsprachmerkmalsmenge mit dem gleichen Inhalt wie der obige bekannte Inhalt miteinander verglichen und werden ein Frequenzcharakteristik-Korrekturkoeffizient und ein Frequenzachse-Umsetzungskoeffizient ausgewählt, die einen minimalen Abstand geben. In der Spracherkennungsphase wird unter Verwendung des ausgewählten Frequenzcharakteristik-Korrekturkoeffizienten und Frequenzachse-Umsetzungskoeffizienten die Eingangssprachmerkmalsmenge bestimmt und mit der Referenzsprachmerkmalsmenge verglichen.
  • In diesen Spracherkennungssystemen des Standes der Technik veranlasst der Spektrumumsetzer zur Verbesserung der Erkennungsleistung eine Expansion oder Kontraktion des Spektrums des Sprachsignals auf der Frequenzachse in Bezug auf das Geschlecht, das Alter, physische Bedingungen usw. der einzelnen Sprecher. Für die Spektrumexpansion und -kontraktion auf der Frequenzachse wird eine Funktion definiert, die mit einem angemessenen Parameter die Änderung des Umrisses der Expansion und der Kontraktion zulässt, um sie für die Expansion oder Kontraktion des Spektrums des Sprachsignals auf der Frequenzachse zu verwenden. Die Funktion, die für die Expansion oder Kontraktion des Spektrums des Sprachsignals auf der Frequenzachse verwendet wird, wird als "Warping-Funktion" bezeichnet und der Parameter zum Definieren des Umrisses der Warping-Funktion wird als "Expansions-/Kontraktionsparameter" bezeichnet.
  • Bisher werden mehrere Warping-Parameterwerte als Expansions-/Kontraktionsparameter der Warping-Funktion ("Warping-Parameter") vorbereitet, wird das Spektrum des Sprachsignals auf der Frequenzachse unter Verwendung jedes dieser Werte expandiert oder kontrahiert und wird unter Verwendung des expandierten oder kontrahierten Spektrums ein Eingangsmuster berechnet und zusammen mit dem Referenzmuster verwendet, um einen Abstand zu erhalten, und wird der dem minimalen Abstand entsprechende Wert zur Zeit der Erkennung als Warping-Parameterwert eingestellt.
  • Anhand der Zeichnung wird nun der Spektrumumsetzer im Spracherkennungssystem des Standes der Technik beschrieben. 9 ist eine Ansicht, die ein Beispiel der Konstruktion des Spektrumumsetzers in dem Spracherkennungssystem des Standes der Technik zeigt. Anhand von 9 umfasst dieser Spektrumumsetzer im Stand der Technik eine FFT-Einheit (Einheit für schnelle Fourier-Transformation) 301, einen Expansions-/Kontraktionsparameterspeicher 302, einen Frequenzumsetzer 303, eine Eingangsmuster-Berechnungseinheit 304, eine Anpassungseinheit 306, eine Referenzmustereinheit 305 und eine Expansions-/Kontraktionsparameterauswahleinheit 307. Die FFT-Einheit 301 schneidet das Eingangssprachsignal für jedes Einheitszeitintervall aus und veranlasst die Fourier-Transformation des ausgeschnittenen Signals, um ein Frequenzspektrum zu erhalten.
  • Im Expansions-/Kontraktionsparameterspeicher 302 werden mehrere Expansions-/Kontraktionsparameterwerte zur Bestimmung der Expansion oder Kontraktion der Frequenz gespeichert. Der Frequenzumsetzer 303 führt an dem von der FFT-Einheit 301 gelieferten Spektrum unter Verwendung einer Warping-Funktion, deren Umriss durch einen Expansions-/Kontraktionsparameter bestimmt ist, einen Frequenz-Expansions-/Kontraktionsprozess aus und liefert ein nach dem Frequenz-Expansions-/Kontraktionsprozess erhaltenes Spektrum als Expansions-/Kontraktionsspektrum. Die Eingangsmuster-Berechnungseinheit 304 berechnet unter Verwendung des von dem Frequenzumsetzer 303 gelieferten Expansions-/Kontraktionsspektrums ein Eingangsmuster und gibt es aus. Das Eingangsmuster repräsentiert z. B. eine Parameterzeitreihe, die ein akustisches Merkmal wie etwa das Cepstrum repräsentiert.
  • Das Referenzmuster wird unter Verwendung einer großen Anzahl von Eingangsmustern und durch Mitteln von Phonem-Einheits-Eingangsmustern, die zu derselben Klasse gehören, durch einen bestimmten Typ einer Mittelungseinrichtung gebildet. Wegen die Vorbereitung der Referenzmuster siehe "Fundamentals of Voice Recognition", Teil I, übersetzt und herausgegeben von Yoshii, NTT Advanced Technology, Co., Ltd., 1995, S. 63 (Dokument 3).
  • Referenzmuster können durch den Erkennungsalgorithmus klassifiziert werden. Zum Beispiel sind im Fall der DP-Anpassung (Anpassung durch dynamische Programmierung) Zeitreihenreferenzmuster mit Eingangsmustern, die in der Phonemzeitreihen-Reihenfolge angeordnet sind, erhältlich und sind im HMM-Fall (Fall des Hidden Markov-Modells) Statusreihen und Verbindungsdaten davon erhältlich.
  • Die Anpassungseinheit 306 berechnet unter Verwendung eines an den Inhalt der in die FFT-Einheit 301 angegebenen Sprache angepassten Referenzmusters 305 und des Eingangsmusters den Abstand. Der berechnete Abstand entspricht in dem HMM-Fall (Fall des Hidden Markov-Modells), der das Referenzmuster betrifft, der Wahrscheinlichkeit und in dem DP-Anpassungsfall dem Abstand der optimalen Route. Die Expansions-/Kontraktionsparameterauswahleinheit 307 wählt angesichts der in der Anpassungseinheit 306 erhaltenen Anpassungseinheit einen am besten angepassten Expansions-/Kontraktionsparameter aus.
  • 10 ist ein Ablaufplan zur Beschreibung eines Prozesses, der in einer Spektrumanpassungseinheit des Standes der Technik ausgeführt wird. Anhand der 9 und 10 wird nun der Betrieb der Spektrumanpassungseinheit des Standes der Technik beschrieben. Die FFT-Einheit 301 führt am Sprachsignal die FFT-Operation aus, um deren Spektrum zu erhalten (Schritt D101 in 10). Der Frequenzumsetzer 303 führt unter Verwendung des Eingangs-Expansions-/Kontraktionsparameters die Expansion oder Kontraktion des Spektrums auf der Frequenzachse aus (D106)(Schritt D102). Die Eingangsmuster-Berechnungseinheit 304 berechnet unter Verwendung des auf der Frequenzachse expandierten oder kontrahierten Spektrums das Eingangsmuster (Schritt D103). Die Anpassungseinheit 305 bestimmt den Abstand zwischen Referenzmuster (D107) und dem Eingangsmuster (D104). Die Folge der Prozesse von Schritt D101 bis zu Schritt D104 wird für alle in dem Expansions-/Kontraktionsparameterspeicher 302 gespeicherten Expansions-/Kontraktionsparameterwerte ausgeführt (Schritt D105).
  • Wenn in dem Expansions-/Kontraktionsparameterspeicher 302 10 Expansions-/Kontraktionsparameterwerte gespeichert sind, wird die Prozessfolge von Schritt D101 bis Schritt D104 10-mal wiederholt, um 10 verschiedene Abstände zu erhalten. Die Expansions-/Kontraktionsparameterauswahleinheit 307 vergleicht die allen Expansions-/Kontraktionsparametern entsprechenden Abstände und wählt den Expansions-/Kontraktionsparameter aus, der dem kürzesten Abstand entspricht (Schritt D108).
  • Allerdings besitzt der obige Spektrumumsetzer des Standes der Technik die folgenden Probleme.
  • Das erste Problem ist, dass bei der Expansions-/Kontraktionsparameterwertbestimmung ein erhöhter Rechenaufwand erforderlich ist. Dies ist so, da es in dem Spektrumumsetzer des Standes der Technik notwendig ist, mehrere Expansions-/Kontraktionsparameterwerte vorzubereiten und den FFT-Prozess, den Spektrumfrequenz-Expansions-/Kontraktionsprozess und die Eingangsmusterberechnung in einer Anzahl, die der Anzahl dieser Werte entspricht, wiederholt auszuführen.
  • Das zweite Problem ist, dass es möglich ist, dass in dem Spracherkennungssystem keine ausreichenden Effekte der Frequenzexpansion und -kontraktion erhalten werden. Dies ist so, da die Expansions-/Kontraktionsparameterwerte alle vorgegeben sind und für einen unbekannten Sprecher keiner dieser Werte optimal sein kann.
  • Fukada, T., u. a.: "Speaker normalized acoustic modeling based on 3-D viterbi decoding", Seattle, WA, 12.–15. Mai 1988, New York, NY: IEEE, US, Bd. Conf. 23, 12. Mai 1998 (1998-05-12), S. 437–440, ISBN: 0-7803-4429-4, offenbart ein Verfahren für die Sprechernormierung, das auf einem Frequenz-Warping-Zugang beruht, um Schwankungen wegen durch Sprecher induzierter Faktoren wie etwa der Vokalspurlänge zu verringern. In diesem Zugang wird ein sprechernormiertes Akustikmodell unter Verwendung zeitlich veränderlicher Warping-Faktoren trainiert, während der Frequenz-Warping-Faktor in den herkömmlichen Zugängen für jeden Sprecher festgesetzt ist. Die zeitlich veränderlichen Frequenz-Warping-Faktoren werden durch eine dreidimensionale Viterbi-Decodierungsprozedur bestimmt.
  • Lee, u. a.: "A frequency warping approach to speaker normalization", IEEE Transactions on speech and audio processing, Jan. 1998, IEEE, USA, Bd. 6, Nr. 1, S. 49–60, ISSN: 1063-6676, offenbart einen Frequenz-Warping-Zugang zur Sprechernormierung. Auf die Sprechernormierung für eine telephongestützte verbundene Ziffernerkennungsaufgabe wurden eine Menge von Warping-Prozeduren auf der Grundlage niedriger Komplexität und maximaler Wahrscheinlichkeit angewendet. Es wird eine effiziente Einrichtung zum Schätzen eines linearen Frequenz-Warping-Faktors und des Symbolmechanismus zur Implementierung des Frequenz-Warping durch Ändern der Filterbank in einer Mel-Frequenz-Cepstrum-Merkmalsanalyse dargestellt.
  • EP-A-0 866 442 offenbart eine Prozedur, die Äußerungen durch gleichzeitiges Skalieren der Frequenzachse und Umformen der Spektralenergiekontur kompensiert.
  • Umesh, S., u. a.: "Frequency-Warping and speaker-normalization", 1997, IEEE International Conference on Acoustics, Speech, and Signal Processing (Cat. Nr. 97CB36052), München, Deutschland, 21.–24. April 1997, S. 983–986, Bd. 2, 1997, Los Alamitos, CA, USA, IEEE Comput. Soc. Press, USA, ISBN: 0-8186-7919-0, offenbart die Verwendung von Skalen-Cepstral-Koeffizienten als Merkmale in jeder Erkennung. Es wird eine entsprechende Frequenz-Warping-Funktion offenbart, sodass die Formant-Einhüllenden verschiedener Sprecher in dem Warping-Bereich für irgendeinen gegebenen Vokal näherungsweise übersetzte Versionen voneinander sind. Die Abhandlung zeigt zwei Parallelen der verschiedenen Schritte bei der Berechnung des Skalen-Cepstrums mit jenen, die in Berechnungsmerkmalen beobachtet werden, die auf physiologischen Modellen des Hörsystems oder auf psychoakustischen Experimenten beruhen.
  • US-A-5 625 747 offenbart eine dynamische Zeit/Frequenz-Warping-Technik für die Sprecherüberprüfung, Spracherkennung und allgemeine Normierung. Die Technik nutzt dynamische Programmierverfahren des besten Wegs unter Verwendung einer 3-dimensionalen Zeit-Frequenz-Anordnung, die die Spektraldifferenzen zwischen einer Testäußerung und einer Referenzäußerung repräsentiert. Die Anordnung wird durch Summieren der Quadrate der Differenzen jedes Merkmals in jedem Rahmen der Schablone mit jedem Merkmal in jedem Rahmen der besagten Äußerung erzeugt. Daraufhin werden dynamische Programmiertechniken verwendet, um den Weg mit minimalem Abstand zu ermitteln, der an die Testäußerung und an die Schablone angepasst ist, um die Zeit- und Frequenz-Warping-Wege zu optimieren.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung wurde angesichts der obigen Probleme gemacht, wobei es ihre Hauptaufgabe ist, ein Spracherkennungssystem und -verfahren und außerdem ein Aufzeichnungsmedium zu schaffen, die die Berechnung des optimalen Expansions-/Kontraktionsparameterwerts für jeden Sprecher mit weniger Rechenaufwand ermöglichen und somit die Leistung verbessern können. Die obigen und weitere Aufgaben und Merkmale der vorliegenden Erfindung werden nun aus der folgenden Beschreibung unmittelbar sichtbar.
  • Die vorliegende Erfindung ist in den unabhängigen Ansprüchen definiert. Die abhängigen Ansprüche definieren Ausführungsformen der Erfindung.
  • Weitere Aufgaben und Merkmale werden aus der folgenden Beschreibung anhand der beigefügten Zeichnung geklärt.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • 1 ist eine Ansicht, die die Konstruktion eines Spektrumumsetzers in einer ersten Ausführungsform des Spracherkennungssystems gemäß der vorliegenden Erfindung zeigt;
  • 2 ist ein Ablaufplan zur Erläuterung des Prozesses in der ersten Ausführungsform der vorliegenden Erfindung;
  • 3 ist eine Ansicht, die die Konstruktion der zweiten Ausführungsform der vorliegenden Erfindung zeigt;
  • 4 ist ein Ablaufplan zur Beschreibung der Prozessfolge in der zweiten Ausführungsform der vorliegenden Erfindung;
  • 5 ist eine Ansicht, die die Konstruktion der dritten Ausführungsform der vorliegenden Erfindung zeigt;
  • 6 ist ein Ablaufplan zur Beschreibung des Prozesses in der dritten Ausführungsform der vorliegenden Erfindung;
  • 7 ist eine Ansicht, die die Konstruktion der vierten Ausführungsform der vorliegenden Erfindung zeigt;
  • 8 ist eine Ansicht, die die Konstruktion der fünften Ausführungsform der vorliegenden Erfindung zeigt;
  • 9 ist eine Ansicht, die ein Beispiel der Konstruktion des Spektrumumsetzers in dem Spracherkennungssystem des Standes der Technik zeigt; und
  • 10 ist ein Ablaufplan zur Beschreibung eines Prozesses, der in einer Spektrumanpassungseinheit des Standes der Technik ausgeführt wird.
  • BEVORZUGTE AUSFÜHRUNGSFORMEN DER ERFINDUNG
  • Anhand der Zeichnung werden nun Ausführungsformen der vorliegenden Erfindung ausführlich beschrieben.
  • Ein System gemäß der vorliegende Erfindung umfasst allgemein eine Analysatoreinheit 1 zum Umsetzen eines Eingangssprachsignals in ein Eingangsmuster, das das Cepstrum enthält, eine Expansions-/Kontraktionsschätzeinheit 3 zum Ausgeben eines Expansions-/Kontraktionsparameters in der Frequenzachsenrichtung unter Verwendung eines Eingangsmusters und eines Referenzmusters und eine Umsetzereinheit 2 zum Umsetzen eines Eingangsmusters unter Verwendung eines Expansions-/Kontraktionsparameters.
  • Ferner umfasst das System eine Anpassungseinheit (d. h. eine Erkennungseinheit 101) zum Berechnen des Abstands zwischen dem durch den Umsetzer 2 umgesetzten Eingangsmuster und den Referenzmustern und zum Ausgeben des Referenzmusters, das dem kürzesten Abstand entspricht, als Erkennungsergebnis.
  • Die Expansions-/Kontraktionsschätzeinheit 3 schätzt einen Expansions-/Kontraktionsparameter unter Verwendung eines in dem Eingangsmuster enthaltenen Cepstrums. Somit ist es gemäß der vorliegenden Erfindung weder notwendig, verschiedene Werte im Voraus zu speichern, wenn der Expansions-/Kontraktionsparameter bestimmt wird, noch, eine Abstandsberechnung in Verbindung mit verschiedenen Werten auszuführen.
  • Darüber hinaus umfasst das System gemäß der vorliegenden Erfindung einen Lernsprachspeicher 201 zum Speichern von Lernsprachen, einen Analysator 1 zum Empfangen der Lernsprachdaten von dem Lernsprachspeicher 201 und zum Umsetzen der empfangenen Daten in ein Eingangsmuster mit Cepstrum, einen Referenzmusterspeicher 4 zum Speichern von Referenzmustern, eine Expan sions-/Kontraktionsschätzeinheit 3 zum Ausgeben eines Expansions-/Kontraktionsparameters in der Frequenzachsenrichtung unter Verwendung des Eingangsmusters und des Referenzmusters, einen Umsetzer 2 zum Umsetzen eines Eingangsmusters unter Verwendung des Expansions-/Kontraktionsparameters, einen Referenzmusterspeicher zum Speichern der Referenzmuster, eine Referenzmuster-Schätzeinheit 202 zum Aktualisieren des Referenzmusters für Sprache zum Lernen unter Nutzung des von dem Umsetzer gelieferten Eingangsmusters nach Expansion oder Kontraktion und der Referenzmuster und eine Wahrscheinlichkeitsbeurteilungseinheit 203 zum Berechnen des Abstands unter Nutzung des Eingangsmusters nach der Expansion oder Kontraktion und der Referenzmuster und zum Überwachen von Änderungen in dem Abstand.
  • 1 ist eine Ansicht, die die Konstruktion eines Spektrumumsetzers in einer ersten Ausführungsform der Spracherkennungssystems gemäß der vorliegenden Erfindung zeigt. Anhand von 1 umfasst der Spektrumumsetzer in der ersten Ausführungsform des Spracherkennungssystems einen Analysator 1, einen Umsetzer 2, eine Expansions-/Kontraktionsschätzeinheit 3 und einen Referenzmusterspeicher 4.
  • Der Analysator 1 schneidet für jedes vorgegebene Zeitintervall ein Sprachsignal aus, erhält unter Verwendung der FFT-Analyse (Analyse mit schneller Fourier-Transformation) oder der LPC-Analyse (Analyse mit linearer prädiktiver Codierung) die Spektrumkomponente des ausgeschnittenen Signals, erhält ein Melcepstrum zum Extrahieren der Einhüllendenkomponente der Melcepstrum-Komponente durch Umsetzung in die Melskale unter Berücksichtigung des menschlichen Hörsinns und liefert das Melcepstrum, die Änderung darin, die Änderung in der Änderung usw. als Eingangsmuster. Der Umsetzer 2 führt durch Umsetzen des Melcepstrums im Eingangsmuster eine Expansion oder Kontraktion der Frequenz aus. Es wird nun ausführlich ein Beispiel der in dem Umsetzer 2 ausgeführten Umsetzung beschrieben.
  • Gemäß Oppenheim, "Discrete Representation of Signals", Proc. IEEE, 60, 681–691, Juni 1972 (Dokument 4), kann die Frequenzumsetzung mit einem primären vollen Bandpassfilter, wie sie durch die im Folgenden gegebene Formel (1) dargestellt ist, unter Verwendung des Cepstrums (das Zeichen c und Indizes sind Dimensionszahlen des Cepstrums) als ein rekursiver Ausdruck durch Formel (2) ausgedrückt werden.
  • Figure 00100001
  • Die Umsetzung in dem durch Formel (2) gegebenen Cepstrum-Raum ist äquivalent der Frequenz des durch Formel (1) gegebenen Spektrums. Dementsprechend führt der Umsetzer 102 an dem Eingangsmuster mit Formel (1) als Warping-Funktion und mit α in Formel (1) als Expansions-/Kontraktionsparameter eine Expansion oder Kontraktion der Spektrumfrequenz ohne direkte Verwendung des Spektrums, sondern durch Ausführung der Umsetzung, die durch die aus Formel (1) abgeleitete Formel (2) gegeben ist, aus. Das nach der Umsetzung erhaltene Eingangsmuster wird als umgesetztes Eingangsmuster geliefert.
  • Die Referenzmuster werden in dem Referenzmusterspeicher 4 gespeichert. Die Referenzmuster können durch Hidden Markov-Modelle (oder HMMs) oder Zeitreihenreferenzmuster wie etwa Phonemzeitreihen als phonetische Daten in Wort- oder Phonem-Einheiten ersetzt werden. In dieser Ausführungsform sind die Referenzmuster HMMs. Die Daten, die die HMM bilden, können der Durchschnittsvektor in einer kontinuierlichen Gauß-Verteilung, die Streuung, die Übergangswahrscheinlichkeit zwischen Zuständen usw. sein.
  • Die Expansions-/Kontraktionsschätzeinheit 3 (die auch als Expansions-/Kontraktionsparameterschätzeinheit bezeichnet wird) erhält unter Verwendung einer HMM, die dem in den Analysator 1 eingegebenen Sprachsignal entspricht, die Ausrichtung des Eingangsmusters. Mit dem Ausdruck "Ausrichtung" ist die Post-Wahrscheinlichkeit in jedem Moment und in jedem Zustand des HMM gemeint.
  • Die Ausrichtung kann unter Verwendung eines solchen gut bekannten Verfahrens wie des Viterbi-Algorithmus und des Vorwärts/Rückwärts-Algorithmus erhalten werden, wie sie in "Fundamentals of Voice Recognition (Teil II), übersetzt und herausgegeben von Furui, NTT Advanced Technology Co., Ltd., 1995, S. 102–185 (Dokument 5), beschrieben sind.
  • Der Expansions-/Kontraktionsparameter wird unter Verwendung der erhaltenen Ausrichtung, des HHM und des Eingangsmusters erhalten. Der Expansions-/Kontraktionsparameter wird unter Verwendung von Formel (4) berechnet.
  • Figure 00110001
  • Formel (4) wird durch Entwickeln der Rekursionsgleichung von Formel (2) nach dem Expansions-/Kontraktionsparameter wie in Formel (3), Nähern des Ergebnisses der Entwicklung mit dem Term ersten Grades von α, Einführen des Ergebnisses in die Q-Funktion des HMM für die Wahrscheinlichkeitsschätzung wie in 4 beschrieben und Maximieren der Q-Funktion abgeleitet.
  • Die somit abgeleitete Funktion ist durch Formel (5) gegeben.
  • Figure 00110002
  • In Formel (5) repräsentiert c den Melcepstrum-Teil des obigen Eingangsmusters, repräsentiert μ den Durchschnittsvektor des HMM, repräsentiert σ die Streuung des HMM und repräsentiert γ die Post-Wahrscheinlichkeit im Moment t und im Zustand j und im gemischten Zustand k als Ausrichtungsdaten.
  • Die Post-Wahrscheinlichkeit ist im Fall des Vorwärts/Rückwärts-Algorithmus die Anwesenheitswahrscheinlichkeit in einem bestimmten Moment und in einem bestimmten Zustand und ist im Fall des Viterbi-Algorithmus im Fall der Anwesenheit in einer optimalen Route in einem bestimmten Moment und in einer bestimmten Zeit "1" und ansonsten "0".
  • Obgleich Formel (1) in dieser Ausführungsform als die Warping-Funktion gegeben wurde, ist dies keineswegs einschränkend und ist es gemäß der vorliegenden Erfindung möglich, irgendeine Formel anzunehmen. Obgleich die Näherung ersten Grades von Formel (2) verwendet wurde, um Formel (5) abzuleiten, ist es außerdem ebenfalls möglich, Näherungen zweiten und höheren Grades zu verwenden.
  • 2 ist ein Ablaufplan zur Erläuterung des Prozesses in der ersten Ausführungsform der vorliegenden Erfindung. Anhand der 1 und 2 wird nun ausführlich der Gesamtbetrieb der ersten Ausführungsform beschrieben. Nach der Eingabe eines Sprachsignals (Schritt A101 in 2) berechnet der Analysator 1 das Eingangsmuster (A102). Daraufhin berechnet die Expansions-/Kontraktionsschätzeinheit 3 unter Verwendung des von dem Analysator 1 gelieferten Eingangsmusters und des eingegebenen HMM (A105) das Expansions-/Kontraktionsmuster (Schritt A103). Daraufhin erhält der Umsetzer 2 unter Verwendung der Umsetzungsfunktion einer der Formeln (2) bis (4) von dem Eingangsmuster von dem Analysator 1 das umgesetzte Eingangsmuster (Schritt A104). Im Fall der ersten Äußerung ist der Wert von α "0", während in den Fällen der zweiten und folgender Äußerungen als α Werte verwendet werden, die von der Expansions-/Kontraktionsschätzeinheit 3 geliefert werden.
  • Die erste Ausführungsform der vorliegenden Erfindung besitzt die folgenden Wirkungen. In der ersten Ausführungsform wird das von dem Analysator 1 gelieferte Eingangsmuster in den Umsetzer 2 eingegeben und können die Spektrumfrequenzexpansion und -kontraktion in einem Melcepstrum-Bereich ausgeführt werden. Wo Formel (5) verwendet wird, ist eine wiederholte Berechnung, wie sie zuvor im Stand der Technik beschrieben wurde, unnötig und brauchen die Analyse und weitere Prozesse nur einmal ausgeführt zu werden. Somit ist es möglich, den Rechenaufwand für die Expansions-/Kontraktionsparameterschätzung zu verringern.
  • Es wird nun eine zweite Ausführungsform der vorliegenden Erfindung beschrieben. 3 ist eine Ansicht, die die Konstruktion der zweiten Ausführungsform der vorliegenden Erfindung zeigt. Die zweite Ausführungsform des Spracherkennungssystems umfasst einen Analysator 1, einen Umsetzer 2, eine Expansions-/Kontraktionsschätzeinheit 3, eine Erkennungseinheit 101 und einen Referenzmusterspeicher 4. Der Analysator 1, ein Umsetzer 2, eine Expansions-/Kontraktionsschätzeinheit 3 und ein Referenzmusterspeicher 4 sind dieselben wie jene, die in der Beschreibung der ersten Ausführungsform beschrieben worden sind. Genauer analysiert der Analysator 1 wie in der ersten Ausführungsform das Sprachsignal und berechnet daraufhin das Eingangsmuster und liefert es. Außerdem setzt der Umsetzer 2 wie in der ersten Ausführungsform das Eingangsmuster um und liefert das umgesetzte Eingangsmuster. Darüber hinaus werden die durch den Durchschnittsvektor des Eingangsmusters gebildete HMM, die Streuung usw. wie in der ersten Ausführungsform als Elemente, die Phoneme repräsentieren, in dem Referenzmusterspeicher 4 gespeichert.
  • Die Erkennungseinheit (oder Anpassungseinheit) 101 führt die Erkennung dadurch aus, dass sie prüft, welches HMM an das von dem Umsetzer gelieferte umgesetzte Eingangsmuster gut angepasst ist. Die Anpassung wird durch ein solches gut bekanntes Verfahren wie den Viterbi-Algorithmus oder den in 4 gezeigten Vorwärts/Rückwärts-Algorithmus ausgeführt.
  • 4 ist ein Ablaufplan zur Beschreibung der Prozessfolge in der zweiten Ausführungsform der vorliegenden Erfindung. Anhand der 3 und 4 wird ausführlich der Gesamtbetrieb der zweiten Ausführungsform der vorliegenden Erfindung beschrieben.
  • Der Analysator 1 analysiert das Eingangssprachsignal (Schritt B101 in 4) und berechnet das Eingangsmuster (Schritt B102). Der Umsetzer 2 erhält von dem von dem Analysator 1 gelieferten Eingangsmuster unter Verwendung der Umsetzungsfunktion einer der Formeln (2) bis (4) das umgesetzte Muster (Schritt B103). Im Fall der ersten Sprache ist der Wert von α "0", während im Fall der zweiten und folgender Sprachen als α Warping-Parameterwerte verwendet werden, die von der Expansions-/Kontraktionsschätzeinheit 3 geliefert werden. Daraufhin führt die Er kennungseinheit 101 unter Verwendung des umgesetzten Eingangsmusters einen Erkennungsprozess aus (Schritt B104). Zu dieser Zeit wird das HMM von dem Referenzmusterspeicher 4 in die Erkennungseinheit 101 eingegeben (Schritt B106). Nach dem Erkennungsprozess berechnet die Expansions-/Kontraktionsparameterschätzeinheit 3 den Expansions-/Kontraktionsparameter (Schritt B105). Anschließend wird der Prozess unter Verwendung des erhaltenen Expansions-/Kontraktionsparameters und des Schritts B105 von dem Spracheingabeprozess in Schritt B101 an wiederholt.
  • Die zweite Ausführungsform besitzt die folgende funktionale Wirkung. Die zweite Ausführungsform der vorliegenden Erfindung umfasst den Spektrumumsetzer 100 und die Erkennungseinheit 101 in der ersten Ausführungsform. Somit wird jedes Mal, wenn das Sprachsignal eingegeben wird, der Wert des Expansions-/Kontraktionsparameters aktualisiert, wobei es möglich ist, die Frequenzabweichung in Bezug auf das Referenzmuster zu korrigieren. Somit ist die Erkennungsleistung verbessert.
  • Außerdem wird die Expansions-/Kontraktionsparameterschätzung in der zweiten Ausführungsform der vorliegenden Erfindung unter Verwendung von Formel (5) ausgeführt, um die Q-Funktion der HMM-Schätzung maximaler Wahrscheinlichkeit minimal zu machen. Somit kann die Expansions-/Kontraktionsparameterschätzung als kontinuierliche Werte erhalten werden, sodass im Vergleich zum Fall der Verwendung zuvor vorbereiteter diskreter Werte eine Erkennungsleistungsverbesserung erwartet werden kann.
  • Es wird nun eine dritte Ausführungsform der vorliegenden Erfindung beschrieben. 5 ist eine Ansicht, die die Konstruktion der dritten Ausführungsform der vorliegenden Erfindung zeigt. Anhand von 5 wird die vorliegende Erfindung in der dritten Ausführungsform auf ein Musterlernsystem angewendet, das außer dem Spektrumumsetzer 100 in der ersten Ausführungsform einen Lernsprachspeicher 201, eine Referenzmuster-Schätzeinheit 202 und eine Wahrscheinlichkeitsbeurteilungseinheit 203 umfasst.
  • Der Lernsprachspeicher 201 speichert Sprachsignale, die zum Lernen des HMM verwendet werden. Die Referenzmuster-Schätzeinheit 20 schätzt unter Verwendung eines von dem Spektrumumsetzer 100 und von dem HMM gelieferten umgesetzten Eingangsmusters HMM-Parameter. Die Schätzung kann eine Schät zung der höchsten Wahrscheinlichkeit sein, wie sie in Dokument 4 beschrieben ist. Die Wahrscheinlichkeitsbeurteilungseinheit 203 enthält Abstände, die allen Lernsprachsignalen unter Verwendung des umgesetzten Eingangsmusters, das von dem Spektrumumsetzer 100 und von dem HMM geliefert wird, entsprechen. Wo die Referenzmuster jene in dem HMM-Fall sind, wird der Abstand wie in Dokument 5 beschrieben unter Verwendung eines solchen Verfahrens wie des Viterbi-Algorithmus oder des Vorwärts/Rückwärts-Algorithmus erhalten.
  • Obgleich die dritte Ausführungsform der vorliegenden Erfindung in Verbindung mit dem Lernen des HMM beschrieben worden ist, ist die vorliegende Erfindung auf das Lernen irgendeines Parameters anwendbar, der die Spracherkennung betrifft.
  • 6 ist ein Ablaufplan zur Beschreibung des Prozesses in der dritten Ausführungsform der vorliegenden Erfindung. Anhand der 5 und 6 wird nun der Gesamtbetrieb der dritten Ausführungsform der vorliegenden Erfindung ausführlich beschrieben. Zunächst wird in den Spektrumanalysator 1 in dem Spektrumumsetzer 100 ein Lernsprachsignal eingegeben (Schritt C101 in 6). Der Analysator 1 analysiert das Lernsprachsignal und liefert ein Eingangsmuster (Schritt C102). Die Expansions-/Kontraktionsschätzeinheit 3 schätzt den Expansions-/Kontraktionsparameter (Schritt C103). Der Umsetzer 2 führt die Eingangsmusterumsetzung aus und liefert ein umgesetztes Eingangsmuster (Schritt C104). Die Referenzmuster-Schätzeinheit 202 führt unter Verwendung des umgesetzten Eingangsmusters und der HMM die HMM-Schätzung aus (Schritt C105). Die Wahrscheinlichkeitsbeurteilungseinheit 203 erhält eine allen Sprachsignalen entsprechende Wahrscheinlichkeit und vergleicht die Änderung der Wahrscheinlichkeit und einen Schwellenwert (C106). Wenn die Änderung der Wahrscheinlichkeit kleiner als der Schwellenwert ist, wird der Referenzmusterspeicher 4 mit dem in der Referenzmuster-Schätzeinheit 202 geschätzten HMM aktualisiert, was das Lernen beendet. Wenn die Änderung der Wahrscheinlichkeit größer als der Schwellenwert ist, aktualisiert die Wahrscheinlichkeitsbeurteilungseinheit 203 den Referenzmusterspeicher 4 mit dem durch die Referenzmuster-Schätzeinheit 202 geschätzten HMM und wird die Folge der Prozesse von dem Lernsprachdateneingabeprozess an wiederholt (C101).
  • Die dritte Ausführungsform der vorliegenden Erfindung besitzt die folgenden Wirkungen. Wenn in der dritten Ausführungsform der vorliegenden Erfindung ein Referenzmuster gelernt wird, das für jeden Sprecher nach Korrektur der Wirkungen der Frequenzexpansion und -kontraktion mit einer Warping-Funktion erhalten wird, kann die Expansions-/Kontraktionsparameterschätzung während des Lernprozesses ausgeführt werden. Somit ist es möglich, den Rechenaufwand im Vergleich zum Stand der Technik zu verringern. Außerdem wird die für die Expansions-/Kontraktionsparameterschätzung verwendete Formel (5) unter Verwendung der höchsten Wahrscheinlichkeit des HMM abgeleitet und kann sie wie andere HMM-Parameterschätzungsfälle leicht zur Verwendung während des Lernens angepasst werden.
  • Es wird nun eine vierte Ausführungsform der vorliegenden Erfindung beschrieben. 7 ist eine Ansicht, die die Konstruktion der vierten Ausführungsform der vorliegenden Erfindung zeigt. Anhand von 7 umfasst die vierte Ausführungsform der vorliegenden Erfindung außer der Konstruktion der ersten Ausführungsform einen inversen Umsetzer 45. Der inverse Umsetzer 5 führt durch inverses Umsetzen der von dem Umsetzer 2 gelieferten expandierten oder kontrahierten Eingangsmusterzeitreihe eine Sprachqualitätsumsetzung aus und gibt eine Signalform im Zeitbereich aus.
  • Es wird nun eine fünfte Ausführungsform der vorliegenden Erfindung beschrieben. 8 ist eine Ansicht, die die Konstruktion der fünften Ausführungsform der vorliegenden Erfindung zeigt. In der fünften Ausführungsform der vorliegenden Erfindung sind die obige erste bis vierte Ausführungsform des Systems in einer Programmsteuerung verwirklicht, die mit einem Computer ausgeführt wird. Anhand von 8 wird im Fall der Verwirklichung der Prozesse in dem Analysator 1, in dem Umsetzer 2 und in der Expansions-/Kontraktionsschätzeinheit 3, die in 1 gezeigt sind, durch Ausführung eines Programms in einem Computer 10 das Programm von einem Aufzeichnungsmedium 14 wie etwa von einer CD-ROM, von einer DVD, von einer FD, von einem Magnetband usw. über eine Aufzeichnungsmedium-Zugriffseinheit 13 in einen Hauptspeicher 12 des Computers 10 geladen und in einer CPU 11 ausgeführt. In dem Aufzeichnungsmedium 14 ist ein Programm zur Ausführung eines Analyseprozesses zum Umsetzen eines Eingangssprachsignals in ein Eingangsmuster mit Cepstrum, eines Expansions-/Kontraktionsschätzprozesses zum Ausgeben eines Expansions-/Kontraktionsparameters in der Frequenzachsenrichtung unter Verwendung des Eingangsmusters und des in einem Referenzmusterspeicher gespeicherten Referenzmusters mit dem Computer gespeichert.
  • Alternativ ist es möglich, ein Programm zum Veranlassen der Ausführung eines Anpassungsprozesses des Berechnens des Abstandes zwischen dem nach der Expansion oder Kontraktion gelieferten Eingangsmuster und jedem Referenzmuster und des Ausgebens des Referenzmusters, das dem kürzesten Abstand entspricht, als Erkennungsergebnis mit dem Computer aufzuzeichnen.
  • In dem Aufzeichnungsmedium kann ein Programm zum Veranlassen der Ausführung der Anpassungsverarbeitung für die Abstandsberechnung zwischen dem Eingangsmuster nach der Expansion/Kontraktion und dem Referenzmuster und zum Ausgeben des Referenzmusters mit dem minimalen Abstand als ein Erkennungsergebnis mit dem Computer aufgezeichnet sein.
  • Als eine andere Alternative ist es möglich, in dem Aufzeichnungsmedium 14 ein Programm zum Veranlassen der Ausführung eines Analyseprozesses zum Umsetzen von Lernsprachdaten, die in einem Lernsprachspeicher zum Speichern von Lernsprachdaten gespeichert sind, in ein Eingangsmuster, das ein Cepstrum enthält, eines Expansions-/Kontraktionsschätzprozesses zum Ausgeben eines Expansions-/Kontraktionsparameter in der Frequenzachsenrichtung unter Verwendung des Eingangsmusters und des in einem Referenzmusterspeicher gespeicherten Referenzmusters, eines Umsetzungsprozesses zum Umsetzen des Eingangsmusters unter Verwendung des Expansions-/Kontraktionsparameters, eines Referenzmusterschätzprozesses zum Aktualisieren des Referenzmusters in Bezug auf die Lernsprache unter Verwendung eines nach dem Umsetzungsprozess gelieferten expandierten oder kontrahiertes Eingangsmusters und der Referenzmuster und eines Wahrscheinlichkeitsbeurteilungsprozesses zum Überwachen von Änderungen des Abstands durch Berechnen des Abstands unter Nutzung des expandierten oder kontrahierten Eingangsmusters und des Referenzmusters mit dem Computer zu speichern. Es ist zu sehen, dass es in der zweiten bis vierten Ausführungsform möglich ist, die gleiche Programmsteuerung zu verwirklichen. Außerdem ist es möglich, das Programm über ein Netz oder ein ähnliches Übertragungsmedium von einem Server (nicht gezeigt) herunterzuladen. Mit anderen Worten, als das Aufzeichnungsmedium kann irgendein Aufzeichnungsmedium wie etwa ein Kommunikationsmedium verwendet werden, so lange es das Programm halten kann.
  • Wie im Vorstehenden beschrieben worden ist, ist es gemäß der vorliegenden Erfindung möglich, die folgenden Vorteile zu erhalten.
  • Ein erster Vorteil ist die Verringerung des für die Berechnung des optimalen Parameters für die Erkennungsleistung in der Sprachsignalspektrumfrequenzexpansion oder -kontraktion erforderlichen Rechenaufwands. Dies ist so, da gemäß der vorliegenden Erfindung angenommen wird, dass die Umsetzung in einem primären vollen Bandpass- oder ähnlichen Filterprozess in Bezug auf die Frequenzachse in Form einer Expansions-/Kontraktionsparameter-Potenzreihe im Cepstrum-Bereich gelöst werden kann. Somit kann dann, wenn die Reihe durch eine Funktion ersten Grades genähert wird, eine Funktion des Expansions-/Kontraktionsparameters zum Minimieren der Funktion für die Schätzung der höchsten Wahrscheinlichkeit in einer zur Verwendung für die Berechnung bereiten Funktion beschrieben werden.
  • Ein zweiter Vorteil ist, dass ermöglicht wird, einen Expansions-/Kontraktionsparameter gleichzeitig mit anderen Parametern zur Zeit des HMM-Lernens zu schätzen. Dies ist so, da die Funktion zum Berechnen des Expansions-/Kontraktionsparameters gemäß der vorliegenden Erfindung von der Q-Funktion für die Schätzung der höchsten Wahrscheinlichkeit in der Spracherkennung abgeleitet wird.
  • Dem Fachmann auf dem Gebiet fallen Änderungen in der Konstruktion ein, wobei mehrere offensichtlich verschiedene Änderungen und Ausführungsformen vorgenommen werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen. Der in der vorstehenden Beschreibung und in der beigefügten Zeichnung dargelegte Gegenstand wird lediglich zur Veranschaulichung geboten. Somit soll die vorstehende Beschreibung eher als veranschaulichend als als beschränkend betrachtet werden.

Claims (19)

  1. Spracherkennungssystem, das einen Spektrumsumsetzer zum Expandieren oder Kontrahieren des Spektrums eines Sprachsignals auf der Frequenzachse umfasst, wobei der Spektrumsumsetzer umfasst: einen Analysator (1) zum Umsetzen eines Eingangssprachsignals in ein Eingangsmuster, das ein Cepstrum enthält; einen Referenzmusterspeicher (4) mit darin gespeicherten Referenzmustern; eine Expansions-/Kontraktions-Schätzeinheit (3) zum Ausgeben eines Expansions-/Kontraktionsparameters in der Frequenzachsenrichtung unter Verwendung des Eingangsmusters und der Referenzmuster; und einen Umsetzer (2) zum Umsetzen des Eingangsmusters unter Verwendung des Expansions-/Kontraktionsparameters, wobei der Expansions-/Kontraktionsparameter ein Koeffizient einer Warping-Funktion in dem Cepstrum-Raum ist, um das Eingangsmuster und das Referenzmuster aneinander anzupassen.
  2. Spracherkennungssystem nach Anspruch 1, bei dem der Umsetzer so beschaffen ist, dass er die Expansion oder Kontraktion des Spektrums auf der Frequenzachse durch eine Warping-Funktion, die die Form der Expansion oder der Kontraktion definiert, durch Ausführen einer Expansion oder einer Kontraktion im Cepstrum-Raum ausführt, wobei die Warping-Funktion in Form einer Expansions-/Kontraktionsparameter-Potenzreihe, die den Expansions-/Kontraktionsparameter als einen Koeffizienten enthält, dargestellt wird, wobei der Koeffizient in der Weise gewählt wird, dass das Eingangsmuster und das Referenzmuster aneinander angepasst werden.
  3. Spracherkennungssystem nach Anspruch 2, bei der die Expansions-/Kontraktions-Schätzeinheit (3) so beschaffen ist, dass sie einen rekursiven Suchalgorithmus in dem zweidimensionalen Cepstrum-Raum verwendet, um den Expansions-/Kontraktionsparameter zu bestimmen.
  4. Spracherkennungssystem nach Anspruch 1, das ferner umfasst: eine Anpassungseinheit zum Berechnen der Abstände zwischen dem von dem Umsetzer gelieferten expandierten oder kontrahierten Eingangsmuster und den Referenzmustern und zum Ausgeben jenes Referenzmusters, das dem kürzesten Abstand entspricht, als Erkennungsergebnis.
  5. Spracherkennungssystem nach Anspruch 1 oder 2, bei dem der Umsetzer (2) die Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder der Kontraktion definiert, durch Ausführen der Expansion oder der Kontraktion im Cepstrum-Raum ausführt.
  6. Spracherkennungssystem nach einem der Ansprüche 1 bis 3, bei dem die Expansions-/Kontraktions-Schätzeinheit (3) die Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder der Kontraktion definiert, unter Verwendung einer Schätzung, die aus der Schätzung der höchsten Wahrscheinlichkeit eines HMM (Hidden Markov-Modell) im Cepstrum-Raum abgeleitet wird, ausführt.
  7. Referenzmuster-Lernsystem, das ein Spracherkennungssystem umfasst und ferner umfasst: einen Lernsprachspeicher (201) mit darin gespeicherten Lernsprachdaten; einen Analysator (1) zum Empfangen eines Lernsprachsignals von dem Lernsprachspeicher und zum Umsetzen des Lernsprachsignals in ein Eingangsmuster, das ein Cepstrum enthält; eine Referenzmuster-Schätzeinheit (202) zum Aktualisieren der in dem Referenzmusterspeicher gespeicherten Referenzmuster für die Lernsprachdaten unter Verwendung des expandierten oder kontrahierten Eingangsmusters, das von dem Umsetzer geliefert wird, und unter Verwendung der Referenzmuster; und eine Wahrscheinlichkeitsbeurteilungseinheit (203) zum Überwachen von Abstandsänderungen durch Berechnen von Abständen unter Verwendung des expandierten oder kontrahierten Eingangsmusters, das von dem Umsetzer geliefert wird, und der Referenzmuster.
  8. Referenzmuster-Lernsystem nach Anspruch 7, bei dem der Umsetzer (2) die Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder der Kontraktion definiert, durch Ausführen der Expansion oder der Kontraktion im Cepstrum-Raum ausführt.
  9. Referenzmuster-Lernsystem nach Anspruch 7 oder 8, bei dem die Expansions-/Kontraktions-Schätzeinheit (3) die Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder der Kontraktion definiert, unter Verwendung einer Schätzung, die aus der Schätzung der höchsten Wahrscheinlichkeit des HMM (Hidden-Markov-Modell) im Cepstrum-Raum abgeleitet wird, ausführt.
  10. Sprachqualität-Umsetzungssystem, das ein Spracherkennungssystem nach Anspruch 1 umfasst und ferner umfasst: einen inversen Umsetzer (5) zum Ausgeben einer Signalform im Zeitbereich durch inverses Umsetzen des zeitseriellen Eingangsmusters, das nach der vom Umsetzer gelieferten Expansion/Kontraktion erhalten wird.
  11. Spektrumsumsetzungsverfahren zum Expandieren oder Kontrahieren des Spektrums eines Sprachsignals auf der Frequenzachse, das umfasst: einen ersten Schritt zum Umsetzen eines Eingangssprachsignals in ein Eingangsmuster, das ein Cepstrum enthält; einen zweiten Schritt zum Ausgeben eines Expansions-/Kontraktionsparameters in der Frequenzachsenrichtung unter Verwendung des Eingangsmusters und der in einem Referenzmusterspeicher gespeicherten Referenzmuster; und einen dritten Schritt zum Umsetzen des Eingangsmusters unter Verwendung des Expansions-/Kontraktionsparameters, wobei der Expansions-/Kontraktionsparameter ein Koeffizient einer Warping-Funktion in dem Cepstrum-Raum ist, um das Eingangsmuster und das Referenzmuster aneinander anzupassen.
  12. Spektrumsumsetzungsverfahren nach Anspruch 11, das umfasst: Ausführen der Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder Kontraktion definiert, durch Ausführen einer Expansion oder Kontraktion im Cepstrum-Raum, wobei die Warping-Funktion in Form einer Expansions-/Kontraktionsparameter-Potenzreihe, die den Expansions-/Kontraktionsparameter als einen Koeffizienten enthält, dargestellt wird, wobei der Koeffizient in der Weise gewählt wird, dass das Eingangsmuster und das Referenzmuster miteinander übereinstimmen.
  13. Spektrumsumsetzungsverfahren nach Anspruch 12, bei dem die Expansions-/Kontraktions-Schätzeinheit (3) so beschaffen ist, dass sie einen rekursiven Suchalgorithmus in dem zweidimensionalen Cepstrum-Raum verwendet, um den Expansions-/Kontraktionsparameter zu bestimmen.
  14. Spracherkennungsverfahren unter Verwendung eines Spektrumsumsetzungsverfahrens nach Anspruch 11, das umfasst: einen vierten Schritt zum Berechnen der Abstände zwischen dem expandierten oder kontrahierten Eingangsmuster und den Referenzmustern und zum Ausgeben jenes Referenzmusters, das dem kürzesten Abstand entspricht, als Erkennungsergebnis.
  15. Spracherkennungsverfahren nach Anspruch 14, bei dem die Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder Kontraktion definiert, durch Ausführen der Expansion oder Kontraktion im Cepstrum-Raum ausgeführt wird.
  16. Spracherkennungsverfahren nach Anspruch 14 oder 15, bei dem der Expansions-/Kontraktions-Schätzprozess die Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder der Kontraktion definiert, unter Verwendung einer Schätzung, die aus der Schätzung der höchsten Wahrscheinlichkeit des HMM (Hidden Markov-Modell) im Cepstrum-Raum abgeleitet wird, ausführt.
  17. Referenzmuster-Lernverfahren, das ein Spektrumsumsetzungsverfahren nach Anspruch 11 umfasst und ferner umfasst: einen ersten Schritt zum Empfangen eines Lernsprachsignals aus dem Lernsprachspeicher und zum Umsetzen des Lernsprachsignals in ein Eingangsmuster, das ein Cepstrum enthält; einen vierten Schritt zum Aktualisieren der Referenzmuster für die Lernsprachdaten unter Verwendung des expandierten oder kontrahierten Eingangsmusters und der Referenzmuster; und einen fünften Schritt zum Überwachen von Abstandsänderungen durch Berechnen von Abständen unter Verwendung des expandierten oder kontrahierten Eingangsmusters und der Referenzmuster.
  18. Referenzmuster-Lernverfahren nach Anspruch 17, bei dem der dritte Schritt die Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder Kontraktion definiert, durch Ausführen der Expansion oder Kontraktion im Cepstrum-Raum ausführt.
  19. Referenzmuster-Lernverfahren nach Anspruch 17, bei dem der zweite Schritt die Expansion oder Kontraktion des Spektrums auf der Frequenzachse mit einer Warping-Funktion, die die Form der Expansion oder Kontraktion definiert, unter Verwendung einer Schätzung, die aus der Schätzung der höchsten Wahrscheinlichkeit des HMM (Hidden Markov-Modell) im Cepstrum-Raum abgeleitet wird, ausführt.
DE60036522T 1999-10-26 2000-10-26 Verziehung der Frequenzen für Spracherkennung Expired - Lifetime DE60036522T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP30468599 1999-10-26
JP30468599A JP3632529B2 (ja) 1999-10-26 1999-10-26 音声認識装置及び方法ならびに記録媒体

Publications (2)

Publication Number Publication Date
DE60036522D1 DE60036522D1 (de) 2007-11-08
DE60036522T2 true DE60036522T2 (de) 2008-06-26

Family

ID=17935997

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60036522T Expired - Lifetime DE60036522T2 (de) 1999-10-26 2000-10-26 Verziehung der Frequenzen für Spracherkennung

Country Status (4)

Country Link
US (1) US6934681B1 (de)
EP (1) EP1096475B1 (de)
JP (1) JP3632529B2 (de)
DE (1) DE60036522T2 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
US20050010413A1 (en) * 2003-05-23 2005-01-13 Norsworthy Jon Byron Voice emulation and synthesis process
JP4194433B2 (ja) * 2003-07-07 2008-12-10 キヤノン株式会社 尤度算出装置および方法
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
WO2009041402A1 (ja) * 2007-09-25 2009-04-02 Nec Corporation 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
CN109192193B (zh) * 2018-08-14 2020-05-05 四川虹美智能科技有限公司 一种语音识别产品测试方法和测试装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
JPH06214596A (ja) 1993-01-14 1994-08-05 Ricoh Co Ltd 音声認識装置および話者適応化方法
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
US5737490A (en) * 1993-09-30 1998-04-07 Apple Computer, Inc. Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US5625747A (en) * 1994-09-21 1997-04-29 Lucent Technologies Inc. Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping
US5864809A (en) * 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
US5930753A (en) 1997-03-20 1999-07-27 At&T Corp Combining frequency warping and spectral shaping in HMM based speech recognition
JPH118839A (ja) 1997-06-19 1999-01-12 Matsushita Electric Ind Co Ltd 映像信号変換装置
JP2986792B2 (ja) * 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置

Also Published As

Publication number Publication date
EP1096475A3 (de) 2001-09-12
EP1096475A2 (de) 2001-05-02
EP1096475B1 (de) 2007-09-26
JP2001125588A (ja) 2001-05-11
DE60036522D1 (de) 2007-11-08
US6934681B1 (en) 2005-08-23
JP3632529B2 (ja) 2005-03-23

Similar Documents

Publication Publication Date Title
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69931813T2 (de) Verfahren und vorrichtung zur grundfrequenzermittlung
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60126722T2 (de) Aussprache von neuen Wörtern zur Sprachverarbeitung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE60004331T2 (de) Sprecher-erkennung
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell

Legal Events

Date Code Title Description
8364 No opposition during term of opposition