-
HINTERGRUND DER ERFINDUNG
-
Die
vorliegende Erfindung bezieht sich auf ein Erkennungssystem und
-verfahren der Sprache eines unbestimmten Sprechers sowie auf ein
Akustikmodell-Lernverfahren und auf ein Aufzeichnungsmedium mit
einem darin aufgezeichneten Spracherkennungsprogramm und insbesondere
auf ein Spracherkennungssystem, das Sprecher auf der Frequenzachse
normieren kann, auf ein Lernsystem für die Normierung, auf ein Spracherkennungsverfahren,
auf ein Lernverfahren für
die Normierung und auf ein Aufzeichnungsmedium, in dem ein Programm
für die
Spracherkennung und ein Lernprogramm für die Normierung gespeichert
sind.
-
Spektrumumsetzer
in Spracherkennungssystemen des Standes der Technik sind z. B. in
der
japanischen Offenlegungsschrift
Nr. 6-214596 (als Dokument 1 bezeichnet) und in Puming
Zhan und Martin Westphalk, "Speaker
Normalization Based on Frequency Warping", ICASSP, 1039–1042, 1997 (als Dokument 2
bezeichnet) offenbart.
-
Das
Dokument 1 offenbart z. B. ein Spracherkennungssystem, das eine
Frequenzkorrektureinrichtung zum Korrigieren der Frequenzcharakteristik
eines Eingangssprachsignals auf der Grundlage mehrerer vorgegebener
verschiedener Frequenzcharakteristik-Korrekturkoeffizienten, eine
Frequenzachse-Umsetzungseinrichtung zum Umsetzen der Frequenzachse
des Eingangssprachsignals auf der Grundlage mehrerer vorgegebener
Frequenzachse-Umsetzungskoeffizienten, eine Merkmalsmenge-Extraktionseinrichtung
zum Extrahieren der Merkmalsmenge des Eingangssprachsignals als
Eingangssprachmerkmalsmenge, eine Referenzsprache-Speichereinrichtung
zum Speichern einer Referenzsprachmerkmalsmenge, eine Frequenzcharakteristik-Korrektureinrichtung,
eine Frequenzachse-Umsetzungseinrichtung, eine Zuordnungseinrichtung
zum Zuordnen der im Ergebnis des Prozesses in der Frequenzcharakteristik-Korrektureinrichtung
erhaltenen Eingangssprachmerkmalsmenge und der in der Referenzsprachspeichereinrichtung
gespeicherten Referenzsprachmerkmalsmenge, eine Sprecheranpassungsphasenfunktion
und eine Spracherkennungsphasenfunktion umfasst, die in dem Spracherkennungssystem
enthalten sind. In der Sprecheranpassungsphase wird in dem Spracherkennungsprozess
in diesem System das Sprachsignal eines unbekannten Sprechers mit
einem bekannten Inhalt in der Frequenzcharakteristik-Korrektureinrichtung,
in der Frequenzachse-Umsetzeinrichtung und in der Merk malsmenge-Extraktionseinrichtung
für jeden
von mehreren verschiedenen Frequenzcharakteristik-Korrekturkoeffizienten
verarbeitet und werden die mehreren verschiedenen Frequenzachse-Umsetzungskoeffizienten,
die Eingangssprachmerkmalsmenge für jeden Koeffizienten und eine
Referenzsprachmerkmalsmenge mit dem gleichen Inhalt wie der obige
bekannte Inhalt miteinander verglichen und werden ein Frequenzcharakteristik-Korrekturkoeffizient
und ein Frequenzachse-Umsetzungskoeffizient
ausgewählt,
die einen minimalen Abstand geben. In der Spracherkennungsphase
wird unter Verwendung des ausgewählten Frequenzcharakteristik-Korrekturkoeffizienten
und Frequenzachse-Umsetzungskoeffizienten die Eingangssprachmerkmalsmenge
bestimmt und mit der Referenzsprachmerkmalsmenge verglichen.
-
In
diesen Spracherkennungssystemen des Standes der Technik veranlasst
der Spektrumumsetzer zur Verbesserung der Erkennungsleistung eine
Expansion oder Kontraktion des Spektrums des Sprachsignals auf der
Frequenzachse in Bezug auf das Geschlecht, das Alter, physische
Bedingungen usw. der einzelnen Sprecher. Für die Spektrumexpansion und
-kontraktion auf der Frequenzachse wird eine Funktion definiert,
die mit einem angemessenen Parameter die Änderung des Umrisses der Expansion
und der Kontraktion zulässt,
um sie für
die Expansion oder Kontraktion des Spektrums des Sprachsignals auf
der Frequenzachse zu verwenden. Die Funktion, die für die Expansion
oder Kontraktion des Spektrums des Sprachsignals auf der Frequenzachse
verwendet wird, wird als "Warping-Funktion" bezeichnet und der
Parameter zum Definieren des Umrisses der Warping-Funktion wird
als "Expansions-/Kontraktionsparameter" bezeichnet.
-
Bisher
werden mehrere Warping-Parameterwerte als Expansions-/Kontraktionsparameter
der Warping-Funktion ("Warping-Parameter") vorbereitet, wird
das Spektrum des Sprachsignals auf der Frequenzachse unter Verwendung
jedes dieser Werte expandiert oder kontrahiert und wird unter Verwendung
des expandierten oder kontrahierten Spektrums ein Eingangsmuster
berechnet und zusammen mit dem Referenzmuster verwendet, um einen
Abstand zu erhalten, und wird der dem minimalen Abstand entsprechende
Wert zur Zeit der Erkennung als Warping-Parameterwert eingestellt.
-
Anhand
der Zeichnung wird nun der Spektrumumsetzer im Spracherkennungssystem
des Standes der Technik beschrieben. 9 ist eine
Ansicht, die ein Beispiel der Konstruktion des Spektrumumsetzers
in dem Spracherkennungssystem des Standes der Technik zeigt. Anhand
von 9 umfasst dieser Spektrumumsetzer im Stand der
Technik eine FFT-Einheit (Einheit für schnelle Fourier-Transformation) 301,
einen Expansions-/Kontraktionsparameterspeicher 302, einen
Frequenzumsetzer 303, eine Eingangsmuster-Berechnungseinheit 304,
eine Anpassungseinheit 306, eine Referenzmustereinheit 305 und
eine Expansions-/Kontraktionsparameterauswahleinheit 307.
Die FFT-Einheit 301 schneidet das Eingangssprachsignal
für jedes
Einheitszeitintervall aus und veranlasst die Fourier-Transformation des
ausgeschnittenen Signals, um ein Frequenzspektrum zu erhalten.
-
Im
Expansions-/Kontraktionsparameterspeicher 302 werden mehrere
Expansions-/Kontraktionsparameterwerte zur Bestimmung der Expansion
oder Kontraktion der Frequenz gespeichert. Der Frequenzumsetzer 303 führt an dem
von der FFT-Einheit 301 gelieferten Spektrum unter Verwendung
einer Warping-Funktion, deren Umriss durch einen Expansions-/Kontraktionsparameter
bestimmt ist, einen Frequenz-Expansions-/Kontraktionsprozess aus
und liefert ein nach dem Frequenz-Expansions-/Kontraktionsprozess
erhaltenes Spektrum als Expansions-/Kontraktionsspektrum. Die Eingangsmuster-Berechnungseinheit 304 berechnet
unter Verwendung des von dem Frequenzumsetzer 303 gelieferten
Expansions-/Kontraktionsspektrums ein Eingangsmuster und gibt es
aus. Das Eingangsmuster repräsentiert
z. B. eine Parameterzeitreihe, die ein akustisches Merkmal wie etwa
das Cepstrum repräsentiert.
-
Das
Referenzmuster wird unter Verwendung einer großen Anzahl von Eingangsmustern
und durch Mitteln von Phonem-Einheits-Eingangsmustern, die zu derselben
Klasse gehören,
durch einen bestimmten Typ einer Mittelungseinrichtung gebildet.
Wegen die Vorbereitung der Referenzmuster siehe "Fundamentals of Voice Recognition", Teil I, übersetzt
und herausgegeben von Yoshii, NTT Advanced Technology, Co., Ltd., 1995,
S. 63 (Dokument 3).
-
Referenzmuster
können
durch den Erkennungsalgorithmus klassifiziert werden. Zum Beispiel
sind im Fall der DP-Anpassung (Anpassung durch dynamische Programmierung)
Zeitreihenreferenzmuster mit Eingangsmustern, die in der Phonemzeitreihen-Reihenfolge
angeordnet sind, erhältlich
und sind im HMM-Fall (Fall des Hidden Markov-Modells) Statusreihen
und Verbindungsdaten davon erhältlich.
-
Die
Anpassungseinheit 306 berechnet unter Verwendung eines
an den Inhalt der in die FFT-Einheit 301 angegebenen Sprache
angepassten Referenzmusters 305 und des Eingangsmusters
den Abstand. Der berechnete Abstand entspricht in dem HMM-Fall (Fall
des Hidden Markov-Modells), der das Referenzmuster betrifft, der
Wahrscheinlichkeit und in dem DP-Anpassungsfall dem Abstand der
optimalen Route. Die Expansions-/Kontraktionsparameterauswahleinheit 307 wählt angesichts
der in der Anpassungseinheit 306 erhaltenen Anpassungseinheit
einen am besten angepassten Expansions-/Kontraktionsparameter aus.
-
10 ist
ein Ablaufplan zur Beschreibung eines Prozesses, der in einer Spektrumanpassungseinheit des
Standes der Technik ausgeführt
wird. Anhand der 9 und 10 wird
nun der Betrieb der Spektrumanpassungseinheit des Standes der Technik
beschrieben. Die FFT-Einheit 301 führt am Sprachsignal die FFT-Operation aus, um
deren Spektrum zu erhalten (Schritt D101 in 10). Der
Frequenzumsetzer 303 führt unter
Verwendung des Eingangs-Expansions-/Kontraktionsparameters die Expansion
oder Kontraktion des Spektrums auf der Frequenzachse aus (D106)(Schritt
D102). Die Eingangsmuster-Berechnungseinheit 304 berechnet
unter Verwendung des auf der Frequenzachse expandierten oder kontrahierten
Spektrums das Eingangsmuster (Schritt D103). Die Anpassungseinheit 305 bestimmt
den Abstand zwischen Referenzmuster (D107) und dem Eingangsmuster
(D104). Die Folge der Prozesse von Schritt D101 bis zu Schritt D104
wird für
alle in dem Expansions-/Kontraktionsparameterspeicher 302 gespeicherten
Expansions-/Kontraktionsparameterwerte ausgeführt (Schritt D105).
-
Wenn
in dem Expansions-/Kontraktionsparameterspeicher 302 10
Expansions-/Kontraktionsparameterwerte gespeichert sind, wird die
Prozessfolge von Schritt D101 bis Schritt D104 10-mal wiederholt,
um 10 verschiedene Abstände
zu erhalten. Die Expansions-/Kontraktionsparameterauswahleinheit 307 vergleicht
die allen Expansions-/Kontraktionsparametern entsprechenden Abstände und
wählt den
Expansions-/Kontraktionsparameter aus, der dem kürzesten Abstand entspricht
(Schritt D108).
-
Allerdings
besitzt der obige Spektrumumsetzer des Standes der Technik die folgenden
Probleme.
-
Das
erste Problem ist, dass bei der Expansions-/Kontraktionsparameterwertbestimmung
ein erhöhter Rechenaufwand
erforderlich ist. Dies ist so, da es in dem Spektrumumsetzer des
Standes der Technik notwendig ist, mehrere Expansions-/Kontraktionsparameterwerte
vorzubereiten und den FFT-Prozess, den Spektrumfrequenz-Expansions-/Kontraktionsprozess
und die Eingangsmusterberechnung in einer Anzahl, die der Anzahl
dieser Werte entspricht, wiederholt auszuführen.
-
Das
zweite Problem ist, dass es möglich
ist, dass in dem Spracherkennungssystem keine ausreichenden Effekte
der Frequenzexpansion und -kontraktion erhalten werden. Dies ist
so, da die Expansions-/Kontraktionsparameterwerte alle vorgegeben
sind und für
einen unbekannten Sprecher keiner dieser Werte optimal sein kann.
-
Fukada,
T., u. a.: "Speaker
normalized acoustic modeling based on 3-D viterbi decoding", Seattle, WA, 12.–15. Mai
1988, New York, NY: IEEE, US, Bd. Conf. 23, 12. Mai 1998 (1998-05-12),
S. 437–440,
ISBN: 0-7803-4429-4, offenbart ein Verfahren für die Sprechernormierung, das
auf einem Frequenz-Warping-Zugang beruht, um Schwankungen wegen
durch Sprecher induzierter Faktoren wie etwa der Vokalspurlänge zu verringern.
In diesem Zugang wird ein sprechernormiertes Akustikmodell unter
Verwendung zeitlich veränderlicher
Warping-Faktoren trainiert, während
der Frequenz-Warping-Faktor in den herkömmlichen Zugängen für jeden
Sprecher festgesetzt ist. Die zeitlich veränderlichen Frequenz-Warping-Faktoren
werden durch eine dreidimensionale Viterbi-Decodierungsprozedur
bestimmt.
-
Lee,
u. a.: "A frequency
warping approach to speaker normalization", IEEE Transactions on speech and audio
processing, Jan. 1998, IEEE, USA, Bd. 6, Nr. 1, S. 49–60, ISSN:
1063-6676, offenbart einen Frequenz-Warping-Zugang zur Sprechernormierung.
Auf die Sprechernormierung für
eine telephongestützte
verbundene Ziffernerkennungsaufgabe wurden eine Menge von Warping-Prozeduren
auf der Grundlage niedriger Komplexität und maximaler Wahrscheinlichkeit
angewendet. Es wird eine effiziente Einrichtung zum Schätzen eines
linearen Frequenz-Warping-Faktors und des Symbolmechanismus zur
Implementierung des Frequenz-Warping durch Ändern der Filterbank in einer
Mel-Frequenz-Cepstrum-Merkmalsanalyse
dargestellt.
-
EP-A-0 866 442 offenbart
eine Prozedur, die Äußerungen
durch gleichzeitiges Skalieren der Frequenzachse und Umformen der
Spektralenergiekontur kompensiert.
-
Umesh,
S., u. a.: "Frequency-Warping
and speaker-normalization",
1997, IEEE International Conference on Acoustics, Speech, and Signal
Processing (Cat. Nr. 97CB36052), München, Deutschland, 21.–24. April
1997, S. 983–986,
Bd. 2, 1997, Los Alamitos, CA, USA, IEEE Comput. Soc. Press, USA,
ISBN: 0-8186-7919-0, offenbart die Verwendung von Skalen-Cepstral-Koeffizienten
als Merkmale in jeder Erkennung. Es wird eine entsprechende Frequenz-Warping-Funktion offenbart,
sodass die Formant-Einhüllenden verschiedener
Sprecher in dem Warping-Bereich für irgendeinen gegebenen Vokal
näherungsweise übersetzte
Versionen voneinander sind. Die Abhandlung zeigt zwei Parallelen
der verschiedenen Schritte bei der Berechnung des Skalen-Cepstrums
mit jenen, die in Berechnungsmerkmalen beobachtet werden, die auf
physiologischen Modellen des Hörsystems
oder auf psychoakustischen Experimenten beruhen.
-
US-A-5 625 747 offenbart
eine dynamische Zeit/Frequenz-Warping-Technik für die Sprecherüberprüfung, Spracherkennung
und allgemeine Normierung. Die Technik nutzt dynamische Programmierverfahren
des besten Wegs unter Verwendung einer 3-dimensionalen Zeit-Frequenz-Anordnung,
die die Spektraldifferenzen zwischen einer Testäußerung und einer Referenzäußerung repräsentiert.
Die Anordnung wird durch Summieren der Quadrate der Differenzen
jedes Merkmals in jedem Rahmen der Schablone mit jedem Merkmal in
jedem Rahmen der besagten Äußerung erzeugt.
Daraufhin werden dynamische Programmiertechniken verwendet, um den
Weg mit minimalem Abstand zu ermitteln, der an die Testäußerung und
an die Schablone angepasst ist, um die Zeit- und Frequenz-Warping-Wege
zu optimieren.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Die
vorliegende Erfindung wurde angesichts der obigen Probleme gemacht,
wobei es ihre Hauptaufgabe ist, ein Spracherkennungssystem und -verfahren
und außerdem
ein Aufzeichnungsmedium zu schaffen, die die Berechnung des optimalen
Expansions-/Kontraktionsparameterwerts für jeden Sprecher mit weniger Rechenaufwand
ermöglichen
und somit die Leistung verbessern können. Die obigen und weitere
Aufgaben und Merkmale der vorliegenden Erfindung werden nun aus
der folgenden Beschreibung unmittelbar sichtbar.
-
Die
vorliegende Erfindung ist in den unabhängigen Ansprüchen definiert.
Die abhängigen
Ansprüche definieren
Ausführungsformen
der Erfindung.
-
Weitere
Aufgaben und Merkmale werden aus der folgenden Beschreibung anhand
der beigefügten Zeichnung
geklärt.
-
KURZBESCHREIBUNG DER ZEICHNUNG
-
1 ist
eine Ansicht, die die Konstruktion eines Spektrumumsetzers in einer
ersten Ausführungsform des
Spracherkennungssystems gemäß der vorliegenden
Erfindung zeigt;
-
2 ist
ein Ablaufplan zur Erläuterung
des Prozesses in der ersten Ausführungsform
der vorliegenden Erfindung;
-
3 ist
eine Ansicht, die die Konstruktion der zweiten Ausführungsform
der vorliegenden Erfindung zeigt;
-
4 ist
ein Ablaufplan zur Beschreibung der Prozessfolge in der zweiten
Ausführungsform
der vorliegenden Erfindung;
-
5 ist
eine Ansicht, die die Konstruktion der dritten Ausführungsform
der vorliegenden Erfindung zeigt;
-
6 ist
ein Ablaufplan zur Beschreibung des Prozesses in der dritten Ausführungsform
der vorliegenden Erfindung;
-
7 ist
eine Ansicht, die die Konstruktion der vierten Ausführungsform
der vorliegenden Erfindung zeigt;
-
8 ist
eine Ansicht, die die Konstruktion der fünften Ausführungsform der vorliegenden
Erfindung zeigt;
-
9 ist
eine Ansicht, die ein Beispiel der Konstruktion des Spektrumumsetzers
in dem Spracherkennungssystem des Standes der Technik zeigt; und
-
10 ist
ein Ablaufplan zur Beschreibung eines Prozesses, der in einer Spektrumanpassungseinheit des
Standes der Technik ausgeführt
wird.
-
BEVORZUGTE AUSFÜHRUNGSFORMEN
DER ERFINDUNG
-
Anhand
der Zeichnung werden nun Ausführungsformen
der vorliegenden Erfindung ausführlich
beschrieben.
-
Ein
System gemäß der vorliegende
Erfindung umfasst allgemein eine Analysatoreinheit 1 zum
Umsetzen eines Eingangssprachsignals in ein Eingangsmuster, das
das Cepstrum enthält,
eine Expansions-/Kontraktionsschätzeinheit 3 zum
Ausgeben eines Expansions-/Kontraktionsparameters in der Frequenzachsenrichtung
unter Verwendung eines Eingangsmusters und eines Referenzmusters
und eine Umsetzereinheit 2 zum Umsetzen eines Eingangsmusters
unter Verwendung eines Expansions-/Kontraktionsparameters.
-
Ferner
umfasst das System eine Anpassungseinheit (d. h. eine Erkennungseinheit 101)
zum Berechnen des Abstands zwischen dem durch den Umsetzer 2 umgesetzten
Eingangsmuster und den Referenzmustern und zum Ausgeben des Referenzmusters,
das dem kürzesten
Abstand entspricht, als Erkennungsergebnis.
-
Die
Expansions-/Kontraktionsschätzeinheit 3 schätzt einen
Expansions-/Kontraktionsparameter unter Verwendung eines in dem
Eingangsmuster enthaltenen Cepstrums. Somit ist es gemäß der vorliegenden
Erfindung weder notwendig, verschiedene Werte im Voraus zu speichern,
wenn der Expansions-/Kontraktionsparameter bestimmt wird, noch,
eine Abstandsberechnung in Verbindung mit verschiedenen Werten auszuführen.
-
Darüber hinaus
umfasst das System gemäß der vorliegenden
Erfindung einen Lernsprachspeicher 201 zum Speichern von
Lernsprachen, einen Analysator 1 zum Empfangen der Lernsprachdaten
von dem Lernsprachspeicher 201 und zum Umsetzen der empfangenen
Daten in ein Eingangsmuster mit Cepstrum, einen Referenzmusterspeicher 4 zum
Speichern von Referenzmustern, eine Expan sions-/Kontraktionsschätzeinheit 3 zum
Ausgeben eines Expansions-/Kontraktionsparameters in der Frequenzachsenrichtung
unter Verwendung des Eingangsmusters und des Referenzmusters, einen
Umsetzer 2 zum Umsetzen eines Eingangsmusters unter Verwendung
des Expansions-/Kontraktionsparameters, einen Referenzmusterspeicher zum
Speichern der Referenzmuster, eine Referenzmuster-Schätzeinheit 202 zum
Aktualisieren des Referenzmusters für Sprache zum Lernen unter
Nutzung des von dem Umsetzer gelieferten Eingangsmusters nach Expansion
oder Kontraktion und der Referenzmuster und eine Wahrscheinlichkeitsbeurteilungseinheit 203 zum Berechnen
des Abstands unter Nutzung des Eingangsmusters nach der Expansion
oder Kontraktion und der Referenzmuster und zum Überwachen von Änderungen
in dem Abstand.
-
1 ist
eine Ansicht, die die Konstruktion eines Spektrumumsetzers in einer
ersten Ausführungsform der
Spracherkennungssystems gemäß der vorliegenden
Erfindung zeigt. Anhand von 1 umfasst
der Spektrumumsetzer in der ersten Ausführungsform des Spracherkennungssystems
einen Analysator 1, einen Umsetzer 2, eine Expansions-/Kontraktionsschätzeinheit 3 und
einen Referenzmusterspeicher 4.
-
Der
Analysator 1 schneidet für jedes vorgegebene Zeitintervall
ein Sprachsignal aus, erhält
unter Verwendung der FFT-Analyse (Analyse mit schneller Fourier-Transformation) oder
der LPC-Analyse (Analyse mit linearer prädiktiver Codierung) die Spektrumkomponente
des ausgeschnittenen Signals, erhält ein Melcepstrum zum Extrahieren
der Einhüllendenkomponente
der Melcepstrum-Komponente durch Umsetzung in die Melskale unter
Berücksichtigung
des menschlichen Hörsinns
und liefert das Melcepstrum, die Änderung darin, die Änderung
in der Änderung
usw. als Eingangsmuster. Der Umsetzer 2 führt durch
Umsetzen des Melcepstrums im Eingangsmuster eine Expansion oder
Kontraktion der Frequenz aus. Es wird nun ausführlich ein Beispiel der in
dem Umsetzer 2 ausgeführten
Umsetzung beschrieben.
-
Gemäß Oppenheim, "Discrete Representation
of Signals", Proc.
IEEE, 60, 681–691,
Juni 1972 (Dokument 4), kann die Frequenzumsetzung mit einem primären vollen
Bandpassfilter, wie sie durch die im Folgenden gegebene Formel (1)
dargestellt ist, unter Verwendung des Cepstrums (das Zeichen c und
Indizes sind Dimensionszahlen des Cepstrums) als ein rekursiver
Ausdruck durch Formel (2) ausgedrückt werden.
-
-
Die
Umsetzung in dem durch Formel (2) gegebenen Cepstrum-Raum ist äquivalent
der Frequenz des durch Formel (1) gegebenen Spektrums. Dementsprechend
führt der
Umsetzer 102 an dem Eingangsmuster mit Formel (1) als Warping-Funktion und mit α in Formel
(1) als Expansions-/Kontraktionsparameter eine Expansion oder Kontraktion
der Spektrumfrequenz ohne direkte Verwendung des Spektrums, sondern
durch Ausführung
der Umsetzung, die durch die aus Formel (1) abgeleitete Formel (2)
gegeben ist, aus. Das nach der Umsetzung erhaltene Eingangsmuster
wird als umgesetztes Eingangsmuster geliefert.
-
Die
Referenzmuster werden in dem Referenzmusterspeicher 4 gespeichert.
Die Referenzmuster können
durch Hidden Markov-Modelle (oder HMMs) oder Zeitreihenreferenzmuster
wie etwa Phonemzeitreihen als phonetische Daten in Wort- oder Phonem-Einheiten
ersetzt werden. In dieser Ausführungsform
sind die Referenzmuster HMMs. Die Daten, die die HMM bilden, können der
Durchschnittsvektor in einer kontinuierlichen Gauß-Verteilung,
die Streuung, die Übergangswahrscheinlichkeit
zwischen Zuständen
usw. sein.
-
Die
Expansions-/Kontraktionsschätzeinheit 3 (die
auch als Expansions-/Kontraktionsparameterschätzeinheit bezeichnet wird)
erhält
unter Verwendung einer HMM, die dem in den Analysator 1 eingegebenen Sprachsignal
entspricht, die Ausrichtung des Eingangsmusters. Mit dem Ausdruck "Ausrichtung" ist die Post-Wahrscheinlichkeit
in jedem Moment und in jedem Zustand des HMM gemeint.
-
Die
Ausrichtung kann unter Verwendung eines solchen gut bekannten Verfahrens
wie des Viterbi-Algorithmus und des Vorwärts/Rückwärts-Algorithmus erhalten werden,
wie sie in "Fundamentals
of Voice Recognition (Teil II), übersetzt
und herausgegeben von Furui, NTT Advanced Technology Co., Ltd.,
1995, S. 102–185
(Dokument 5), beschrieben sind.
-
Der
Expansions-/Kontraktionsparameter wird unter Verwendung der erhaltenen
Ausrichtung, des HHM und des Eingangsmusters erhalten. Der Expansions-/Kontraktionsparameter
wird unter Verwendung von Formel (4) berechnet.
-
-
Formel
(4) wird durch Entwickeln der Rekursionsgleichung von Formel (2)
nach dem Expansions-/Kontraktionsparameter wie in Formel (3), Nähern des
Ergebnisses der Entwicklung mit dem Term ersten Grades von α, Einführen des
Ergebnisses in die Q-Funktion des HMM für die Wahrscheinlichkeitsschätzung wie
in 4 beschrieben und Maximieren der Q-Funktion abgeleitet.
-
Die
somit abgeleitete Funktion ist durch Formel (5) gegeben.
-
-
In
Formel (5) repräsentiert
c den Melcepstrum-Teil des obigen Eingangsmusters, repräsentiert μ den Durchschnittsvektor
des HMM, repräsentiert σ die Streuung des
HMM und repräsentiert γ die Post-Wahrscheinlichkeit
im Moment t und im Zustand j und im gemischten Zustand k als Ausrichtungsdaten.
-
Die
Post-Wahrscheinlichkeit ist im Fall des Vorwärts/Rückwärts-Algorithmus die Anwesenheitswahrscheinlichkeit
in einem bestimmten Moment und in einem bestimmten Zustand und ist
im Fall des Viterbi-Algorithmus im Fall der Anwesenheit in einer
optimalen Route in einem bestimmten Moment und in einer bestimmten
Zeit "1" und ansonsten "0".
-
Obgleich
Formel (1) in dieser Ausführungsform
als die Warping-Funktion gegeben wurde, ist dies keineswegs einschränkend und
ist es gemäß der vorliegenden
Erfindung möglich,
irgendeine Formel anzunehmen. Obgleich die Näherung ersten Grades von Formel
(2) verwendet wurde, um Formel (5) abzuleiten, ist es außerdem ebenfalls
möglich,
Näherungen
zweiten und höheren
Grades zu verwenden.
-
2 ist
ein Ablaufplan zur Erläuterung
des Prozesses in der ersten Ausführungsform
der vorliegenden Erfindung. Anhand der 1 und 2 wird
nun ausführlich
der Gesamtbetrieb der ersten Ausführungsform beschrieben. Nach
der Eingabe eines Sprachsignals (Schritt A101 in 2)
berechnet der Analysator 1 das Eingangsmuster (A102). Daraufhin
berechnet die Expansions-/Kontraktionsschätzeinheit 3 unter
Verwendung des von dem Analysator 1 gelieferten Eingangsmusters
und des eingegebenen HMM (A105) das Expansions-/Kontraktionsmuster
(Schritt A103). Daraufhin erhält
der Umsetzer 2 unter Verwendung der Umsetzungsfunktion
einer der Formeln (2) bis (4) von dem Eingangsmuster von dem Analysator 1 das
umgesetzte Eingangsmuster (Schritt A104). Im Fall der ersten Äußerung ist
der Wert von α "0", während
in den Fällen
der zweiten und folgender Äußerungen
als α Werte
verwendet werden, die von der Expansions-/Kontraktionsschätzeinheit 3 geliefert
werden.
-
Die
erste Ausführungsform
der vorliegenden Erfindung besitzt die folgenden Wirkungen. In der
ersten Ausführungsform
wird das von dem Analysator 1 gelieferte Eingangsmuster
in den Umsetzer 2 eingegeben und können die Spektrumfrequenzexpansion
und -kontraktion in einem Melcepstrum-Bereich ausgeführt werden.
Wo Formel (5) verwendet wird, ist eine wiederholte Berechnung, wie
sie zuvor im Stand der Technik beschrieben wurde, unnötig und
brauchen die Analyse und weitere Prozesse nur einmal ausgeführt zu werden. Somit
ist es möglich,
den Rechenaufwand für
die Expansions-/Kontraktionsparameterschätzung zu verringern.
-
Es
wird nun eine zweite Ausführungsform
der vorliegenden Erfindung beschrieben. 3 ist eine
Ansicht, die die Konstruktion der zweiten Ausführungsform der vorliegenden
Erfindung zeigt. Die zweite Ausführungsform
des Spracherkennungssystems umfasst einen Analysator 1,
einen Umsetzer 2, eine Expansions-/Kontraktionsschätzeinheit 3,
eine Erkennungseinheit 101 und einen Referenzmusterspeicher 4.
Der Analysator 1, ein Umsetzer 2, eine Expansions-/Kontraktionsschätzeinheit 3 und
ein Referenzmusterspeicher 4 sind dieselben wie jene, die
in der Beschreibung der ersten Ausführungsform beschrieben worden
sind. Genauer analysiert der Analysator 1 wie in der ersten
Ausführungsform
das Sprachsignal und berechnet daraufhin das Eingangsmuster und
liefert es. Außerdem
setzt der Umsetzer 2 wie in der ersten Ausführungsform
das Eingangsmuster um und liefert das umgesetzte Eingangsmuster.
Darüber
hinaus werden die durch den Durchschnittsvektor des Eingangsmusters
gebildete HMM, die Streuung usw. wie in der ersten Ausführungsform
als Elemente, die Phoneme repräsentieren,
in dem Referenzmusterspeicher 4 gespeichert.
-
Die
Erkennungseinheit (oder Anpassungseinheit) 101 führt die
Erkennung dadurch aus, dass sie prüft, welches HMM an das von
dem Umsetzer gelieferte umgesetzte Eingangsmuster gut angepasst
ist. Die Anpassung wird durch ein solches gut bekanntes Verfahren
wie den Viterbi-Algorithmus oder den in 4 gezeigten Vorwärts/Rückwärts-Algorithmus
ausgeführt.
-
4 ist
ein Ablaufplan zur Beschreibung der Prozessfolge in der zweiten
Ausführungsform
der vorliegenden Erfindung. Anhand der 3 und 4 wird
ausführlich
der Gesamtbetrieb der zweiten Ausführungsform der vorliegenden
Erfindung beschrieben.
-
Der
Analysator 1 analysiert das Eingangssprachsignal (Schritt
B101 in 4) und berechnet das Eingangsmuster
(Schritt B102). Der Umsetzer 2 erhält von dem von dem Analysator 1 gelieferten
Eingangsmuster unter Verwendung der Umsetzungsfunktion einer der
Formeln (2) bis (4) das umgesetzte Muster (Schritt B103). Im Fall
der ersten Sprache ist der Wert von α "0",
während
im Fall der zweiten und folgender Sprachen als α Warping-Parameterwerte verwendet
werden, die von der Expansions-/Kontraktionsschätzeinheit 3 geliefert
werden. Daraufhin führt
die Er kennungseinheit 101 unter Verwendung des umgesetzten
Eingangsmusters einen Erkennungsprozess aus (Schritt B104). Zu dieser
Zeit wird das HMM von dem Referenzmusterspeicher 4 in die
Erkennungseinheit 101 eingegeben (Schritt B106). Nach dem
Erkennungsprozess berechnet die Expansions-/Kontraktionsparameterschätzeinheit 3 den
Expansions-/Kontraktionsparameter (Schritt B105). Anschließend wird
der Prozess unter Verwendung des erhaltenen Expansions-/Kontraktionsparameters
und des Schritts B105 von dem Spracheingabeprozess in Schritt B101
an wiederholt.
-
Die
zweite Ausführungsform
besitzt die folgende funktionale Wirkung. Die zweite Ausführungsform
der vorliegenden Erfindung umfasst den Spektrumumsetzer 100 und
die Erkennungseinheit 101 in der ersten Ausführungsform.
Somit wird jedes Mal, wenn das Sprachsignal eingegeben wird, der
Wert des Expansions-/Kontraktionsparameters aktualisiert, wobei
es möglich
ist, die Frequenzabweichung in Bezug auf das Referenzmuster zu korrigieren.
Somit ist die Erkennungsleistung verbessert.
-
Außerdem wird
die Expansions-/Kontraktionsparameterschätzung in der zweiten Ausführungsform der
vorliegenden Erfindung unter Verwendung von Formel (5) ausgeführt, um
die Q-Funktion der HMM-Schätzung
maximaler Wahrscheinlichkeit minimal zu machen. Somit kann die Expansions-/Kontraktionsparameterschätzung als
kontinuierliche Werte erhalten werden, sodass im Vergleich zum Fall
der Verwendung zuvor vorbereiteter diskreter Werte eine Erkennungsleistungsverbesserung
erwartet werden kann.
-
Es
wird nun eine dritte Ausführungsform
der vorliegenden Erfindung beschrieben. 5 ist eine
Ansicht, die die Konstruktion der dritten Ausführungsform der vorliegenden
Erfindung zeigt. Anhand von 5 wird die
vorliegende Erfindung in der dritten Ausführungsform auf ein Musterlernsystem
angewendet, das außer
dem Spektrumumsetzer 100 in der ersten Ausführungsform
einen Lernsprachspeicher 201, eine Referenzmuster-Schätzeinheit 202 und
eine Wahrscheinlichkeitsbeurteilungseinheit 203 umfasst.
-
Der
Lernsprachspeicher 201 speichert Sprachsignale, die zum
Lernen des HMM verwendet werden. Die Referenzmuster-Schätzeinheit 20 schätzt unter
Verwendung eines von dem Spektrumumsetzer 100 und von dem
HMM gelieferten umgesetzten Eingangsmusters HMM-Parameter. Die Schätzung kann
eine Schät zung
der höchsten
Wahrscheinlichkeit sein, wie sie in Dokument 4 beschrieben
ist. Die Wahrscheinlichkeitsbeurteilungseinheit 203 enthält Abstände, die
allen Lernsprachsignalen unter Verwendung des umgesetzten Eingangsmusters,
das von dem Spektrumumsetzer 100 und von dem HMM geliefert
wird, entsprechen. Wo die Referenzmuster jene in dem HMM-Fall sind,
wird der Abstand wie in Dokument 5 beschrieben unter Verwendung
eines solchen Verfahrens wie des Viterbi-Algorithmus oder des Vorwärts/Rückwärts-Algorithmus
erhalten.
-
Obgleich
die dritte Ausführungsform
der vorliegenden Erfindung in Verbindung mit dem Lernen des HMM
beschrieben worden ist, ist die vorliegende Erfindung auf das Lernen
irgendeines Parameters anwendbar, der die Spracherkennung betrifft.
-
6 ist
ein Ablaufplan zur Beschreibung des Prozesses in der dritten Ausführungsform
der vorliegenden Erfindung. Anhand der 5 und 6 wird
nun der Gesamtbetrieb der dritten Ausführungsform der vorliegenden
Erfindung ausführlich
beschrieben. Zunächst
wird in den Spektrumanalysator 1 in dem Spektrumumsetzer 100 ein
Lernsprachsignal eingegeben (Schritt C101 in 6). Der
Analysator 1 analysiert das Lernsprachsignal und liefert
ein Eingangsmuster (Schritt C102). Die Expansions-/Kontraktionsschätzeinheit 3 schätzt den
Expansions-/Kontraktionsparameter (Schritt C103). Der Umsetzer 2 führt die
Eingangsmusterumsetzung aus und liefert ein umgesetztes Eingangsmuster
(Schritt C104). Die Referenzmuster-Schätzeinheit 202 führt unter
Verwendung des umgesetzten Eingangsmusters und der HMM die HMM-Schätzung aus (Schritt
C105). Die Wahrscheinlichkeitsbeurteilungseinheit 203 erhält eine
allen Sprachsignalen entsprechende Wahrscheinlichkeit und vergleicht
die Änderung
der Wahrscheinlichkeit und einen Schwellenwert (C106). Wenn die Änderung
der Wahrscheinlichkeit kleiner als der Schwellenwert ist, wird der
Referenzmusterspeicher 4 mit dem in der Referenzmuster-Schätzeinheit 202 geschätzten HMM
aktualisiert, was das Lernen beendet. Wenn die Änderung der Wahrscheinlichkeit
größer als
der Schwellenwert ist, aktualisiert die Wahrscheinlichkeitsbeurteilungseinheit 203 den
Referenzmusterspeicher 4 mit dem durch die Referenzmuster-Schätzeinheit 202 geschätzten HMM
und wird die Folge der Prozesse von dem Lernsprachdateneingabeprozess
an wiederholt (C101).
-
Die
dritte Ausführungsform
der vorliegenden Erfindung besitzt die folgenden Wirkungen. Wenn
in der dritten Ausführungsform
der vorliegenden Erfindung ein Referenzmuster gelernt wird, das
für jeden
Sprecher nach Korrektur der Wirkungen der Frequenzexpansion und
-kontraktion mit einer Warping-Funktion erhalten wird, kann die
Expansions-/Kontraktionsparameterschätzung während des Lernprozesses ausgeführt werden. Somit
ist es möglich,
den Rechenaufwand im Vergleich zum Stand der Technik zu verringern.
Außerdem
wird die für
die Expansions-/Kontraktionsparameterschätzung verwendete Formel (5)
unter Verwendung der höchsten
Wahrscheinlichkeit des HMM abgeleitet und kann sie wie andere HMM-Parameterschätzungsfälle leicht zur
Verwendung während
des Lernens angepasst werden.
-
Es
wird nun eine vierte Ausführungsform
der vorliegenden Erfindung beschrieben. 7 ist eine
Ansicht, die die Konstruktion der vierten Ausführungsform der vorliegenden
Erfindung zeigt. Anhand von 7 umfasst
die vierte Ausführungsform
der vorliegenden Erfindung außer
der Konstruktion der ersten Ausführungsform
einen inversen Umsetzer 45. Der inverse Umsetzer 5 führt durch
inverses Umsetzen der von dem Umsetzer 2 gelieferten expandierten
oder kontrahierten Eingangsmusterzeitreihe eine Sprachqualitätsumsetzung
aus und gibt eine Signalform im Zeitbereich aus.
-
Es
wird nun eine fünfte
Ausführungsform
der vorliegenden Erfindung beschrieben. 8 ist eine
Ansicht, die die Konstruktion der fünften Ausführungsform der vorliegenden
Erfindung zeigt. In der fünften
Ausführungsform
der vorliegenden Erfindung sind die obige erste bis vierte Ausführungsform
des Systems in einer Programmsteuerung verwirklicht, die mit einem
Computer ausgeführt
wird. Anhand von 8 wird im Fall der Verwirklichung
der Prozesse in dem Analysator 1, in dem Umsetzer 2 und
in der Expansions-/Kontraktionsschätzeinheit 3, die in 1 gezeigt
sind, durch Ausführung
eines Programms in einem Computer 10 das Programm von einem
Aufzeichnungsmedium 14 wie etwa von einer CD-ROM, von einer
DVD, von einer FD, von einem Magnetband usw. über eine Aufzeichnungsmedium-Zugriffseinheit 13 in
einen Hauptspeicher 12 des Computers 10 geladen
und in einer CPU 11 ausgeführt. In dem Aufzeichnungsmedium 14 ist
ein Programm zur Ausführung
eines Analyseprozesses zum Umsetzen eines Eingangssprachsignals
in ein Eingangsmuster mit Cepstrum, eines Expansions-/Kontraktionsschätzprozesses
zum Ausgeben eines Expansions-/Kontraktionsparameters in der Frequenzachsenrichtung
unter Verwendung des Eingangsmusters und des in einem Referenzmusterspeicher
gespeicherten Referenzmusters mit dem Computer gespeichert.
-
Alternativ
ist es möglich,
ein Programm zum Veranlassen der Ausführung eines Anpassungsprozesses
des Berechnens des Abstandes zwischen dem nach der Expansion oder
Kontraktion gelieferten Eingangsmuster und jedem Referenzmuster
und des Ausgebens des Referenzmusters, das dem kürzesten Abstand entspricht,
als Erkennungsergebnis mit dem Computer aufzuzeichnen.
-
In
dem Aufzeichnungsmedium kann ein Programm zum Veranlassen der Ausführung der
Anpassungsverarbeitung für
die Abstandsberechnung zwischen dem Eingangsmuster nach der Expansion/Kontraktion
und dem Referenzmuster und zum Ausgeben des Referenzmusters mit
dem minimalen Abstand als ein Erkennungsergebnis mit dem Computer
aufgezeichnet sein.
-
Als
eine andere Alternative ist es möglich,
in dem Aufzeichnungsmedium 14 ein Programm zum Veranlassen
der Ausführung
eines Analyseprozesses zum Umsetzen von Lernsprachdaten, die in
einem Lernsprachspeicher zum Speichern von Lernsprachdaten gespeichert
sind, in ein Eingangsmuster, das ein Cepstrum enthält, eines
Expansions-/Kontraktionsschätzprozesses
zum Ausgeben eines Expansions-/Kontraktionsparameter in der Frequenzachsenrichtung
unter Verwendung des Eingangsmusters und des in einem Referenzmusterspeicher
gespeicherten Referenzmusters, eines Umsetzungsprozesses zum Umsetzen
des Eingangsmusters unter Verwendung des Expansions-/Kontraktionsparameters,
eines Referenzmusterschätzprozesses
zum Aktualisieren des Referenzmusters in Bezug auf die Lernsprache
unter Verwendung eines nach dem Umsetzungsprozess gelieferten expandierten
oder kontrahiertes Eingangsmusters und der Referenzmuster und eines
Wahrscheinlichkeitsbeurteilungsprozesses zum Überwachen von Änderungen
des Abstands durch Berechnen des Abstands unter Nutzung des expandierten
oder kontrahierten Eingangsmusters und des Referenzmusters mit dem
Computer zu speichern. Es ist zu sehen, dass es in der zweiten bis
vierten Ausführungsform
möglich
ist, die gleiche Programmsteuerung zu verwirklichen. Außerdem ist
es möglich,
das Programm über
ein Netz oder ein ähnliches Übertragungsmedium
von einem Server (nicht gezeigt) herunterzuladen. Mit anderen Worten,
als das Aufzeichnungsmedium kann irgendein Aufzeichnungsmedium wie
etwa ein Kommunikationsmedium verwendet werden, so lange es das
Programm halten kann.
-
Wie
im Vorstehenden beschrieben worden ist, ist es gemäß der vorliegenden
Erfindung möglich,
die folgenden Vorteile zu erhalten.
-
Ein
erster Vorteil ist die Verringerung des für die Berechnung des optimalen
Parameters für
die Erkennungsleistung in der Sprachsignalspektrumfrequenzexpansion
oder -kontraktion erforderlichen Rechenaufwands. Dies ist so, da
gemäß der vorliegenden
Erfindung angenommen wird, dass die Umsetzung in einem primären vollen
Bandpass- oder ähnlichen
Filterprozess in Bezug auf die Frequenzachse in Form einer Expansions-/Kontraktionsparameter-Potenzreihe
im Cepstrum-Bereich gelöst
werden kann. Somit kann dann, wenn die Reihe durch eine Funktion
ersten Grades genähert
wird, eine Funktion des Expansions-/Kontraktionsparameters zum Minimieren
der Funktion für
die Schätzung
der höchsten
Wahrscheinlichkeit in einer zur Verwendung für die Berechnung bereiten Funktion
beschrieben werden.
-
Ein
zweiter Vorteil ist, dass ermöglicht
wird, einen Expansions-/Kontraktionsparameter gleichzeitig mit anderen
Parametern zur Zeit des HMM-Lernens zu schätzen. Dies ist so, da die Funktion
zum Berechnen des Expansions-/Kontraktionsparameters gemäß der vorliegenden
Erfindung von der Q-Funktion für
die Schätzung
der höchsten
Wahrscheinlichkeit in der Spracherkennung abgeleitet wird.
-
Dem
Fachmann auf dem Gebiet fallen Änderungen
in der Konstruktion ein, wobei mehrere offensichtlich verschiedene Änderungen
und Ausführungsformen
vorgenommen werden können,
ohne vom Umfang der vorliegenden Erfindung abzuweichen. Der in der
vorstehenden Beschreibung und in der beigefügten Zeichnung dargelegte Gegenstand
wird lediglich zur Veranschaulichung geboten. Somit soll die vorstehende
Beschreibung eher als veranschaulichend als als beschränkend betrachtet
werden.