DE69524321T2 - Spracherkenner - Google Patents

Spracherkenner

Info

Publication number
DE69524321T2
DE69524321T2 DE69524321T DE69524321T DE69524321T2 DE 69524321 T2 DE69524321 T2 DE 69524321T2 DE 69524321 T DE69524321 T DE 69524321T DE 69524321 T DE69524321 T DE 69524321T DE 69524321 T2 DE69524321 T2 DE 69524321T2
Authority
DE
Germany
Prior art keywords
input pattern
pattern
recognition
reference patterns
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69524321T
Other languages
English (en)
Other versions
DE69524321D1 (de
Inventor
Hiroaki Hattori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE69524321D1 publication Critical patent/DE69524321D1/de
Application granted granted Critical
Publication of DE69524321T2 publication Critical patent/DE69524321T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem mit einer Anpassungsfunktion.
  • Bisher sind Anpassungssysteme vorgeschlagen worden, die Sprecher und Umgebungen für Spracherkennungseinrichtungen mit hoher Erkennungsrate für unspezifische Sprecher in verschiedenen Umgebungen anpassen können. Zum Beispiel ist in K. Shikano, K. F. Lee und R. Reddy, "Speaker Adaptation Through Vector Quantization", Proc. ICASSP86, S. 2643-2646 (1986), (das im folgenden als Verfahren 1 bezeichnet wird), ein Verfahren der Sprecheranpassung vorgeschlagen, indem aus dem Ergebnis der Zeitachsen- Zuordnung zwischen einem vektor-quantisierten Eingangsmuster und einem Referenzmuster ein Histogramm zwischen den Codebüchern des Sprechers und eines Referenzsprechers erhalten wird. Außerdem offenbart Alejandro Acero, "Acoustical and Environmental Robustness in Automatic Speech Recognition", Kluwer Academic Publishers, ISBN 0-7923-9234-1 (1993), (das im folgenden als Verfahren 2 bezeichnet wird), ein Anpassungsverfahren verschiedener Eingangsumgebungen, indem die Anpassungsparameter, die die Übertragungsverzerrungen im Bereich des Spektrums und additives Rauschen betreffen, durch die Wahrscheinlichkeitsschätzung erhalten werden. In diesen Systemen ist es notwendig, die Anpassung mit einem bestimmten Volumen der Sprache auszuführen, das als die Sprachdaten für die Anpassung vor der Erkennung mit einem neuen Sprecher oder in einer neuen Umgebung erzeugt wird.
  • Im allgemeinen wird die Sprache des gleichen Sprechers oder der gleichen Sprecherin durch seinen oder ihren physischen Zustand, geistigen Zustand usw. beeinflußt. Außerdem ändern sich bei der Spracherkennung über eine Telephonleitung die Eigenschaften der Leitung und der Pegel des Hintergrundrauschens von Anruf zu Anruf. Es ist deshalb bei der Anpassung des Sprechers und der Umgebung wünschenswert, die Eingangssprache selbst als die Anpassungsdaten zu verwenden. Bei den obenerwähnten Verfahren 1 und 2 ist die Anpassung unter Verwendung des derartigen Gegenstands der Erkennung jedoch infolge der Tatsachen schwierig, daß bestimmte Sprachdaten für die Anpassung notwendig sind, und daß der Anpassungsprozeß eine bestimmte Zeitperiode benötigt.
  • Als ein System, um dieser Schwierigkeit gewachsen zu sein, ist in Takagi u. a., "Speech recognition with environment adaptation function based on spectrum image", Proc. the Acoustical Society of Japan, S. 173-174 (1994, 3), ein Anpassungssystem vorgeschlagen, das die der Erkennung unterliegenden Wörter selbst verwendet (das im folgenden als Verfahren 3 bezeichnet wird). Im Verfahren 3 wird der Unterschied in den Umgebungen extrahiert und als der Unterschied zwischen dem mittleren Spektrum in einer Sprachperiode und dem mittleren Spektrum in einer Rauschperiode angepaßt, so daß es möglich ist, eine stabile Anpassung sogär mit einem Wort ohne Sprachinhalts- Informationen zu erhalten.
  • Eine Operation der Anpassung und Erkennung im Stand der Technik wird nun unter Bezugnahme auf Fig. 8 beschrieben.
  • Die dem Eingangsanschluß 810 zugeführte Sprachsignalform wird in einem Analysator 820 in eine Folge von Merkmalsvektoren umgesetzt. Die auf diese Weise erhaltene Folge der Merkmalsvektoren wird über eine Signalleitung 821 zu einem Eingangsmusterspeicher 830 geliefert und darin als ein Eingangsmuster gespeichert. Zum Zeitpunkt des Ausführens der Anpassung verbindet ein Schalter 840 eine Signalleitung 831 mit einer Signalleitung 842. Eine Referenzmuster-Anpassungseinrichtung 870 führt die Anpassung nach dem Auslesen des Eingangsmusters über die Signalleitung 842 und eines Referenzmusters über eine Signalleitung 851 aus. Das resultierende angepaßte Referenzmuster wird in einem Referenzmusterspeicher 850 gespeichert. Zum Zeitpunkt der Erkennung verbindet ein Schalter 840 die Signalleitung 831 mit einer Signalleitung 841. Eine Erkennungseinrichtung 880 entwickelt das Ähnlichkeitsmaß durch das Anpassen des Eingangsmusters und des Referenzmusters, die über die Signalleitung 841 bzw. eine Signalleitung 852 ausgelesen werden, wobei das Erkennungsergebnis an einen Ausgangsanschluß 890 ausgegeben wird.
  • Selbst beim Verfahren 3 sind jedoch eine Anpassungs- Prozeßzeit und eine Erkennungs-Prozeßzeit nach dem Abschluß der Spracheingabe notwendig. Dies bedeutet, daß es eine relative Zeit erfordert, bis das Erkennungsergebnis erhalten wird, was die Ansprechcharakteristik verschlechtert.
  • Es ist deshalb eine Aufgabe der vorliegenden Erfindung, ein Spracherkennungssystem mit einem Anpassungssystem zu schaffen, das die zuerkennende Sprache selbst verwendet, das eine hohe Erkennungsrate erlaubt, ohne die Ansprechcharakteristik des Systems selbst in dem Fall zu verschlechtern, in dem die Umgebung oder der Sprecher von derjenigen bzw. demjenigen des Referenzmusters verschieden ist.
  • Gemäß der vorliegenden Erfindung, wie sie in den Ansprüchen 1-9 beansprucht ist, wird die Anpassung unter Verwendung der Sprache ausgeführt, die zu erkennen ist (die der Erkennung unterliegende Sprache), um eine ausreichende Ansprechcharakteristik zu sichern, während eine hohe Erkennungsrate erhalten wird. Das Ergebnis der unter Verwendung der vorausgehenden Eingangssprache ausgeführten Anpassung wird für die Vorauserkennung der zu erkennenden Sprache verwendet, wobei dadurch eine Vorausauswahl der Wörter ausgeführt wird, während die Anpassung unter Verwendung der zu erkennenden Sprache ausgeführt wird. In bezug auf die vorausgehend ausgewählten Wörter wird die reguläre Erkennung ausgeführt.
  • Der Betrieb gemäß der vorliegenden Erfindung umfaßt die folgenden Schritte:
  • Schritt 1. Die anfänglichen Referenzmuster werden gesetzt.
  • Schritt 2. Die Eingangssprache analysiert, um ein Eingangsmuster zu erhalten.
  • Schritt 3. Die Vorauserkennung für das Eingangsmuster wird unter Verwendung der Referenzmuster aller der Erkennung unterliegenden Wörter ausgeführt (die Anzahl der Wörter beträgt M), wobei auf diese Weise die besten N Kandidaten erhalten werden.
  • Schritt 4. Die Anpassung des Referenzmusters wird unter Verwendung des Eingangsmusters ausgeführt.
  • Schritt S. Unter Verwendung der angepaßten Referenzmuster wird das Eingangsmuster noch einmal mit den besten N Kandidaten im Vorauserkennungsergebnis erkannt, die als die der Erkennung unterliegenden Wörter verwendet werden, wobei das Ergebnis als das Erkennungsergebnis ausgegeben wird.
  • Schritt 6. Der Schritt 2 und die folgenden Schritte werden wiederholt.
  • Normalerweise können ein Analyseprozeß und ein Spracherkennungsprozeß bis zum Schritt 3 synchron zur Eingangssprache ausgeführt werden. Der Anpassungsprozeß im Schritt 4 und die erneute Erkennung im Schritt S besitzen Wirkungen auf die Ansprechcharakteristik des Spracherkennungssystems. Der Betrag des Prozesses im Schritt 4 ändert sich mit dem verwendeten Anpassungssystem; im Fall der Verwendung des Verfahrens 3 kann der Prozeßbetrag z. B. sehr klein sein.
  • In diesem System werden als die der Erkennung unterliegenden Wörter im Schritt S N vorausgehend ausgewählten Wörter verwendet, wobei folglich durch die Bezeichnung der Anzahl der der Erkennung unterliegenden Wörter mit M der Prozeßbetrag N/M beträgt. Der Faktor der Verkleinerung des Prozeßbetrags hängt von der Genauigkeit der Vorausauswahl ab. Die Vorausauswahl wird durch die Verwendung von Mustern ausgeführt, die unter Verwendung der Eingangssprache bis zur vorhergehenden Sprache angepaßt worden sind. Es ist folglich möglich, eine im hohen Grade genaue Vorausauswahl selbst in dem Fall zu erwarten, in dem das Hintergrundrauschen und die Eigenschaften der Leitung von denjenigen zum Zeitpunkt des Trainings verschieden sind.
  • In dem System, das z. B. ein Echtzeit-Spracherkennungssystem mit 1.000 Erkennungswörtern ist, beträgt der Prozeßbetrag im Schritt 5 1/100 des Betrags im Schritt 3, falls die Anzahl der vorausgehend ausgewählten Wörter 10 beträgt. Folglich kann in einem Spracherkennungssystem, in dem der Schritt 3 den Echtzeitbetrieb zuläßt, eine zweisekündige Eingangssprache in 20 ms erkannt werden. Diese Prozeßzeit verursacht in der Praxis keine Probleme.
  • Die Anpassung, die in diesem System verwendet werden kann, ist nicht auf das System 3 eingeschränkt, in dem die Referenzmuster für Eingangsumgebungen angepaßt sind, sondern es sind verschiedene andere Anpassungssysteme ebenso denkbar. Es ist z. B. möglich, ein System des Anpassens eines Eingangsmusters an eine Umgebung, das das Training der Referenzmuster enthält, oder ein System des Anpassens sowohl der Referenz- als auch Eingangsmuster zu verwenden. Ferner ist es hinsichtlich der Verwendung des Ergebnisses der Vorausauswahl bei der Anpassung ebenso möglich, mehrere Kandidaten oder kein Ergebnis der Vorausauswahl zu verwenden, während das Verfahren 3 die ersten Kandidaten verwendet. Es ist ferner möglich, abermals eine Anpassung durch die Verwendung des Ergebnisses mit höherer Genauigkeit der regulären Erkennung auszuführen.
  • Andere Aufgaben und Merkmale werden von der folgenden Beschreibung unter Bezugnahme auf die beigefügte Zeichnung klargestellt:
  • Fig. 1 zeigt eine erste Ausführungsform der Spracherkennungseinrichtung gemäß der vorliegenden Erfindung;
  • Fig. 2 zeigt eine zweite Ausführungsform der Spracherkennungseinrichtung gemäß der vorliegenden Erfindung;
  • Fig. 3 zeigt eine dritte Ausführungsform der Spracherkennungseinrichtung gemäß der vorliegenden Erfindung;
  • Fig. 4 zeigt eine vierte Ausführungsform der vorliegenden Erfindung der Spracherkennungseinrichtung;
  • Fig. 5 zeigt eine fünfte Ausführungsform der vorliegenden Erfindung der Spracherkennungseinrichtung;
  • Fig. 6 zeigt eine sechste Ausführungsform der vorliegenden Erfindung der Spracherkennungseinrichtung;
  • Fig. 7 zeigt eine siebente Ausführungsform der vorliegenden Erfindung der Spracherkennungseinrichtung; und
  • Fig. 8 zeigt eine herkömmliche Spracherkennungseinrichtung.
  • Fig. 1 zeigt eine erste. Ausführungsform der vorliegenden Erfindung. Die an einen Eingangsanschluß 110 gelieferte Sprachsignalform (X&sub1;, ..., XN) wird durch einen Analysator 120 in eine Folge von Merkmalsvektoren umgesetzt. Als die Merkmalsvektoren können die Cepstren oder die LPC- Koeffizienten, die durch FFT-Analyse, lineare Vorhersageanalyse usw. erhalten werden können, oder die zeitlichen Variationen dieser Parameter verwendet werden. Die auf diese Weise erhaltenen Merkmalsvektoren werden über eine Signalleitung 121 an einen Eingangsmusterspeicher 130 geliefert und darin als das Eingangsmuster gespeichert, wobei sie außerdem über eine Signalleitung 122 an eine Vorauserkennungseinrichtung 160 geliefert werden.
  • Die Vorauserkennungseinrichtung 160 führt auf der Grundlage der über eine Signalleitung 122 gelieferten Merkmalsvektoren und aller über eine Signalleitung 153 aus einem Referenzmusterspeicher 150 ausgelesenen Referenzmuster eine Vorauserkennung aus, um die besten N Kandidaten in der Reihenfolge höherer Ähnlichkeiten zu erhalten.
  • Eine Referenzmuster-Anpassungseinrichtung 170 führt die Anpassung auf der Grundlage des über eine Signalleitung 132 ausgelesenen Eingangsmusters, den über eine Signalleitung 161 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und der über eine Signalleitung 151 ausgelesenen Referenzmuster aus. Die auf diese Weise angepaßten Referenzmuster werden in einem Referenzmusterspeicher 150 gespeichert.
  • Im Fall der Verwendung des Verfahrens 3 wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer. Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Sgektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall des Referenzmuster der Sprache wie:
  • Im Fall des Referenzmusters des Rauschens wie:
  • k = Nv,k,
  • wobei Sk die k-te Frequenzkomponente des Spektrums S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv in einer Sprachperiode des Eingangsmusters, den mittleren Merkmalsvektor Nv in einer Rauschperiode des Eingangsmusters, den mittleren Merkmalsvektor Sw in einer Sprachperiode des Referenzmusters und den mittleren Merkmalsvektor Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • = S + Sv - Sw,
  • und im Fall des Referenzmusters des Rauschens wie:
  • S = S + Nv - Nw.
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden.
  • Eine zweite oder Enderkennungseinrichtung 180 erhält das Ähnlichkeitsmaß durch den Anpassungsprozeß für das über eine Signalleitung 131 ausgelesene Eingangsmuster, die über eine Signalleitung 162 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und die über eine Signalleitung 152 gelieferten Referenzmuster. Das Erkennungsergebnis wird an den Ausgangsanschluß 190 ausgegeben.
  • Fig. 2 zeigt eine zweite Ausführungsform der vorliegenden Erfindung. Die an einen Eingangsanschluß 210 gelieferte .Sprachsignalform (X&sub1;, ..., XN) wird durch einen Analysator 220 in eine Folge von Merkmalsvektoren umgesetzt. Die auf diese Weise erhaltenen Merkmalsvektoren werden über eine Signalleitung 221 an einen Eingangsmusterspeicher 230 geliefert und darin als das Eingangsmuster gespeichert, wobei sie außerdem über eine Signalleitung 232 an eine Vorauserkennungseinrichtung 260 geliefert werden.
  • Die Vorauserkennungseinrichtung 260 führt auf der Grundlage der über eine Signalleitung 222 gelieferten Merkmalsvektoren und aller über eine Signalleitung 253 aus einem Referenzmusterspeicher 250 ausgelesenen Referenzmuster eine Vorauserkennung aus, um die besten N Kandidaten in der Reihenfolge höherer Ähnlichkeiten zu erhalten.
  • Eine Eingangsmuster-Anpassungseinrichtung 295 führt die Anpassung des Eingangsmusters auf der Grundlage des über eine Signalleitung 231 ausgelesenen Eingangsmusters, der über eine Signalleitung 263 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und der über eine Signalleitung 251 ausgelesenen Referenzmuster aus. Das auf diese Weise angepaßte Eingangsmuster wird an eine Signalleitung 296 ausgegeben.
  • Im Fall der Verwendung des Verfahrens 3 für die Anpassung des Eingangsmusters wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S des Eingangsmusters wie folgt angepaßt:
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv des Eingangsmusters und den mittleren Merkmalsvektor Sw des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S des Eingangsmusters wie folgt angepaßt:
  • = S + Sw - Sv
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden.
  • Eine zweite oder Enderkennungseinrichtung 280 liest das angepaßte Eingangsmuster über eine Signalleitung 296, die über eine Signalleitung 264 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und die Referenzmuster der besten Kandidaten über eine Signalleitung 252 aus und führt die Erkennung durch die Anpassung aus. Das Erkennungsergebnis wird an einen Ausgangsanschluß 290 ausgegeben.
  • Fig. 3 zeigt eine dritte Ausführungsform der vorliegenden Erfindung. Die an einen Eingangsanschluß 310 gelieferte Sprachsignalform (X&sub1;, ..., XN) wird durch einen Analysator 320 in eine Folge von Merkmalsvektoren umgesetzt. Die auf diese Weise erhaltenen Merkmalsvektoren werden über eine Signalleitung 321 an einen Eingangsmusterspeicher 330 geliefert und darin als das Eingangsmuster gespeichert, wobei sie außerdem über eine Signalleitung 322 an eine Vorauserkennungseinrichtung 360 geliefert werden.
  • Die Vorauserkennungseinrichtung 360 führt auf der Grundlage der über eine Signalleitung 322 gelieferten Merkmalsvektoren und aller über eine Signalleitung 353 aus einem Referenzmusterspeicher 350 ausgelesenen Referenzmuster eine Vorauserkennung aus, um die besten N Kandidaten in der Reihenfolge höherer Ähnlichkeiten zu erhalten.
  • Eine Eingangsmuster-Anpassungseinrichtung 395 führt die Anpassung des Eingangsmusters auf der Grundlage des über eine Signalleitung 331 ausgelesenen Eingangsmusters, der über eine Signalleitung 363 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und der über eine Signalleitung 354 ausgelesenen Referenzmuster aus. Das auf diese Weise angepaßte Eingangsmuster wird an eine Signalleitung 396 ausgegeben.
  • Im Fall der Verwendung des Verfahrens 3 für die Anpassung des Eingangsmusters wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S aller Referenzmuster wie folgt angepaßt:
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist. Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv des Eingangsmusters und den mittleren Merkmalsvektor Sw des Referenzmusters zu erhalten. Unter Verwendung dieser werden die Merkmalsspektren S des Eingangsmusters wie folgt angepaßt:
  • = S + (Sw - Sv)/2
  • Eine Referenzmuster-Anpassungseinrichtung 370 führt die Anpassung auf der Grundlage des über eine Signalleitung 332 ausgelesenen Eingangsmusters, der über eine Signalleitung 361 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und der über eine Signalleitung 351 ausgelesenen Referenzmuster aus. Die auf diese Weise angepaßten Referenzmuster werden in einem Referenzmusterspeicher 350 gespeichert.
  • Im Fall der Verwendung des Verfahrens 3 wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • und im Fall der Referenzmuster des Rauschens wie:
  • k = (Sk + Nv,k)/2,
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv in einer Sprachperiode des Eingangsmusters, den mittleren Merkmalsvektor Nv in einer Rauschperiode des Eingangsmusters, den mittleren Merkmalsvektor Sw in einer Sprachperiode des Referenzmusters und den mittleren Merkmalsvektor Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • = S + (sv - Sw)/2,
  • und im Fall der Referenzmuster des Rauschens wie:
  • = s + (Nv - Nw)/2.
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden.
  • Eine zweite oder Enderkennungseinrichtung 380 erhält das Ähnlichkeitsmaß durch das Anpassen durch das Auslesen des angepaßten Eingangsmusters über eine Signalleitung 396, der über eine Signalleitung 362 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und der Referenzmuster der besten Kandidaten über eine Signalleitung 352. Das Erkennungsergebnis wird an einen Ausgangsanschluß 390 ausgegeben.
  • Fig. 4 zeigt eine vierte Ausführungsform der vorliegenden Erfindung. Die an einen Eingangsanschluß 410 gelieferte Sprachsignalform (X&sub1;, ..., XN) wird durch einen Analysator 420 in eine Folge von Merkmalsvektoren umgesetzt. Die auf diese Weise erhaltenen Merkmalsvektoren werden über eine Signalleitung 421 an einen Eingangsmusterspeicher 430 geliefert und darin als das Eingangsmuster gespeichert, wobei sie außerdem über eine Signalleitung 422 an eine Vorauserkennungseinrichtung 460 geliefert werden.
  • Die Vorauserkennungseinrichtung 460 führt auf der Grundlage der über eine Signalleitung 422 gelieferten Merkmalsvektoren und aller über eine Signalleitung 453 aus einem Referenzmusterspeicher 450 ausgelesenen Referenzmuster eine Vorauserkennung aus, um die besten N Kandidaten in der Reihenfolge höherer Ähnlichkeiten zu erhalten.
  • Eine Referenzmuster-Anpassungseinrichtung 470 führt die Anpassung aus, indem sie einen Schalter 479 mit einer Signalleitung 461 verbindet und die besten N Kandidaten im Ergebnis der Vorauserkennung über die Signalleitung 461, das Eingangsmuster über eine Signalleitung 433 und die Referenzmuster über eine Signalleitung 451 ausliest. Die auf diese Weise angepaßten Referenzmuster werden in einem Referenzmusterspeicher 450 gespeichert.
  • Im Fall der Verwendung des Verfahrens 3 wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • und im Fall der Referenzmuster des Rauschens wie:
  • k = Nv,k,
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv in einer Sprachperiode des Eingangsmusters, den mittleren Merkmalsvektor Nv in einer Rauschperiode des Eingangsmusters, den mittleren Merkmalsvektor Sw in einer Sprachperiode des Referenzmusters und den mittleren Merkmalsvektor Nw in einer - Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • = S + Sv - SW,
  • und im Fall der Referenzmuster des Rauschens wie:
  • = S + Nv - Nw.
  • Eine zweite oder Enderkennungseinrichtung 480 erhält das Ähnlichkeitsmaß durch das Anpassen für das über eine Signalleitung 431 ausgelesene Eingangsmuster, die über eine Signalleitung 462 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und die über eine Signalleitung 452 gelieferten Referenzmuster der besten Kandidaten. Das Erkennungsergebnis wird an einen Ausgangsanschluß 490 ausgegeben.
  • Eine Referenzmuster-Anpassungseinrichtung 470 führt dann die Anpassung noch einmal aus, indem sie einen Schalter 479 mit einer Signalleitung 482 verbindet und das Erkennungsergebnis in der zweiten oder Enderkennungseinrichtung 480 über eine Signalleitung 482, das Eingangsmuster über eine Signalleitung 433 und die Referenzmuster über die Signalleitung 451 ausliest, wobei die angepaßten Referenzmuster im Referenzmusterspeicher 450 gespeichert werden, um für die nächste Eingabe bereit zu sein.
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden. Insbesondere kann in diesem Fall die Anpassung bis zur nächsten Spracheingabe abgeschlossen sein, wobei es folglich möglich ist, ein Anpassungssystem zu verwenden, das mit einem großen Prozeßbetrag umgeht. Ferner ist es möglich, anstatt das Ergebnis der Enderkennung zu verwenden, die Ergebnisse einer Anwenderbestätigung oder -korrektur des Ergebnisses der Enderkennungseinrichtung zu verwenden.
  • Fig. 5 zeigt eine fünfte Ausführungsform der vorliegenden Erfindung. Die an einen Eingangsanschluß 510 gelieferte Sprachsignalform (X&sub1;, ..., XN) wird durch einen Analysator 520 in eine Folge von Merkmalsvektoren umgesetzt. Die auf diese Weise erhalten Merkmalsvektoren werden über eine Signalleitung 521 an einen Eingangsmusterspeicher 530 geliefert und darin als das Eingangsmuster gespeichert, wobei sie außerdem über eine Signalleitung 522 an eine Vorauserkennungseinrichtung 560 geliefert werden.
  • Die Vorauserkennungseinrichtung 560 führt auf der Grundlage der über eine Signalleitung 522 gelieferten Merkmalsvektoren und aller über eine Signalleitung 553 aus einem Referenzmusterspeicher 550 ausgelesenen Referenzmuster eine Vorauserkennung aus, um die besten N Kandidaten in der Reihenfolge höherer Ähnlichkeiten zu erhalten.
  • Eine Eingangsmuster-Anpassungseinrichtung 595 führt die Anpassung des Eingangsmusters auf der Grundlage des über eine Signalleitung 531 ausgelesenen Eingangsmusters, der über eine Signalleitung 563 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und der über eine Signalleitung 551 ausgelesenen Referenzmuster aus. Das auf diese Weise angepaßte Eingangsmuster wird an eine Signalleitung 596 ausgegeben.
  • Im Fall der Verwendung des Verfahrens 3 als das Anpassungsverfahren für das Eingangsmuster wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum SV in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S des Eingangsmusters wie folgt angepaßt:
  • wobei Sk die k-te Frequenzkomponente der Spektren 5 ist. Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv des Eingangsmusters und den mittleren Merkmalsvektor Sw des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S des Eingangsmusters wie folgt angepaßt:
  • = S + Sw - Sv,
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpässen der Referenzmuster zu verwenden.
  • Eine Enderkennungseinrichtung 580 empfängt über eine Signalleitung 596 das Eingangsmuster, über eine Signalleitung 562 die besten N Kandidaten im Ergebnis der Vorauserkennung und über eine Signalleitung 552 die Referenzmuster der besten Kandidaten, wobei sie die Anpassung für die Erkennung ausführt. Das Erkennungsergebnis wird an einen Ausgangsanschluß 590 ausgegeben.
  • Eine Referenzmuster-Anpassungseinrichtung 570 führt dann die Anpassung auf der Grundlage des über eine Signalleitung 582 gelieferten Erkennungsergebnisses in der Enderkennungseinrichtung 580, des über eine Signalleitung 533 ausgelesenen Eingangsmusters und der über eine Signalleitung 554 ausgelesenen Referenzmuster aus. Die auf dieses Weise angepaßten Referenzmuster werden in einem Referenzmusterspeicher 550 gespeichert, um für die nächste Eingabe bereit zu sein.
  • Im Fall der Verwendung des Verfahrens 3 wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • Im Fall der Referenzmuster des Rauschens wie:
  • k = Nv,k,
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv des Eingangsmusters und den mittleren Merkmalsvektor Sw des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • = S + Sv - Sw.
  • Im Fall der Referenzmuster des Rauschens wie:
  • = S + Nv - Nw.
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden. Insbesondere kann in diesem Fall die Anpassung bis zur nächsten Spracheingabe abgeschlossen sein, wobei es folglich möglich ist, ein Anpassungssystem zu verwenden, das mit einem großen Prozeßbetrag umgeht. Ferner ist es möglich, anstatt das Ergebnis der zweiten oder Enderkennung zu verwenden, die Ergebnisse einer Anwenderbestätigung oder -korrektur des Ergebnisses der zweiten oder Enderkennungseinrichtung zu verwenden.
  • Fig. 6 zeigt eine sechste Ausführungsform der vorliegenden Erfindung. Die an einen Eingangsanschluß 610 gelieferte Sprachsignalform (X&sub1;, ..., XN) wird durch einen Analysator 620 in eine Folge von Merkmalsvektoren umgesetzt. Die auf diese Weise erhalten Merkmalsvektoren werden über eine Signalleitung 621 an einen Eingangsmusterspeicher 630 geliefert und darin als das Eingangsmuster gespeichert, wobei sie außerdem über eine Signalleitung 622 an eine Vorauserkennungseinrichtung 660 geliefert werden.
  • Die Vorauserkennungseinrichtung 660 führt auf der Grundlage der über eine Signalleitung 622 gelieferten Merkmalsvektoren und aller aus einem Referenzmusterspeicher 650 ausgelesenen Referenzmuster eine Vorauserkennung aus, um die besten N Kandidaten in der Reihenfolge höherer Ähnlichkeiten zu erhalten.
  • Eine Eingangsmuster-Anpassungseinrichtung 695 führt die Anpassung des Eingangsmusters auf der Grundlage des über eine Signalleitung 631 ausgelesenen Eingangsmusters, der über eine Signalleitung 663 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und der über eine Signalleitung 651 ausgelesenen Referenzmuster aus. Das auf diese Weise angepaßte Eingangsmuster wird an eine Signalleitung 696 ausgegeben.
  • Im Fall der Verwendung des Verfahrens 3 als das Anpassungsverfahren für die Eingangsmuster wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S aller Referenzmuster wie folgt angepaßt:
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv des Eingangsmusters und den mittleren Merkmalsvektor Sw des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S des Eingangsmusters wie folgt angepaßt:
  • = S + (Sw - Sv)/2
  • Eine Referenzmuster-Anpassungseinrichtung 670 führt die Anpassung aus, indem sie einen Schalter 679 mit einer Signalleitung 661 verbindet und das Eingangsmuster über eine Signalleitung 632, die im Ergebnis der Vorauserkennung gelieferten besten N Kandidaten über, die Signalleitung 661 und die Referenzmuster über eine Signalleitung 654 ausliest. Die angepaßten Referenzmuster werden im Referenzmusterspeicher 650 gespeichert.
  • Im Fall der Verwendung des Verfahrens 3 für die Anpassung wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren 5 aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • und im Fall der Referenzmuster des Rauschens wie:
  • k = (Sk + Nv,k)/2.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv in einer Sprachperiode des Eingangsmusters, den mittleren Merkmalsvektor Nv in einer Rauschperiode des Eingangsmusters, den mittleren Merkmalsvektor Sw in einer Sprachperiode des Referenzmusters und den mittleren Merkmalsvektor Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren 5 aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • = S + (Sv - Sw)/2,
  • und im Fall der Referenzmuster des Rauschens wie:
  • = S + (Nv - Nw)/2.
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden.
  • Eine zweite oder Enderkennungseinrichtung 680 empfängt das angepaßte Eingangsmuster über eine Signalleitung 696, die besten N Kandidaten im Ergebnis der Vorauserkennung über eine Signalleitung 662 und die Referenzmuster der besten N Kandidaten über eine Signalleitung 652, wobei sie die Anpassung für die Erkennung ausführt. Das Erkennungsergebnis wird an einen Ausgangsanschluß 690 ausgegeben.
  • Eine Referenzmuster-Anpassungseinrichtung 670 führt dann die Anpassung aus, indem sie einen Schalter 679 mit einer Signalleitung 682 verbindet und das Erkennungsergebnis in der zweiten oder Enderkennungseinrichtung 680 über die Signalleitung 682, das Eingangsmuster über eine Signalleitung 632 und die Referenzmuster über eine Signalleitung 654 ausliest. Die angepaßten Referenzmuster werden im Referenzmusterspeicher 650 gespeichert, um für die nächste Eingabe bereit zu sein.
  • Im Fall der Verwendung des Verfahrens 3 als das Anpassungsverfahren wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der Kandidaten mit dem besten Ergebnis und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • und im Fall der Referenzmuster des Rauschens wie:
  • k = Nv,k,
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv in einer Sprachperiode des Eingangsmusters, den mittleren Merkmalsvektor Nv in einer Rauschperiode des Eingangsmusters, den mittleren Merkmalsvektor Sw in einer Sprachperiode des Referenzmusters und den mittleren Merkmalsvektor Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • = S + Sv - Sw,
  • und im Fall der Referenzmuster des Rauschens wie:
  • = S + Nv - Nw.
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden. Insbesondere kann in diesem Fall die Anpassung bis zur nächsten Spracheingabe abgeschlossen sein, wobei es folglich möglich ist, ein Anpassungssystem zu verwenden, das mit einem großen Prozeßbetrag umgeht. Ferner ist es möglich, anstatt das Ergebnis der zweiten oder Enderkennung zu verwenden, die Ergebnisse einer Anwenderbestätigung oder -korrektur des Ergebnisses der Enderkennungseinrichtung zu verwenden.
  • Fig. 7 zeigt eine siebente Ausführungsform der vorliegenden Erfindung. Die an einen Eingangsanschluß 710 gelieferte Sprachsignalform (X&sub1;, ..., XN) wird durch einen Analysator 720 in eine Folge von Merkmalsvektoren umgesetzt. Die auf diese Weise erhalten Merkmalsvektoren werden über eine Signalleitung 721 an einen Eingangsmusterspeicher 730 geliefert und darin als das Eingangsmuster gespeichert, wobei sie außerdem über eine Signalleitung 722 an eine Vorauserkennungseinrichtung 760 geliefert werden.
  • Die Vorauserkennungseinrichtung 760 führt auf der Grundlage der über eine Signalleitung 722 gelieferten Merkmalsvektoren und aller aus einem Referenzmusterspeicher 750 ausgelesenen Referenzmuster eine Vorauserkennung aus, um die besten N Kandidaten in der Reihenfolge höherer Ähnlichkeiten zu erhalten.
  • Eine Eingangsmuster-Anpassungseinrichtung 795 führt die Anpassung des Eingangsmusters auf der Grundlage des über eine Signalleitung 731 ausgelesenen Eingangsmusters, der über eine Signalleitung 763 gelieferten besten N Kandidaten im Ergebnis der Vorauserkennung und der über eine Signalleitung 751 ausgelesenen Referenzmuster aus. Das auf diese Weise angepaßte Eingangsmuster wird an eine. Signalleitung 786 ausgegeben.
  • Im Fall der Verwendung des Verfahrens 3 wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S des Eingangsmusters wie folgt angepaßt:
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv des Eingangsmusters und den mittleren Merkmalsvektor Sw des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S des Eingangsmusters wie folgt angepaßt:
  • = S + (Sw - Sv)/2
  • Eine Referenzmuster-Anpassungseinrichtung 770 verbindet einen Schalter 779 mit einer Signalleitung 761, um das Eingangsmuster über eine Signalleitung 732, die besten N Kandidaten im Ergebnis der Vorauserkennung über eine Signalleitung 761 und die Referenzmuster über eine Signalleitung 754 auszulesen, wobei sie auf ihrer Grundlage die Anpassung ausführt. Die auf diese Weise angepaßten Referenzmuster werden in einem Referenzmusterspeicher 750 gespeichert.
  • Im Fall der Verwendung des Verfahrens 3 als dem Anpassungsverfahren wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S des Eingangsmusters wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • und im Fall der Referenzmuster des Rauschens wie:
  • k = (Sk + Nv,k)/2,
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist. Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv in einer Sprachperiode des Eingangsmusters, den mittleren Merkmalsvektor Nv in einer Rauschperiode des Eingangsmusters, den mittleren Merkmalsvektor %, in einer Sprachperiode des Referenzmusters und den mittleren Merkmalsvektor Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • = S + (Sv - Sw)/2,
  • und im Fall der Referenzmuster des Rauschens wie:
  • = S + (Nv - Nw)/2.
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden.
  • Eine zweite oder Enderkennungseinrichtung 780 empfängt das angepaßte Eingangsmuster über eine Signalleitung 786, die besten N Kandidaten im Ergebnis der Vorauserkennung über eine Signalleitung 762 und die Referenzmuster der Kandidaten über eine Signalleitung 752, wobei sie die Anpassung für die Erkennung ausführt. Das Erkennungsergebnis wird an einen Ausgangsanschluß 790 ausgegeben.
  • Eine Bestätigungseinrichtung 740 empfängt das endgültige Erkennungsergebnis über eine Signalleitung 782 und das Ergebnis einer Anwenderbestätigung für das Erkennungsergebnis in der zweiten oder Enderkennungseinrichtung 780 über einen Anschluß 745, korrigiert das endgültige Erkennungsergebnis, falls das endgültige Erkennungsergebnis falsch ist, und gibt das richtige Erkennungsergebnis an eine Signalleitung 741 aus.
  • Eine Referenzmuster-Anpassungseinrichtung 770 führt dann die Anpassung aus, indem sie einen Schalter 779 mit einer Signalleitung 741 verbindet und das richtige Erkennungsergebnis über die Signalleitung 741, das Eingangsmuster über eine Signalleitung 732 und die Referenzmuster über eine Signalleitung 754 ausliest. Die angepaßten Referenzmuster werden im Referenzmusterspeicher 750 gespeichert, um für die nächste Eingabe bereit zu sein.
  • Im Fall der Verwendung des Verfahrens 3 als das Anpassungsverfahren wird z. B. eine Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um das mittlere Spektrum Sv in einer Sprachperiode des Eingangsmusters, das mittlere Spektrum Nv in einer Rauschperiode des Eingangsmusters, das mittlere Spektrum Sw in einer Sprachperiode des Referenzmusters und das mittlere Spektrum Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Spektren werden die Spektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Spräche wie:
  • und im Fall der Referenzmuster des Rauschens wie:
  • Sk = Nv,k,
  • wobei Sk die k-te Frequenzkomponente der Spektren S ist.
  • Alternativ wird die Zeitachsen-Zuordnung zwischen dem Referenzmuster der besten Kandidaten und dem Eingangsmuster ausgeführt, um den mittleren Merkmalsvektor Sv in einer Sprachperiode des Eingangsmusters, den mittleren Merkmalsvektor Nv in einer Rauschperiode des Eingangsmusters, den mittleren Merkmalsvektor Sw in einer Sprachperiode des Referenzmusters und den mittleren Merkmalsvektor Nw in einer Rauschperiode des Referenzmusters zu erhalten. Unter Verwendung dieser Merkmalsspektren werden die Merkmalsspektren S aller Referenzmuster wie folgt angepaßt:
  • Im Fall der Referenzmuster der Sprache wie:
  • = S + Sv - Sw,
  • und im Fall der Referenzmuster des Rauschens wie:
  • = S + Nv - Nw.
  • Während zwei Beispiele des Anpassungssystems oben als Systeme angegeben sind, die verwendet werden können, sind sie auf keinen Fall einschränkend, wobei es möglich ist, verschiedene andere Anpassungssysteme ebenso für das Anpassen der Referenzmuster zu verwenden. Insbesondere kann in diesem Fall die Anpassung bis zur nächsten Spracheingabe abgeschlossen sein, wobei es folglich möglich ist, ein Anpassungssystem zu verwenden, das mit einem großen Prozeßbetrag umgeht.
  • Weil in diesem Fall die Anpassung immer unter Verwendung des richtigen Erkennungsergebnisses ausgeführt wird, ist es möglich, eine Anpassung mit einer höheren Genauigkeit zu erhalten und die Erkennungsgenauigkeit zu verbessern.
  • Wie oben beschrieben worden ist, wird in der vorliegenden Erfindung die Anpassung unter Verwendung der Eingangssprache bis zu einem bestimmten Zeitpunkt ausgeführt, die Vorauserkennung der zu erkennenden Sprache des nächsten Zeitpunkts wird für die Vorausauswahl der Wörter ausgeführt, während die Anpassung unter Verwendung der zu erkennenden Sprache ausgeführt wird. Es ist folglich möglich, eine endgültige Erkennung in bezug auf die vorbereitend ausgewählten Wörter zu erhalten, wobei folglich eine hohe Erkennungsrate erlaubt wird, ohne das Ansprechmerkmal des Systems selbst in dem Fall einer Umgebung herabzusetzen, die von derjenigen des trainierten Referenzmusters verschieden ist.
  • Dem Fachmann werden Änderungen in der Konstruktion einfallen, wobei mehrere offensichtlich verschiedene Modifikationen und Ausführungsformen ausgeführt werden können, ohne vom Umfang der Erfindung abzuweichen, wie er durch die beigefügten Ansprüche definiert ist. Der in der vorangehenden Beschreibung dargelegte Stoff und die beigefügte Zeichnung werden lediglich zum Zweck der Veranschaulichung angeboten. Es ist deshalb beabsichtigt, daß die vorangehende Beschreibung als veranschaulichend anstatt als einschränkend betrachtet wird.

Claims (9)

1. Spracherkennungssystem, mit:
einem Sprachsignalform-Analysator (120) zum Umsetzen einer Eingangssprache-Signalform in Merkmalsvektoren;
einem Eingangsmusterspeicher (130) zum Speichern der Merkmalsvektoren als ein Eingangsmuster;
einem Referenzmusterspeicher (150) zum Speichern von Referenzmustern von der Erkennung unterliegenden Wörtern;
einer Vorauserkennungseinrichtung (160) zum Erhalten des Ähnlichkeitsmaßes zwischen dem Eingangsmuster und den Referenzmustern und zum Ausgeben wenigstens eines besten Kandidaten;
einer Referenzmuster-Anpassungseinrichtung (161) zum Ausführen der Anpassung der Referenzmuster auf der Grundlage der Referenzmuster, des Eingangsmusters und der besten Kandidaten und zum erneuten Speichern der angepaßten Referenzmuster als Referenzmuster im Referenzmusterspeicher (150); und
einer Enderkennungseinrichtung (180) zum Ausführen der Spracherkennung der besten Kandidaten unter Verwendung der Referenzmuster und des Eingangsmusters.
2. Spracherkennungssystem, mit:
einem Sprachsignalform-Analysator (220) zum Umsetzen einer Eingangssprache-Signalform in Merkmalsvektoren;
einem Eingangsmusterspeicher (230) zum Speichern der Merkmalsvektoren als ein Eingangsmuster;
einem Referenzmusterspeicher (253) zum Speichern von Referenzmustern von der Erkennung unterliegenden Wörtern;
einer Vorauserkennungseinrichtung (260) zum Erhalten des Ähnlichkeitsmaßes zwischen dem Eingangsmuster und den Referenzmustern und zum Ausgeben wenigstens eines besten Kandidaten;
einer Eingangsmuster-Anpassungseinrichtung (295) zum Ausführen einer Anpassung des Eingangsmusters auf der Grundlage der Referenzmuster, des Eingangsmusters und der besten Kandidaten; und
einer zweiten oder Enderkennungseinrichtung (280) zum Ausführen der Spracherkennung der besten Kandidaten auf der Grundlage der Referenzmuster und des angepaßten Eingangsmusters.
3. Spracherkennungssystem nach Anspruch 2, ferner mit: einer Referenzmuster-Anpassungseinrichtung (370) zum Ausführen einer Anpassung der Referenzmuster auf der Grundlage der Referenzmuster, des Eingangsmusters und der besten Kandidaten und zum erneuten Speichern der angepaßten Referenzmuster als Referenzmuster im Referenzmusterspeicher.
4. Spracherkennungssystem nach Anspruch 1, ferner mit einem Schalter (479) zum Eingeben des Kandidaten, der in der Vorauserkennungseinrichtung (460) erhalten wird, und des Erkennungsergebnisses der zweiten oder Enderkennungseinrichtung (480) in die Referenzmuster- Anpassungseinrichtung (470), wobei die Anpassung der Referenzmuster unter Verwendung des Eingangsmusters im Eingangsmusterspeicher und der besten Kandidaten oder des Erkennungsergebnisses ausgeführt wird.
5. Spracherkennungssystem nach Anspruch 3, wobei die Anpassung des Referenzmusters auf der Grundlage des Eingangsmusters im Eingangsmusterspeicher, der Referenzmuster im Referenzmusterspeicher und des Erkennungsergebnisses in der zweiten oder Enderkennungseinrichtung ausgeführt wird.
6. Spracherkennungssystem nach Anspruch 1, wobei die Anpassung der Referenzmuster unter Verwendung des Eingangsmusters im Eingangsmusterspeicher (130), der Referenzmuster im Referenzmusterspeicher (150) und des Erkennungsergebnisses in der zweiten oder Enderkennungseinrichtung (180) ausgeführt wird.
7. Spracherkennungssystem nach Anspruch 4, 5 oder 6, das ferner eine Eingabeeinheit (745) zum Eingeben des Ergebnisses einer Anwenderbestätigung und/oder -korrektur des Erkennungsergebnisses in der zweiten oder Enderkennungseinrichtung (780) und eine Erkennungseinrichtung (740) zum Erkennen des korrigierten Ergebnisses umfaßt, wobei die Referenzmuster-Anpassungseinrichtung (770) die Anpassung der Referenzmuster unter Verwendung der besten Kandidaten in der Vorauserkennungseinrichtung (760) oder des Erkennungsergebnisses in der Erkennungseinrichtung (740), des Eingangsmusters im Eingangsmusterspeicher (730) und der Referenzmuster im Referenzmusterspeicher (750) ausgeführt wird.
8. Spracherkennungsverfahren, das die folgenden Schritte umfaßt:
1) Setzen eines anfänglichen Referenzmusters;
2) Analysieren einer Eingangssprache-Signalform, um ein Eingangsmuster zu erhalten;
3) Ausführen einer Vorauserkennung für das Eingangsmuster unter Verwendung von Referenzmustern von mehreren der Erkennung unterliegenden Wörtern, um mehrere Kandidaten zu erhalten;
4) Ausführen einer Referenzmuster-Anpassung unter Verwendung des Eingangsmusters;
5) erneutes Erkennen unter Verwendung der angepaßten Referenzmuster des Eingangsmusters mit den besten Kandidaten des Vorauserkennungsergebnisses, die als die der Erkennung unterliegenden Wörter verwendet werden, und Ausgeben des Ergebnisses als Erkennungsergebnis; und
6) Wiederholender Schritte 2 bis 5, bis ein zufriedenstellendes Erkennungsergebnis erhalten wird.
9. Computerprogramm, das einen Programmcode enthält, der so beschaffen ist, daß er die Verfahrensschritte nach Anspruch 8 ausführt, wenn er auf einem Computer läuft.
DE69524321T 1994-09-08 1995-09-08 Spracherkenner Expired - Fee Related DE69524321T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6214836A JP2768274B2 (ja) 1994-09-08 1994-09-08 音声認識装置

Publications (2)

Publication Number Publication Date
DE69524321D1 DE69524321D1 (de) 2002-01-17
DE69524321T2 true DE69524321T2 (de) 2002-07-18

Family

ID=16662349

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69524321T Expired - Fee Related DE69524321T2 (de) 1994-09-08 1995-09-08 Spracherkenner

Country Status (4)

Country Link
US (1) US5778340A (de)
EP (1) EP0701245B1 (de)
JP (1) JP2768274B2 (de)
DE (1) DE69524321T2 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
JPH10254486A (ja) * 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US6757652B1 (en) * 1998-03-03 2004-06-29 Koninklijke Philips Electronics N.V. Multiple stage speech recognizer
US6826350B1 (en) * 1998-06-01 2004-11-30 Nippon Telegraph And Telephone Corporation High-speed signal search method device and recording medium for the same
JP3156668B2 (ja) * 1998-06-19 2001-04-16 日本電気株式会社 音声認識装置
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
DE60022976T2 (de) * 1999-07-08 2006-07-06 Koninklijke Philips Electronics N.V. Spracherkennungseinrichtung mit transfermitteln
KR100408524B1 (ko) * 2001-08-22 2003-12-06 삼성전자주식회사 음성인식방법 및 그 장치
US20070124143A1 (en) * 2003-10-08 2007-05-31 Koninkijkle Phillips Electronics, N.V. Adaptation of environment mismatch for speech recognition systems
US20060031067A1 (en) * 2004-08-05 2006-02-09 Nissan Motor Co., Ltd. Sound input device
US20060242016A1 (en) * 2005-01-14 2006-10-26 Tremor Media Llc Dynamic advertisement system and method
WO2007056451A2 (en) * 2005-11-07 2007-05-18 Scanscout, Inc. Techniques for rendering advertisments with rich media
US8762148B2 (en) * 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
US20080109391A1 (en) * 2006-11-07 2008-05-08 Scanscout, Inc. Classifying content based on mood
US8549550B2 (en) 2008-09-17 2013-10-01 Tubemogul, Inc. Method and apparatus for passively monitoring online video viewing and viewer behavior
US8577996B2 (en) * 2007-09-18 2013-11-05 Tremor Video, Inc. Method and apparatus for tracing users of online video web sites
US20090259551A1 (en) * 2008-04-11 2009-10-15 Tremor Media, Inc. System and method for inserting advertisements from multiple ad servers via a master component
US9612995B2 (en) 2008-09-17 2017-04-04 Adobe Systems Incorporated Video viewer targeting based on preference similarity
US20110093783A1 (en) * 2009-10-16 2011-04-21 Charles Parra Method and system for linking media components
WO2012057809A2 (en) * 2009-11-20 2012-05-03 Tadashi Yonezaki Methods and apparatus for optimizing advertisement allocation
DE102014210716A1 (de) * 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
JP2852298B2 (ja) * 1990-07-31 1999-01-27 日本電気株式会社 標準パターン適応化方式
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data

Also Published As

Publication number Publication date
DE69524321D1 (de) 2002-01-17
EP0701245A3 (de) 1997-11-05
US5778340A (en) 1998-07-07
JP2768274B2 (ja) 1998-06-25
EP0701245B1 (de) 2001-12-05
EP0701245A2 (de) 1996-03-13
JPH0876785A (ja) 1996-03-22

Similar Documents

Publication Publication Date Title
DE69524321T2 (de) Spracherkenner
DE69705830T2 (de) Sprachverarbeitung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE60004331T2 (de) Sprecher-erkennung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69423588T2 (de) Spracherkennungsgerät
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE2953262C2 (de)
DE69800006T2 (de) Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69806557T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69616568T2 (de) Mustererkennung
DE69318447T2 (de) Erkennungssystem
DE69229124T2 (de) Mehrteiliger expertsystem
DE102008017993A1 (de) Sprachsuchvorrichtung
DE69614233T2 (de) Sprachadaptionssystem und Spracherkenner
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE112018006885T5 (de) Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee