DE3878895T2 - Verfahren und einrichtung zur spracherkennung. - Google Patents

Verfahren und einrichtung zur spracherkennung.

Info

Publication number
DE3878895T2
DE3878895T2 DE8888907725T DE3878895T DE3878895T2 DE 3878895 T2 DE3878895 T2 DE 3878895T2 DE 8888907725 T DE8888907725 T DE 8888907725T DE 3878895 T DE3878895 T DE 3878895T DE 3878895 T2 DE3878895 T2 DE 3878895T2
Authority
DE
Germany
Prior art keywords
time
symbols
speech
coded
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE8888907725T
Other languages
English (en)
Other versions
DE3878895D1 (de
Inventor
Reginald Alfred King
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Domain Dynamics Ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of DE3878895D1 publication Critical patent/DE3878895D1/de
Application granted granted Critical
Publication of DE3878895T2 publication Critical patent/DE3878895T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Electric Clocks (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Spracherkennung.
  • Geräte zur Spracherkennung sind bekannt. Jedoch sind Geräte, die nach dem Prinzip arbeiten, daß sie die Laute mit Hilfe von Filtern in Frequenzbänder zerlegen und dann die Energieniveaus in jedem Band analysieren, relativ teuer. Daneben wurde auch von Systemen zum Erkennen isolierter Wörter berichtet, die auf zeitcodierter Sprache (TES) beruhen und deshalb nicht auf das Prinzip der Zerlegung von Lauten in Freguenzbänder angewiesen sind.
  • Ein System und Verfahren zum Erkennen isolierter Wörter, das zeitcodierte Sprache benutzt, wird in der Veröffentlichung "Verification, Archetype Updating, and Automatic Token Set Selection, as a means of improving the performance of Menu Driven Tsolated Word Recognition Systems using Time Encoded Speech Descriptors in High Acoustic Noise Backgrounds" von R.C. Power, R.D. Hughes und R.A. King aus "Proceedings of The International Conference Speech Input/Output Techniques and Applications" (1986), Seiten 144-151, beschrieben.
  • Zeitcodierte Sprache ist eine Art der Sprachkurvenformcodierung. Die Sprachkurvenform wird in zwischen aufeinanderfolgenden echten Nullen liegende Zeitintervalle (Epochen) zerteilt. Der Code besteht für jede Epoche der Kurvenform aus einem einzigen digitalen Wort. Dieses Wort leitet sich von zwei Parametern der Epoche ab, nämlich ihrer quantisierten Zeitdauer und ihrer Form. Das Maß für die Dauer ist naheliegend und zur Beschreibung der Form werden die Epochen normalerweise an Hand der Anzahl der darin auftretenden positiven Minima oder negativen Maxima eingeteilt. Die Zahl der bei diesem Verfahren erzeugten, natürlicherweise auftretenden unterscheidbaren Symbole kann dann der Wirtschaftlichkeit halber in nicht linearer Weise auf eine viel kleinere Anzahl (Alphabet) von Codedeskriptoren abgebildet werden. Ein Algorithmus zur Durchführung einer anfänglichen Codierung mit zeitcodierter Sprache wird in der Veröffentlichung "Time Encoded Speech (TES) Descriptors as a Symbol Feature Set for Voice Recognition Systems" von J. Holbeche, R.D. Hughes und R.A. King aus "Proceedings of The International Conference Speech Input/Output Techniques and Applications" (1986), Seiten 310-315, beschrieben.
  • Das Codieren von Sprachsignalen in Form von zeitcodierter Sprache ist aus EP-A-0 141 497 bekannt, worin auch das Vergleichen von Parametern der zeitcodierten Sprache mit in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen, wodurch ein Ausgangssignal geschaffen wird, das auf die Beschaffenheit des Sprachsignals schließen läßt, offenbart wird.
  • Auf zeitcodierter Sprache basierende Systeme zum Erkennen isolierter Wörter haben gegenüber Systemen, die auf dem Zerlegen nach Frequenzen beruhen, viele Vorteile und sind in Umgebungen mit vielen Nebengeräuschen besonders vorteilhaft. Jedoch stoßen diese Systeme manchmal an Grenzen, wenn es um die Fähigkeit des Erkennens zusammengesetzter oder kontinuierlich aufeinanderfolgender Wörter geht.
  • Deshalb ist es verständlich, daß zur Bewältigung der Aufgabe des Erkennens zusammengesetzter oder kontinuierlich aufeinanderfolgender Wörter ein verbessertes, auf zeitcodierter Sprache (TES) beruhendes Spracherkennungssystem benötigt wird. Es ist Aufgabe der Erfindung, ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Erkennen von Sprachsignalen, insbesondere von in Form von zeitcodierter Sprache codierten Sprachsignalen, zu schaffen.
  • Demgemäß wird ein Verfahren zum Erkennen von in zeitcodierter Sprache codierten Sprachsignalen geschaffen, bei dem eine Folge zeitcodierter Sprachsymbole in eine Anzahl von Zeitrahmen fester Länge aufgeteilt wird und ein jeder Zeitrahmen eine Vielzahl von Suchschaltungen passiert, wobei jede Suchschaltung zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert ist und die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind, dabei die Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist, untersucht werden, danach in Abhängigkeit von den als vorhanden oder fehlend erkannten akustischen Ereignissen Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen festgelegt werden und schließlich die Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen verglichen werden, wodurch ein Ausgangssignal geschaffen wird, das auf die Beschaffenheit des Sprachsignals schließen läßt. Außerdem wird eine Vorrichtung zum Erkennen von in Form von zeitcodierter Sprache codierten Sprachsignalen mit einer Empfängervorrichtung zum Empfangen einer Folge von zeitcodierten Sprachsymbolen und zum Aufteilen der Folge in eine Anzahl von Zeitrahmen fester Länge, einer Vielzahl von Suchschaltungen, die zum Empfang der Zeitrahmen ausgebildet und zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert sind, wobei die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind, einer Einteilungsvorrichtung zum Untersuchen der Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen und zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist, einer Untergliederungsvorrichtung zum Festlegen von Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen, einer Vergleichsvorrichtung zum Vergleichen der Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen und einer Ausgabevorrichtung zur Schaffung eines Ausgangssignals als Ergebnis des Vergleichs, das auf die Beschaffenheit des Sprachsignals schließen läßt, geschaffen.
  • Vorzugsweise beinhalten die Untergliederungsgrenzen in der Folge der zeitcodierten Sprachsymbole aufeinanderfolgende Untergliederungsgrenzen.
  • Die Erfindung soll nun an Hand von Beispielen beschrieben werden, wobei auf die beiliegenden Zeichnungen Bezug genommen wird, von denen Figur 1 eine A-Matrix darstellt, die als zweidimensionales Modell die Verteilung der zeitcodierten Symbole für die ganze Wörter repräsentierenden Prototypen "one" und "three" wiedergibt.
  • Figur 2 zeigt die Verteilung der zeitcodierten Sprachsymbole für das Wort "six";
  • Figur 3 zeigt einen Vergleich der Gesamtwortmatrix mit den Segmentmatrizen desselben vollständigen Wortes;
  • Figur 4 ist eine graphische Darstellung der Gesamtwortmatrix und der Segmentmatrizen nach Figur 3;
  • Figur 5 zeigt die erfindungsgemäße Vorrichtung zum Erkennen kontinuierlich aufeinanderfolgender Wörter;
  • Figur 6 zeigt Beispiele für die dem Verfahren der Erfindung entsprechende Untergliederung der Wörter "zero" und "nine";
  • Figur 7 zeigt für das Wort "zero" eine graphische Darstellung der zeitlichen Verteilung der zeitcodierten Sprachsymbole;
  • Figur 8 zeigt einen mit Dynamic-Time-Warping vorgenommenen Vergleich zwischen zwei Wörtern; und
  • Figur 9 zeigt die Matrizen der durch dynamische Programmierung erhaltenen Distanzwerte für verschiedene Äußerungen.
  • Systeme zum Erkennen isolierter Wörter, die zeitcodierte Sprache benutzen, verwenden üblicherweise eine auf der Basis zeitcodierter Sprache arbeitende Erkennervorrichtung, die gemäß Figur 1 aus A-Matrizen Prototypen oder Modelle von Gesamtwörtern bildet. Die A-Matrix- Darstellung einer Äußerung oder eines akustischen Ereignisses ist ein zweidimensionales Modell, das die Verteilung der TES-Symbole zweiter Ordnung wiedergibt, obwohl auch Modelle höherer Dimension verwendet werden können.
  • Die von jedem vollständigen Wort, das erkannt werden soll, erhaltenen Daten werden zu einer einzigen Matrix zusammengeschlossen und dann werden Wortvergleiche zwischen dem eingegebenen Wort und gespeicherten Prototypen, die zum Beispiel während einer Trainingsphase erzeugt worden sind, durchgeführt. Jedoch stoßen solche Systeme, wie bereits festgestellt, bei der Bewältigung der Aufgabe zusammengesetzte oder kontinuierlich aufeinanderfolgende Wörter zu erkennen unter Umständen an Grenzen, da ganze Wörter miteinander verglichen werden.
  • Eine Untersuchung der vielen zur Verfügung stehenden Möglichkeiten zur Implementierung von TES-Systemen zur kontinuierlichen Worterkennung hat ergeben, daß die Folge der TES-Symbole sich in Bereiche oder Segmente zerlegen läßt, die durch Untergliederungsgrenzen definiert sind, innerhalb der die Verteilung der TES-Symbole einigermaßen statisch ist. Mit diesem Untergliederungsverfahren läßt sich eine kleine Zahl gut bevölkerter A-Matrizen oder Matrizen höherer Ordnung in chronologischer Reihenfolge erstellen, die als Grundlage zur kontinuierlichen Worterkennung dienen können. Figur 3 zeigt Beispiele solcher chronologischer Matrizen im Vergleich mit einer A-Matrix für dasselbe vollständige Wort, während Figur 4 eine graphische Darstellung der Verteilung der TES-Symbole für die Segment- und die Gesamtwortmatrizen zeigt.
  • Figur 2 zeigt die TES-Codeverteilung für das Wort "six", wobei der TES-Code in Zeitrahmen von 10 Millisekunden, numeriert von 1 bis 79, zerlegt wird. Bei dieser Beschreibung des Wortes "six" mit zeitcodierter Sprache werden die Zeitrahmen nicht als A-Matrizen, sondern als einfache Häufigkeitsverteilung erster Ordnung hinsichtlich der 29 möglichen Symbole des TES-Codes dargestellt. Das Symbol 29 ist in diesem Beispiel ein spezielles Symbol, das Epochen, deren Amplitude unter einer voreingestellten Schwelle bleibt, vorbehalten ist und Stille repräsentieren soll. Aus diesem Beispiel ist ersichtlich, daß der Redefluß in dieser Form völlig natürlich in Segmente mit ungefähr derselben TES-Codeverteilung gegliedert ist, aus denen sich A-Matrizen bilden lassen, wobei die Dauer einiger Segmente bis zu 300 Millisekunden beträgt. Erfindungsgemäß werden aus relativ ähnlichen TES-Codeverteilungen A-Matrizen oder Matrizen höherer Ordnung gebildet, um durch Wortvergleich mit bekannten Prototypen unter Verwendung von Dynamic- Time-Warping oder Techniken der dynamischen Programmierung eine kontinuierliche Worterkennung zu erreichen. Diese Begriffe werden in der vorliegenden Beschreibung nicht erläutert, da davon ausgegangen wird, daß sie von Personen, die mit Sprachcodierung und Spracherkennung vertraut sind, verstanden werden.
  • In dem gegenwärtig beschriebenen Ausführungsbeispiel der Erfindung wird die Aufteilung der Folge von TES-Symbolen in Segmente mit einer relativ ähnlichen TES-Codeverteilung durch Verwenden einer Vielzahl von unabhängigen, parallel geschalteten Suchschaltungen, wie sie in Figur 5 gezeigt sind, erreicht. Jede Suchschaltung ist zum Erfassen eines den zu erkennenden Sprachsignalen entsprechenden akustischen Ereignisses, wie zum Beispiel stimmhaften und stimmlosen akustischen Ereignissen, Stille oder Amplitude, optimiert. Darüberhinaus können vor dem Treffen von Entscheidungen über die verschiedenen Klassen akustischer Ereignisse Vorverarbeitungstechniken für die Signale eingesetzt werden. Zum Beispiel kann für die "stimmlosen Ereignisse das Signal zum Hervorheben jeglicher vorhandenen hohen Frequenzen vor dem Codieren differenziert werden. Alternativ dazu oder zusätzlich kann für die Suchschaltung für "stimmhafte" Ereignisse das Signal zum Verstärken jeglicher vorhandenen niederfrequenten Anteile vor dem Codieren integriert werden. Darüberhinaus können nach dem Codieren verschiedene Möglichkeiten der numerischen Filterung zur Verbesserung der Fähigkeit der Suchschaltungen, das ankommende Sprachsignal konsistent einzuordnen, angewandt werden.
  • Jede Suchschaltung ist dazu ausgebildet, in Übereinstimmung mit einem Unterteilungsalgorithmus zu arbeiten. Das Eingangssignal für jede Suchschaltung umfasst eine Zeichenfolge aus TES-Symbolen, die gemäß Figur 2 in Zeitrahmen fester Länge, zum Beispiel 10 bis 20 Millisekunden, aufgeteilt ist. Die Verteilung der TES-Symbole eines jeden Zeitrahmens wird untersucht, um eine einfache dichotomische Entscheidung zu erhalten, nämlich, ist das akustische Ereignis, für das eine Suchschaltung optimiert ist, "vorhanden" oder "nicht vorhanden".
  • Das Ausgangssignal einer jeden Suchschaltung liegt im Binärcode vor, wobei das Ergebnis eines Zeitrahmens wahr ist, falls angenommen wird, daß der Zeitrahmen die akustischen Parameter enthält, für die eine Suchschaltung optimiert ist und die deshalb vom gesuchten Typ sind. Dann wird ein Untergliederungsalgorithmus angewendet, der auf die codierten Ausgangssignale der Suchschaltungen wirkt und entscheidet, wo die Untergliederungsgrenzen innerhalb der Folge der TES-Symbole gesetzt werden sollen, woraus die A-Matrizen gebildet werden. Zu diesem Zweck kann ein relativ einfacher Algorithmus benutzt werden, dessen Funktionsweise zum Beispiel darin bestehen kann, daß er nach Bereichen übereinstimmender, aufeinanderfolgender Deskriptoren sucht und zwischen diese Untergliederungsgrenzen setzt, wobei vorzugsweise jedes Segment eine Mindestlänge haben sollte. Figur 6 zeigt für die Wörter "zero" und "nine" ein Beispiel von Untergliederung.
  • Figur 7 zeigt für das Wort "zero" eine graphische Darstellung der zeitlichen Verteilung der TES-Symbole, in der die Grenzen der in diesem gesprochenen Wort auftretenden akustischen Ereignisse deutlich veranschaulicht sind und nach der die Untergliederungsentscheidungen gefällt werden.
  • Simultan zum Untergliederungsverfahren wird ein gesonderter Codierungspfad untersucht, der für den Vergleich der A-Matrizen am Schluß optimiert ist. Für das laufende Segment wird eine A-Matrix berechnet und sobald eine Untergliederungsgrenze gesetzt wird, wird die Matrix geschlossen und die Daten gehen in die nächste ein. Das Endergebnis ist eine Serie von A-Matrizen, die variable Zeitscheiben von Anfang bis Ende der Äußerung darstellen. Die Dauer eines jeden Segments wird gespeichert, zusammen mit seinem A-Matrix-Deskriptor.
  • Wenn für jede Äußerung die A-Matrizen berechnet worden sind, werden zwischen den unbekannten Äußerungen und den Prototypen für die bekannten Wörter Vergleiche durchgeführt. Gegenwärtig werden diese Prototypen aus einzelnen Äußerungen eines jeden Wortes gebildet, aber es können Routinen zum Paarigkeitsvergleich angewendet werden, die erlauben, mehr als ein Wort zusammenzuschließen.
  • Eine Vergleichsroutine, Dynamic-Time-Warping, stellt grundsätzlich eine einfache Annäherung dar, die einen folgendermaßen definierten Distanzwert benutzt:
  • wobei A = ai,j , B = bi,j die miteinander zu vergleichenden A-Matrizen sind.
  • Figur 8 zeigt ein Beispiel für einen Wortvergleich auf der Grundlage von Dynamic-Time-Warping, wobei die an jedem Ende der miteinander verglichenen Wörter auftretenden, durch Stille charakterisierten Segmente der Klarheit wegen weggelassen wurden. Die variable Länge der Segmente stellt eine ungewöhnliche Komplikation dar, der durch Gewichten der aus der Paarigkeitsvergleichstabelle berechneten kumulierten Mindestabstände mit der Dauer der betrachteten Segmente begegnet werden kann. Figur 9 zeigt einige Beispiele für Vergleichsmatrizen.
  • Die Bauelemente und Suchschaltungen des TES-Codierers können unter Verwendung von hochintegrierter komplementärer MOS-Technik implementiert werden. Das macht deutlich, daß bei der Realisierung solcher Techniken der parallelen Verarbeitung im Vergleich zu Erkennervorrichtungen mit Einkanal-Spektralzerlegung nur geringe Kosten entstehen.
  • Es ist darauf hinzuweisen, daß, auch wenn die Erfindung im Hinblick auf ein bestimmtes Ausführungsbeispiel beschrieben wurde, Abwandlungen innerhalb des durch die Patentansprüche definierten Geltungsbereichs der Erfindung möglich sind. Zum Beispiel können zusätzliche Suchschaltungen verwendet werden, von denen jede für einen bestimmten Parameter der stimmhaften oder stimmlosen akustischen Ereignisse optimiert ist. Darüberhinaus können auch andere Untergliederungs und Vergleichsroutinen als die beschriebenen verwendet werden. Zusätzlich kann der Vergleich zwischen den zeitlichen A-Matrizen und den gespeicherten Prototypen auf anderem Wege als durch direkten Vergleich der TES-Symbole erfolgen. Jeder Parameter der mit zeitcodierter Sprache codierten Symbole kann für einen Vergleich herangezogen werden. Es können Symbolereignisdeskriptoren verwendet werden, die Gruppen von TES-Symbolen in jeglicher Kombination, Ableitungen von TES-Symbolen oder Kombinationen aus beidem umfassen können. Alternativ dazu kann die Beziehung zwischen den Trajektorien, denen in den Matrizen ein Satz von Parametern folgt, verwendet werden.

Claims (19)

1. Verfahren zum Erkennen von in zeitcodierter Sprache codierten Sprachsignalen, bei dem eine Folge zeitcodierter Sprachsymbole in eine Anzahl von Zeitrahmen fester Länge aufgeteilt wird und ein jeder Zeitrahmen eine Vielzahl von Suchschaltungen passiert, wobei jede Suchschaltung zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert ist und die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind, dabei die Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist, untersucht werden, danach in Abhängigkeit von den als vorhanden oder fehlend erkannten akustischen Ereignissen Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen festgelegt werden und schließlich die Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen verglichen werden, wodurch ein Ausgangssignal geschaffen wird, das auf die Beschaffenheit des Sprachsignals schließen läßt.
2. Verfahren nach Anspruch 1, bei dem die Untergliederungsgrenzen in der Folge der zeitcodierten Sprachsymbole aufeinanderfolgende Untergliederungsgrenzen beinhalten.
3. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein akustisches Ereignis unter den Sprachsignalen, für das mindestens eine Suchschaltung optimiert ist, Stille umfasst.
4. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein akustisches Ereignis unter den Sprachsignalen, für das mindestens eine Suchschaltung optimiert ist, die Amplitude umfasst.
5. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein akustisches Ereignis unter den Sprachsignalen, für das mindestens eine Suchschaltung optimiert ist, stimmhaften Ereignissen entspricht.
6. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein akustisches Ereignis unter den Sprachsignalen, für das mindestens eine Suchschaltung optimiert ist, stimmlosen Ereignissen entspricht.
7. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Sprachsignale vor der Verarbeitung durch die Suchschaltungen differenziert werden, um die Hochfrequenzanteile der Sprachsignale hervorzuheben.
8. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Sprachsignale vor der Verarbeitung durch die Suchschaltungen integriert werden, um die Niederfrequenzanteile der Sprachsignale hervorzuheben.
9. Verfahren nach einem der vorangehenden Ansprüche, bei dem jede Suchschaltung dazu ausgebildet ist, in Übereinstimmung mit einem Unterteilungsalgorithmus zu bewirken, daß die Untergliederungsgrenzen zum Definieren von Segmenten innerhalb der Folge von zeitcodierten Symbolen zwischen die Bereiche übereinstimmender, aufeinanderfolgender Deskriptoren gesetzt werden, und bei dem die Länge eines jeden auf diese Weise bestimmten Segments eine vorbestimmte Mindestlänge überschreitet.
10. Verfahren nach einem der vorangehenden Ansprüche, bei dem für jedes Segment, das innerhalb der Folge von zeitcodierten Symbolen festgestellt wird, eine Matrix berechnet wird und für jede Matrix ein Deskriptor zur Identifizierung der Matrix erzeugt wird und Daten, die über die Dauer eines jeden Segments Auskunft geben, zusammen mit dem jeweiligen Matrix-Deskriptor gespeichert werden.
11. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Parameter der Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen mit Hilfe der Dynamic-Time- Warping-Methode verglichen werden.
12. Verfahren nach Anspruch 11, bei dem jedes Segment, um einen Vergleich zu erleichtern, in Abhängigkeit von seiner Dauer gewichtet wird.
13. Verfahren nach einem der Ansprüche 1 bis 12, bei dem die Parameter der zeitcodierten Sprachsymbole aus Symbolereignisdeskriptoren bestehen.
14. Verfahren nach Anspruch 13, bei dem die Symbolereignisdeskriptoren Gruppen zeitcodierter Symbole in jeglicher Kombination umfassen.
15. Verfahren nach Anspruch 13, bei dem die Symbolereignisdeskriptoren Ableitungen der zeitcodierten Symbole umfassen.
16. Verfahren nach Anspruch 13, bei dem die Symbolereignisdeskriptoren Ableitungen zeitcodierter Symbole und zeitcodierte Symbole oder Gruppen zeitcodierter Symbole in Kombination enthalten.
17. Vorrichtung zum Erkennen von in Form von zeitcodierter Sprache codierten Sprachsignalen mit einer Empfängervorrichtung zum Empfangen einer Folge von zeitcodierten Sprachsymbolen und zum Aufteilen der Folge in eine Anzahl von Zeitrahmen fester Länge, einer Vielzahl von Suchschaltungen, die zum Empfang der Zeitrahmen ausgebildet und zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert sind, wobei die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind,
einer Einteilungsvorrichtung zum Untersuchen der Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen und zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist,
einer Untergliederungsvorrichtung zum Festlegen von Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen,
einer Vergleichsvorrichtung zum Vergleichen der Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen und
einer Ausgabevorrichtung zur Schaffung eines Ausgangssignals als Ergebnis des Vergleichs, das auf die Beschaffenheit des Sprachsignals schließen läßt.
18. Vorrichtung nach Anspruch 17, die darüberhinaus eine Verarbeitungseinrichtung zum Hervorheben der niederfrequenten und/oder hochfrequenten Anteile der zu erkennenden Sprachsignale enthält.
19. Vorrichtung nach Anspruch 17 oder 18, bei der die Suchschaltungen integrierte Schaltelemente enthalten.
DE8888907725T 1987-09-01 1988-09-01 Verfahren und einrichtung zur spracherkennung. Expired - Fee Related DE3878895T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB878720527A GB8720527D0 (en) 1987-09-01 1987-09-01 Voice recognition
PCT/GB1988/000718 WO1989002146A1 (en) 1987-09-01 1988-09-01 Improvements in or relating to apparatus and methods for voice recognition

Publications (2)

Publication Number Publication Date
DE3878895D1 DE3878895D1 (de) 1993-04-08
DE3878895T2 true DE3878895T2 (de) 1993-09-09

Family

ID=10623101

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8888907725T Expired - Fee Related DE3878895T2 (de) 1987-09-01 1988-09-01 Verfahren und einrichtung zur spracherkennung.

Country Status (6)

Country Link
US (1) US5101434A (de)
EP (1) EP0338035B1 (de)
AT (1) ATE86406T1 (de)
DE (1) DE3878895T2 (de)
GB (1) GB8720527D0 (de)
WO (1) WO1989002146A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278944A (en) * 1992-07-15 1994-01-11 Kokusai Electric Co., Ltd. Speech coding circuit
US5680506A (en) * 1994-12-29 1997-10-21 Lucent Technologies Inc. Apparatus and method for speech signal analysis
US5805674A (en) * 1995-01-26 1998-09-08 Anderson, Jr.; Victor C. Security arrangement and method for controlling access to a protected system
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US6301562B1 (en) * 1999-04-27 2001-10-09 New Transducers Limited Speech recognition using both time encoding and HMM in parallel
JP2001109489A (ja) * 1999-08-03 2001-04-20 Canon Inc 音声情報処理方法、装置および記憶媒体
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
AU2002307533B2 (en) * 2001-05-10 2008-01-31 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
KR20050059766A (ko) * 2003-12-15 2005-06-21 엘지전자 주식회사 동적 시간 워핑을 이용한 음성 인식 방법
JP4573792B2 (ja) * 2006-03-29 2010-11-04 富士通株式会社 ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
US9454976B2 (en) * 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3679830A (en) * 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector
DE3166082D1 (en) * 1980-12-09 1984-10-18 Secretary Industry Brit Speech recognition systems
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4763278A (en) * 1983-04-13 1988-08-09 Texas Instruments Incorporated Speaker-independent word recognizer
GB2145864B (en) * 1983-09-01 1987-09-03 King Reginald Alfred Voice recognition
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
IT1179093B (it) * 1984-09-03 1987-09-16 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per il riconoscimento senza addestramento preventivo di parole connesse appartenenti a piccoli vocabolari
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system

Also Published As

Publication number Publication date
GB8720527D0 (en) 1987-10-07
DE3878895D1 (de) 1993-04-08
US5101434A (en) 1992-03-31
EP0338035A1 (de) 1989-10-25
WO1989002146A1 (en) 1989-03-09
ATE86406T1 (de) 1993-03-15
EP0338035B1 (de) 1993-03-03

Similar Documents

Publication Publication Date Title
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
EP1405222B1 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2918533A1 (de) Spracherkennungssystem
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
DE10030105A1 (de) Spracherkennungseinrichtung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE3750365T2 (de) Sprecheridentifizierung.
DE3733391C2 (de)
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE3711342A1 (de) Verfahren zum erkennen zusammenhaengend gesprochener woerter
DE69026474T2 (de) System zur Spracherkennung
DE2719175A1 (de) Schallanalysiereinrichtung
DE1937464A1 (de) Sprachanalysiergeraet
DE4209296A1 (de) Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: DOMAIN DYNAMICS LTD., BACUP, LANCASHIRE, GB

8381 Inventor (new situation)

Free format text: KING, REGINALD ALFRED, WOOLSTONE, FARINGDON (OXON), GB

8339 Ceased/non-payment of the annual fee