DE3241541C1 - Vorrichtung zur Spracherkennung - Google Patents

Vorrichtung zur Spracherkennung

Info

Publication number
DE3241541C1
DE3241541C1 DE19823241541 DE3241541A DE3241541C1 DE 3241541 C1 DE3241541 C1 DE 3241541C1 DE 19823241541 DE19823241541 DE 19823241541 DE 3241541 A DE3241541 A DE 3241541A DE 3241541 C1 DE3241541 C1 DE 3241541C1
Authority
DE
Germany
Prior art keywords
word
words
matrix
speaker
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19823241541
Other languages
English (en)
Inventor
Burkhard 5400 Koblenz Theisen
Werner Dr. Theisen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19823241541 priority Critical patent/DE3241541C1/de
Application granted granted Critical
Publication of DE3241541C1 publication Critical patent/DE3241541C1/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • e) In der beschriebenen Vorrichtung werden Phonem-Referenzmuster erstellt, indem Matrixelemente (das sind Potentiometer) jeweils einer ganzen Zeile auf ein einziges Phonem eingestellt werden. In der erfindungsgemäßen Vorrichtung werden Phonem-Referenzmuster erstellt, indem für ein bestimmtes Referenzmuster Matrixelemente (das sind die Ausgänge von Komparatoren) miteinander logisch verknüpft werden. In jede derartige logi-
  • sche Verknüpfung (UND-Gatter) geht aus jeder Spalte (d. h. jedem Kanal) genau ein Element ein. Es ist theoretisch möglich, daß ein bestimmtes Matrixelement in verschiedenen Verknüpfungen eingeht; und es ist möglich, daß ein Matrixelement in keine Verknüpfung eingeht.
  • f) Im beschriebenen Verfahren ermittelt ein Maximumdetektor, welchem Referenzmuster das aktuelle Spektrum am nächsten kommt. Dagegen wird in der erfindungsgemäßen Vorrichtung nicht der kleinste Abstand ermittelt, sondern es wird geprüft, ob das aktuelle Spektrum genau (bezogen auf die Auflösung in der Frequenz und in der Energie) einem Referenzmuster entspricht oder nicht g) Die Tasten der Schreibmaschine werden im beschriebenen Verfahren unmittelbar von den 10 erkennbaren Phonemen ausgelöst. Auf diese Weise kann ein auf 10 Laute beschränkter phonetischer Text erstellt werden. Die erfindungsgemäße Vorrichtung gestattet dagegen das Erstellen orthographisch korrekter Texte.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung anzugeben, um in Echtzeit ein durch Sprache (isoliert gesprochene Wörter) erzeugtes Frequenzgemisch in geeignet gewählte Lauteinheiten zu gliedern und einer solchen Lautfolge eindeutig eine beliebig wählbare Funktion zuzuordnen, ohne dabei auf blindes Vergleichen des eingetroffenen Wortes mit abgespeicherten Musterwörtern angewiesen zu sein.
  • Die Lösung dieser Aufgabe erfolgt durch die im kennzeichnenden Teil des Patentanspruchs 1 und 9 angegebenen Merkmale. Die Erfindung beruht auf folgendem Grundgedanken: Nicht auf die gesamte Worteinheit, sondern auf die einzelnen Lauteinheiten (Phoneme) innerhalb des Wortes ist das Augenmerk zu richten. Denn die Kapazität heutiger Rechner reicht aus, um Laute -auch eine Folge von Lauten - in Echtzeit (also ohne Zeitverzögerung) zu erkennen. Zur Worterkennung genügt es demnach, aus der für das jeweilige Wort charakteristischen Folge von Lauten durch eine feststehende Vorschrift eindeutig eine Adresse zu erzeugen. Die dort gespeicherte Information kann zum Ausdrucken des Wortes oder zu anderen Steuerungen herangezogen werden. Auf diese Weise entfällt die Notwendigkeit, so viele komplizierte Muster zu vergleichen, wie eine Sprache Wörter umfaßt.
  • Im folgenden wird anhand der Bilder 1 bis 6 ein Beispiel für die in Rede stehende Worterkennungsvorrichtung näher erläutert.
  • Bild 1 stellt die Vorrichtung nach PA 1 schematisch dar.
  • Bild 2 zeigt ein Ausführungsbeispiel für die Filter und die Siebung/Glättung.
  • Bild 3 gibt qualitativ die Resonanzcharakteristik der Filter wieder.
  • Bild 4 zeigt ein Ausführungsbeispiel für einen der acht achtstufigen Komparatoren, welche die Digitalisierung der Resonanzenergien vornehmen.
  • Bild 5 zeigt beispielhaft die logische Verluiüpfung der Matrixelemente, wie sie S. 7 der Beschreibung näher erläutert ist.
  • Bild 6 zeigt die optische Hilfe gemäß PA 2, die in der Beschreibung S. 9f. erläutert ist.
  • Das beim Sprechen erzeugte Frequenzgemisch regt nach seiner elektrischen Verstärkung eine Reihe von m in der Folge aufsteigender Mittenfrequenzen angeordneten Bandpässen parallel an. Durch Gleichrichtung und Integration wird für jedes Frequenzband die Resonanzenergie ermittelt, die dann mittels m Analog-Digital-Wandlern in jeweils n Stufen quantisiert wird.
  • Jedes Phonem besitzt ein in bezug auf Frequenz und Energie kontinuierliches Amplitudenspektrum, das keinem anderen Phonem eigen ist Um diese Eindeutigkeit in diskontinuierlicher Darstellung zu bewahren, dürfen eine Mindestzahl von Quantisierungsstufen im Frequenz- und Energieband und eine Mindestbandbreite der Frequenz und Energie nicht unterschritten werden.
  • Diese Voraussetzungen erfüllt ein Ausführungsbeispiel mit 8 Bandpässen und jeweils 9 Energiestufen.
  • Um Redundanzen im Schaltungsaufbau zu vermeiden und um die TrennSchärfe der Energiemessung in jedem Frequenzband voll auszuschöpfen, sind Ober- und Untergrenze des gesamten meßbaren Energiebandes in jedem Frequenzband so einzustellen, daß im zugelassenen Bereich der Sprechlautstärke kein Matrix-Element ungenutzt bleibt.
  • Die untere Grenze der niedrigsten Energiestufe ist auf Null Einheiten, die Oberbegrenze der höchsten Stufe auf theoretisch unendliche Energie einzustellen. Die derart aufgebaute m in, n-Matrix zeigt zu jedem Zeitpunkt irgendein Muster an, das sich aus m gleichzeitig anzeigenden Energiestufen aller Frequenzbänder zusammensetzt. Die schraffierten Felder in Bild 1 stellen ein denkbares Muster dar, von denen es theoretisch nn, voneinander verschiedene gibt. Das Versuchsmodell bestätigt, daß jedes der in der internationalen Lautschrift gebräuchlichen Phoneme eine leicht überschaubare Anzahl von infolge wechselnder Sprechla°utstärke und anderer Unregelmäßigkeiten unterschiedlichen Mustern hervorbringt. Es sind durchschnittlich 20 und nach Ausscheiden statistisch sehr unwahrscheinlicher Muster nur noch etwa 8. Darüber hinaus zeigte das Versuchsmodell, daß keines der Phoneme ein Muster erzeugt, das auch von einem anderen hervorgebracht wird. Die einzige Ausnahme machten die schwachen Plosiv-Laute b, g und d, was auf ihre relativ geringe Schallintensität zurückzuführen ist Vergrößerte man die elektrische Verstärkung, so wurde der Mangel behoben. Allerdings durfte bei diesem Verstärkungsgrad ein anderes Phonem als b, d oder g nicht gesprochen werden, weil anderenfalls eine- Übersteuerung des verwendeten Verstärkers und eine Überlastung der eingesetzten Filterbank eintraten, Das beweist, daß eine elektrisch andere Dimensionierung der Anlage (Vergrößern und Angleichen des Dynamikumfanges von Verstärker und Filterbank) Abhilfe schafft.
  • Die m Felder jedes einzelnen Phonem-Musters sind mittels Logik-Gattern untereinander verknüpft. Außerdem sind alle Muster, die von einem bestimmten Phonem erzeugt werden, mittels Logik-Gattern miteinander verknüpft. Infolgedessen liest der Computer nur und immer dann, wenn der Sprachschall eines dieser Muster aktiviert, ein dem sie erzeugenden Phonem eindeutig zugeordnetes Zeichen ein.
  • Sind diese Verknüpfungen für alle Phoneme hergestellt, segmentiert der Computer den Sprachschall in die in ihm enthaltene Phonemfolge. Zwischen zwei Sprechpausen, die der Sprecher jeweils zur Worttrennung einlegt, eingelesene Phonemzeichen bildet der Computer durch eine einzige feststehende Vorschrift auf eine Zahl ab, auf die keine andere Folge von Phonemzeichen abgebildet wird. Dabei geht ein Phonem nie mehr als einmal in Folge in die Verarbeitung ein. Die Häufigkeit, mit der der Computer ein bestimmtes Phonem in ununterbrochener Folge abgetastet hat, kann zur Merkmalsgewinnung herangezogen werden (z. B. zur Unterscheidung von »Hütte«, kurzes ü, und »Hüte«, langes ü). Die Zahl, auf die abgebildet wird, stellt die Adresse eines Speicherplatzes dar, in den eine Information abgelegt wurde, die den Computer veranlaßt, irgend eine für diese Phonemfolge gewünschte Funktion auszuüben. Genannt seien das orthographisch korrekte Ausdrucken des gesprochenen Wortes auf Bildschirm oder mittels Schreibmaschine, die Informationsvermittlung über Fernmeldenetze (drahtlos oder Kabel) bei Reduktion auf für Fernschreiber übliche Datenflüsse, die Fernbedienung von Geräten, Hilfen für Behinderte.
  • Ein Schaltungsbeispiel für die Filterbank zeigt Bild 2.
  • Die acht Bandpässe sind als einfache LCR-Serienkreise ausgeführt, die parallel an den Ausgang des Verstärkers angeschlossen sind. W. Daxer in »Fortschritte der Akustik« Plenarvorträge und Kurzreferate der Deutschen Arbeitsgemeinschaft für Akustik, DAGA'81; VDE-Verlag Berlin; S.641/642 nimmt für die herkömmliche'Methode an, daß zur genügenden Erkennungssicherheit mindestens zwölf Filter erforderlich sind. Hingegen genügen bei Anwendung der erfindungsgemäßen Lösung acht Filter. Allerdings kann eine Erhöhung der Filterzahl zu noch größerer Sicherheit in der Erkennung führen.
  • Die ohmschen Widerstände der Schwingkreise sind so eingestellt, daß die Halbwertsbreiten etwa so groß sind wie der Abstand der Mittenfrequenz des betrachteten Kreises zu der des vorhergehenden Kreises. So ergibt sich ein relativ unselektives Resonanzverhalten, das auch dem menschlichen Innenohr eigen ist. (Die Resonanzkurven sind in Bild 3 qualitativ wiedergegeben.) Dadurch stellte sich eine fast vollständige Unempfindlichkeit der Erkennung gegenüber Veränderungen der Grundfrequenz (der Tonhöhe), mit der gesprochen wurde, ein. Vom Erbauer des Schaltungsbeispiels gesprochene Wörter wurden trotz Veränderung der Grundfrequenz um mehr als eine Oktave erkannt. Darüber hinaus machte die Apparatur keinen Unterschied zwischen der Stimme eines 23jährigen und der eines 55jährigen Mannes. Sogar von einer 48jährigen Frau gesprochene Phoneme wurden erkannt.
  • Bild 4 zeigt einen der im Ausführungsbeispiel acht Analog-Ditgital-Wandler für eines der Frequenzbänder.
  • Das von einem Schwingkreis entnommene Resonanzsignal wird gleichgerichtet und dann einem Integrationsglied zugeführt, welches nicht nur die Gleichspannung glättet, sondern auch kurzzeitige unbeherrschbare Unregelmäßigkeiten der Lauterzeugung nivelliert. Das derart aufbereitete Signal wird durch den Analog-Digital-Wandler mittels paralleler Komparatortechnik in neun Amplitudenstufen quantisiert. Die jedem Operationsverstärker nachgeschalteten EXOR-(EXCLUSI-VE-OR-) Gatter bewirken, daß ständig genau eine der ausgangsseitig angeschlossenen LED's (leuchtelektrische Dioden) leuchtet. Repräsentativ ist Punkt 5, welcher etwa dem schraffierten Feld des vierten Frequenzbandes in Bild 1 entsprechen kann, mit einem Logik-Gatter verbunden bezeichnet. Diese Verknüpfung wird unten näher beschrieben.
  • Die LED's in Bild 4 dienen im Ausführungsbeispiel dazu, für jedes ausgesprochene Phonem die von ihm auf der m n-Matrix erzeugen, wegen der schwankenden Sprechlautstärke relativ zur menschlichen Auffassungsgeschwindigkeit sehr rasch wechselnden Muster mittels Video-Kamera auf Band aufzuzeichnen, so daß die Analyse des Bildmaterials die für jedes Phonem herzustellenden logischen Verknüpfungen angibt.
  • Diese Verknüpfungen werden mit NAND-(not-and-) Gattern realisiert. So wie in Bild 4 ein NAND ( ausgangsseitig negiertes UND) eingangsseitig mit genau einer Pegelstufe (EXOR-Ausgang) irgendeines Frequenzbandes verbunden ist, so gehen auch die sieben anderen NAND-Eingänge an Pegelstufen der übrigen sieben Frequenzbänder, so daß ein durch ein Phonem erzeugbares Muster, das aus den Video-Aufnahmen hervorgeht, nach dem Verdrahten genau dann eine logische Null am NAND-Ausgang bewirkt, wenn es durch das Phonem aktiviert wird. In Bild 5 sind repräsentativ zwei NAND abgebildet, die durch zwei verschiedene Muster geschaltet werden, die beide durch das Phonem a aktiviert werden können. Die Ausgänge aller solchen NAND's, die zusammen die gesamte Klasse der durch das Phonem a erzeugbaren Muster (insgesamt etwa acht) abdecken, sind getrennt mit den Eingängen eines nachfoglenden NAND verbunden, das genau dann auf logisch 1 schaltet, wenn mindestens eines der eingangsseitigen NAND's auf logisch 0 schaltet, d. h. genau dann wenn das den eingangsseitigen NAND's entsprechende Phonem (hier a) erklingt.
  • Betrachtet man den Schaltungsteil von den Eingängen der die Muster verknüpfenden NANDS's bis zu dem Ausgang des die Muster-NAND's verknüpfenden NAND's, dann kann man sich die ersteren durch UND-Glieder, das letztere durch ein ODER-Glied in positiver Logik ersetzt denken. Das macht die Funktionsweise durchsichtiger.
  • Wie in Bild 5 dargestellt, ist der Ausgang des alle Muster-NAND's eingangsseitig verbindenden NAND's über Dioden unmittelbar mit bestimmten der Bit 0 bis Bit 7 repräsentierenden Leitungen des 8-Bit-Datenbusses eines Mikrocomputers verbunden. Dasselbe gilt für alle anderen Phoneme. Gemäß Bild 5 würde das a als 20 + 24 = 17, das t als 2' + 24 + 27 = 146 eingelesen.
  • Um bei der unten erläuterten Adreß-Errechnung die vorhandene. Adreß-Wortlänge des Computers möglichst gut auszunutzen, ist es sinnvoll, mit möglichst kleinen Kennzahlen für die Phoneme zu arbeiten, so daß man die etwa 50 verschiedenen Phoneme durch die Verdrahtung am Datenbus mit den Zahlen 1 bis 50 belegen würde.
  • Sprechpausen erkennt die Vorrichtung daran, daß der Computer die Zeit mißt, während der kein Phonem eintrifft. Wird dabei eine bestimmte Schwelle (z. B. 0,5 sec) überschritten, erkennt der Computer auf Sprechpause.
  • Um jedem Wort eine spezifische Bedeutung zuordnen zu können, ohne insbesondere bei großem Wortschatz auf blindes Vergleichen des eingetroffenen Wortes mit abgespeicherten Musterwörtern angewiesen zu sein, ist eine Funktion anzugeben, die mit einer feststehenden Rechenvorschrift aus dem gesprochenen Wort eine Adresse direkt errechnet. Dabei dürfen im Adreßbereich keine ungewollten Überschneidungen auftreten. Eine solche Funktion ist die folgende: Es seien ao, a1, a2 ..., an Variable für die Kennzahlen von n + 1 zwischen zwei Sprechpausen eingetroffene Phonemen, wobei alle Kennzahlen natürliche Zahlen kleiner als Hundert seien und nie zwei unmittelbar benachbarte Zahlen gleich seien. Dann lautet eine mögliche Funktion: = Adresse.
  • Damit ist ausgeschlossen, daß zwei verschieden klingende Wörter auf dieselbe Adresse abgebildet werden Sollte für dieses Verfahren die Adreßwortlänge des verwendeten Computers zu klein sein, ist dieser mit Datenbanken größerer Adreßwortlänge zu kombinieren. Der Rechner hat diese Länge in Software zu simulieren.
  • In jeden mit einer solchen Adresse belegten Speicherplatz kann man Informationen ablegen, die die für das gesprochene Wort gewünschte Aufgabe auslösen. Mögliche Aufgaben wurden oben bereits genannt.
  • Um die Sprache mehrerer oder sogar beliebiger Sprecher zu erkennen gibt es verschiedene Methoden und diese auch in I(ombination.
  • Eine erste Methode besteht darin, daß für jede signifikant unterschiedliche Stimme die an den im Bild 4 mit + bezeichneten Komparatoreingängen anliegenden Referenzspannungen durch Verändern der Spannungsteilung so eingestellt werden, daß jede dieser Stimmen für jedes bestimmte Phonem dieselben zur Norm erhobenen Muster auf der m n-Matrix hervorbringt In der Praxis kann dann jeder Sprecher die auf ihn passende Einstellung einfach durch Knopfdruck wählen, wenn alle Stimmklassen durch ihnen entsprechende Spannungsteilungen fest eingebaut sind. Gemäß der Beschreibung der Filterbank kann man erwarten, daß der gesamte Bereich unterschiedlicher Stimmen mit nur wenigen Stimmldassen abgedeckt ist Eine zweite, der ersten ähnliche Methode besteht darin, nicht die Referenzspannungen der Komparatoren, sondern den ohmschen Schwingkreiswiderstand zu variieren.
  • Nach einer dritten Methode werden zur Normierung der Muster auf der m - n-Matrix nicht die Energiestufen, sondern die Mittenfrequenzen der Frequenzbänder variiert.
  • Sollten diese Methoden in keiner Kombination ausreichend erfolgreich sein, so ist eine schaltungstechnisch aufwendigere, aber sichere vierte Methode anzuwenden: für jede Klasse von Stimmen ist ein getrennter Satz von Mustern so wie oben beschrieben zu verknüpfen.
  • Jeder Sprecher kann dann mittels Tastendrucks denjenigen Mustersatz einschalten, der seiner Stimmlage entspricht Bei einigen Lauten, besonders solchen von geringer Intensität, kann es vorteilhaft sein, neben der akustischen eine optische Entscheidung darüber zu erlangen, ob es sich bei ihnen um Lippenlaute handelt (z. B. g oder b). Dazu dient die Vorrichtung gemäß Anspruch 2, dargestellt in Bild 6. Danach ist neben dem einen Mundwinkel des Sprechers ein Lichtsender, neben dem anderen Mundwinkel ein Empfänger angebracht. Der Lichtweg Sender-Empfänger ist bei geschlossenen Lippen gesperrt, bei geöffneten Lippen frei. Sender und Empfänger werden vorteilhaft, wie in Bild 6 dargestellt, als vertikale Bänder ausgeführt, um die Empfindlichkeit gegen Justagefehler herabzusetzen. Die Auskunft »Lippen geschlossen/offen« kann durch zwei weitere Felder an die m n-Matrix angefügt werden und verlängert die zu verknüpfenden Muster um je ein weiteres Feld. Das ist dann erläutert worden. Erkennt der Computer, daß unmittelbar vor dem Eingang irgendeines anderen als des Lautes b oder p oder daß sehr kurzzeitig zwischen zwei Lauten, die nicht b oder p sind, die Lippen geschlqssen waren, dann steht fest, daß ein b oder p an der betreffenden Stelle gesprochen wurde. Waren die Lippen geöffnet, dann steht fest, daß weder b noch p gesprochen wurde.
  • Häufig ist es erforderlich, sich für eine von verschiedenen möglichen Schreibweisen eines gesprochenen Wortes zu entscheiden (z. B. oder/die Oder). Meistens hängt die Entscheidung vom Wortsinn ab, der jedoch vom Computer nicht-verstanden werden kann. Hier schafft schon das in den Ansprüchen 9 und 4 angegebene Verfahren eine effektive Abhilfe: eine Analyse-mehrerer Zeitungsartikel erbrachte, daß damit im Durchschnitt nur jedes 50. Wort einer manuellen Korrektur bedarf.
  • Diese Quote kann durch die in Anspruch 5 angegebene Ergänzung weiter gesenkt werden. So kam die Quote von 1 :50 maßgeblich dadurch zustande, daß in einem Artikel über Landtagswahlen ständig von den »Grünen« die Rede war. Damen erwarten kann, daß in einem Artikel mit dem Thema »Politik« kaum einmal die Lautfolge g-r-ü-n-e-n zu schreiben ist wie in »die grünen Wiesen«, wäre durch das Drücken einerTaste »Politik« die höchste Priorität dieser Lautfolge dem Schriftwort »Grünen« zugeordnet worden, was in dem erwähnten Artikel zur manuellen Korrektur nur noch jedes 150.
  • Wortes geführt hätte.
  • Falls es nicht möglich ist, in einem Text ständig vorkommende Abweichungen von der durchschnittlichen Häufigkeit in der Landessprache durch Klassifikationen wie bestimmte Berufsstände, Themen- und Fachgebiete oder Dialekte generell zu kompensieren, kann die Ergänzung gemäß Anspruch 6 angewendet werden. Hierbei merkt sich der Computer jede im-Text erfolgte manuelle Korrektur und richtet nach Wahrscheinlichkeitserwägungen die Prioritäten gegebenenfalls neu ein, so daß etwa der Name »Klein« nur vielleicht zweimal als »klein«, danach, wenn der Computer aus seinen Fehlern gelernt hat, richtig geschrieben wird.
  • Eine weitere Reduzierung der Fehlerraten ist durch die Ergänzung in Anspruch-7 möglich. So sind z. B. alle Buchstaben, die unmittelbar dem Satzzeichen ».« folgen, groß zu schreiben. Die Lautfolge »d-a-ß« ist fast immer als »das«, nahezu nie als »daß« zu schreiben, wenn sie einem Substantiv im Singular vorausgeht.
  • Die Notwendigkeit, die einzelnen Wörter durch Sprechpausen zu trennen, wird im Anspruch 8 aufgehoben. Der Computer nimmt eine Sequenz bestimmter Länge (etwa 50 Phoneme) auf und beginnt dann für diesen Abschnitt zu prüfen, an welchen Stellen Trennungen zwischen zwei Wörtern vorliegen, indem von links nach rechts ein Phonem nach dem anderen zu einem zunächst hypothetischen Wort kumuliert wird und nach jeder Anfügung durch die oben geschilderte Abbildung überprüft wird, ob es dieses Wort gibt. Existiert das Wort im Speicher, wird diese Worttrennung als möglich vorgemerkt und dann mit dem Anfügen weiterer Phoneme und der Prüfung entsprechend fortgefahren, wobei zu der alten linken Grenze der Sequenz nun eine neue, nämlich die vorgemerkte Trenngrenze, hinzutritt. Dieses Verfahren wird für die gesarnte Sequenz ausgeführt.
  • Danach entscheidet sich der Computer für diejenigen Trenngrenzen, die Einzelwörter erzeugen, die sämtlich vorkommen, wobei er Häufigkeiten ihres Auftretens in der Sprache und grammatische Regeln beachtet Das »Fenster« von 50 Phonemen wird in einer vorteilhaften Ausführungsform nicht über immer neue 50 gehalten, sondern von links nach rechts sukzessive über die Sequenz aller bisher eingetroffenen Phoneme geschoben, so daß aktuell eingetroffene die rechte Schranke, das 50 Einheiten vorher eingetroffene Phonem die linke Schranke des Fensters bestimmt.
  • - Leerseite -

Claims (16)

  1. Patentansprüche: 1. Vorrichtung, die isoliert gesprochene Wörter erkennt, wobei das akustische in ein elektrisches Signal umgewandelt wird und dieses nach Verstärkung eine Reihe von m Bandpässen parallel anregt, deren Resonanzamplituden digitalisiert werden, dadurch gekennzeichnet, daß die Digitalisierung gleichzeitig in einer Matrix von m n Komparatoren in jeweils n Stufen erfolgt und daß auf dem m n-Matrixfeld elektrische Muster entstehen, die eindeutig den Phonemen zugeordnet sind, und daß durch logische Verknüpfung der Matrix-Elemente die Muster auf - den Phonemen eindeutig zugeordnete - binäre Kennzahlen abgebildet werden, die von einem Computer gelesen werden, welcher die zwischen - vom Sprecher zur Worttrennung eingelegten - Sprechpausen zeitlich nacheinander eintreffenden Kennzahlen durch eine einzige feststehende Vorschrift auf die Adresse eines Speicherplatzes abbildet, wobei in jedem dieser Speicherplätze eine Information abgelegt ist, die zum Ausdrucken des dem gesprochenen Wort entsprechenden Schriftwortes oder zu jeder anderen Weiterverarbeitung oder Steuerung herangezogen werden kann.
  2. 2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß neben die akustische Erkennung eine optische Hilfe tritt, dergestalt, daß neben einem Mundwinkel des Sprechers ein Lichtsender, neben dem anderen Mundwinkel ein Empfänger angebracht ist, so daß der Lichtweg Sender-Empfänger bei geschlossenen Lippen gesperrt, bei geöffneten Lippen frei ist
  3. 3. Vorrichtung nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß mittels eines Ultraschallsenders und -empfängers die Gaumen-, Zungen- und Kieferkonstellation zur Gewinnung weiterer Merkmale geprüft wird.
  4. 4. Vorrichtung nach einem der Ansprüche 1 bis 3 zur halbautomatischen Entscheidung über die Schreibweise von Wörtern verschiedener Bedeutung, aber gleichen Klangbildes, dadurch gekennzeichnet, daß in die Speicherzellen, die für eine bestimmte Lautfolge aktiviert werden, dieser Lautfolge potentiell entsprechende Schriftbilder in der Reihenfolge der durchschnittlichen Häufigkeit ihres Auftretens in der jeweiligen Landessprache abgespeichert sind und in dieser Reihenfolge dem Sprecher das Schriftwort der höchsten Priorität auf einer Anzeigevorrichtung angeboten wird mit der Möglichkeit, diese Schreibweise durch Tastendruck zu widerlegen und das Schriftbild der nächstniederen Priorität anzufordern usf.
  5. 5. Vorrichtung nach Anspruch 4 zur manuellen Anpassung der Prioritäten nach Anspruch 4 an die Erfordernisse bestimmter Berufsstände, Themen-und Fachgebiete oder Dialekte, dadurch gekennzeichnet, daß der Anwender mittels Tastendrucks den Computer veranlaßt, durch ein Programm den Schwerpunkt auf eines der genannten Gebiete zu verlagern.
  6. 6. Vorrichtung nach einem der Ansprüche 4 oder 5 zur automatischen Änderung der Prioritäten im Sinne einer im bisherigen Text von der Norm abweichenden durchschnittlichen Häufigkeit des Auftretens, dadurch gekennzeichnet, daß der Anwender durch Tastendruck den Computer veranlaßt, die relative Häufigkeit des Auftretens unterschiedlich schreibbarer Wörter mit den zugehörigen Prioritäten zur gleitenden Angleichung dieser Prioritäten an die vorgefundene relative Häufigkeit heranzuziehen.
  7. 7. Vorrichtung nach einem der Ansprüche 1 bis 6, die die Wahl der Schreibweise eines Wortes von den dieses umgebenden Wörtern abhängig macht dadurch gekennzeichnet, daß für bestimmte Schreibweisen unterschiedlich schreibbarer Wörter syntaktische Umgebungen gespeichert werden, in denen diese Schreibweise sehr häufig oder sehr selten auftreten, so daß die Notwendigkeit für manuelle Korrekturen durch den Sprecher geringer wird oder entfällt.
  8. 8. Vorrichtung nach einem der Ansprüche 1 bis 7 zur Erkennung auch ohne Trennpausen gesprochener Wortketten, dadurch gekennzeichnet, daß ein Programm nach jedem Laut nach verschiedenen Methoden prüft, ob eine Worttrennung an dieser Stelle unmöglich, gewiß oder wahrscheinlich ist.
  9. 9. Verfahren, isoliert gesprochene Wörter zu erkennen, wobei das akustische in ein elektrisches Signal umgewandelt wird und dieses nach Verstärkung eine Reihe von in- Bandpässen parallel anregt, deren Resonanzamplituden digitalisiert werden, dadurch gekennzeichnet, daß die Digitalisierung gleichzeitig in einer Matrix von m n I(omparatoren in jeweils n Stufen erfolgt und daß auf dem m n-Matrixfeld elektrische Muster entstehen, die eindeutig den Phonemen zugeordnet sind, so daß durch logische Verknüpfung der Matrix-Elemente die Muster auf - den Phonemen eindeutig zugeordnete - binäre Kennzahlen abgebildet werden, die von einem Computer gelesen werden, welcher die zwischen - vom Sprecher zur Worttrennung eingelegten - Sprechpausen zeitlich nacheinander eintreffenden Kennzahlen durch eine"einzige feststehende Vorschrift auf die Adresse eines Speicherplatzes abbildet, wobei in jedem dieser Speicherplätze eine Information abgelegt ist, die zum Ausdrucken des dem gesprochenen Wort entsprechenden Schriftwortes oder zu jeder anderen Weiterverarbeitung oder Steuerung herangezogen werden kann.
  10. 10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß neben die akustische Erkennung eine optische Hilfeztritt, dergestalt, daß neben einem Mundwinkel des Sprechers ein Lichtsender, neben dem anderen Mundwinkel ein Empfänger angebracht ist so daß der Lichtweg Sender-Empfänger bei geschlossenen Lippen gesperrt, bei geöffneten Lippen frei ist.
  11. 11. Verfahren nach einem der Ansprüche 9 oder 10, dadurch gekennzeichnet, daß mittels eines Ultraschallsenders und -empfängers die Gaumen-, Zungen- und Kiefernkonstellation zur Gewinnung weiterer Merkmale geprüft wird.
  12. 12. Verfahren nach einem der Ansprüche 9 bis 11 zur halbautomatischen Entscheidung über die Schreibweise von Wörtern verschiedener Bedeutung, aber gleichen li;langbildes, dadurch gekennzeichnet, daß in die Speicherzellen, die für eine bestimmte Lautfolge aktiviert werden, dieser Lautfolge potentiell entsprechende Schriftbilder in der Reihenfolge der durchschnittlichen Häufigkeit ihres Auftretens in der jeweiligen Landessprache abgespeichert sind und in dieser Reihenfolge dem Sprecher das Schriftwort der höchsten Priorität auf einer Anzeigevorrichtung angeboten wird mit der Möglichkeit, diese Schreibeweise durch Tastendruck zu widerlegen und das Schriftbild der nächstniederen Priorität anzufordern usf.
  13. 13. Verfahren nach Anspruch 12 zur manuellen Anpassung der Prioritäten an die Erfordernisse bestimmter Berufsstände, Themen- und Fachgebiete oder Dialekte, dadurch gekennzeichnet, daß der Anwender mittels Tastendrucks den Computer veranlaßt, durch ein unten näher beschriebenes Programm den Schwerpunkt auf eines der oben genannten Gebiete zu verlagern.
  14. 14. VerFahren nach einem der Ansprüche 12 oder 13 zur automatischen Änderung der Prioritäten im Sinne einer im bisherigen Text von der Norm abweichenden durchschnittlichen Häufigkeit des Auftretens, dadurch gekennzeichnet, daß der Anwender durch Tastendruck den Computer veranlaßt, die relative Häufigkeit des Auftretens unterschiedlich schreibbarer Wörter mit den zugehörigen Prioritäten zur gleitenden Angleichung dieser Prioritäten an die vorgefundene relative Häufigkeit heranzuziehen.
  15. 15. Verfahren nach einem der Ansprüche 9 bis 14, das die Wahl der Schreibweise eines Wortes von den dieses umgebenden Wörtern abhängig macht, dadurch gekennzeichnet, daß für bestimmte Schreibweisen unterschiedlich schreibbarer Wörter syntaktische Umgebungen gespeichert werden, in denen diese Schreibweise sehr häufig oder sehr selten auftreten, so daß die Notwendigkeit für manuelle Korrekturen durch den Sprecher geringer wird oder entfällt.
  16. 16. Verfahren nach einem der Ansprüche 9 bis 15 zur Erkennung auch ohne Trennpausen gesprochener Wortketten, d a d u r c h gekennzeichnet, daß ein Programm nach jedem Laut nach verschiedenen Methoden prüft, ob eine Worttrennung an dieser Stelle eunmöglich, gewiß oder wahrscheinlich ist.
    Die Erfindung betrifft sowohl eine Vorrichtung, die isoliert gesprochene Wörter erkennt, wobei das akustische in ein elektrisches Signal umgewandelt wird und dieses nach Verstärkung eine Reihe von m Bandpässen parallel anregt, deren Resonanzamplituden digitalisiert werden, als auch ein entsprechendes Verfahren.
    Bei herkömmlichen Vorrichtungen der in Rede stehenden Art wird das gesamte Frequenzgemisch, das der Sprecher zwischen zwei zur Worttrennung eingelegten Sprechpausen erzeugt, zu äquidistanten Zeitpunkten in aktuelle Amplitudenspektren umgewandelt. Das so in drei Dimensionen (Frequenz, Amplitude, Zeit) entstandene Muster stellt das ganze gesprochene Wort dar. In einem Rechner (Computer) ist für jedes Wort, zu dessen Erkennung das System befähigt sein soll, ein repräsentatives Muster dieser Art zeitlich normiert abgespeichert.
    Das aktuelle Muster ist ebenfalls zeitlich zu normieren und dann mit jedem einzelnen der abgespeicherten Repräsentanten zu vergleichen. Derjenige Repräsentant, der sich als dem aktuellen Muster ähnlichsten herausstellt, gilt als erkannt und löst die Erfüllung der ihm zugedachten Aufgabe aus (Literatur: W. Daxer in »Fortschritte der Akustik«, Plenarvorträge und Kurzreferate der Deutschen Arbeitsgemeinschaft für Akustik, DAGA'81; VDE-Verlag Berlin; S.641 bzw. DE-OS 30 08 830 sowie J. L. Flanagan; Speech Analysis, Synthesis and Perception; 2. Aufl. 1972; Springer-Verlag Berlin, Heidelberg, New York; S. 192 ff. Die Anzahl der Operationen, die der Rechner zum Vergleichen der Merkmale (Anzahl der Kanäle Anzahl der Amplitudenstufen Anzahl der Zeitstufen Anzahl der Wörter des zugelassenen Wortschatzes) auszuführen hat, ist schon bei einem geringen Wortschatz so groß, daß man sich, um praktikable Erkennungszeiten zu erreichen, auf meistens weniger als 30, höchstens 100 verschiedene Wörter beschränkt. Insbesondere ist für die Zeitachse eine hohe Zahl von Quantisierungsstufen erforderlich, damit auch zeitlich kurze Charakteristika eines Wortes mit genügender Sicherheit erfaßt werden.
    In ETZ-B Bd. 19 1967 H. 23, S. 673-678 ist ein Verfahren und eine Vorrichtung angegeben, bei dem sich am Ausgang der Filterkanäle eines Spektralanalysators für jeden von 10 unterscheidbaren Lauten eine typische Intensitätsverteilung ergibt, die einer Vergleichsmatrix zugeführt wird. Diese Vergleichsmatrix besteht aus einer Anordnung von Potentiometern, mit denen Referenzmuster von Phonemen eingestellt werden, die als Vergleichsnormale für die zugeführte Spannungsverteilung der Lautspektren dienen. Ein Maximumdetektor ermittelt, welchem Referenzmuster das aktuelle Spektrum am nächsten kommt. Vom Maximumdetektor führen Leitungen zu Geräten, welche die Sprachlaute an-2eigen oder mit Hilfe von Relais die entsprechenden Tasten einer Schreibmaschine auslösen und sonstige Vorgänge auf grund von Lautbefehlen wirksam machen (S.767 linke Spalte Zeilen 1-22).
    Die Unterschiede der beschriebenen Vorrichtung zu der erfindungsgemäßen Vorrichtung sind: a) -In der beschriebenen Vorrichtung werden die Resonanzenergien der Filter nicht digitalisiert.
    b) Jeweils eine ganze Zeile der Matrix ist einem einzigen Phonem zugeordnet. Die Anzahl der Zeilen ist die Anzahl der Referenzmuster der Phoneme, die Anzahl der Spalten ist die Anzahl der Kanäle. Bei der erfindungsgemäßen Vorrichtung ist dagegen die Anzahl der Zeilen die Anzahl der Energiestufen, in die die Resonanzenergie jedes Filters digitalisiert wird.
    c) Die Elemente der beschriebenen Matrix sind Potentiometer. Die Elemente der erfindungsgemäßen Matrix dagegen sind Komperatoren, und eine jede Spalte der Matrix stellt einen n-stufigen Komparator dan d) Die beschriebene Vorrichtung unterscheidet nur 10 Laute. Bei dieser oder jeder anderen Einschränkung ist es unmöglich, von der erkannten Phonemfolge auf das gesprochene Wort (z. B. auf das orthographisch korrekte Schriftwort) zu schließen, wie dies in der erfindungsgemäßen Vorrichtung geschieht.
DE19823241541 1982-11-10 1982-11-10 Vorrichtung zur Spracherkennung Expired DE3241541C1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19823241541 DE3241541C1 (de) 1982-11-10 1982-11-10 Vorrichtung zur Spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19823241541 DE3241541C1 (de) 1982-11-10 1982-11-10 Vorrichtung zur Spracherkennung

Publications (1)

Publication Number Publication Date
DE3241541C1 true DE3241541C1 (de) 1984-06-28

Family

ID=6177764

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19823241541 Expired DE3241541C1 (de) 1982-11-10 1982-11-10 Vorrichtung zur Spracherkennung

Country Status (1)

Country Link
DE (1) DE3241541C1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3609197A1 (de) * 1986-03-19 1987-09-24 Baymak Faruk Verfahren und anordnung zur drahtlosen uebertragung von informationen
DE3719490A1 (de) * 1986-03-19 1988-12-22 Baymak Faruk Verfahren und anordnung zur drahtlosen uebertragung von informationen
EP0336032A1 (de) * 1988-04-07 1989-10-11 Research Triangle Institute Akustische und optische Spracherkennung

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3018316A1 (de) * 1979-05-18 1980-11-20 Rion Co Elektropalatograph
DE3008830A1 (de) * 1980-03-07 1981-10-01 Siemens AG, 1000 Berlin und 8000 München Verfahren zum betrieb eines spracherkennungsgeraetes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3018316A1 (de) * 1979-05-18 1980-11-20 Rion Co Elektropalatograph
DE3008830A1 (de) * 1980-03-07 1981-10-01 Siemens AG, 1000 Berlin und 8000 München Verfahren zum betrieb eines spracherkennungsgeraetes

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ETZ-B, Bd. 19, 1967, H. 23, S. 673-678 *
Frequenz, Bd. 32, 1978, H. 7, S. 204-207 *
IBM technical Disclosure Bulletin, Vol. 24, No. 7B, December 1981, S. 3652 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3609197A1 (de) * 1986-03-19 1987-09-24 Baymak Faruk Verfahren und anordnung zur drahtlosen uebertragung von informationen
DE3719490A1 (de) * 1986-03-19 1988-12-22 Baymak Faruk Verfahren und anordnung zur drahtlosen uebertragung von informationen
EP0336032A1 (de) * 1988-04-07 1989-10-11 Research Triangle Institute Akustische und optische Spracherkennung

Similar Documents

Publication Publication Date Title
EP1113420B1 (de) Verfahren zur Spracherkennung und Kontrolle einer Sprachsyntheseneinheit oder Kommunikationssystem
AT390685B (de) System zur textverarbeitung
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69724485T2 (de) Lokalisierung eines Musters in einem Signal
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
EP0702353A2 (de) System und Verfahren zum Ausgeben von Sprachinformation in Reaktion auf eingegebene Sprachsignale
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE69425874T2 (de) Verfahren und Anordnung zur automatischen Extraktion prosodischer Information
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE4031421A1 (de) Musteranpassungssystem fuer eine spracherkennungseinrichtung
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE3241541C1 (de) Vorrichtung zur Spracherkennung
DE1206167B (de) Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse
EP1231596A9 (de) Trainingsmethode von den freien Parameten eines Maximum-Entropie-Sprachmodells
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache
DE2109436A1 (de) Amphtudenregler für elektrische Signale

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee