DE2448909C3 - - Google Patents

Info

Publication number
DE2448909C3
DE2448909C3 DE19742448909 DE2448909A DE2448909C3 DE 2448909 C3 DE2448909 C3 DE 2448909C3 DE 19742448909 DE19742448909 DE 19742448909 DE 2448909 A DE2448909 A DE 2448909A DE 2448909 C3 DE2448909 C3 DE 2448909C3
Authority
DE
Germany
Prior art keywords
formant
frequency
pass filter
signals
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19742448909
Other languages
English (en)
Other versions
DE2448909A1 (de
DE2448909B2 (de
Inventor
Hubertus 3300 Braunschweig Bettin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AEG Olympia Office GmbH
Original Assignee
Olympia Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympia Werke AG filed Critical Olympia Werke AG
Priority to DE19742448909 priority Critical patent/DE2448909B2/de
Publication of DE2448909A1 publication Critical patent/DE2448909A1/de
Publication of DE2448909B2 publication Critical patent/DE2448909B2/de
Application granted granted Critical
Publication of DE2448909C3 publication Critical patent/DE2448909C3/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

Die Erfindung betrifft eine elektrische Schiltungsanordnung der im Oberbegriff des Patentanspruchs 1 angegebenen Art.
Es sind bereits Spracherkennungsverfahren bekanntgeworden, bei denen die aus der Sprache gewonnenen analogen elektrischen Wellenzüge ausgewertet werden. In der DE-OS 14 72 038 ist ein solches Verfahren beschrieben, bei dem sowohl die Nulldurchgänge der Wellenzüge als auch die Intervalle der Nulldurchgänge ermittelt werden. Die während einer bestimmten Zeitspanne ermittelten Intervalle der Nulldurchgänge werden entsprechend ihrer Länge sortiert Danach wird die Anzahl der gleich langen Intervalle ermittelt, und aufgrund des Zählergebnisses werden über eine Zuordnerschaltung die Worte erkannt.
Diese Lösung ist mit ihren Nachteilen stellvertretend für die meisten bekannten Spracherkennungsverfahren, bei denen nur eine geringe Anzahl von Wörtern, meist Zahlwörter und einige Befehle, verarbeitet wird, da die Selektionsmöglichkeit der einzelnen Phoneme zu ungenau ist. Um den Wortschatz zu vergrößern, wäre ein erheblicher Aufwand an Schaltungen und Speicherplätzen erforderlich. Doch auch dann ist es — ohne die Fehler allzusehr ansteigen zu lassen — nur möglich, Stimmen verwandter Charakteristik und ähnlicher Sprechgeschwindigkeit zu erkennen. Das heißt, die Verfahren müssen an den jeweiligen Sprecher angepaßt werden.
In der DE-AS 12 02517 ist eine Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Wörtern beschrieben worden, in der jeweils eine einen Schwellenwert überschreitende Meßgröße das Auftreten oder Nichtauftreten einer Grundschwingung und einer Oberschwingung feststellt. Die Bewertung erfolgt mit ja bzw. nein und wird als Code zur Einstufung des untersuchten Lautes in eine Lautgruppe mittels einer Verknüpfungsschaltung verwendet. Die Lautgruppen-Markiersignale werden in der Reihenfolge ihres Auftretens in einem Speicher geordnet und nach Beendigung der gesprochenen Silbe zu deren Identifizierung herangezogen.
Auch diese Schaltungsanordnung stellt eine Lösung dar. hei der nur eine eerinee Anzahl von Wörtern, z. B.
Zahlwörter, erkannt werden können. Die Schaltungsanordnung bietet keine ausreichend exakte Unterscheidungsmöglichkeit, um andere als ausgewählte Wörter zu selektieren.
Um diese Nachteile auszuschalten, ist ein Verfahren entwickelt worden, bei dem das Frequenzspektrum in mehrere Frequenzbänder zerlegt und das Auftreten von Formanten in den Frequenzbändern bestimmt wird DE-OS 15 47 027). Bei diesem Verfahren wird das jeweilige End" von Formanten, getrennt in vielen Frequenzbändern, von Differenzierschaltungen ermittelt In nachgeschalteten Verriegelungsschaltungen werden die Formantverhältnisse (steigend, fallend, unveränderlich) für sehr viele Vokal-Vektorgrößen im Sprachspektrum angezeigt. Weiterhin werden Konsonant-Kriterien in einem Frequenzanalysator und anhand von Energiestößen ermittelt In einer Konsonantmatrix werden die Formantenergie sowie die Formantkriterien eingespeichert Auch die ermittelten Formanten gelangen über einen Formantgeber in die Konsonantenmatrix, so daß insgesamt eine Vielzahl von Vektorgrößen — in der bekannten Ausführungsform 56 — zur Verfügung stehen.
Mit diesem Spracherkennungsverfahren ist es zwar möglich, einen sehr viel größeren Wortschatz zu verarbeiten, jedoch wird hierzu ein schaltungstechnischer Aufwand benötigt, der ein solches Gerät für den praktischen Einsatz unrealistisch erscheinen läßt
Der Erfindung liegt die Aufgabe zugrunde, mit geringem schaltungstechnischen Aufwand aus dem Frequenzspektrum der Sprachsignale Kriterien zu schaffen, aus denen der gesprochene Text — ohne Einschränkung des Vokabular-Umfanges — maschinenauswertbar erkannt werden kann.
Diese Aufgabe wird durch die im Patentanspruch 1 angegebene Erfindung gelöst Weitere Ausgestaltungen sind in den Unteransprüchen angegeben.
Dem Erfindungsgedanken liegt die Erkenntnis zugrunde, daß sich die für die Spracherkennung wesentlichen Sprachmerkmale aus dem Energiedichte-Spektrum des elektrischen Sprechsignals ableiten lassen. Für die einzelnen Phoneme — also die kleinste lautliche Einheit, die in derselben lautlichen Umgebung einen Bedeutungsunterschied ausmacht — entstehen beim Sprechen immer drei ausgeprägte Frequenzschwerpunkte. Diese Formanten genannten Frequenzschwerpunkte weichen bei verschiedenen Sprechern nr.r wenig voneinander ab. Enisprechende Untersuchungen haben gezeigt, daß ausschließlich die beiden Formanten mit der niedrigsten Frequenz für die Verständlichkeit eines Phonems wichtig sind. Die erfindungsgemäße Schaltung erlaubt deshalb, jedes Phonem mit hoher Zuverlässigkeit allein aus diesen beiden Formanten zu erkennen.
Der Vorteil der Erfindung liegt insbesondere darin, daß nur sehr wenige Bauelemente erforderlich sind, um vier Kriterien aus den Sprechsignalen abzuleiten, mit denen unabhängig von der Sprechgeschwindigkeit und der Amplitude der Sprechsignale eine sichere Analyse möglich ist. Diese vier Kriterien sind ausreichend für einen beliebig großen Wortvorrat
In den Zeichnungen ist ein Ausführungsbeispiel der Erfindung dargestellt und wird nachfolgend näher erläutert. Es zeigen:
F i g. 1 eine erfindungsgemäß gestaltete Schaltungsanordnung als Blockschaltbild,
F i g. 2 bis 7 die Aufteilung des Sprachbandes zur Formanterkennung,
F i g. 8 eine Schaltungsanordnung zur Auswertung der erfindungsgemäß gewonnenen Kriterien und
F i g. 9 und 10 Kurven zur Selektion erkannter Silben.
Wie aus dem Blockschaltbild der F i g. 1 ersichtlich ist, wird der gesprochene Text der Schaltung über ein Mikrofon 1 angeboten, das die Schallschwingungen in elektrische Signale umwandelt Die in einer Verstärkerschaltung 2 verstärkten elektrischen Signale gelangen an einen ersten Schaltungsteil 10 der Schaltungsanordnung, in dem der frequenzniedrigste Formant ermittelt wird, außerdem an einen zweiten Schaltungsteil 20, in dem der Formant nächsthöherer Frequenz ermittelt wird, und gleichzeitig an einen weiteren Schaltungsteil 40, in dem Sprechpausen automatisch erkannt werden.
Zur Aussiebung des frequenzhöheren der beiden frequenzniedrigsten Formanten wird das mit einer Bandbreite von ca. 200-2800Hz vom Mikrofon kommende Sprachsignal in Schaltung 20 über ein Hochpaßfilter 11 geleitet, um eine bessere Hervorhebung der höheren Frequenzen zu erreichen. In einem nachfolgenden Phasendifferenzverstärker 12 wird das Signal phasenverschoben, und der höchste Formant wird ausgefiltert Durch die Größe der Phasenverschiebung kann der nächsthöhere Formant mit zwar höherer Frequenz aber viel kleinerer Amplitude sicher unterdrückt werden.
Mit »Phasendifferenzverstärker« ist (auch im folgenden) eine Schaltung bezeichnet, die aus einem Dilferenzverstärker besteht dessen einem Eingang der direkte Ausgang der vorhergehenden Schaltung und dessen zweitem Eingang der Ausgang der vorhergehenden Schaltung phasenverschoben zugeführt wird und die die Frequenzdifferenz bildet.
Das Ausgangssignal des Phasendifferenzverstärkers 12, das bei stimmhaften Phonemen einen sägezahnförmigen Verlauf hat, wird über eine Leitung 16 einer Schaltung 30 zur Vokalerkennung zugeführt Dem Phasendifferenzverstärker 12 ist eine Impulsformerschaltung 13 nachgeschaltet, die beispielsweise aus einem übersteuerten Phasendifferenzverstärker besteht und die sinusförmigen Signale in Rechteckimpulse umwandelt Die diesen Formanten darstellenden Signale können am Ausgang 14 des Schaltungsteiles 20 abgenommen werden.
Die Analyse des frequenzniedrigsten Formanten wird durch Frequenzumsetzung in der Schaltung 10 erreicht. Das vom Mikrofon 1 kommende Eingangssignal wird über ein Tiefpaßfilter 3 zur besseren Hervorhebung der niederen Frequenzen geleitet und in einem nachgeschalteten Modulator 4 mit Trägerunterdrückung mit einer von einem Frequenzgenerator 8 kommenden, 1,2 kHz betragenden Frequenz gemischt Es entstehen zwei Mischprodukte, und zwar (bezeichnet mar die vom Tiefpaßfilter 3 kommende Frequenz mit Fl) 1,2 kHz plus F1 und 1,2 kHz minus Fl. Das Produkt 1,2 kHz plus FI wird von einem aktiven Tiefpaßfilter 5 unterdrückt. Aus dem verbleibenden Produkt 1,2 kHz minus Fl kann die — nun umgekehrt liegende — niedrigste Frequenz als höchste Frequenz durch einen Phasendifferenzverstärker 6 ausgesiebt werden.
Der Ausgang des Phasendifferenzverstärkers 6 wird über eine Leitung 15 wiederum der Schaltung 30 zur Vokalerkennung zugeführt. Auch hier sorgt eine Impulsiormerschaltung 7 dafür, dab die jinur,fürmigen Signale in Recheckimpulse umgewandelt werden.
Anhand der F i g. 2 bis 7 läCi sich in einfacher Weise erkennen, wie die beiden Formanten ausgesiebt werden. In F i g. 2 ist das GesamtSDrachband dargestellt, das der Schaltung vom Mikrofon angeboten wird. Zur Formant-
erkennung wird jedoch nur ein Teil dieses Sprachbandes benutzt, das in F i g. 3 dargestellt ist. F i g. 4 zeigt das für den Formanten mit der zweitniedrigsten Frequenz benutzte Sana, wie e« durch das Hochpaßfilter 11 der Schaltung 20 in F ι g. 1 ausgesiebt wird. Durch das Tiefp:>riUkt r 3 der P"ha!tung 10 in I- i g. 1 wird da: Sprachband für den Formanten niedrigster Frequenz (Fig 5) ausgefiltert und nachfolgend im Modulator 4 mit Trägerfrequenzunterdrückung mit einer Frequenz von 1,2 kHz gemischt. Die entstehenden Mischprodukte sind in Fig.6 dargestellt. Es sind die beiden Produkte 1,2 kHz plus das in Fig.5 dargestellte Frequenzband und 1,2 kHz minus dem Frequenzband der Fig. 5 (umgekehrt liegend) erkennbar. F i g. 7 schließlich zeigt das Formantband des Formanten niedrigster Frequenz nach Unterdrückung des höherfrequenten Mischproduktes durch das aktive Tiefpaßfilter 5. Die umgekehrt liegende niedrigste Frequenz kann jetzt also als höchste Frequenz durch den Phasendifferenzverstärker 6 ausgesiebt werden.
Weiterhin ist in F i g. 1 die Schaltung 30 zur Vokalerkennung, die mit den Leitungen 15 und 16 der beiden Formantanalysatoren 10 und 20 verbunden ist, dargestellt. Hierzu wird die Tatsache ausgenutzt, daß Vokale stimmhafte Laute sind und gleichzeitig der Formant niedrigster Frequenz eine bestimmte Amplitudenhöhe überschreitet. Jeder dieser Punkte ist für sich allein für die Vokalerkennung nicht ausreichend, da auch Konsonanten stimmhaft sein können (n, m) und andererseits Reibelaute oder Explosivlaute eine hohe Amplitude aufweisen.
Im unteren Zweig der Vokalerkennungsschaltung 30 wird deshalb der Formant niedrigster Frequenz aus dem Formantanalysator 10 einer Amplitudenprüfung, im oberen Zweig der Formant der nächsthöheren Frequenz aus dem Formantanalysator 20, einer Stimmhaftigkeitsprüfung unterzogen. Der frequenzniedrigste Formant gelangt über Leitung 15 an einen einstellbaren Verstärker 17 und wird in einer nachfolgenden Schaltung 18 gleichgerichtet und geglättet. Das so behandelte Signal wird über ein Tiefpaßfilter 19 und eine Impulsformerschaltung 21 einer Konjunktion 23 als erster Eingang 22 zugeführt.
Bei der Prüfung auf stimmhafte Laute wird davon ausgegangen, das stimmhafte Laute mit der Periode der »Pitch«-Frequenz angeregt werden und dann ausklingend einen sägezahnähnlichen Amplitudenverlauf haben, der besonders in den höheren Formanten ausgeprägt ist Der frequenzhöhere Formant wird vom Formantanalysator 20 über Leitung 16 einer Schaltung 24 zum Gleichrichten und Glätten und danach einem Tiefpaßfilter 25 zugeführt Die entstandenen Sägezahnimpulse werden durch einen Verstärker 26 mit quadratischer Verstärkung stark überhöht und zur Ansteuerung eines Zeitgliedes 27 zur Überbrückung der Impulspausen verwendet Nach Umformung in einer Impulsfonnerschaltung 28 bilden die Signale den zweiten Eingang 29 der Konjunktion 23. Hier werden die Bedingungen »Amplitude« und »stimmhaft« zur Aussage »Vokal« vereinigt, die sich am Ausgang 31 der Konjunktion 23 abnehmen läßt
Schließlich weist die Schaltungsanordnung noch den Sprachschalter 40 auf. Dieser Sprachschalter wird zur Erkennung von Sprechpausen benötigt Dazu werden die vom Mikrofon 1 kommenden Signale einem einstellbaren Verstärker 32 zugeführt, von dem sie nach Gleichrichtung und Glättung in einer entsprechenden Schaltung 33 über ein Tiefpaßfilter 34 an eine linpulsformerschaltung 35 gelangen. Durch eine optimale Linsteilung des Verstärkers 32 wird enciohi, du'1 auch Zisch- und H3uch!.iu;o ein einwandfreies Durch schalten des Schwellwertschalters ergeben. Am Ausr. gang 36 des Sprachschalters 40 können die entsprechenden Signale abgenommen werden.
F i g. 8 zeigt als Beispiel einen Schaltungsaufbau, in dem die gemäß Fig. 1 aus den Sprechsignalen gewonnenen Kriterien zur Spracherkennung ausge-
ιι· niint werden können. Aus den Formantcrkennungssignalcn auf den Leitungen 9 und 14, den Vokalerkennungssignalen auf Leitung 31 und den Sprechpausensignaien auf Leitung 36 werden Sprachkurven gebildet die Merkmale für die Phoneme darstellen. Die Phoneme
is sind in ihrem Übergangsverhalten sehr stark von der Nachbar-Phonemen abhängig, d. h, die Formantfrequenzen sind für gleiche Laute unterschiedlich. Sc haben z. B. Explosivlaute (t, b, p, k) in Verbindung mit anderen Vokalen auch andere Formantfrequenzen. Um
2(i dennoch die Sprechsignale sicher erkennen zu können wird von der üblichen Analyse einzelner Phoneme abgewichen, und in der Schaltung nach F i g. δ werden die Phoneme zu längeren, von Sprechzeit und Lautstärke unabhängigen künstlichen Silben (im folgen
2r> den Pseudosilben genannt) verbunden. Es werden dabei Silben gebildet, die aus Vokalen, Konsonanten und Pausen bestehen und deren Mittelpunkte Konsonanter sind. Eine Pseudosilbe kann demnach aus
Pause-Konsonant-Pause
Pause-Konsonant-Vokal
Vokal-Konsonant-Vokal
Vokal-Konsonant-Pause
bestehen.
i" Der Ausgang des Sprachschalters 40 wird über einer Inverter 37 zwei Konjunktionen 38 und 39 zugefühn und bildet jeweils deren ersten Eingang. Der zweite Eingang der Konjunktion 38 wird mit dem frequenzniedrigsten Formanten aus dem Formantanalysator IC
in und der zweite Eingang der Konjunktion 39 mit derr Formanten der nächsthöheren Frequenz aus derr Formantanalysator 20 beaufschlagt Die Ausgänge dei Konjunktionen 38 und 39 werden Zählern 41 und 42 zugeführt in denen die Impulse der beiden Formanter
l'i während definierter Zeitintervalle von 20 ms gezähli werden.
Danach werden die Zählerstände jeweils in Speicherr 45 bis 48 abgespeichert, und zwar getrennt nach Konsonanten und Vokalen. Diese Unterscheidung wird
■>" vom Ausgang der Schaltung 30 zur Vokalerkennung gesteuert Deren Ausgangssignale betätigen Schalter 43 und 44 derart, daß bei Auftreten eines Vokals, alsc Vorhandensein eines Ausgangssignals auf Leitung 31 die Schalter 43, 44 in eine die Zählerstände in die
•3 Speicher 47, 48 leitende Stellung gebracht werden während sie sich bei Abwesenheit eines Signals aul Leitung 31 in der in Fig.8 gezeichneten Stellung befinden.
Die Zählerstände für Konsonanten des frequenz
"<> niedrigsten Formanten werden demnach im Speichel 45, die für Konsonanten des Formanten der nächsthöhe ren Frequenz im Speicher 46 abgespeichert, während die Zählerstände für Vokale des frequenzniedrigster Formanten im Speicher 47 und die für Vokale de:
'■'■ frequenzhöheren Formanten im Speicher 48 abgespeichert werden. Es hat sich außerdem als zweckmäßig herausgestellt, daß bei der Abspeicherung der Konsonanten eine Kurvenglättung durch Mittelwertbildung
zwischen zwei aufeinanderfolgenden Zählers'ηr:i'en zweckmäßig sein kann.
Die in den Speichern 4/, 1* üdcheinander eingespeicherten Vokal-Zählerstände sind jeweils in eine erste und eine zweite Hälfte unterteilt, damit Doppelvokale {ei, au, eu) erkannt werden können. Liie Ausgänge dieser beiden Speicher sind einer Schaltung 50 zur Bildung von Vokalschwerpunkten zugeführt, in der Vokalst verpunkte in einer anhand der Fig. 9 bis 12 beschriebenen Weise durch Mittelwertbildung erzeugt werden.
Ebenso werden die Ausgänge der Speicher 45,46 für Konsonanten-Zählerstände einer Schaltung 49 zur Konsonantenausdünnung zugeführt, in der sie mit dem Ausgang der Schaltung 50 zur Bildung von Vokalschwerpunkten vereinigt und einer ebenfalls in Verbindung mit den Fig.9 bis 12 beschriebenen Behandlung unterzogen werden.
Als Ergebnis sind am Ausgang der Schaltung 49 den gesprochenen Silben entsprechende Signale abnehmbar, die einem Merkmalvergleicher 51 zugeführt werden.
in F i g. 9 ist eine geglättete Sprachkurve dargestellt, die von den Konsonanten und Vokalen des gesprochenen Wortes »nein« dadurch gebildet wird, daß auf der Abszisse der Ausgang des Zählers 41 für den frequenzniedrigsten Formanten und auf der Ordinate der Ausgang des Zählers 42 für den frequenzhöheren Formanten aufgetragen ist Die Teilung von Abszisse und Ordinate entspricht dabei den Formantfrequenzen. Die so gebildete Kurve wird durch die Schaltung 49 zur Konsonantenausdünnung und die Schaltung 50 zur Bildung von Vokalschwerpunkten auf wenige signifikante Punkte ausgedünnt Dazu wird die Kurve in einzelne Abschnitte mit genau definierbaren Anfangsund Endpunkten zerlegt In den Fig.9 bis 12 sind die Vokale entsprechenden Kurvenpunkte durch χ und die Konsonanten entsprechenden Kurvenpunkte durch · dargestellt
Fig. 10 zeigt den Ausgang der Schaltung 50 zur Bildung von Vokalschwerpunkten. Es ist ersichtlich, daß aus der Vielzahl der Vokalpunkte in Fig.9 nunmehr durch die Bildung eines Mittelwertes je ein Vokalschwerpunkt erzeugt worden ist
F i g. 11 zeigt die Sprachkurve unter Einbeziehung der beiden Vokalschwerpunkte. Es sind nunmehr zwei Kurvenzüge vorhanden, deren Begrenzungspunkte jeweils vom Nullpunkt der Koordinatenmatrix und den Vokalschwerpunkten gebildet werden.
Fig. 12 schließlich zeigt den Ausgang der Schaltung 49 zur Konsonnntenausdünnung. Die Ausdünnung der beiden Konsonanten-Kurvenzüge erfolgt in diesem Ausführungsbeispiel durch Auslöschung der Kurvenpunkte mit den jeweils größten Winkeln zu den Nachbarpunkten. Die Kriterien bei der Ausdünnung sind zum einen Erhaltung der signifikanten Punkte und zum zweiten eine für alle gesprochenen Silben gleiche Punktzahl, da mit diesen Kriterien der später beschrie-
Hi bene Vergleich mit Mustersilben am einfachsten durchführbar ist. In diesem Beispiel bestehen die beiden verbliebenen Kurvenzüge 54 und 55 in Fig. 12 demzufolge aus den jeweils vier merkmalstärksten Punkten.
is Die solcherart für einen Vergleich aufbereitete gesprochene Silbe gelangt in einen Vergleicher 51 (F i g. 8), dem aus einem Merkmalspeicher 52 Mustersilben zuführbar sind. Der Merkmalspeicher 52 ist beispielsweise ein Festwertspeicher, der alle vorkom-
2ü menden Mustersilben, ausgedrückt durch die gleiche Punktzahl wie die aufbereiteten Silben (im Beispiel also vier), enthält. Durch den Vergleich der aufbereiteten Silben im Merkmalvergleicher 51 wird diejenige unter allen Mustersilben ausgesucht die die geringste Abweichung von der aufbereiteten Silbe aufweist.
Das ist für die in den F i g. 9 bis 12 dargestellten Silben in den F i g. 13 und 14 näher zu sehen. In F i g. 13 taucht strichpunktiert wieder der Kurvenzug 55 mit seinen vier signifikanten Punkten auf, während in Fig. 14 der
jo Kurvenzug 54 strichpunktiert dargestellt ist In Vollinien ist in beiden Figuren jeweils die am nächsten kommende Mustersilbe als Kurve 56, 57 eingezeichnet. Der Unterschied zwischen aufbereiteter Silbe und Mustersilbe ergibt sich jeweils aus den schraffiert dargestellten
J5 Flächen zwischen den beiden Kurvenzügen. Die kleinste Fläche entspricht der größten Ähnlichkeit. Jeder Mustersilbe ist ein Kennzeichen zugeordnet, das vom Merkmalvergleicher 51 an den Ausgang 53 weitergegeben wird.
Die in der beschriebenen Weise ermittelten Mustersilben stellen in erster Annäherung die erkannten gesprochenen Silben dar. Um zu einer einwandfreien, orthographisch richtigen Silbenausgabe zu gelangen, ist noch eine weitere Aufbereitung erforderlich, die z. B.
durch Zusammenfügung der Kennzeichen der Mustersilben zu Worten und erneutem Vergleich mit einem Musterwort-Vorrat aus einem weiteren Festwertspeicher erfolgen kann.
Hierzu 5 Blatt Zeichnungen

Claims (5)

Patentansprüche:
1. Elektrische Schaltungsanordnung für eine Einrichtung zur maschinenauswertbaren Spracherkennung, mit der das Frequenzspektrum der in Form elektrischer Signale dargebotenen Sprachsignale in »Sprachbänder« zerlegt, daraus »Formanten« und aus diesen »Vokale« ermittelt werden und die einen Sprachschalter aufweist, dadurch gekennzeichnet, einen ersten Schaltungsteil <10) zur Ermittlung der Anzahl der Schwingungen der »Formanten« niedrigster Frequenz, in dem das untere Sprachband ausgefiltert und dessen Frequenz umgesetzt, das untere Seitenband ausgesiebt sowie die Phasendifferenz zwischen dem unteren Seitenband und dem phasenverschobenen unteren Seitenband gebildet werden,
einen zweiten Schaltungsteil (20) zur Ermittlung der Anzahl der Schwingungen des »Formanten« nächsthöherer Frequenz, in dem das obere Sprachband ausgefiltert und die Phasendifferenz zwischen dem oberen Sprachband und dem phasenverschobenen oberen Sprachband gebildet wird,
einen dritten Schaltungsteil (30) zur Erkennung von »Vokalen«, in dem das Überschreiten einer definierten Amplitudenhöhe des »Formanten« niedrigster Frequenz in erste Signale und das Vorliegen von Stimmhaftigkeit durch Auswertung der Sägezahnimpulse des »Formanten« nächsthöherer Frequenz in zweite Signale umgesetzt werden und bei gleichzeitigem Auftreten von ersten und zweiten Signalen gemeinsame Ausgangssignale abgegeben werden und
einen vierten Schaltungsteil (40) zur den zeitlichen Ablauf prägenden automatischen Erkennung von Pausen in den Sprachsignalen durch einen Schwellwertschalter, die in Abhängigkeit von Sprechpausen Ausgangssignale liefert,
wobei zur Auswertung die Ausgangssignale des ersten und des zweiten Schaltungsteiles (10, 20) — gesteuert von den Ausgangssignalen des vierten Schaltungsteiles (40) — getrennt zählbar sind, die Zählergebnisse durch, die Ausgangssignale des dritten Schaltungsteiles (30) nach »Vokalen« und »Konsonanten« separierbar sind, woraus sich Merkmalsfolgen bilden und durch Vergleich mit gespeicherten Muster-Merkmalsfolgen »Silben« identifizieren lassen.
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Ermittlung der Anzahl der Schwingungen des frequenzniedrigsten »Formanten« durch Hintereinanderschaltung eines Tiefpaßfilters (3), eines Modulators (4) mit Trägerunterdrükkung, dem der Ausgang des Tiefpaßfilters und eines Frequenz-Generators (8) zugeführt sind, eines weiteren aktiven Tiefpaßfilters (5), eines Differenzverstärkers (6), dem der Ausgang des Tiefpaßfilters (5) sowohl direkt als auch phasenverschoben zugeführt wird, und eines Impulsformers (7) erfolgt.
3. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Ermittlung der Anzahl der Schwingungen der »Formanten« nächsthöherer Frequenz durch die Hintereinanderschaltung eines Hochpaßfilters (11), eines Differenzverstärkers (12), dem der Ausgang des Hochpaßfilters (11) sowohl direkt als auch phasenverschoben zugeführt wird, nnH pinr-t: ImniiUfnrmpr*; iit\ prfrtttrf
4. Schaltungsanordnung nach Anspruch 2 und 3, dadurch gekennzeichnet, daß die »Vokalerktnnung« durch Prüfung des Überschreitens einer definierten Amplitudenhöhe des »Formanten« niedrigster Frequenz in einer Hintereinanderschaltung eines Verstärkers (17), eines Gleichrichters (18) mit Glättung, eines Tiefpaßfilters (19) sowie eines Impulsformers (21) und durch Prüfung der Stimmhaftigkeit des »Formanten« nächsthöherer Frequenz in einer Hintereinanderschaltung eines Gleichrichters (24) mit Glättung, eines Tiefpaßfilters (25), eines Verstärkers (26), eines Zeitgliedes (27) sowie eines Impulsformers (28) erfolgt, deren Ausgangssignale einer Konjunktion (23) zugeführt sind.
5. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß die automatische Erkennung der »Sprechpausen« in einer Hintereinanderschaltung eines Verstärkers (32), eines Gleichrichters (33) mit Glättung, eines Tiefpaßfilters (34) und eines Impulsformers (35) erfolgt
DE19742448909 1974-10-15 1974-10-15 Elektrische Schaltungsanordnung für eine Einrichtung zur Spracherkennung Granted DE2448909B2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19742448909 DE2448909B2 (de) 1974-10-15 1974-10-15 Elektrische Schaltungsanordnung für eine Einrichtung zur Spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19742448909 DE2448909B2 (de) 1974-10-15 1974-10-15 Elektrische Schaltungsanordnung für eine Einrichtung zur Spracherkennung

Publications (3)

Publication Number Publication Date
DE2448909A1 DE2448909A1 (de) 1976-04-22
DE2448909B2 DE2448909B2 (de) 1978-12-07
DE2448909C3 true DE2448909C3 (de) 1979-08-16

Family

ID=5928269

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19742448909 Granted DE2448909B2 (de) 1974-10-15 1974-10-15 Elektrische Schaltungsanordnung für eine Einrichtung zur Spracherkennung

Country Status (1)

Country Link
DE (1) DE2448909B2 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2240867A (en) * 1990-02-08 1991-08-14 John Nicholas Holmes Speech analysis
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung

Also Published As

Publication number Publication date
DE2448909A1 (de) 1976-04-22
DE2448909B2 (de) 1978-12-07

Similar Documents

Publication Publication Date Title
DE2918533C2 (de)
DE2613258C2 (de) Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache
DE3645118C2 (de)
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2357067A1 (de) Vorrichtung zur sprachanalyse
DE4031638A1 (de) Spracherkennungseinrichtung
DE3102385C2 (de)
DE2720666C2 (de) Verfahren und Anordnung zur Geräuschanalyse
DE1572516A1 (de) Schaltungsanordnung fuer die Spracherkennung
DE2448909C3 (de)
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung
DE1547027C3 (de) Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE2904426A1 (de) Analog-sprach-codierer und decodierer
DE2431458A1 (de) Verfahren zur automatischen sprechererkennung
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
EP0138071B1 (de) Verfaren zur Anregungsanalyse für die automatische Spracherkennung
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
DE2649259C2 (de) Verfahren zum automatischen Erkennen von gestörter Telefonsprache
DE3200645C2 (de)
EP0834859A2 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE2363590A1 (de) Spracherkennungssystem mit merkmalsfolgekodierung

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8327 Change in the person/name/address of the patent owner

Owner name: OLYMPIA AG, 2940 WILHELMSHAVEN, DE

8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: AEG OLYMPIA AG, 2940 WILHELMSHAVEN, DE

8327 Change in the person/name/address of the patent owner

Owner name: AEG OLYMPIA OFFICE GMBH, 2940 WILHELMSHAVEN, DE

8339 Ceased/non-payment of the annual fee