DE2448909C3 - - Google Patents
Info
- Publication number
- DE2448909C3 DE2448909C3 DE19742448909 DE2448909A DE2448909C3 DE 2448909 C3 DE2448909 C3 DE 2448909C3 DE 19742448909 DE19742448909 DE 19742448909 DE 2448909 A DE2448909 A DE 2448909A DE 2448909 C3 DE2448909 C3 DE 2448909C3
- Authority
- DE
- Germany
- Prior art keywords
- formant
- frequency
- pass filter
- signals
- circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 230000010355 oscillation Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims 2
- 238000011156 evaluation Methods 0.000 claims 1
- 230000001755 vocal effect Effects 0.000 claims 1
- 230000015654 memory Effects 0.000 description 12
- 238000000034 method Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Description
Die Erfindung betrifft eine elektrische Schiltungsanordnung
der im Oberbegriff des Patentanspruchs 1 angegebenen Art.
Es sind bereits Spracherkennungsverfahren bekanntgeworden, bei denen die aus der Sprache gewonnenen
analogen elektrischen Wellenzüge ausgewertet werden. In der DE-OS 14 72 038 ist ein solches Verfahren
beschrieben, bei dem sowohl die Nulldurchgänge der Wellenzüge als auch die Intervalle der Nulldurchgänge
ermittelt werden. Die während einer bestimmten Zeitspanne ermittelten Intervalle der Nulldurchgänge
werden entsprechend ihrer Länge sortiert Danach wird die Anzahl der gleich langen Intervalle ermittelt, und
aufgrund des Zählergebnisses werden über eine Zuordnerschaltung die Worte erkannt.
Diese Lösung ist mit ihren Nachteilen stellvertretend für die meisten bekannten Spracherkennungsverfahren,
bei denen nur eine geringe Anzahl von Wörtern, meist Zahlwörter und einige Befehle, verarbeitet wird, da die
Selektionsmöglichkeit der einzelnen Phoneme zu ungenau ist. Um den Wortschatz zu vergrößern, wäre
ein erheblicher Aufwand an Schaltungen und Speicherplätzen erforderlich. Doch auch dann ist es — ohne die
Fehler allzusehr ansteigen zu lassen — nur möglich, Stimmen verwandter Charakteristik und ähnlicher
Sprechgeschwindigkeit zu erkennen. Das heißt, die Verfahren müssen an den jeweiligen Sprecher angepaßt
werden.
In der DE-AS 12 02517 ist eine Einrichtung zur
automatischen Erkennung von gesprochenen Silben oder Wörtern beschrieben worden, in der jeweils eine
einen Schwellenwert überschreitende Meßgröße das Auftreten oder Nichtauftreten einer Grundschwingung
und einer Oberschwingung feststellt. Die Bewertung erfolgt mit ja bzw. nein und wird als Code zur Einstufung
des untersuchten Lautes in eine Lautgruppe mittels einer Verknüpfungsschaltung verwendet. Die Lautgruppen-Markiersignale
werden in der Reihenfolge ihres Auftretens in einem Speicher geordnet und nach Beendigung der gesprochenen Silbe zu deren Identifizierung
herangezogen.
Auch diese Schaltungsanordnung stellt eine Lösung dar. hei der nur eine eerinee Anzahl von Wörtern, z. B.
Zahlwörter, erkannt werden können. Die Schaltungsanordnung
bietet keine ausreichend exakte Unterscheidungsmöglichkeit, um andere als ausgewählte Wörter
zu selektieren.
Um diese Nachteile auszuschalten, ist ein Verfahren entwickelt worden, bei dem das Frequenzspektrum in
mehrere Frequenzbänder zerlegt und das Auftreten von Formanten in den Frequenzbändern bestimmt wird
DE-OS 15 47 027). Bei diesem Verfahren wird das jeweilige End" von Formanten, getrennt in vielen
Frequenzbändern, von Differenzierschaltungen ermittelt In nachgeschalteten Verriegelungsschaltungen
werden die Formantverhältnisse (steigend, fallend, unveränderlich) für sehr viele Vokal-Vektorgrößen im
Sprachspektrum angezeigt. Weiterhin werden Konsonant-Kriterien in einem Frequenzanalysator und anhand
von Energiestößen ermittelt In einer Konsonantmatrix werden die Formantenergie sowie die Formantkriterien
eingespeichert Auch die ermittelten Formanten gelangen über einen Formantgeber in die Konsonantenmatrix,
so daß insgesamt eine Vielzahl von Vektorgrößen — in der bekannten Ausführungsform 56
— zur Verfügung stehen.
Mit diesem Spracherkennungsverfahren ist es zwar möglich, einen sehr viel größeren Wortschatz zu
verarbeiten, jedoch wird hierzu ein schaltungstechnischer Aufwand benötigt, der ein solches Gerät für den
praktischen Einsatz unrealistisch erscheinen läßt
Der Erfindung liegt die Aufgabe zugrunde, mit geringem schaltungstechnischen Aufwand aus dem
Frequenzspektrum der Sprachsignale Kriterien zu schaffen, aus denen der gesprochene Text — ohne
Einschränkung des Vokabular-Umfanges — maschinenauswertbar erkannt werden kann.
Diese Aufgabe wird durch die im Patentanspruch 1 angegebene Erfindung gelöst Weitere Ausgestaltungen
sind in den Unteransprüchen angegeben.
Dem Erfindungsgedanken liegt die Erkenntnis zugrunde, daß sich die für die Spracherkennung wesentlichen
Sprachmerkmale aus dem Energiedichte-Spektrum des elektrischen Sprechsignals ableiten lassen. Für
die einzelnen Phoneme — also die kleinste lautliche Einheit, die in derselben lautlichen Umgebung einen
Bedeutungsunterschied ausmacht — entstehen beim Sprechen immer drei ausgeprägte Frequenzschwerpunkte.
Diese Formanten genannten Frequenzschwerpunkte weichen bei verschiedenen Sprechern nr.r wenig
voneinander ab. Enisprechende Untersuchungen haben gezeigt, daß ausschließlich die beiden Formanten mit
der niedrigsten Frequenz für die Verständlichkeit eines Phonems wichtig sind. Die erfindungsgemäße Schaltung
erlaubt deshalb, jedes Phonem mit hoher Zuverlässigkeit allein aus diesen beiden Formanten zu erkennen.
Der Vorteil der Erfindung liegt insbesondere darin, daß nur sehr wenige Bauelemente erforderlich sind, um
vier Kriterien aus den Sprechsignalen abzuleiten, mit denen unabhängig von der Sprechgeschwindigkeit und
der Amplitude der Sprechsignale eine sichere Analyse möglich ist. Diese vier Kriterien sind ausreichend für
einen beliebig großen Wortvorrat
In den Zeichnungen ist ein Ausführungsbeispiel der Erfindung dargestellt und wird nachfolgend näher
erläutert. Es zeigen:
F i g. 1 eine erfindungsgemäß gestaltete Schaltungsanordnung als Blockschaltbild,
F i g. 2 bis 7 die Aufteilung des Sprachbandes zur Formanterkennung,
F i g. 8 eine Schaltungsanordnung zur Auswertung der erfindungsgemäß gewonnenen Kriterien und
F i g. 9 und 10 Kurven zur Selektion erkannter Silben.
Wie aus dem Blockschaltbild der F i g. 1 ersichtlich ist,
wird der gesprochene Text der Schaltung über ein Mikrofon 1 angeboten, das die Schallschwingungen in
elektrische Signale umwandelt Die in einer Verstärkerschaltung 2 verstärkten elektrischen Signale gelangen
an einen ersten Schaltungsteil 10 der Schaltungsanordnung, in dem der frequenzniedrigste Formant ermittelt
wird, außerdem an einen zweiten Schaltungsteil 20, in dem der Formant nächsthöherer Frequenz ermittelt
wird, und gleichzeitig an einen weiteren Schaltungsteil 40, in dem Sprechpausen automatisch erkannt werden.
Zur Aussiebung des frequenzhöheren der beiden frequenzniedrigsten Formanten wird das mit einer
Bandbreite von ca. 200-2800Hz vom Mikrofon kommende Sprachsignal in Schaltung 20 über ein
Hochpaßfilter 11 geleitet, um eine bessere Hervorhebung der höheren Frequenzen zu erreichen. In einem
nachfolgenden Phasendifferenzverstärker 12 wird das Signal phasenverschoben, und der höchste Formant
wird ausgefiltert Durch die Größe der Phasenverschiebung kann der nächsthöhere Formant mit zwar höherer
Frequenz aber viel kleinerer Amplitude sicher unterdrückt werden.
Mit »Phasendifferenzverstärker« ist (auch im folgenden) eine Schaltung bezeichnet, die aus einem
Dilferenzverstärker besteht dessen einem Eingang der direkte Ausgang der vorhergehenden Schaltung und
dessen zweitem Eingang der Ausgang der vorhergehenden Schaltung phasenverschoben zugeführt wird und
die die Frequenzdifferenz bildet.
Das Ausgangssignal des Phasendifferenzverstärkers 12, das bei stimmhaften Phonemen einen sägezahnförmigen
Verlauf hat, wird über eine Leitung 16 einer Schaltung 30 zur Vokalerkennung zugeführt Dem
Phasendifferenzverstärker 12 ist eine Impulsformerschaltung 13 nachgeschaltet, die beispielsweise aus
einem übersteuerten Phasendifferenzverstärker besteht und die sinusförmigen Signale in Rechteckimpulse
umwandelt Die diesen Formanten darstellenden Signale können am Ausgang 14 des Schaltungsteiles 20
abgenommen werden.
Die Analyse des frequenzniedrigsten Formanten wird durch Frequenzumsetzung in der Schaltung 10 erreicht.
Das vom Mikrofon 1 kommende Eingangssignal wird über ein Tiefpaßfilter 3 zur besseren Hervorhebung der
niederen Frequenzen geleitet und in einem nachgeschalteten Modulator 4 mit Trägerunterdrückung mit einer
von einem Frequenzgenerator 8 kommenden, 1,2 kHz betragenden Frequenz gemischt Es entstehen zwei
Mischprodukte, und zwar (bezeichnet mar die vom Tiefpaßfilter 3 kommende Frequenz mit Fl) 1,2 kHz
plus F1 und 1,2 kHz minus Fl. Das Produkt 1,2 kHz plus
FI wird von einem aktiven Tiefpaßfilter 5 unterdrückt.
Aus dem verbleibenden Produkt 1,2 kHz minus Fl kann
die — nun umgekehrt liegende — niedrigste Frequenz als höchste Frequenz durch einen Phasendifferenzverstärker
6 ausgesiebt werden.
Der Ausgang des Phasendifferenzverstärkers 6 wird über eine Leitung 15 wiederum der Schaltung 30 zur
Vokalerkennung zugeführt. Auch hier sorgt eine Impulsiormerschaltung 7 dafür, dab die jinur,fürmigen
Signale in Recheckimpulse umgewandelt werden.
Anhand der F i g. 2 bis 7 läCi sich in einfacher Weise
erkennen, wie die beiden Formanten ausgesiebt werden. In F i g. 2 ist das GesamtSDrachband dargestellt, das der
Schaltung vom Mikrofon angeboten wird. Zur Formant-
erkennung wird jedoch nur ein Teil dieses Sprachbandes benutzt, das in F i g. 3 dargestellt ist. F i g. 4 zeigt das für
den Formanten mit der zweitniedrigsten Frequenz benutzte Sana, wie e« durch das Hochpaßfilter 11 der
Schaltung 20 in F ι g. 1 ausgesiebt wird. Durch das Tiefp:>riUkt r 3 der P"ha!tung 10 in I- i g. 1 wird da:
Sprachband für den Formanten niedrigster Frequenz (Fig 5) ausgefiltert und nachfolgend im Modulator 4
mit Trägerfrequenzunterdrückung mit einer Frequenz von 1,2 kHz gemischt. Die entstehenden Mischprodukte
sind in Fig.6 dargestellt. Es sind die beiden Produkte
1,2 kHz plus das in Fig.5 dargestellte Frequenzband
und 1,2 kHz minus dem Frequenzband der Fig. 5
(umgekehrt liegend) erkennbar. F i g. 7 schließlich zeigt das Formantband des Formanten niedrigster Frequenz
nach Unterdrückung des höherfrequenten Mischproduktes
durch das aktive Tiefpaßfilter 5. Die umgekehrt liegende niedrigste Frequenz kann jetzt also als höchste
Frequenz durch den Phasendifferenzverstärker 6 ausgesiebt werden.
Weiterhin ist in F i g. 1 die Schaltung 30 zur Vokalerkennung, die mit den Leitungen 15 und 16 der
beiden Formantanalysatoren 10 und 20 verbunden ist, dargestellt. Hierzu wird die Tatsache ausgenutzt, daß
Vokale stimmhafte Laute sind und gleichzeitig der Formant niedrigster Frequenz eine bestimmte Amplitudenhöhe
überschreitet. Jeder dieser Punkte ist für sich allein für die Vokalerkennung nicht ausreichend, da auch
Konsonanten stimmhaft sein können (n, m) und andererseits Reibelaute oder Explosivlaute eine hohe
Amplitude aufweisen.
Im unteren Zweig der Vokalerkennungsschaltung 30 wird deshalb der Formant niedrigster Frequenz aus dem
Formantanalysator 10 einer Amplitudenprüfung, im oberen Zweig der Formant der nächsthöheren Frequenz
aus dem Formantanalysator 20, einer Stimmhaftigkeitsprüfung unterzogen. Der frequenzniedrigste
Formant gelangt über Leitung 15 an einen einstellbaren Verstärker 17 und wird in einer nachfolgenden
Schaltung 18 gleichgerichtet und geglättet. Das so behandelte Signal wird über ein Tiefpaßfilter 19 und
eine Impulsformerschaltung 21 einer Konjunktion 23 als erster Eingang 22 zugeführt.
Bei der Prüfung auf stimmhafte Laute wird davon ausgegangen, das stimmhafte Laute mit der Periode der
»Pitch«-Frequenz angeregt werden und dann ausklingend einen sägezahnähnlichen Amplitudenverlauf haben,
der besonders in den höheren Formanten ausgeprägt ist Der frequenzhöhere Formant wird vom
Formantanalysator 20 über Leitung 16 einer Schaltung 24 zum Gleichrichten und Glätten und danach einem
Tiefpaßfilter 25 zugeführt Die entstandenen Sägezahnimpulse werden durch einen Verstärker 26 mit
quadratischer Verstärkung stark überhöht und zur Ansteuerung eines Zeitgliedes 27 zur Überbrückung der
Impulspausen verwendet Nach Umformung in einer Impulsfonnerschaltung 28 bilden die Signale den
zweiten Eingang 29 der Konjunktion 23. Hier werden die Bedingungen »Amplitude« und »stimmhaft« zur
Aussage »Vokal« vereinigt, die sich am Ausgang 31 der Konjunktion 23 abnehmen läßt
Schließlich weist die Schaltungsanordnung noch den Sprachschalter 40 auf. Dieser Sprachschalter wird zur
Erkennung von Sprechpausen benötigt Dazu werden die vom Mikrofon 1 kommenden Signale einem
einstellbaren Verstärker 32 zugeführt, von dem sie nach Gleichrichtung und Glättung in einer entsprechenden
Schaltung 33 über ein Tiefpaßfilter 34 an eine linpulsformerschaltung 35 gelangen. Durch eine optimale
Linsteilung des Verstärkers 32 wird enciohi, du'1
auch Zisch- und H3uch!.iu;o ein einwandfreies Durch
schalten des Schwellwertschalters ergeben. Am Ausr. gang 36 des Sprachschalters 40 können die entsprechenden
Signale abgenommen werden.
F i g. 8 zeigt als Beispiel einen Schaltungsaufbau, in
dem die gemäß Fig. 1 aus den Sprechsignalen gewonnenen Kriterien zur Spracherkennung ausge-
ιι· niint werden können. Aus den Formantcrkennungssignalcn
auf den Leitungen 9 und 14, den Vokalerkennungssignalen auf Leitung 31 und den Sprechpausensignaien
auf Leitung 36 werden Sprachkurven gebildet die Merkmale für die Phoneme darstellen. Die Phoneme
is sind in ihrem Übergangsverhalten sehr stark von der
Nachbar-Phonemen abhängig, d. h, die Formantfrequenzen sind für gleiche Laute unterschiedlich. Sc
haben z. B. Explosivlaute (t, b, p, k) in Verbindung mit anderen Vokalen auch andere Formantfrequenzen. Um
2(i dennoch die Sprechsignale sicher erkennen zu können
wird von der üblichen Analyse einzelner Phoneme abgewichen, und in der Schaltung nach F i g. δ werden
die Phoneme zu längeren, von Sprechzeit und Lautstärke unabhängigen künstlichen Silben (im folgen
2r> den Pseudosilben genannt) verbunden. Es werden dabei
Silben gebildet, die aus Vokalen, Konsonanten und Pausen bestehen und deren Mittelpunkte Konsonanter
sind. Eine Pseudosilbe kann demnach aus
Pause-Konsonant-Pause
Pause-Konsonant-Vokal
Vokal-Konsonant-Vokal
Vokal-Konsonant-Pause
Pause-Konsonant-Vokal
Vokal-Konsonant-Vokal
Vokal-Konsonant-Pause
bestehen.
i" Der Ausgang des Sprachschalters 40 wird über einer
Inverter 37 zwei Konjunktionen 38 und 39 zugefühn und bildet jeweils deren ersten Eingang. Der zweite
Eingang der Konjunktion 38 wird mit dem frequenzniedrigsten Formanten aus dem Formantanalysator IC
in und der zweite Eingang der Konjunktion 39 mit derr
Formanten der nächsthöheren Frequenz aus derr Formantanalysator 20 beaufschlagt Die Ausgänge dei
Konjunktionen 38 und 39 werden Zählern 41 und 42 zugeführt in denen die Impulse der beiden Formanter
l'i während definierter Zeitintervalle von 20 ms gezähli
werden.
Danach werden die Zählerstände jeweils in Speicherr 45 bis 48 abgespeichert, und zwar getrennt nach
Konsonanten und Vokalen. Diese Unterscheidung wird
■>" vom Ausgang der Schaltung 30 zur Vokalerkennung
gesteuert Deren Ausgangssignale betätigen Schalter 43 und 44 derart, daß bei Auftreten eines Vokals, alsc
Vorhandensein eines Ausgangssignals auf Leitung 31 die Schalter 43, 44 in eine die Zählerstände in die
•3 Speicher 47, 48 leitende Stellung gebracht werden
während sie sich bei Abwesenheit eines Signals aul Leitung 31 in der in Fig.8 gezeichneten Stellung
befinden.
Die Zählerstände für Konsonanten des frequenz
"<> niedrigsten Formanten werden demnach im Speichel
45, die für Konsonanten des Formanten der nächsthöhe ren Frequenz im Speicher 46 abgespeichert, während
die Zählerstände für Vokale des frequenzniedrigster Formanten im Speicher 47 und die für Vokale de:
'■'■ frequenzhöheren Formanten im Speicher 48 abgespeichert
werden. Es hat sich außerdem als zweckmäßig herausgestellt, daß bei der Abspeicherung der Konsonanten
eine Kurvenglättung durch Mittelwertbildung
zwischen zwei aufeinanderfolgenden Zählers'ηr:i'en
zweckmäßig sein kann.
Die in den Speichern 4/, 1* üdcheinander eingespeicherten
Vokal-Zählerstände sind jeweils in eine erste und eine zweite Hälfte unterteilt, damit Doppelvokale
{ei, au, eu) erkannt werden können. Liie Ausgänge dieser
beiden Speicher sind einer Schaltung 50 zur Bildung von Vokalschwerpunkten zugeführt, in der Vokalst verpunkte
in einer anhand der Fig. 9 bis 12 beschriebenen
Weise durch Mittelwertbildung erzeugt werden.
Ebenso werden die Ausgänge der Speicher 45,46 für Konsonanten-Zählerstände einer Schaltung 49 zur
Konsonantenausdünnung zugeführt, in der sie mit dem Ausgang der Schaltung 50 zur Bildung von Vokalschwerpunkten
vereinigt und einer ebenfalls in Verbindung mit den Fig.9 bis 12 beschriebenen Behandlung
unterzogen werden.
Als Ergebnis sind am Ausgang der Schaltung 49 den gesprochenen Silben entsprechende Signale abnehmbar,
die einem Merkmalvergleicher 51 zugeführt werden.
in F i g. 9 ist eine geglättete Sprachkurve dargestellt, die von den Konsonanten und Vokalen des gesprochenen
Wortes »nein« dadurch gebildet wird, daß auf der Abszisse der Ausgang des Zählers 41 für den
frequenzniedrigsten Formanten und auf der Ordinate der Ausgang des Zählers 42 für den frequenzhöheren
Formanten aufgetragen ist Die Teilung von Abszisse und Ordinate entspricht dabei den Formantfrequenzen.
Die so gebildete Kurve wird durch die Schaltung 49 zur Konsonantenausdünnung und die Schaltung 50 zur
Bildung von Vokalschwerpunkten auf wenige signifikante Punkte ausgedünnt Dazu wird die Kurve in
einzelne Abschnitte mit genau definierbaren Anfangsund Endpunkten zerlegt In den Fig.9 bis 12 sind die
Vokale entsprechenden Kurvenpunkte durch χ und die Konsonanten entsprechenden Kurvenpunkte durch ·
dargestellt
Fig. 10 zeigt den Ausgang der Schaltung 50 zur Bildung von Vokalschwerpunkten. Es ist ersichtlich, daß
aus der Vielzahl der Vokalpunkte in Fig.9 nunmehr
durch die Bildung eines Mittelwertes je ein Vokalschwerpunkt erzeugt worden ist
F i g. 11 zeigt die Sprachkurve unter Einbeziehung der
beiden Vokalschwerpunkte. Es sind nunmehr zwei Kurvenzüge vorhanden, deren Begrenzungspunkte
jeweils vom Nullpunkt der Koordinatenmatrix und den Vokalschwerpunkten gebildet werden.
Fig. 12 schließlich zeigt den Ausgang der Schaltung
49 zur Konsonnntenausdünnung. Die Ausdünnung der beiden Konsonanten-Kurvenzüge erfolgt in diesem
Ausführungsbeispiel durch Auslöschung der Kurvenpunkte mit den jeweils größten Winkeln zu den
Nachbarpunkten. Die Kriterien bei der Ausdünnung sind zum einen Erhaltung der signifikanten Punkte und
zum zweiten eine für alle gesprochenen Silben gleiche Punktzahl, da mit diesen Kriterien der später beschrie-
Hi bene Vergleich mit Mustersilben am einfachsten
durchführbar ist. In diesem Beispiel bestehen die beiden verbliebenen Kurvenzüge 54 und 55 in Fig. 12
demzufolge aus den jeweils vier merkmalstärksten Punkten.
is Die solcherart für einen Vergleich aufbereitete gesprochene Silbe gelangt in einen Vergleicher 51
(F i g. 8), dem aus einem Merkmalspeicher 52 Mustersilben zuführbar sind. Der Merkmalspeicher 52 ist
beispielsweise ein Festwertspeicher, der alle vorkom-
2ü menden Mustersilben, ausgedrückt durch die gleiche
Punktzahl wie die aufbereiteten Silben (im Beispiel also vier), enthält. Durch den Vergleich der aufbereiteten
Silben im Merkmalvergleicher 51 wird diejenige unter allen Mustersilben ausgesucht die die geringste
Abweichung von der aufbereiteten Silbe aufweist.
Das ist für die in den F i g. 9 bis 12 dargestellten Silben
in den F i g. 13 und 14 näher zu sehen. In F i g. 13 taucht strichpunktiert wieder der Kurvenzug 55 mit seinen vier
signifikanten Punkten auf, während in Fig. 14 der
jo Kurvenzug 54 strichpunktiert dargestellt ist In Vollinien
ist in beiden Figuren jeweils die am nächsten kommende Mustersilbe als Kurve 56, 57 eingezeichnet. Der
Unterschied zwischen aufbereiteter Silbe und Mustersilbe ergibt sich jeweils aus den schraffiert dargestellten
J5 Flächen zwischen den beiden Kurvenzügen. Die kleinste
Fläche entspricht der größten Ähnlichkeit. Jeder Mustersilbe ist ein Kennzeichen zugeordnet, das vom
Merkmalvergleicher 51 an den Ausgang 53 weitergegeben wird.
Die in der beschriebenen Weise ermittelten Mustersilben stellen in erster Annäherung die erkannten
gesprochenen Silben dar. Um zu einer einwandfreien, orthographisch richtigen Silbenausgabe zu gelangen, ist
noch eine weitere Aufbereitung erforderlich, die z. B.
durch Zusammenfügung der Kennzeichen der Mustersilben zu Worten und erneutem Vergleich mit einem
Musterwort-Vorrat aus einem weiteren Festwertspeicher erfolgen kann.
Hierzu 5 Blatt Zeichnungen
Claims (5)
1. Elektrische Schaltungsanordnung für eine Einrichtung zur maschinenauswertbaren Spracherkennung,
mit der das Frequenzspektrum der in Form elektrischer Signale dargebotenen Sprachsignale in
»Sprachbänder« zerlegt, daraus »Formanten« und aus diesen »Vokale« ermittelt werden und die einen
Sprachschalter aufweist, dadurch gekennzeichnet, einen ersten Schaltungsteil <10) zur
Ermittlung der Anzahl der Schwingungen der »Formanten« niedrigster Frequenz, in dem das
untere Sprachband ausgefiltert und dessen Frequenz umgesetzt, das untere Seitenband ausgesiebt sowie
die Phasendifferenz zwischen dem unteren Seitenband und dem phasenverschobenen unteren Seitenband
gebildet werden,
einen zweiten Schaltungsteil (20) zur Ermittlung der Anzahl der Schwingungen des »Formanten« nächsthöherer
Frequenz, in dem das obere Sprachband ausgefiltert und die Phasendifferenz zwischen dem
oberen Sprachband und dem phasenverschobenen oberen Sprachband gebildet wird,
einen dritten Schaltungsteil (30) zur Erkennung von »Vokalen«, in dem das Überschreiten einer definierten Amplitudenhöhe des »Formanten« niedrigster Frequenz in erste Signale und das Vorliegen von Stimmhaftigkeit durch Auswertung der Sägezahnimpulse des »Formanten« nächsthöherer Frequenz in zweite Signale umgesetzt werden und bei gleichzeitigem Auftreten von ersten und zweiten Signalen gemeinsame Ausgangssignale abgegeben werden und
einen dritten Schaltungsteil (30) zur Erkennung von »Vokalen«, in dem das Überschreiten einer definierten Amplitudenhöhe des »Formanten« niedrigster Frequenz in erste Signale und das Vorliegen von Stimmhaftigkeit durch Auswertung der Sägezahnimpulse des »Formanten« nächsthöherer Frequenz in zweite Signale umgesetzt werden und bei gleichzeitigem Auftreten von ersten und zweiten Signalen gemeinsame Ausgangssignale abgegeben werden und
einen vierten Schaltungsteil (40) zur den zeitlichen Ablauf prägenden automatischen Erkennung von
Pausen in den Sprachsignalen durch einen Schwellwertschalter, die in Abhängigkeit von Sprechpausen
Ausgangssignale liefert,
wobei zur Auswertung die Ausgangssignale des ersten und des zweiten Schaltungsteiles (10, 20) —
gesteuert von den Ausgangssignalen des vierten Schaltungsteiles (40) — getrennt zählbar sind, die
Zählergebnisse durch, die Ausgangssignale des dritten Schaltungsteiles (30) nach »Vokalen« und
»Konsonanten« separierbar sind, woraus sich Merkmalsfolgen bilden und durch Vergleich mit
gespeicherten Muster-Merkmalsfolgen »Silben« identifizieren lassen.
2. Schaltungsanordnung nach Anspruch 1, dadurch
gekennzeichnet, daß die Ermittlung der Anzahl der Schwingungen des frequenzniedrigsten »Formanten«
durch Hintereinanderschaltung eines Tiefpaßfilters (3), eines Modulators (4) mit Trägerunterdrükkung,
dem der Ausgang des Tiefpaßfilters und eines Frequenz-Generators (8) zugeführt sind, eines
weiteren aktiven Tiefpaßfilters (5), eines Differenzverstärkers (6), dem der Ausgang des Tiefpaßfilters
(5) sowohl direkt als auch phasenverschoben zugeführt wird, und eines Impulsformers (7) erfolgt.
3. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Ermittlung der Anzahl der
Schwingungen der »Formanten« nächsthöherer Frequenz durch die Hintereinanderschaltung eines
Hochpaßfilters (11), eines Differenzverstärkers (12), dem der Ausgang des Hochpaßfilters (11) sowohl
direkt als auch phasenverschoben zugeführt wird, nnH pinr-t: ImniiUfnrmpr*; iit\ prfrtttrf
4. Schaltungsanordnung nach Anspruch 2 und 3, dadurch gekennzeichnet, daß die »Vokalerktnnung«
durch Prüfung des Überschreitens einer definierten Amplitudenhöhe des »Formanten« niedrigster Frequenz
in einer Hintereinanderschaltung eines Verstärkers (17), eines Gleichrichters (18) mit
Glättung, eines Tiefpaßfilters (19) sowie eines Impulsformers (21) und durch Prüfung der Stimmhaftigkeit
des »Formanten« nächsthöherer Frequenz in einer Hintereinanderschaltung eines Gleichrichters (24) mit Glättung, eines Tiefpaßfilters
(25), eines Verstärkers (26), eines Zeitgliedes (27) sowie eines Impulsformers (28) erfolgt, deren
Ausgangssignale einer Konjunktion (23) zugeführt sind.
5. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß die automatische Erkennung
der »Sprechpausen« in einer Hintereinanderschaltung eines Verstärkers (32), eines Gleichrichters (33)
mit Glättung, eines Tiefpaßfilters (34) und eines Impulsformers (35) erfolgt
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19742448909 DE2448909B2 (de) | 1974-10-15 | 1974-10-15 | Elektrische Schaltungsanordnung für eine Einrichtung zur Spracherkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19742448909 DE2448909B2 (de) | 1974-10-15 | 1974-10-15 | Elektrische Schaltungsanordnung für eine Einrichtung zur Spracherkennung |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2448909A1 DE2448909A1 (de) | 1976-04-22 |
DE2448909B2 DE2448909B2 (de) | 1978-12-07 |
DE2448909C3 true DE2448909C3 (de) | 1979-08-16 |
Family
ID=5928269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19742448909 Granted DE2448909B2 (de) | 1974-10-15 | 1974-10-15 | Elektrische Schaltungsanordnung für eine Einrichtung zur Spracherkennung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE2448909B2 (de) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2240867A (en) * | 1990-02-08 | 1991-08-14 | John Nicholas Holmes | Speech analysis |
DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
-
1974
- 1974-10-15 DE DE19742448909 patent/DE2448909B2/de active Granted
Also Published As
Publication number | Publication date |
---|---|
DE2448909A1 (de) | 1976-04-22 |
DE2448909B2 (de) | 1978-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2918533C2 (de) | ||
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
DE3645118C2 (de) | ||
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2357067A1 (de) | Vorrichtung zur sprachanalyse | |
DE4031638A1 (de) | Spracherkennungseinrichtung | |
DE3102385C2 (de) | ||
DE2720666C2 (de) | Verfahren und Anordnung zur Geräuschanalyse | |
DE1572516A1 (de) | Schaltungsanordnung fuer die Spracherkennung | |
DE2448909C3 (de) | ||
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE1547027C3 (de) | Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
DE2431458A1 (de) | Verfahren zur automatischen sprechererkennung | |
DE2062589C3 (de) | Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales | |
EP0138071B1 (de) | Verfaren zur Anregungsanalyse für die automatische Spracherkennung | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction | |
DE2649259C2 (de) | Verfahren zum automatischen Erkennen von gestörter Telefonsprache | |
DE3200645C2 (de) | ||
EP0834859A2 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
DE2363590A1 (de) | Spracherkennungssystem mit merkmalsfolgekodierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: OLYMPIA AG, 2940 WILHELMSHAVEN, DE |
|
8320 | Willingness to grant licences declared (paragraph 23) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: AEG OLYMPIA AG, 2940 WILHELMSHAVEN, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: AEG OLYMPIA OFFICE GMBH, 2940 WILHELMSHAVEN, DE |
|
8339 | Ceased/non-payment of the annual fee |