DE1422040A1 - Verfahren zum automatischen Erkennen gesprochener Worte - Google Patents

Verfahren zum automatischen Erkennen gesprochener Worte

Info

Publication number
DE1422040A1
DE1422040A1 DE19611422040 DE1422040A DE1422040A1 DE 1422040 A1 DE1422040 A1 DE 1422040A1 DE 19611422040 DE19611422040 DE 19611422040 DE 1422040 A DE1422040 A DE 1422040A DE 1422040 A1 DE1422040 A1 DE 1422040A1
Authority
DE
Germany
Prior art keywords
sound
sounds
word
words
circuits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19611422040
Other languages
English (en)
Inventor
Dersch William C
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE1422040A1 publication Critical patent/DE1422040A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Digital Transmission Methods That Use Modulated Carrier Waves (AREA)

Description

NEUE BESCHREIBUNGSEINLEITUNG - Ersatz für Seite 1 und Absatz 1 von Seite 2 der Beschreibung vom 28. August 1961 sowie der Beschreibungsergänzung vom 6. August 1964 und vom 23. März 1970
Verfahren zum automatischen Erkennen gesprochener Wörter
Die Erfindung betrifft ein Verfahren zum Erkennen gesprochener Wörter unter Verwendung von Anzeigevorrichtungen für in den Wörtern nacheinander auftretende Lautmerkmale und unter Verwendung von Schaltungen zur Auswertung der von den Anzeigevorrichtungen gelieferten Ausgangs signale.
Anwendungsgebiete für Einrichtungen zum Erkennen gesprochener Worte sind die Nachrichtenübermittlung und Datenverarbeitung. Zum Beispiel könnte ein Telephonübermittlungssystem statt durch Wählscheibe mit gesprochenen Worten betrieben werden. Oder es könnten gesprochene Worte direkt zur Steuerung eines Druckers oder dergleichen Einrichtungen benutzt werden. Da die gesprochenen menschlichen Worte von der Eigenheit des Sprechers sehr beeinflußt werden, z. B. in der Tonhöhe, der Sprechgeschwindigkeit, den Ausspracheeigenheiten, war bei bekannten Verfahren zum Erkennen gesprochener Worte das Bestreben darauf gerichtet, diese Eigenheiten einzuschränken oder mit anderen Worten die Sprache zu normieren.
1098AO/0 1 84
neue Beschreibungseinleitung vom 18. März 1971
H22040
Die vorliegende Erfindung geht einen anderen Weg. Anstelle die Sprache zu normieren und sie dann in den phonetischen Silben entsprechende Teile zu zerlegen und auszuwerten, d.h. einen synchronen Auswertevorgang anzuschließen, wird beim Verfahren der vorliegenden Erfindung ein "asynchroner" Betrieb angestrebt, bei dem die phonetischen Silben des Wortes keine Bedeutung haben. Durch Verzicht auf eine willkürlich gewählte Zeitbasis spielt die Dauer des Wortes, die Sprechgeschwindigkeit, also keine Rolle mehr für die Erkennung. Auch die Aussprache-Eigenheiten verschiedener Sprecher machen sich bei dem gewählten Verfahren nicht mehr störend bemerkbar. "
Nach einem älteren Vorschlag einer Wortidentifiziereinrichtung wird eine Relais-Auswahlschaltung; verwendet, welche mehrere Drehpuls relais umfaßt, von denen jedes acht bis zehn Schaltstellungen einnehmen kann. Die Relais besitzen abgestufte Empfindlichkeitsbereiche und sind den Buchstabengruppen zugeordnet. So ist das Relais mit dem. niedrigsten Empffndlichkeits~ bereich den Vokalen und die übrigen Relais den Konsonanten zugeordnet. Die Worterkennung soll durch eine Auswertung der Effektivströme des Wortsignals erfolgen, indem die Relais direkt durch dieses Signal erregt werden und die Magnete in einer Druckeinrichtung steuern. Werner ist es bekannt, zur Spracherkennung das Prinzip der Zeit-lnterva31-Analyse zu benutzen. Aus einer vom gesprochenen Wort abgeleiteten sogenannten natürlichen Wellenform wird eine symmetrisch zur Null-Lmie liegende Rechteckwellenform gebildet, deren Null-Durchgänge zeitlich erfaßt und durch Klassifizierung in mehrere Frequenzkanäle ausgewertet werden. Die in den einzelnen Kanälen auftretenden Impulse werden gezählt und das Ergebnis der Zählung mit Hilfe logischer Verknüpfungen zur Erzeugung eines SchreibimpulBes benutzt. Auch bei diesen Spracherkennungsverfahren ist die Wirksamkeit der Erkennung in hohem Maße von der Sprechgeschwindigkeit abhängig. Außerdem benötigen die nach diesem Verfahren arbeitenden Einrichtungen einen erheblichen Aufwand. .
■--■■■■■■ 109840/0184 ■:■■ -
neue Beschreibungseinleitung vom 18. März 1971
Es ist weiterhin für die Sprachanalyse bekannt, ausgehend von den Formantfrequenzen eines Vokals festzustellen, ob sich im weiteren Verlaufe des betreffenden Wortes die Formantfrequenz erhöht oder verringert. Aus den Anzeigen "ansteigende Frequenz" oder "abfallende Frequenz" werden in einer Umsetzerschaltung zwei Digitalsignale gebildet, die zur Analyse des betreffenden Wortes herangezogen werden. Diese Digitalsignale können jedoch nur einen zusätzlichen Beitrag zur vollständigen Analyse eines Wortes leisten, wie beispielsweise einen Unterschied zwischen zwei Worten oder zwei Wortklassen anzeigen, während die eigentliche Erkennung eines von mehreren Worten nach einem Verfahren der eingangs erläuterten Art erfolgt.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren anzugeben, das die erwähnten Nachteile einer starken Abhängigkeit von der Sprechgeschwindigkeit vermeidet und einen einfachen Aufbau der Erkennungs schaltung gestattet. Durch eine asynchrone, an keine feste Zeitbasis gebundene Analyse der ein Wort kennzeichnenden Lautmerkmale soll außerdem vermieden werden, daß die in den Bereichen des Wortbeginnes und des Wortendes auftretenden stimmlosen Nebenlaute das Ergebnis der Worterkennung störend beeinflussen. Diese Aufgabe wird dadurch gelöst, daß zur Identifizierung eines von mehreren Wörtern ein in allen Wörtern des gewählten Vokabulars vorkommendes und sich von Geräuschsignalen deutlich unter scheid endesLautmerkmal festgestellt wird, daß dieses Lautmerkmal als Bezugspunkt für ebenfalls festgestellte weitere Lautmerkmale benutzt wird, und daß das Laut-' merkmal des Bezugspunktes und die weiteren Lautmerkmale sowie deren zeitliche Lage gegenüber dem Lautmerkmal des Bezugspunktes in einer Wortauswahlschaltung zur vollständigen Identifizierung eines Wortes verwendet wird.
Weitere vorteilhaft Einzelheiten der" Erfindung sind aus den Ansprüchen ersichtlich. Nachfolgend ist ein Ausführungsbeispiel der Erfindung anhand von Zeichnungen beschrieben. Das Ausführungsbeispiel ist auf das Erkennen der Zahlworte Eins bis Neun der englischen Sprache abgestellt» Die zum
10 9 8 4 0/018 A
P 14 ZZ 040. 7
neue B es ehr eibungs einleitung · vom 18. März 1971
Erkennen dienenden Charakteristika oder Merkmale sind jedoch auch in anderen Sprachen enthalten, so daß der Erfindung sgedanken nicht auf das Erkennen englischer Worte beschränkt ist. Die Zeichnungen zeigen:
(Fortsetzung auf Seite 3 der Beschreibung vom 28. August 1961)
■109 8 40/01
. I
-/- U22040
Fig. 1 ist eine Blockdarstellung eines erfindungs ge mäßen Worterkennungssystems;
Fig. 2 ist ein Blockdiagramm eines erfindungsgemäßen Systems zum Erkennen von 10 gesprochenen Worten;
Fig. 3 zeigt schematisch einen Lautfolge-Speicher, der in Fig. 2 verwendbar ist;
Fig. 4 zeigt eine Auswahlschaltung für die Fig. 2;
Fig. 5 zeigt ein Blockdiagramm zum Erkennen von Worten mit mehrsilbiger Intonation;
Fig. 6 ist ein schematisches Sehaltbild eines Intonationsanzeigers für das erfindungs ge mäße Verfahren;
Fig. 7 zeigt Spannungsverläufe aus der S haltung nach Fig. 6; Fig. 8 zeigt schematisch einen Anzeiger für harte Reibelaute;; Fig. 9 zeigt schematisch einen Anzeiger für weiche Reibelaute und
Fig. Ip ist eine Anzeigeeinrichtung zur Unterscheidung der Maechinen-Laute "two" und "seven".
Das nachstehend beschriebene Ausführungsbeispiel dient der Spracherkennung. Zum besseren Verständnis dafür, wie das erfindungsgemäße Verfahren zur Spracherkennung dienen kann, muß zunächst einigen Besonderheiten der Sprache Aufmerksamkeit geschenkt werden. Manche Sprachlaute können als stimmhaft bezeichnet werden. Stimmhafte Laute sollen hier definiert werden als Laute, die von den vibrierenden durch Luft angeregten Stimmbändern herrühren. Die Bedeutung ist eine andere als im musikalischen Sinne oder Ausdruck, die vorwiegend die Tonart betrifft. Die Stimmhaftigkeit hat besondere Merkmale, die im zugehörigen elektrischen Signal wieder erscheinen und dort von Stromkreisen des hier zu beschreibenden Verfahrene unterschiedenen werden können. Ein Gharakte-
109840/0184
ristikum ist der unsymmetrische Kurvenverlauf. Stimmhafte Äußerungen verursachen elektrische Signale, deren Leistungsspitzen bezüglich der Null-Linie unsymmetrisch verteilt sind, im Gegensatz zu einer Sinus-Linie mit zur Null-Linie symmetrischer Verteilung der Leistungsspitzen. Weiter hat die einen Laut darstellende Kurvenform eine unübersichtliche Gestalt und kann für die Dauer der Lautbildung als periodisch betrachtet werden.
Andere Sprachlaute können als Reibelaute (oder Zischlaute) bezeichnet werden. Ein Reibelaut entsteht, wenn Zunge, Zähne oder Lippen ein Gebilde formen, durch das die Luft strömt. Die Reibelaute können weiter in harte Reibelaute und weiche Reibelaute unterteilt werden; Beispiele für die harten sind "s", hartes "t" und V3 Beispiele für weiche Reibelaute sind "f", 1V" und weiches 1V. Die Laute V und "m" werden hier als "Maschinen-Vokale" bezeichnet; die Gründe hierfür sollen später im einzelnen erläutert werden. Der Laut "z" enthält beide der genannten Charakteristiken und kann als stimmhafter Reibelaut bezeichnet werden.
Die Hauptbausteine des erfindungsgemäßen Verfahrens sind in Pig. I gezeigt. Die Signalquelle 10 liefert den gesprochenen Worten entsprechende elektrische Signale zu der Auswerteschaltung 12, welche Signale unterscheiden kann, die bestimmten gesprochen/Lautteilen oder Lautereignissen entsprechen. Diese gesprochenen Lautteile werden anhand besonderer erkennbarer Eigenheiten des elektrischen, das gesprochene Wort darstellenden Signals erkannt; z. B. nach der verschiedenen Art der Stimmhaftigkeit und der Reibelaute. Es sollte dabei jedoch beachtet werden, daß insoweit als die verschiedenen Messungen sich mit unterschiedlichen Charakteristiken befassen, die gesprochenen Lautteile nicht eine bestimmte Länge haben, sondern aufeinanderfolgen und sich nicht überlappen. Verschiedene Eigenschaften einer Signalform jedoch können einen einzelnen
109840/0184
·/- U22040
Lautteil ^identifizieren,
Die Signale der Auswerte schaltung 12 gelangen zu der Wortauswahlschaltung 14, welche zwei Funktionen ausübt: Einmal bestimmt sie die zeitliche Beziehung zwischen den verschiedenen Lautteilen und zum anderen bestimmt sie aus den verschiedenen Konabinationen von Lautteilen ein bestimmtes Wort. Die zwei hauptsächlichen Einheiten der Wortauswahlschaltung 14 sind der Lautfolge speicher 16 und die Auswahlschaltung 17. In der Schaltung 14 können diese beiden Einheiten aus Relais, Transistoren, Dioden oder Elektronenröhren bestehen. Logische UND- und ODER-Schaltungen, bistabile Schaltelemente und andere aus der daten verarbeitenden Technik bekannte Bauelemente können verwendet sein. Die Ausführungsbeispiele der Figuren 3 und 4 verwenden Relaisschaltungen.
Beim Betrieb der Anordnung nach Fig. 1 verursacht jedes gesprochene Wort die Feststellung einer ausreichenden Zahl von verschiedenen charakteristischen Merkmalen durch die Auswerteschaltung 12. Wenn als einfaches Beispiel angenommen wird, daß ein Wort in dem Wortschatz ein eindeutiges Chrakteristikum enthält, dann wird ein Anzeiger, der nur auf dieses Charakteristikum abgestimmt ist, das Auftreten dieses besonderen Wortes feststellen. Ein weiteres, etwas schwierigeres, aber doch noch relativ einfaches Beispiel: Nur ein Wort in dem Wortschatz möge mit einem harten Reibelaut beginnen und enden. Wenn der Lautfolgespeicher 16 den Auswahlschaltungen 17 dieses Ereignis anzeigt, so können diese Schaltungen ein entsprechendes Ausgangssignal abgeben. Die festgestellten Lautteile werden von der Sprechgeschwindigkeit oder anderen Faktoren nicht beeinflusst. Die Zeit, zu welcher die Lautteile entdeckt werden, bezieht β ich nur auf das Wort selbst, das so eine willkürliche oder asynchrone Zeitbasis für die Einrichtung bildet.
109840/0184
-/- H22040-
Durch diese Maßnahme wird die Maschinensilbe durch den Beginn der stimmhaften Laute definiert. Die Maschinensilbe wird nicht von dem Wortaufbau gesteuert, obwohl das zeitabhängige Lautbild von Einfluß ist.
Das erfindungsgemäße Sprachanalyse-Verfahren hat bemerkenswer t e Vorteile. Es ist verhältnismäßig einfach, da es durch den gewählten asynchronen Betrieb frei ist von allen Forderungen für die Bestimmung der Sprechgeschwindigkeit oder der Signalnormierung. Deshalb ist die Aufzeichnung von Signalen, die einem Wort entsprechen, unter Verwendung einer festen Zeitbasis, um mit einem Standjfe vergleichbar zu sein, nicht nötig. Die Maschinensilbe liefert das Verbindungsglied zu bedeutungsvollen Teilen des gesprochenen Wortes und einfachen Krel- . sen, die so ausgebildet werden können, daß sie mit Sicherheit auf Charalfceristika des gesprochenen Wortes reagieren. Die Maschinensilbe erlaubt die selbsttätige Zerlegung von Lauten entsprechend bedeutungsvollen Änderungen in diesen.
Ein gedrängtes und billiges, aber trotzdem brauchbares Beispiel für die Anwendung des erfindungsgemäßen Verfahrens zeigt die Fig. 2, deren Anordnung die .gesprochenen englischen Wurfe Null bis Neun (feero" bis nnine") erkennt. Als Quelle elektrischer, menschliche Worte darstellendorSignale dient das Mikrophon 20 mit nachgeschaltetem Verstärker 2t. Die Auswerteschaltung besteht bei diesem Beispiel aus sechs verschiedenen Anzeigevorrichtungen 24 bis 29, die alle gleichzeitig Eingangssignale vom Verstärker 21 erhalten. Dabei erfüllt der Anzeiger 24 für die Stimmhaftigkeit eine wichtige Funktion. Er spricht auf die unsymmetrische Charakteristik, eine Eigenheit der menschlichen Sprache, an und liefert ein Ausgangssignal jedesmal* wenn eine derartige
109840/0184
unsymmetrische Charakteristik auftritt.
Jeder der folgenden drei Anzeiger 25 bis 27 reagiert auf einen bestimmten Vokaleharakter im elektrischen Signal. Die Anzeigeschaltung 25 "eins" aber nicht "neun" (one vs. nine) liefert ein Signal, wenn der Vokallaut des englischen Zahlwortes eins vorhanden ist, aber nicht, wenn das englische Zahlwort neun auftritt. Der Anzeiger 26 unterscheidet die englischen Zahlworte drei und vier und spricht bei dem Zahlwort vier an; die Anzeigeschaltung 27 unterscheidet die englischen Zahlworte zwei und sieben und spricht bei dem englischen Zahlwort sieben an. Die vollständige Identifizierung jedes dieser Worte hängt auch noch von der Identifizierung der anderen Lautteile ab, aber&er Vokalanteil gibt die endgültige Entscheidung.
An den Verstärker 21 sind weiter noch angeschlossen die Anzeiger 28 und 29; der Reibelaut-Anzeiger 28 identifiziert die harten Reibelaute, der Anzeiger 29 die weichen Reibelaute. Im Beispiel spricht zwar der Anzeiger 29 auch auf Signale für harte Reibelaute an, jedoch ist der Lautfolge speicher 16 so eingerichtet, daß er die Trennung zwischen harten und weichen Reibelauten zustande bringt. Dies geschieht hier durch Tor schaltungen; es könnte jedoch auch durch andere Maßnahmen, z. B. Signalsubtraktion geschehen.
Der Lautfolgespeicher 16 ist in Fig. 3 gezeigt, wo zugunsten der Übersichtlichkeit auch die verschiedenen Anzeiger 24 bis 29 der Fig. 2 mit aufgenommen werden. Die Eingangs signale gelangen an eine Klemme jedes Anzeigers 24 bis 29,und die Ausgänge dieser Anzeiger sind Über Relaisspulen aüt dem negativen Pol 30 einer Spannungsquelle verbunden, die hier -35 Volt beträgt. Die verwendeten Relaisschaltungen enthalten Halteepulen und eine Reihe von Kontakten für jedes Relais.
10 9 8 4 0/0184
Die folgende Bezeichnungsweise wurde gewählt: Mit K1 wird die dem Ansprechen des Relais dienende Wicklung des ersten Relais bezeichnet, mit K1, wird die Haltewicklung des ersten Relais gekennzeichnet. Die Relaiskontakte sind einpolige Wechselkontakte und werden nacheinander mit K1 , Kj, usw. genannt. Nach der Identifizierung eines gesprochenen Wortes werden die dabei aufgebauten und von der Halte-Spannungs-(guelle 32 gespeisten Relaiskreise mittels des Löschkontaktes 34 wieder getrennt. Dieser Löschkontakt erdet die Stromkreise und macht die Haltespulen stromlos. Der Löschkontakt ist als handbetätigter Kontakt dargestellt und kann natürlich aus eine^ndefärtigen^ auch automatisch betätigten Schalteinrichtung bestehen, die z. B. nach einer gewissen Zeitverzögerung in Tätigkeit tritt oder durch den Beginn des folgendes Wortes ausgelöst wird. In Fig. 3 sind die Kontakte in ihrer Ruhelage dargestellt.
Es folgt hier die Angabe der Zuordnung der Relais rand Relaiskontakte zu den einzelnen Anzeigern. Beim Anzeiger 24 für die Stimmhaftigkeit verursacht die Erregung der Relaisspule K. das Schließen eines Haltekreises mit der Haltespule K1- und dem Kontakt K1 V Entsprechendes gilt fir die Relaisspulen K_, KQ und KQ der Anzeiger 26 (Unterscheidung von drei und vier), 27 (Unterscheidung von zwei und sieben) und 25 (Unterscheidung von eins und neun). Die von den Reibelautanzeigern 28 und 29 gesteuerten Stromkreise jedoch sind voneinander abhängig. Soweit die Erregung der Relaisspulen K1 bis K0 von der Deckung bestimmter Lautteile und in einigen Fällen von der Übereinstimmung der zeitlichen Lage von Lautteilen mit der gewählten Zeitbasis abhängt, kann die Wirkungsweise uiid Bedeutung der einzelnen Stromkreise am besten verstanden werden, wenn sie mit den benutzten verschiedenen Lautteilen it y ~
und zeitlichen Beziehungen verglichen wird.
Die Bedeutung., die einer bestimmten erregten Relais spule zugeteilt wird» geht «as der folgenden Aufstellung hervor;
10 9 8 4 0/0184
K1 = (V) = Stimmhaftigkeit
Κ« » (WPE) = früher schwacher Reibelaut K_ = (SFE) = früher starker Reibelaut K = (VF) = Stimmhaftigkeit und Reibelaut. K. =(WFL) = später schwacher Reibelaut
K0 - (SFL) = später harter Reibelaut 6
K_ = (3-4) = Unterscheidung von drei und vier K0 = (2-7) = Unterscheidung von zwei und sieben = (1-9) = Unterscheidung von eins und neun.
Die Übertragung der vorstehenden Tabelle auf die Schaltung der Fig. 3 erlaubt folgende Feststellung:
Stimmhaftigkeit - Das Signal aus dem Anzeiger für die Stimmhaftigkeit (24) erhält die Relaisspule K1 und zeigt das Vorliegen der Stimmhaftigkeit an.
Früher schwacher Reibelaut - Das einem schwachen Reibelaut entsprechende Signal betätigt den Anzeiger 29, aber nicht den Anzeige r 28. Die Relaisspule K1- ist deshalb erregt, die Relais spule K11 aber nicht.
Die Kontakte K1, und K14 bleiben deshalb unbeeinflusst, aber der Kon-Id 11a
takte K1- wird umgelegt und schließt einen Stromkreis über die Relaisspule K-. Das Relais K_ hält sich über den Kontakt K- und die Haltespule K_, als Nachweis für das Vorliegen eines^chwachen Reibelautes.
109840/0184
Früher harter Reibelaut - Ein harter Reibelaut betätigt die Anzeiger 28 und 29 und erregt die Spulen K11 und K1 fl. Zu diesem Zeitpunkt hat der Anzeiger 24 für die Stimmhaftigkeit den Kontakt K1, noch nicht umgelegt, jedoch sind die Kontakte K1 Q und K^1 betätigt; die Relaisspule K_ , spricht an, und dieses Relais hält sich über K_ und K_,. Wenn bei einem Wort ein weicher Reibelaut von einem harten Reibelaut gefolgt ist (was manchmal bei einem Eingangs-"s" vorvorkommt), so überwiegt der Einfluß des harten Reibelautes.
Stimmhaftigkeit Und Reibelaut - Wenn die beiden Reibelautanzeiger 28 und gleichzeitig der Anzeiger für die Stimmhaftigkeit 24 angesprochen werden, so entsteht ein Stromkreis über die umgelegten Kontakte K1 flfe, K11, und die Relaisspule K.. Es ist bemerkenswert, daß das Relais K. von dem vorübergehenden Signal des Anzeigers 24 betätigt und nicht etwa von dem anbauenden Signal, das vorhanden ist, wenn die Relaisspule K1* erregt wurde«
Später schwacher Reibelaut - Wenn der Anzeiger für die Stimmhaftigkeit (24) angesprochen hat und dann ein weicher Reibelaut den Anzeiger 29 betätigt, ohne den Anzeiger 28 zum Ansprechen zu bringen, so wird das Relais K_ erregt. Auch hier wird ein Hältekreis wirksam.
Später harter Reibelaut - Sobald die beiden Reibelautanzeiger (28 und 29) nach dem Ansprechen des Anzeigers 24 für Stimmhaftigkeit in Tätigkeit gesetzt werden, so wird das Relais Kß (im vorigen Abschnitt K-) erregt und gehalten.
Unterscheiden (3-4) - Ein Ausgangssignal von dem Anzeiger 26 bringt das Relais K- zum Ansprechen; ein Haltekreis wird anschließend gebildet.
10984070184 -
H22040
Unterscheiden (2-7) - Das Ausgangssignal des Anzeigers 27 erregt das Relais K„; ein Haltekreis wird gebildet.
Unterscheiden (1-9) - Der Anzeiger 25 betätigt das Relais K. und den entsprechenden Haltekreis.
Verriegelung zwischen harten und weichen Reibelauten - Der Anzeiger für schwache Reibelaute spricht wie gesagt auch auf harte Reibelaute an. Um eine Unterscheidung zu ermöglichen, steuert der Anzeiger fur harte Reibelaute nach Art einer Torschaltung die Art und Weise, wie die Signale des Anzeigers 29 für weiche Reibelaute verwendet werden. Beim Beispiel geschieht dies durch Reihenschaltung von Kontakten der Relais K10 und K11 (vergl. die Kontakte K1Qa und Klla; K1Ofe undKllb).
Die Schaltung der Fig. 3 kann in mancher Hinsicht selbst Auswahl treffen. Dazu gehört die Erzeugung von Signalen beim Zusammentreffen mehrerer Bedingungen; ein Beispiel ist die Erzeugung des Signals VF (Relais K.) beim gleichzeitigen Ansprechen der Anzeiger 24, 28 und 29. Dazu gehört natürlich auch die Feststellung der Zeitfolge von Signalen (z. B. eines frühen weichen Reibelautes und eines spaten harten Reibelautes). Die hauptsächliche Entscheidung trifft bei dem vorliegenden Beispiel jedoch die Auswahlschaltung 17, deren Einzelheiten in Fig. 4 dargestellt sind.
Die Auswahlschaltungen 17 sind tatsächlich a£ß eine Relaispyramide, welche gewisse logische Gleichungen erkennt, die unter Benutzung der Bezeichnungiweise der früher gezeigten Tabelle folgendermaßen dargestellt werden können;
108840/0184
142204Q
"null** (zero) = VF
"eins" (one) =(VF) (WFE) (SFE)(SFL) (1-9)
"zwei" (twöir * (VF) (WFE) (SFE) "iSFL) (2-?)
"drei" (three) = (VF) (WFE) (WFL) (3-1)
"vier" (four) = (VF) (WFE) (WFL) (3-4)
"fünf" (five) = (VF) (WFE) (WFL)
"sechs" (six) = (VF) (WFE) (SFE) (SFL)
"sieben" (seven) * (VF) (WFE) (SFE) (SFL) (Ϊ-7)
"acht" (eight) = (VF) (WFE) (SFE) (SFL)
"neunf (nine) = (VF) (WFE) (SFE) (SF5L)(I-B)
Die Arbeitsweiwe der Relaispyramide wird später im Zusammenhang mit
der Beschreibung der Auswertung der einzelnen Zahlworte erläutert. Die Art der benutzten Wortanalyse ist aber von der analytischen Methode merklich verschieden«, wie sie von früheren Systemen angewandt wurde. Bei der Anwendung der hier in Betracht gezogenen Art der Analyse gesprochener Worte ist zu berücksichtigen, daß die größte Vielseitigkeit erreichbar ist mit der Erkenntnis, daß der gesprochene Leitteil und die Maschinensilbe andere Informationsformen als die gewöhnlich benutzten4ind daß sie deshalb anders behandelt werden müssen. Das Ausschöpfen aller Möglichkeiten dieser Art von Analyse erfordert das Loslösen von phonetischen Silfeen-iLait jpruppen- oder ütaliehen Buchstaben-Gruppierungen.
Wenn man die zehn gesprochenen Zahlworte als gewünschtes Vokabular betrachtet, ist deren Identifizierung möglich,, auch wenn man jedes dieser Worte nur als mit einer Mascfeinensilbe behaftet ansieht. Um es zu wieder·
10984070184
.je. H22040
holen* Eine Maschinensilbe sei definiert als der Übergang von Zustand ohne Laut oder von einem. Reibelaut zum stimmhaften. TJnter dieser Bedingung braucht die zweite phonetische Silbe (als Gegeneatz zur Maschinensilbe betrachtet) der Worte "seven" (sieben) und "zero" (null) nicht benutzt zu werden, da die zweiten Silben beider Worte als Maschinen-Vokale erscheinen. Diese einzelnen Maschinen-Vokale in den gesprochenen Worten können mit oder ohne verschiedene Arten von Reibelauten beginnen oder enden. Die Vokale selbst können sich in verschiedener Weise unterscheiden. Die Lautteile, welche die einzelnen Maschinen-Vokale der zehn Zahlworte charakterisieren, sind hier zu zwei * Zwecken herangezogen. Ein Zweck ist die Benutzung als Zeitbasis* auf welche die früheren oder späteren Laute der Worte bezogen werden können» und der andere Zweck ist der, sie als Grundlage für die weitere Charakterisierung der Laute zu benutzen. Der erste Zweck enthält wieder zwei Funktionen, nämlich die Bildung eines Bezugspunktes und die Abschnittsbildung für die zeitlich veränderliche Lautfolge des gesprochenen Wortes. Das Vorhandensein eines Bezugspunktes bedeutet, daß das Vorliegen eines gesprochenen Wortes (im Gegensatz zu Rausch- oder Störsignalen) festgestellt ist, auch wenn Anfang und Ende des gesprochenen Wortes häufig relativ unbestimmt sind.
Die unterscheidbaren Sprachmerkmale, die den Anzeigekreisen 24 bis 29 der Figuren 2 und 3 dargeboten werden, verteilen sich auf die zehn gesprochenen Worte in folgender Weise:
Stimmhaftigkeit und Reibelaut sind nur in dem Laut "z" des Wortes "zero" (null) enthalten.
Stimmhaftigkeit (V) ist in allen Worten enthalten, aber in Alleinstellung nur bei "one" und "nine". Der Laut "n" wird bei der erfindungsgemäßen Einrichtung als mit Vokalchiakter behaftet behandelt.
109840/0184
Ein früherer harter Reibelaut (SFE) findet sich in den Lauten ..1V und "s" der gesprochenen Worte "two", "six" und "seven". Das "t" im Wort "two" ist in erster Annäherung ähnlich dem Laut des kurzen "s".
Der frühe schwache Reibelaut (WFE) ist enthalten in dem Laut "thM bei "three", dem Laut "f" bei "four" und bei dem "f" des Lautes "five".
Der späte weiche Reibelaut (WFL) ist enthalten in dem Laut 1V" bei dem Wort "five"» Die Laute "r" bei den Worten "three" und "four" haben bei der erfindungsgemäßen Anordnung wieder Vokal-Charakter.
Der späte harte Reibelaut (SFL) tritt am Ende des harten Reibelautes von "x" des Wertes "six" und beim 1V'"des Wortes "eight" ; ■ auf. "■'■■■ :'~ ...- : ." .. - - - ■ - : "'"...
Grundsätzlich arbeitet die Relais pyr ami de der Fig. 4 so, daß die verschiedenen Relaiskontakte zeitlich unabhängig voneinander, aber abhängig vom gesprochenen Wort selbst betätigt werden und daß eine Anzeige nur für das erkannte gesprochene Wort gegeben wird. Die nachfolgende Zusammenstellung stellt die Beziehung zwischen den verschiedenen gesprochenen Worten und deren Leitchrakteristik zu der Arbeitsweise der Relaispyramide der Fig. 4 her, die von dem Lautfolgespeicher 16 der Fig. 3 und der Auswerteschaltung 12 für die Lautteile gesteuert wird. " ■'.'" -, - - ■- ' - ."--■■. - "~ -. ■ . -
"Zero" (NuU) - hier sind gleichzeitig Stimmhaftigkeit und Reibelaut vorhanden. Eine kurze Beobachtung wird bestätigen, daß der Laut
109840/018Ü
.ψ. Η220Λ0
"ζ" sowohl durch die Stimmbänder als auch durch die Lippen und Zähne des Sprechers gebildet wird. In Fig. 4 "entsteht ein Stromkreis von der Spannungsquelle 40 (Pluspol) über 4en umgelegten Kontakt K^, und den umgelegten Kontakt K4,. An die Kontakte sind jeweils die Kurzbezeichnungen der ersten Tabelle angeschrieben» um die Leitungsverfolgung zu erleichtern. Der Kontakt K4. führt in seiner Ruhelage zu allen anderen Elementen der Relaispyramide. Das Ausgangssignal auf der Null-Leitung ist ein Ausgang der Anördnung^und kann zur Betätigung einer Lampe, einer Druckanordnung, oder zu anderen Zwecken benutzt werden,
"One" und "nine" (eins und neun) - Die Laute "n" in beiden Zahlworten sind ftr das erfindungsgemäße Verfahren keine Reibelaute, sondern besondere Arten von Vokalen. Deshalb werden diese Worte nur durch Stimmhaftigkeit gekennzeichnet, so daß beide die logische Bedingung (VF) (WFE) (SFE) ( SFL) enthalten» was durdh die in ihrer Ruhelage bleibenden Relaiskontakte K4b, K3^ K3fe und Kgb dargestellt wird. Wenn die Anzeigeschaltung 25 der Fig. 3 beim Auftreten des Lautes "one" ein Signal abgibt, legt der Kontakt Kgb der Fig. 4 um zur Anzeige der 1, im anderen Falle wird die neun angezeigt.
"Two" "seven" (zwei und sieben) - Beide Worte sind, durch frühe harte Reibelaute/· gekennzeichnet und durch das Fehlen später harter Reibelaute. Bei der verliegenden Anordnung wöfct der Laut "ven" in "seven" nicht als Reibelaut. Infolgedessen erfüllen beide teilweise die logische Bedingung (^F) (vW) SFE) (SFL). Sie unterscheiden sich also nur über den Anzeiger 27. Zunftchft entsteht also der Stromkreis über den umgelegten Kontakt Klb und die Kontakte K4^, K^ und Kgc in Ihrer Ruhelage und den umgelegten Kontakt K3,. Die schließliche Entscheidung wird durch den Kontakt KQh vom Anzeiger 27 getroffen* der den Vokalcharakter
1098^0/0184
der beiden Worte unterscheidet.
"Three" und "fpttr" (drei und vier) - Beide Worte sind charakterisiert durch einen weichen Reibelaut, der vor der Maschinensilbe erscheint,
■ wirkt.
die als Bezugszeit Das "r" von "four" wirkt nicht als weicher Reibelaut. Die logische Bedingung (VF) (WFE) (WFL) wird durch die Ruhelage der Kontakte K4, und K5, und den umgelegten Kontakt K_, dargestellt* Der Anzeiger 26 liefert wieder die Entscheidung, ob der Kontakt K-, umgelegt werden soll. Das Relais K1, spricht an, wenn der Vokal-Charakter von "four" auftritt.
"Five" (fünf) - Vor und nach der Feststellung der Maschinensilbe dieses gesprochenen Wortes tritt der weiche Reibelaut von "f" und 1V" auf. Nur bei diesem Zahlwort tritt diese Bedingung auf, so daß beim Fehlen der Bedingung (VF), der Kombination v©n Stimmhaftigkeit und Reibelaut* die Kontakte K~, und K_v umgelegt werden und der Kontakt K-, in Ruhelage bleibt, so daß die mit 5 bezeichnete Leitung ein Signal erhält.
"Six" (sechs) - Bei diesem Wort tritt! vor und nach dem stimmhaften Anteil ein harter Reibelaut auf (s und r). Nur bei diesem Wort sind die beiden Bedingungen SFE und SFL enthalten. Infolgedessen wird über die umgelegten K ntakte K-. und K_ , die mit sechs bezeichnete Leitung angesprochen. Die früher in Zusammenhang mit Fig. 3 besprochene Abhängigkeit der Anzeige der weichen und harten Reibelaute wird hier aktuell.
"Eight" (acht) - Nach dem Vokal tritt aber ein harter Reibelaut, nämlich das "t" auf. Die verläufigen logischen Bedingungen (VF) (WFE)
10 0840/0134
Χ H2204Ü
(SFE) werden durch die Ruhelage der Kontakte K.., K-, und K„, erfüllt. Die Erkennung des Wortes wird vollendet, wenn das Relais Kg angesprochen hat und die mit 8 bezeichnete Leitung auswählt.
Die Entscheidungen werden zwar getroffen, solange das gesprochene Wort andauert, aber eine Anzeige wird erst bewirkt, wenn die Stimmhaftigkeit sichergestellt ist. Beim Übergang zur Stimmhaftigkeit wird Anzeige bewirkt in dent Maße, wie die das Wort darstellenden Signale erscheinen» bis das Wort vollendet ist und eine endgültige Anzeige festgehalten wird. Das erfindungsgemäße Verfahren braucht demnach keine Speicherung oder Verzögerungseinrichtungen. Nach der endgültigen Anzeige vollendet sich das System bis zu seiner Rückstellung.
Die Vorteile eines solchen Lattt-Analysesystems bieten sich dem Fachmann von selbst an. Wegen der asynchronen Arbeitsweise» die benutzt wird, wird die Zuordnung und Aufteilung der bedeutungsvollen Nachrichtenteile von dem Laien selbst vorgenommen. Ein Wort wird deshalb erkannt ohne Rücksicht auf eine in weiten Grenzen veränderliche Sprechgeschwindigkeit. Durch die leitende Messung einer Reihe von charakteristischen veränderlichen Faktoren der Sprache ist für ein großes Vokabular eine hohe Zuverlässigkeit verwirklichbar. Mit der beschriebenen Anordnung können die Worte des gewählten Vokabulars unterschieden werden, auch wenn sie von einer Reihe von Personen mit unterschiedlicher Sprachchrakteristik eingegeben werden. Mit den entsprechend ausgebildeten Anordnungen lassen sich neben den zehn Zahlworten auch andere längere Worte erkennen.
Es ist wichtig festzuhalten, daß die Verläßlichkeit und der Wortschatz mit relativ kleine m Mehraufwand noch zu lösen sind. Die sechs benutzten Anzeiger gestatten eindeutige Identifizierung jedes der zehn Zahlworte, ohne hohen Aufwand. Sie können als Filter be-
1 09840/018A
trachtet werden, die auf besondere Eigenschaften der durch elektrische Signale dargestellten Laute ansprechen. Wenn zusätzliche Anzeigeschaltungen eingebaut werden, die auf andere Vokale oder Reibelaut-Charakteristiken ansprechen und damit weitere Reihen von Lautteilen oder besonderen unter seheidbaren Eigenschaften feststellen, so kann die Genauigkeit erhöht werden, da die besonderen Lautteile eine Prüfung der Entscheidungsfähigkeit gestatten* während andererseits auch der Wortsehatz sich vermehren läßt.
Es mag nicht auf den ersten Blick einleuchten, daß jeder neue Lautteil - es sei den% er habe eine ganz enge Anwendung - dem System eine vielfältige Erweiterung des Vokabulars ermöglicht. Der Grund liegt darin, daß jeder neue Lauiteil mit jedem der anderen zu einer einzigartigen Kombination verbunden werden kann, daß er in verschiedener Zeitbeziehung verbunden werden kann und in Machinensilben-Folgen von verschiedener Länge . Theoretisch, d.h. wenn jeder Lautteil einzigartig und voll ausnutzbar ist, würde die Hinzunahme eines weiteren Lautteils das mögliche Vokabular exponfeiiell statt nur algebraisch oder multiplikativ erweitern , Die Hinzunahme eines siebten Lautteiles würde
R 7
also z.B. möglich sein, iömdas Vokabular von 2 auf 2 erhöhen.
Verfahren und Anordnungen nach der vorliegenden Erfindung vermeiden die Kompliziertheit bekannter Verfahren und Systeme. Für eine gegebene charakteristische phonetische Einheit ein verläßliches und rasch arbeitendes Anzeigesystem zu entwerfen, ist ein kostspieliges und fast unmögliches Unterfangen. Wenn man jedoch efee Charakteristika der Laute selbst auswählt und diese als Basis für die Ifnterscheidungskräftigen Silben benutzt, ergibt sich eine außerordentlich einfache Schaltung, während die ausgewählten Lautteile aussagekräftig genug und für die
1098 40/018
Unterscheidung von anderen Worten des gewählten Vokabulars brauchbar sind,. Bei der vorliegenden Erfindung besteht keine vorbestimmte Trennung der Worte, Tatsächlich herrscht dabei eine scheinbar vollkommene Freiheit von den Begriffen und Einheiten der Phonetik» wie etwa den Wortsilben, den Lautgruppen und Konsonanten. Statt dessen werden die Lautteile z„ B., die Reibelaute, die Maschinenvokalbe und die Maschinensilben durch die Worte selbst gesteuert.
Es wurde bei der Beschreibung der Arbeitsweise schon festgestellt, daß die Entdeckung der Stimmhaftigkeit eine hohe Bedingung für die Identifizierung jedes gesprochenen Wortes sei. Dadurch wird die Zuverlässigkeit verbessert, da die Anordnung zur Feststellung der Stimmhaftigkeit , die hier angewandt wird, außerordentlich feinfühlig für die Stimmhaftigkeit der menschlichen Sprache ist und eine hohe Unterscheidungskraft gegenüber mechanisch erzeugten Geräusch besitzt. Man war bisher der Ansicht, daß die Entdeckung der Stimmhaftigkeit mit einer Verläßlichkeit von mehr als etwa 93 % unmöglich sei, wobei man an die Veränderung der bankbreiten Veränderung und dergleichen dachte« Unter Benutzung der vorliegenden Erfindung läßt sich jedoch die Stimmhaftigkeit mit einer Genauigkeit von über 99 % feststellen und dieses beim Vorliegen sehr geringer Sprachenergien und in Anwesenheit relativ höher Störgeräusche mechanischen Ursprunges. Praktisch ist die Anzeige der Stimmhaftigkeit von der Gegenwart weißen Rauschens unabhängig, da die Addition gleicher Beträge zur positiven und negativen die numerische Differenz der Unsymmetrie nicht ändert.
Der Gebrauch einer außerordentlich verläßlichen Identifizierung der ZeitbajrLa $tae* Wortes hat eine weitere Reihe von Vorteilen. Dadurch« UaA man άφ* Beginn der Stimmhaftigkeit, als Zeit basis benutzt, ist es leicht möglich* die vielseitigen Probleme au vernachlässigen, die mit
109 840/0184
.■■.-.' '■:.'_■': η ■'■■■';:.. der Feststellung des tatsächlichen Beginns und Ende eines besprochenen Wortes zusammenhängen. Beim Aussprechen eines Wortes bilden manche Personen vor und nach dem Wort merkliche Geräusche für einen Zeitraum, der einen beträchtlichen Bruchteil der ganzen Wortdauer beträgt. Zum Beispiel wird ein Wort, das mit einem. !rs" anfängt, nicht Sofort begonnen, sondern es geht ihm eine Art "Rampe" verschiedener Länge voraus. Andererseits betonen manche lokalen Dialekte stark die Endlaute, wie etwa das End-g bei dem Wort "ringing".
109840/018 4
s H220A0
Da bei dem vorliegenden Verfahren d»ie Stimmhaftigkeit sehr zuverlässig festgestellt wird, werden diese genannten Schwierigkeiten vermieden, da ja die Eingangs- und Ausgangsteile auf diese Stimmhaftigkeit bezogen werden; es ist deshalb unwesentlich, ob stimmlose Laute vor oder nach, dem Wort noch auftreten.
Dieses Verfahren kann leicht auf ein Vokabular mehrsilbiger Worte erstreckt werden. Im Interesse einer unmißverständlichen Ausdrucksweise und wegen der Unterscheidung von phonetischen und Maschinensilben sollen diese Worte als mehrfach stimmhafte Worte bezeichnet werden. Das Blockschaltbild der Fig. B zeigt ein Verfahren zum Erkennen von Worten mit mehr als einer Maschinensilbe und von Worten von nur einer solchen Silbe. Ebenso wie bei der früher beschriebenen Blockschaltung liefert auch hier die Quelle 10 Signale zu der Auswerteschaltung 12. Diese Auswerteschaltung liefert an den Verteiler 42 Signale, die besonderen Eigenschaften oder Leitcharakteristiken des Eingangssignales entsprechen und der Verteiler führt die Signale ersten und zweiten Lautfolgespeichern 46 und 47 zu. Der Silbenanzeiger 43 bestimmt, welcher der Lautfolgespeicher zur Aufnahme der Signale auszuwählen ist Zur Steuerung des Silbenanzeigers trägt die Signalquelle 10 und die Auswerteschaltung 12 bei. Der Silbenanzeiger kann ein einfacher Zähler
Wortes/ sein, der die Anzahl der während der Dauer des Aron der Signalquelle 10 einlaufenden Maschinensilben feststellt. Zum Beispiel könnte ein gewisser LeistungspegeL im Ausgangs signal der Quelle 10 den Silbenanzeiger in Tätigkeit setzen, der daraufhin die aufeinanderfolgenden Vokale oder stimmhaften Laute und auch wenn nötig verschiedene Reibelaute und Vokalcharakteristiken zählt. Wenn sich herausstellt, daß das gesprochene Wort einen zweiten Übergang zu einem stimmhaften; Laut enthält, kann der Silbenanzeiger den Verteiler 42 zur Umschaltung von einem Lautfolgespeicher zum anderen veranlassen.
109840/0184
Die Charakteristiken der Lautteile, auf welche der Silbenanzeiger anspricht, können von dem gewünschten Vokabular abhängig gemacht werden. Im vorliegenden Beispiel gelangen Signale von der Auswerteschaltung 12 über den Verteiler 42 zum ersten Lautfolgespeicher 46 für die erste Maschinensilbe (für den ersten mit einem Reibelaut verbundenen Vokallaut) des gesprochenen Wortes. Mit der Feststellung der nächsten Maschinensilbe eines mehrfach stimmhaften Wortes wird auf den zweiten Lautfolgespeicher 47 umgeschaltet. Gleichzeitig damit erhält die Auswahlschaltung 49 vom Silbenanzeiger 43 von der.Umschaltung: Kenntnis, so daß die Auswahlschaltung entsprechend reagieren kann. Beim Vorliegen einer einzigen Maschinensilbe ist die Arbeitsweise der Anordnung dieselbe wie bei den in Zusammenhang mit Kguren 2, 3 und 4 besprochenen Schaltungen. Die Auswahlschaltung 49 wird von beiden Lautfolgeregistern 46 und 47 gesteuert.
Es wäre in Abwandlung der soeben beschriebenen Anordnung auch möglich, mit einem Lautfolgespebher auszukommen, in dem z. B. am Ende der ersten Maschinensilbe die Information aus dem Lautfolgespeicher in einen getrennten Speicher übertragen wird und derselbe Lautfolgespeicher auch für die Auswertung der nächsten Maschinensilbe herangezogen wird. Der Anzeiger 24 für die Stimmhaftigkeit, gezeigt in den Figuren 2 und 3, hat für die vorliegende Erfindung eine wichtige Aufgabe, Eine besonders vorteilhafte Gestaltung für einen solchen Anzeiger der Stimmhaftigkeit ist in Fig. 6 dargestellt. Diese Einrichtung soll, wie schon mehrfach gesagt, die Unsymmetrie des stimmhaften Teiles der Sprache auswerten. Außer den stimmhaften Lauten erscheinen im Eingangssignal jedoch noch mechanisch oder auf andere Weise erzeugte Störsignale. Bei Stimmhaftigkeit aber zeigen die Signale im allgemeinen eine komplizierte Wellenform mit der Charakteristik einer gedämpften Schwingung. Die Eingangs signale gelangen beim Anzeiger 24
109840/0184
ar
zu einem Phasenschieber, der alle interessierenden Frequenzen durchläßt. Die Eingangs signale werden der Basiselektrode eines Transistors 50 (Fig. 6) zugeführt, dessen Kollektor und Emitter mit den Gleichspannungsquellen 52 und 53 über etwa gleiche Widerstände 56 und 56 verbunden sind. Die Phasenverschiebung des Transistorausganges erfolgt durch das Zusammenwirken eines variablen Widerstandes 60 und eines Kondensators 61, die an Emitter bzw. Kollektor des Transistors angeschlossen sind.
Der anschließende Transformator 63 leitet die Signale weiter zu einem Paar entgegengesetzt gepolter Dioden 65 und 66, die zusammen mit den Kondensatoren 68 und 73 und den Widerständen 69 und 74 die Spitzengleichrichtung der beiden Paritäten der Eingangs signale bewirken. Diese werden am Punkt 70 zusammengeführt· Die integrierenden Schaltelemente haben eine Zeitkonstante der Größenordnung von 200ms, die mit der durchschnittlichen Silbengeschwindigkeit des gewählten Vokabulars abgestimmt ist. Die resultierende Gleichspannung wird über einen zusätzlichen Kondensator 77 dem Anzeiger 24 für die StimmhafÜgkeit zugeführt.
Die unsymmetrische Charakteristik des stimmhaften Teiles der Sprache ist aus der Art und Weise erklärlich, in der die Laute von den Stimmbändern erzeugt und danach moduliert werden. Die Stimmbänder liefern etwa einen über der Zeit aufgetragene»-dreieckigen Leistungsverlauf, der durch $ine gedämpfte Schwingung moduliert ist. Das Ergebnis ist eine Unsymmetrie zwischen den positiven und negativen Spitzen der Signalform gegenüber einer Bezugsachse· Wenn auch diese Unsymmetrie zeitlich veränderlich ist, so kann sie doch für einen gegebenen stimmhaf ten Laut ale immer vorhanden angenommen werden. Beim Fehlen einer Unsymmetrie bleibt das Potential des Punktes 70 unverändert. Beim Vorliegen stimmhafter Laute wandert das Potential dieses Punktes nach der einen $der anderen Seite aus* Zu der Phasenverschiebung wird
109840/0184
später noch einiges zu sagen sein. Die Fig. 7 zeigt einige Beispiele für die am Punkt 70 auftretenden Potentialverläufe. Dabei ist hier nur die obere Zeile zunächst interessant; sie zeigt den Potentialverlauf beim Durchgang des dem Wort MsixM entsprechenden Signals«
Diese verhältnismäßig einfache Schaltung gestattet nicht nur salt großer .Genauigkeit die Stimmhaftigkeit festzustellen« sondern kann darüber hinaus die Art des stimmhaften Lautes und die Unterscheidung verschiedener Typen von Maschinenvokalen voneinander bewirken. Da mechanische Störungen, Hintergrundgeräusche und andere Arten von zufälligen Lauten typisch symmetrische Charakteristik haben und deshalb nicht wirksam werden, wird eine Verläßlichkeit von mehr als 99 % mit dieser Schaltung erreicht. Die Schaltung spricht auch auf Laute an wie das "z", die teilweise stimmhafte und^eilweise Reibelaute enthalten, .
Bei der Schaltung nach Fig. 6 ist der Wert des regelbaren Widerstandes merklich größer als die beiden etwa gleichen Widerstände 56 und 57. Infolge dieser Maßnahme tritt bei der Phasenverschiebung dauernd eine Ausgangsspannung einer wählbaren Polarität auf, wenn das komplexe Lautsignal eintrifft. Ähnliche Ergebnisse können auch, durch Anwendung geeigneter Bandpässe anstelle des Phasenschiebers erzielt werden. ^
Durch Veränderung des Phasenschiebers (Einstellung des variablen Widerstandes 60) oder durch Veränderung des Bandpasses IiSt sich die Verarbeitung ötimmhafter Laute so beeinflussen, dag verschiedene stimmhafte Laute ünterschddbar werden. Wenn man bei einem bestimmtes stimmhaften Laut die Phasenverschiebung ändert, so wird der allgemeine Charakter der gedämpften Schwingung ssicht beeinflusst, aber der Ort und die Amplitude der Spitzen kSsmen stark wechseln. Möglielaer-
1 09840/018 4
-*·*"- H22040
weise wird ein anderer stimmhafter Laut kaum oder in anderer Weise beeinflusst. Solche Alt derungen der Ausgangswerte sind voraussagbar und bei gegebenen Bedingungen gleichförmig. Bei einer Einstellung des Widerstandes 60 zum Beispiel kann zwischen "three" und "four" leicht unterschieden werden, weil nämlich das erstgenannte Signal einen positiven, das zweite Sgnal einen negativen Ausschlag hervorruft, siehe dazu Fig. 7, Zeilen 2 und 3» Bei einer anderen Einstellung des Widerstandes 60 ergibt das gesprochene Wort "one" nacheinander einen positiven und negativen Impuls, während das Wort "nine" nur einen einzigen negativen, aber langer dauernden Impuls hervorruft. Die Anzeiger 25 und 26 unterscheiden zrfsc hen den Zahlen "one" und "nine" bzw. "three" und "four" und benutzen verschiedene Phasenschieber. Der Anzeiger 27, der die Zahlen "two" und "seven" unterscheiden soll, benutzt das "üllintegral. Abhängig von dem benutzten filter oder Phase nschieber und dem angetroffenen Maschinenvokal kann das Ausgangssignal des Anzeigers für die Stimmhaftigkeit einen einzigen positiven Impuls, einen einzigen negativen Impuls, einen positiven gefolgt von einem negativen Impuls oder einen negativen Impuls gefolgt von einem positiven Impuls zustande bringen. Diese verschiedenen Impulsformen werden anschließend ausgewertet. Infolge von Mittelwert erzeugerri können einzelne positive und negative Impulse von der Aufeinanderfolge positiver oder negativer Impulse unterschieden werden. Durch Dioden lassen sich positive von negativen Impulsen unterscheiden. Derartige Schaltungen sind dem Fachmann geläufig. Um aufeinanderfolgende Impulse in entgegengesetzter Polarität zu unterscheiden, kann z. B. durch den zunächst eintreffenden positiven Impuls ein monostabiler Multivibrator angestoßen werden, der einen Impuls abgibt, dessen Dauer größer ist als der Abstand der zwei aufeinanderfolgenden Impulse; die Koinzidenz des negativen Impulses und des Impulses vom monostabilen Multivibrator zeigen dann die Aufeinanderfolge eines positiven und eines negativen Impulses an. Die Ausgänge der verschiedenen Anzeiger für die Stimmhaftig-
109840/01 84
keit in den einzelnen Vokalanzeigern können anschließend über Torschaltungen vereinigt werden und schließlich die !^identifizierung vervollständigen. .
Anzeiger zur Feststellung harter Reibelaute (28) sind bekannt; ein Beispiel ist mit Fig. 8 gegeben. Hier wird das Eingangssignal einem Hochpaß 80 zugeführt, der gewöhnlich Frequenzen über 5000 Hertz passieren läßt» Der Ausgang des Hochpasses wird über einen veränderlichen Widerstand 81 und eine Diode 82 durch die Kapazität 84 und den Widerstand 85 integriert und als Ausgangssignal benutzt.
Ein derartiger Anzeiger benutzt die Tatsache, daß diese Frequenzen besonders in harten Reibelauten, aber nicht in weichen Reibelauten oder Vokalen enthalten sind. Um die beträchtliche Variation des integrier e»- ten Signals, die vom Sprecher und den Sprachumständen abhängt, zu berücksichtigen, kann.-eine Schwellwertschaltung an den Ausgang des Anzeigers 28 angeschlossen werden.
Die Feststellung weicher Reibelaute ist ein beträchtlich schwierigeres Problem, da beim weichen Reibelaut der über 5000 Hertz liegende Energieanteil bei der Aussprache des "f" und "v" in dem Wort "five" beträchtlich geringer ist als bei harten Reibelauten und sich nur wenig unterscheidet von dem "a" im Wort "ate". Zur Feststellung weicher Reibeläute ist demnach eine Schaltung gemäß der Fig. 8 nicht ausreichend zuverlässig^ auf alle Fälle ist es wünschenswert, zwischen harten und weichen Reibelauten unterscheiden zu können;- Die Fig. 9 gibt ein Schema für die zuverlässige Feststellung weicher Reibelaute. Die Eingangssignale werden einem amplitudenbegrenzenden Verstärker 87 zugeführt, der eine Reihe von Rechteckimpulsen liefert, deren Dauer durch die Eigenheit der Eingangssignale festliegt, Teile der Eingangssignale mit
■10-9 84 OAD 18 4
H22040-39
positiven Polarität versuchen den Verstärker 87 zur Sättigung zu bringen; es entsteht ein rechteckiger Impuls, dessen Anfang dort liegt, wo das Signal durch Null nach positiver Richtung geht und der dort endet, wo das Signal durch Null nach negativer Richtung geht. Vorder- und Hinterflanke dieser Rechteckimpulse geben also die Nulldurchgänge des . Eingangssignals an. Diese Rechteckimpulse stoßen (hier mit ihrer Vorderflanke) den monostabilen Multivibrator 88 an, der bei jeder Vorder-(oder auch Hinter-)Flanke des steuernden Impulses einen Impuls bestimmter Dauer abgibt» Ein Maß für die Zahl der Nulldurchgänge beim Eingangssignal während einer bestimmten Zeit wird durch die nachgeschaltete Diode 90, den variablen Widerstand 91 und das Integrierglied 93, 94 geliefert. Der Widerstand 91 gestattet eine Justierung der Signalamplitude. Da von dem Multivibrator 88 nur Impulse bestimmter Dauer geliefert werden, bestimmt die Zahl der auftretenden Impulse den Potentialpegel hinter dem Integrierglied, Merkliche Abweichungen vom Ruhepotential sind eine Anzeige für das Vorliegen eines weichen Reibelautes im Eingangssignal.
Auch hier kann eine Schwellwertanordnung nachgeschaltet werden, um Stör- und andere Effekte auszuschalten. Der Anzeiger für weiche Reibelaute spricht natürlich auch auf harte Reibelaute an, aber durch gegenseitige Verriegelung mit dem Anzeiger für harte Reibelaute (Fig. 8) kann - wie früher schon gesagt - die Unterscheidung ermöglicht werden.
Die Schaltung des Anzeigers für weiche Reibelaute beruht auf einer Charakteristik dieser Laute, die sie von Vokalen unterscheidet, mit denen sie äonst eine gewisse Ähnlichkeit haben. Man kann die weichen Reibelaute in ihrem Charakter als den Geräuschen ähnlich betrachten.
anoera
d. h. , sie haben keine wesentliche Frequenzkomponente, sondernr sich rasch mit vieles positiven und negativem Spitzen. In vereinfachter Form
109840/0186
Τ4220Λ0
können sie durch die in Fig. 9 in starken Linien gezeichnete Kurvenform charakterisiert werden. Maschinenvokale dagegen lassen sich definieren als Signalformen, die eine Grundfrequenz von weniger als 400 Heifcte haben. Diese letzteren haben zwar viele Umkehrpunkte, aber weit weniger Nulldurchgänge. Sie lassen sich in vereinfachter Form etwa durch die in Fig. 9 punktiert gezeichnete Kurve darstellen. Hinter dem Verstärker 87 (Fig. 9) erzeugen also die weichen Reibelaute eine beträchtlich höhere Zahl von Rechteckimpulsen als es Vokale tun wurden. Am Integrierglied 93, 94 entsteht deshalb bei einem weichen Reibelaut ein wesentlich höheres Potential als durch einen Vokal.
Die Unter scheidung des gesprochenen Wortes "two" (zwei) von dem gesprochenen Wort "seven11 (sieben) kann durch die Anzeigeschaltung 27 der Fig. 10 geschehen. Das dem Eingang zugeleitete Signal "nur stimmhaft", das vom Anzeiger für Stimmhaftigkeit ausgeblendet wurde, speist zwei Kanäle mit einem Hochpaß 100 bzw. einem Tiefpaß 102, die beide im Vokalfrequenzbereich, d.h. unter etwa 3000 Hertz liegen. Die den Hochpaß 100 passierenden Signalanteile gelangen zu einer Spitzen^ ßleidsriLchter- und Integrier-Schaltung aus der Diode 103, dem Kondensator 105 mit Parallelwiderstand 108, dem Reihenwider stand 106 und dem Glättungskondensator 110. Eine gleichartige Schaltung bestehend aus der Diode 113, den Kondensatoren 115 und 120 und den Widerständen 116und 118 wird von den Frequenzanteilen gespeist, die den Tiefpaß 102 passieren. Am Widerstand 122 werden die beiden Signale kombiniert und mittels des Schleifkontaktes abgegriffen. Wegen der additiven Kombination der Signale haben entsprechende Elemente in den beiden Kanälen gleiche Charakteristik,
Bei der Schaltung der Fig. 10 ergeben sich trotz unterschiedlicher Frequenzen and unsymmetrischer Eigenschaften in den gesprochenem
109 840/0184
H22040
Worten "two" und "seven" doch einheitliche Ausgangssignale. Die positive niederfrequente Komponente von MtwoM z. B. verursacht einen absolut größeren Spitzenwert als es die hochfrequenten Anteile (mit ande·^ rer Polarität) zustande bringen. Die Kombination der beiden Signale am Widerstand 122 verursacht eia en Ausgangsimpuls positiver Richtung. Das umgekehrte trifft für das gesprochene Wort "seven" zu, das zu einem negativen Ausgangsimpuls führt.
Das Sprachanalyse-Verfahren nach der vorliegenden Erfindung benutzt die Messung von charakteristischen Eigenschaften, die sich auf die Frequenz, aber noch mehr auf besondere zeitlich oder amplituden- '
mäßig veränderliche Eigenschaften beziehen und die durch einfache Schaltungen feststellbar sind. Unterscheidungsmerkmale werden gewonnen aus der Zeitbeziehung, in welcher die auftretenden charakteristischen Eigenschaften vorliegen. Die Analyse erfolgt ohne Speichervorgänge mit Geschwindigkeiten und Analyseschritten, die von den Lautereignissen gesteuert werden. Insbesondere benutzt die Erfindung die Identifizierung von Stimmhaftigkeiten, um festzustellen, daß ein Wort gesprochen wurde, und um einen Bezugspunkt zu gewinnen,für die übrigen charakteristischen Eingeschaften des gesprochenen Wortes. Auf dieser Basis werden Maschinensilben identifiziert. Die schließliche Identifizierung des gesprochenen Wortes geschieht dadurch, daß das (f
zeitliche Auftreten verschiedener Lautteile einschließlich Reibelaute und Maschinenvokale bezüglich der Maschinensilben gemessen wird.
Nachdem einmal Muster von Lautteilen identifiziert worden sind, kann die endgültige Entscheidung durch sehr unterschiedliche Anordnungen getroffen werden. Zum Beispiel kann man so vorgehen, daß man untersucht, welche Gruppe von Standardmustern am ehesten von einem vor-
109840/0184
: . ■-..■: , ■ η ..■■■ : '
liegenden gesprochenen Wort angenähert wird. Die Signale der einzelnen Anzeiger können noch mit einein Gewicht versehen werden, das mit der ihnen innewohnenden Genauigkeit und Bedeutung abgestimmt ist, um dadurch die Ungenauigkeit weiter zu reduzieren.
840/01 Ö Λ

Claims (1)

  1. NEUER PATENTANSPRUCH 1
    Verfahren zum automatischen Erkennen gesprochener Wörter unter Verwendung von Anzeigevorrichtungen für in den Wörtern nacheinander auftretende Lautmerkmale und unter Verwendung von Schaltungen zur Auswertung der von den Anzeigevorrichtungen gelieferten Ausgangs signale, dadurch gekennzeichnet, daß zur Identifizierung eines von mehreren Wörtern ein in allen Wörtern des gewählten Vokabulars vorkommendes und sich von Geräuschsignalen deutlich unterscheidendes Lautmerkmal festgestellt wird, daß dieses Lautmerkmal als Bezugspunkt für ebenfalls festgestellte weitere Lautmerkmale benutzt wird, und daß das Lautmerkmal des Bezugspunktes und die weiteren Lautmerkmale sowie deren zeitliche Lage gegenüber dem Lautmerkmal des Bezugspunktes in einer Wortauswahlschaltung zur vollständigen Identifizierung eines Wortes verwendet wird.
    109840/0T
DE19611422040 1960-08-29 1961-08-28 Verfahren zum automatischen Erkennen gesprochener Worte Pending DE1422040A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US52548A US3198884A (en) 1960-08-29 1960-08-29 Sound analyzing system

Publications (1)

Publication Number Publication Date
DE1422040A1 true DE1422040A1 (de) 1971-09-30

Family

ID=21978330

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19611422040 Pending DE1422040A1 (de) 1960-08-29 1961-08-28 Verfahren zum automatischen Erkennen gesprochener Worte

Country Status (4)

Country Link
US (1) US3198884A (de)
DE (1) DE1422040A1 (de)
FR (1) FR1309234A (de)
GB (1) GB981383A (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3286031A (en) * 1963-03-04 1966-11-15 Alto Scient Co Inc Voice actuated device
US3270216A (en) * 1963-03-11 1966-08-30 Voice Systems Inc Voice operated safety control unit
US3252355A (en) * 1964-01-10 1966-05-24 Gen Motors Corp Planetary friction drive
DE1202517B (de) * 1964-07-29 1965-10-07 Telefunken Patent Einrichtung zur automatischen Erkennung von gesprochenen Silben oder Woertern
US3395249A (en) * 1965-07-23 1968-07-30 Ibm Speech analyzer for speech recognition system
US3463885A (en) * 1965-10-22 1969-08-26 George Galerstein Speech and sound display system
US3647978A (en) * 1969-04-30 1972-03-07 Int Standard Electric Corp Speech recognition apparatus
US3742143A (en) * 1971-03-01 1973-06-26 Bell Telephone Labor Inc Limited vocabulary speech recognition circuit for machine and telephone control
US3846586A (en) * 1973-03-29 1974-11-05 D Griggs Single oral input real time analyzer with written print-out
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
WO2004012422A2 (en) * 2002-07-31 2004-02-05 Arie Ariav Voice controlled system and method
US11823867B2 (en) * 2021-05-20 2023-11-21 Kaufman & Robinson, Inc. Load current derived switch timing of switching resonant topology

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2646465A (en) * 1953-07-21 Voice-operated system
US2183248A (en) * 1939-12-12 Wave translation
US2151091A (en) * 1935-10-30 1939-03-21 Bell Telephone Labor Inc Signal transmission
US2243527A (en) * 1940-03-16 1941-05-27 Bell Telephone Labor Inc Production of artificial speech
US2691137A (en) * 1952-06-27 1954-10-05 Us Air Force Device for extracting the excitation function from speech signals
US2971057A (en) * 1955-02-25 1961-02-07 Rca Corp Apparatus for speech analysis and printer control mechanisms
US2928902A (en) * 1957-05-14 1960-03-15 Vilbig Friedrich Signal transmission
US2971058A (en) * 1957-05-29 1961-02-07 Rca Corp Method of and apparatus for speech analysis and printer control mechanisms
US2921133A (en) * 1958-03-24 1960-01-12 Meguer V Kalfaian Phonetic typewriter of speech
US3037077A (en) * 1959-12-18 1962-05-29 Scope Inc Speech-to-digital converter

Also Published As

Publication number Publication date
US3198884A (en) 1965-08-03
FR1309234A (fr) 1962-11-16
GB981383A (en) 1965-01-27

Similar Documents

Publication Publication Date Title
DE2613258C2 (de) Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache
DE2918533C2 (de)
DE1472038A1 (de) Verfahren zur Spracherkennung
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
EP0296588B1 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE69831991T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69124360T2 (de) Vorrichtung zur Anzeige von Gesangseigenschaften
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
DE1422040A1 (de) Verfahren zum automatischen Erkennen gesprochener Worte
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
EP2405279A2 (de) Verfahren und Vorrichtung zur Ortung von Kabelfehlern
DE2825082A1 (de) Verfahren zur spracherkennung
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE3012771C2 (de)
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3149134C2 (de) Verfahren und Vorrichtung zur Bstimmung von Endpunkten eines Sprachausdrucks
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
DE3102385C2 (de)
DE2806920A1 (de) Stimmenidentifikationssystem
DE2357949A1 (de) Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls
DE2535730A1 (de) Verfahren und vorrichtung zur feststellung vielfrequenter toene
DE602004011292T2 (de) Vorrichtung zur Sprachdetektion
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung
DE1772633A1 (de) Verfahren zur Spracherkennung