DE2347738A1 - Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben - Google Patents

Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Info

Publication number
DE2347738A1
DE2347738A1 DE19732347738 DE2347738A DE2347738A1 DE 2347738 A1 DE2347738 A1 DE 2347738A1 DE 19732347738 DE19732347738 DE 19732347738 DE 2347738 A DE2347738 A DE 2347738A DE 2347738 A1 DE2347738 A1 DE 2347738A1
Authority
DE
Germany
Prior art keywords
word
matrix
comparison
feature
command word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19732347738
Other languages
English (en)
Inventor
Robert B Cox
Marvin B Herscher
Thomas B Martin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
THRESHOLD Tech Inc
Original Assignee
THRESHOLD Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by THRESHOLD Tech Inc filed Critical THRESHOLD Tech Inc
Publication of DE2347738A1 publication Critical patent/DE2347738A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die vorliegende Erfindung betrifft ein Spracherkennungsverfahren gemäß dem Oberbegriff des Hauptanspruches, sowie eine Vorrichtung zur Durchführung dieses Verfahrens. Die Erfindung beschäftigt sich mit der Spracherkennung und bezieht sich auf ein Spracherkennungsgerät, insbesondere ein Gerät, das gesprochene Eingabe-, Lehr- oder Übungsworte, sowie ein darauffolgendes gesprochenes Eingabe-Befehlswort empfängt und eine Korrelationsfunktion bildet, welche die Ähnlichkeit zwischen dem Befehlswort und jedem Lehrwort anzeigt.
409813/0965
Es wurden bereits verschiedene Anlagen entwickelt, mit denen versucht wurde, ein begrenztes Vokabular gesprochener ΐ'/orte durch die Analyse der akustischen Vorgänge wiederzuerkennen. Derartige Anlagen werden typischerweise als nützlich-bei praktischen Anwendungen einer sprachlichen Befehlserteilung erachtet, wobei nach einer Erkennung spezieller Wörter von der Anlage elektrische Signale erzeugt werden, welche den Betrieb eines zugeordneten Systems steuern. Eine sprachliche Befehlserteilung ließe sich beispielsweise zur Steuerung eines Förderbandes verwenden, so daß sich dieses in einer genau vorgegebenen Art bewegt oder es kann zur Steuerung eines Rechners dienen, so daß dieser speziell festgelegte Rechenoperationen durchführt.
Die bisherigen Bemühungen zur Entwicklung automatischer Spracherkennungsverfahren erwiesen sich jedoch nur begrenzt als erfolgreich. Sie haben insbesondere dazu geführt, daß man sich über die ausgesprochen komplexe Natur der Sprachkommunikation klar geworden ist. Die normale Sprache weist einen hohen Informationsgehalt auf, wobei bemerkenswerte Unterschiede von einer Person zur anderen bestehen und wo auch noch eine gewisse Variation im gleichen Wort besteht, wenn dieses von dem gleichen Individuum gesprochen wird. Ein perfektes Erkennüngsschema ist daher unerreichbar, da die Natur der zu erkennenden Sprachsignale nicht exakt definiert werden kann. Dies führte dazu, daß unter den bisherigen bevorzugten Schematas empirische Annäherungen durchgeführt wurden, welche dazu führten, daß aus statistischer Sicht zumindest eine passable Zuverlässigkeit erzielt wurde, daß ein spezielles gesprochenes Wort einem ausgewählten Wort von einem begrenzten Vokabular einer Maschine entspricht. Die Erwünschtheit derartiger Schemata ist daher nicht durch eine theoretische Untersuchung bestimmbar, sondern vielmehr durch eine gezielte Messung der Erkennbarkeits-Genauigkeit über eine längere Betriebsdauer. Aus verschiedenen Gründen erwiesen sich die meisten herkömmlichen Systeme für praktische Anwendungsfälle als ungeeignet. Einer der Hauptgründe hierfür war die völlige Komplizierheit der Ausrüstungen, mit denen versucht wurde, eine zu genaue Analyse der empfangenen Sprachsignale durchzuführen. Neben den Kosten und der
409813/0965 - 3 -
— "3 -—
dazugehörigen Unzuverlässigkeit zeigen derartige Systeme ein Bestreben außerordentlich komplizierte und restriktive Erkennungskriterien aufzustellen, durch die es zu einer Zurückweisung von normalen Variationen der Worte von dem Systemvokabular kommen kann. Umgekehrt ist bei einigen Anordnungen die Erkennung nicht ausreichend, so daß die Kriterien zu leicht erfüllt werden, was dazu führt, daß auch fremde Worte, die nicht in dem vorher ausgewählten Vokabular der Anordnung enthalten sind, fälschlicherweise angenommen werden.
Im Hinblick auf die oben erwähnten Nachteile ist es Aufgabe der vorliegenden Erfindung, eine Spracherkennungstechnik in Vorschlag zu bringen, welche eine bisher noch nicht erreichte Genauigkeit in der Erkennung und keine zu große Komplizierheit aufweist.
Diese Aufgabe wird durch den Gegenstand des Hauptanspruches gelöst.
Wesentliche Merkmale der Erfindung sind somit darin zu sehen, daß ein Verfahren und eine Vorrichtung in Vorschlag gebracht werden, bei denen gesprochene Eingabe-, Lehr- oder Übungsworte und darauffolgend ein gesprochenes Eingabe-Befehlswort empfangen werden und eine Korrelationsfunktion erzeugt wird, welche die Ähnlichkeit von jedem Befehlswort mit jedem Lehrwort anzeigt.
Erfindungsgemäß arbeitet eine Merkmalsauszugseinrichtung die empfangenen Eingabewörter auf und erzeugt digitale Merkmalsausgabesignale auf speziellen Ausgabeleitungen von einer Anzahl von Merkmalsausgabeleitungen. Eine Einrichtung zur Speicherung des Zustandes der Merkmalsignale, die während jedes Übungswortes auftreten, als zeitabhängige Matrix ist ferner vorgesehen. Des weiteren ist eine Einrichtung vorgesehen, um als zeitabhängige Matrix den Zustand der Merkmalssignale zu speichern, der während des Befehlswortes auftritt. Eine weitere Einrichtung ist vorgesehen, welche dazu dient, um Stück für Stück die Befehls-
40981 3/0965 j, .
234773a
wort-Matrix mit jeder Lehrwort-Matrix zu vergleichen und um eine Korrelationszahl oder -ziffer zu erzeugen, welche jeden Vergleich wiederspiegelt.
Bei einer bevorzugten Ausführungsform der Erfindung ist eine Einrichtung vorgesehen, welche eine zeitliche Normierung der Lehrwort- oder Übungswort-Matrizen und der Befehlswort-Matrix vornimmt, bevor die Vergleiche durchgeführt werden.
Die folgende Beschreibung einer bevorzugten Ausführungsform anhand der beiliegenden Zeichnung dient der weiteren Erläuterung der Erfindung. Darin zeigen:
Fig. 1: ein vereinfachtes Funktions-Blockschema von einer Ausführungsform der Erfindung;
Fig. 2A: ein Blockschema von einer Vorverarbeitungsschaltung gemäß dem Stand der Technik;
Fig. 2B: ein Blockschema einer Merkmalsauszugschaltung gemäß dem Stand der Technik;
Fig. J: eine Darstellung zur Erläuterung des Matrix-Typusses, der sich aus einer Speicherung des Zustands von Binärmerkmalen ergibt, welche während eines gesprochenen Eingabewortes entsteht;
Fig. 4: eine Darstellung zur Erläuterung einer typischen normierten Matrix für ein gesprochenes Eingabewort;
Fig. 5A und 5B: in Längsrichtung untereinander angeordnet, eine Erläuterung von einem vereinfachten Flußdiagramm oder Befehlsschema von einem Computer-Programm, das verwendet wird, um verschiedene Funktionen gemäß der vorliegenden Erfindung auszuführen.
- 5 40 9 8 13/0965
DINA INSPECTED
In Pig. 1 ist ein vereinfachtes Punktions-Blockschema einer erfindungsgemäßen Vorrichtung dargestellt. Gesprochene Eingabeworte, die entweder in die Klasse der sogenannten "Lehr- oder Übungsworte" oder in die Klasse der "Befehlsworte" fallen, werden von einer Vorverarbeitungsschaltung 5o empfangen, welche eine Bank von Band -Filtern verwendet, um die Sprache in einer Vielzahl von Spektralkomponentensignale auf Leitungen 5oa zu übertragen (die hier verwendeten Bezeichnungen "gesprochene Eingabeworte", "gesprochene Worte" und ähnliche Bezeichnungen dienen dazu, um allgemein irgendwelche akustischen oder elektrischen Wiedergaben von einer Kommunikation dienenden Geräuschen zu bezeichnen. Die Schaltung 5o ist typischerweise so angepaßt, daß' sie die Wörter der Kommunikation direkt von einem Individuum empfängt oder daß sie von einem Telefon- oder von einem Bandgerät elektrische Signale empfängt, welche diesen Worten entsprechen). Die aufgearbeiteten Spektralkomponentensignale auf den Leitungen 5oa werden von einer Merkmalsauszugsschaltung empfangen, welche Merkmalsauszugssignale auf speziellen Ausgabeleitungen von einer Anzahl von Merkmalsausgabeleitungen 6oa erzeugen. Die Signale auf diesen Merkmalsleitungen können beispielsweise das Vorhandensein von vielfach verwendeten Vokalen- und Konsonantlauten wiedergeben.· Die Schaltungen 5o und 6o können, wie im folgenden noch näher beschrieben wird, von einer Bauart sein, wie sie von dem Stand der Technik bekannt ist.
Die Merkmalsausgabesignale auf den Leitungen 6oa, welche vorzugsweise in binärer Form vorliegen, werden von der folgenden Aufbereitungsschaltung empfangen, deren Funktionen allgemein im Inneren des strichlierten Kästchens 7o liegen. Bei der vor- ■ liegenden Ausführungsform werden die innerhalb des Kästchens dargestellten Funktionen durch eine geeignete Programmierung eines käuflich erhältlichen Allzweck-Minirechners erfüllt, z.B. durch das Modell PDP-11 der Firma Digital Equipment Corp. Es ist jedoch ersichtlich, daß auch andere Einrichtungen, wie ein Spezialrechner oder irgendeine andere Schaltung, welche einen Speicher enthält, zur Erzielung der erwünschten Funktionen
40981 3/0965
verwendet werden kann. Die Zustände, der Merkmalssignale auf den Leitungen 6oa, welche während eines gesprochenen Eingabewertes entstehen, werden als zeitabhängige Matrix gespeichert, wie dies durch den Block 71 dargestellt ist. Es war bereits darauf hingewiesen, daß die gesprochenen Eingabeworte in Lehr- oder Übungsworte sowie in Befehlsworte klassifiziert sind. Die jeweilige Klassifizierung hängt von dem Betriebszustand der Anordnung ab. Während des Lehr- oder Übungsbetriebszustandes werden der Anordnung neue Worte nach Art eines Lehr- oder Übungsvorganges eingegeben, welche vorzugsweise von der Person gesprochen werden, welche später die Maschine während ihres Befehlszustandes verwendet. Bei aktivem Befehlszustand der Maschine erzeugt diese eine Anzeige, welches vorher gespeicherte Lehroder Übungswort dem gerade gesprochenen Befehlswort am nächsten kommt.
Bei aktivem Lehr- oder Übungszustand wird die dem empfangenen Eingabe-Übungswort entsprechende Matrix an einer bestimmten Idresse gespeichert. Diese Funktion wird von dem Block 72 angezeigt. Während eines typischen Lehr- oder Übungsvorganges werden Lehr- oder Übungswort-Matrizen für so viele Wörter gespeichert, wie die Anordnung in ihrem Vokabular gleichzeitig handhaben kann. Es ist klar, daß das maximale Vokabular von der Speicherkapazität und von der möglichen Verarbeitungszeit abhängt. Zu Erläuterungszwecken ist die dargestellte Ausführungsform der Erfindung so ausgebildet, daß sie ein Vokabular von 3o Worten aufweist. Es lassen sich jedoch auch größere Vokabulare ausführen, wenn dies erwünscht ist. Es werden daher während des Lehr- oder Übungszustandes 30 Matrizen von Übungs- oder Lehrworten gespeichert.
Bei aktivem Befehlszustand, d.h. bei dem Zustand, der während der Hauptzeit des Betriebes eingenommen wird, erfolgt die Umwandlung eines gesprochenen Eingabe-Befehlswortes in eine zeitabhängige Merkmalsmatrix, welche von dem Block 71 wiedergegeben ist. In diesem Falle wird die Befehlswort-Matrix an einer speziellen Adresse, welche von dem Block 73 wiedergegeben wird,
409813/09 6 5 -7-
gespeichert, an der sie zu einem Vergleich mit jeder der 3o vorher gespeicherten Übimgs- oder Lehrwort-Matrizen zugänglich ist. Dieser funktionsmäßig von dem Block 7^ wiedergegebene Vorgang umfaßt einen Stück-für-Stück-Vergleich der Befehlswort-Matrix mit jeder Lehr- oder Übungswort-Matrix sowie die Erzeugung eines' Korrelationswertes für jeden derartigen Vergleich. Die spezielle Lehr- oder Übungswort-Matrix, welche zu dem größten Korrelationswert führt, wird anschließend als die wahrscheinlichste Übereinstimmung ausgewählt. Weitere im voraus bestimmte Kriterien werden aufeinanderfolgend verwendet, und sie entscheiden, ob -die Übereinstimmung mit dem speziellen Lehr- oder Übungswort ausreichend nah ist, um eine Anzeige für dieses Übungswort durchzuführen.
Die Pig. 2A und 2B zeigen im weiteren Einzelheiten der in Fig. 1 dargestellten Vorrichtung. Eine vollständige Beschreibung von geeigneten'Bauarten einer Vorverarbeitungsschaltung 5o sowie einer Merkmalsauszugsschaltung 6o lassen sich in einer Veröffentlichung von T.B. Martin mit der Bezeichnung "Acoustic Recognition of A Limited Vocabulary of Continuous Speech" finden, welche von University Microfilms, Ann Arbor, Michigan veröffentlicht ist. Es sollte darauf hingewiesen werden, daß die vorliegende Erfindung sich in großen Maße mit bereits aufbereiteten MerkmalsSignalen beschäftigt und daß jegliche geeignete Einrichtung zur Erhaltung dieser Merkmalssignale verwendet werden kann. Der Umfang, in dem in der vorliegenden Darstellung auf die Einzelheiten eingegangen wird, ist daher auf das begrenzt, was zum vereinfachten Verständnis des erfindungsgemäßen Teiles der Vorrichtung notwendig !St. ;:
Fig. 2A zeigt ein Blookschema der Vorverarbeitungsschaltung 5o, Ein Meßwertumformer, 51# typiseherweise ein Gradientmikrophon, empfängt die gesprochenen Eingabewörter und erzeugt den empfangenen Geräuschen entsprechende zeitabhängige elektrische Signale. Der Ausgang des Meßwertumformers 51 ist über einen Verstärker an neunzehn aneinander angrenzende Bandpassfilter in einer Filterbank 53 gekoppelt. Jedes Filter in der Filterbank erzeugt
4 0 9 813/0965
ORIGINAL INSPECTED
ein Ausgangssignal, das zu eineK Teil des Eingabesignals gehört, welches in dem Frequenzbereich liegt, der von dem speziellen Filter hindurchgelassen wird. Die Mittelfrequenzen der Filter reichen typischerweise von ungefähr 25° bis 7.5°° Hz, wobei die geringste Bandbreite ungefähr 15o Hz beträgt.
Das Ausgangssignal von jedem Filter der Bank 53 wird einzeln an eine Kombination Vollweggleichrichter und einem Tiefpassfilter in einer Verstärker-Tiefpass-Filterbank 54 gekoppelt. Nach Gleichrichtung und Filterung geben die Ausgangssignale der Bank im wesentlichen die Energieniveaus des Eingangssignals ungefähr an den Frequenzmitten von jedem der Bandpassfilter in der Bank 53 wieder. Die Signale auf den Leitungen 54a geben in einer anderen Betrachtungsweise zusammen die Umhüllende des Spektrums, bei dem die Energie gegen die Frequenz aufgetragen ist, von dem empfangenen Eingangssignal über den interessierenden Frequenzbereich.
Die neunzehn Informationskanäle, an den Leitungen 54a werden logarithmisch zusammengedrängt, so daß die Spektralkomponentenausgangssignale auf den Leitungen 5°a der Vorverarbeitungsschaltung erzeugt werden. Durch das logarithm!sehe Zusammendrängen wird die folgende Aufbereitung in zweierlei Hinsicht erleichtert. Zum einen wird eine Komprimierung des dynamischen Bereiches erzielt, welche die konstruktiven Erfordernisse für die Ausbildung der Merkmalsauszugsschaltung 6o vereinfachen. Zum zweiten lassen sich aufgrund der Verwendung der logarithmischen Einteilung Vergleichsverhältnisse der Spektralkomponentensignale rasch durch Substraktion ausrechnen. Verhältnisse stellen erwünschte Ausdrucksmittel für die Verarbeitung von Signalen dar, da sie unabhängig von Änderungen in den Gesamtsignal-Amplituden sind. Diese Eigenschaft erweist sich insbesondere in einem System als vorteilhaft, bei dem Eingabesignale unterschiedlicher Laut- stärke erkannt werden sollen.
In dem Diagramm der Fig. 2A wird ein einzelner logarithmischer Verstärker 56 als Multiplex-^erstärker verwendet, um die Notwen-
409813/0965
ORlGiNAL INSPECTED
digkeit einer Verwendung von neunzehn identischen Verstärkern zur Erzielung der erwünschten Einengung zu vermeiden. Die Ausgangssignale der Leitungen 5^a werden wirksam von einem Multiplexer 55 abgetastet. Diese abgetasteten Signale werden eines nach dem anderen durch den gemeinsam verwendeten Verstärker 56 hindurchgeführt. Ein Demultiplexer 57 "rekonstruiert" dann die eingeengten Spektralkomponenten-Signale auf den Leitungen 5oa aus den verarbeiteten abgetasteten Signalen. Die Abtast frequenz des Multiplexers und Demultiplexers liegt oberhalb von 1 kH -und ist aus Sicherheitsgründen höher gewählt, als es notwendig ist, um die Signalbandbreiten der Tiefpassfilter aufrechtzuerhalten. Diese Technik der gemeinsamen Verwendung eines einzelnen logarithmischen Verstärkers ist an sieh bekannt und beispielsweise in der US-PS 3 588 363 beschrieben, ebenso wie in der oben erwähnten Publikation von T. Martin.
Es wird ins Gedächtnis zurückgerufen, daß die Spektralkomponenten-Signale auf den Leitungen 5oa in die Merkmalsauszugsschaltung 60 (Fig. 1) gelangen, welche die Anwesenheit von Eigenschaften der Spektralkomponentensignale ermitteln, die vorgewählten Eigenschaften oder Merkmalen der Eingabeworte entsprechen. Bei dem speziellen herkömmlichen System, das zu Erläuterungszwecken beschrieben wird, erfolgt diese Ermittlung der Eigenschaften oder der sogenannte"Merkmalsauszug" teilweise dadurch, daß man Größen ableitet, die als "Steilheit" ("slope") und "grobe" Steilheit" ("broad slope") Kennwerte bekannt sind. Diese Größen zeigen die Polarität und Größe der Steigung der Eingabeumhüllenden, wenn diese über speziell festgelegte Segmente des Frequenzspektrums genommen wird. Die Art und Weise, auf welche diese Größen gewonnen werden, ist in der oben genannten Beschreibung und in dem Patent beschrieben.
Fig. 2B zeigt ein Blockschema der Merkmalsauszugsschaltung 60 gemäß dem Stand der Technik, welche die Spektralkomponentensignale auf den Leitungen 5oa empfängt. Die Schaltung 6o, die ebenfalls
4 09813/0965 - Io -
ORIGINAL INSPECTED
- Io -
234773^
in der oben erwähnten Veröffentlichung und der Patentschrift beschrieben ist, enthält Logikblöcke 6l und 62, welche Sätze von Wertender "steilheit" und "groben Steilheit" ableiten, die von einem "Grobklassenmerkmal" ("broad class feature") Erkennungslogikblock 6^3 empfangen werden. Der Block 63 verwendet Gruppen von Rechen- oder Funktionsverstärkern und geeignete Anschlußschaltungen, um "Grobklassenmerkmals-Signale" (broad class feature) 63a zu erzeugen, die anzeigen, daß bestimmte grob klassifizierte phonetische Charakteristiken in den Eingabeworten vorliegen. Beispiele für derartige Grobklassifizierungen sind "vokal/vokal-artig", "Laute oder Stimmen allein"("voicing only"), "Ausbruch oder Explosion" ("burst"), "stimmhaft geräuschartiger Konsonant" usw. Die Signale 6^a ebenso wie die Spektralkomponentenslgnale, die "Steilheit" und "grobe Steilheit "-Signale werden von einem "Grundmerkmal"("basic feature") -Erkennungslogikblock 64 empfangen. Dieser Block, der Komponenten enthält, die in ihrer Art ähnlich den Komponenten des Blockes 6~5 sind, bewirken die Erzeugung der Merkmals signale, welche die Anwesenheit von spezifischen phonetischen Merkmalen, z.B. /i/, /s/, /θ/, /J/» der gesprochenen Eingabeworte anzeigen. Im allgemeinen enthält die hierarchische Struktur einen dazwischenliegenden Logikblock, der "allgemeine Gruppenmerkmale" (common group features) bildet, z.B. "vorderer Vokal" ("front vowel"), "rückwärtiger Vokal ("back vowel"), "Reibelaute", "Knack- oder Verschlußkonsonant" usw. Alternativ können auch derartige allgemeine Gruppenmerkmale , auch die spezifischsten Merkmale sein, welche für eine weitere Verarbeitung, durch die folgende Entscheidungslogik (Fig. 1) gebildet werden. Es wird klar, daß die vorliegende Erfindung auf die Verarbeitung von verschiedenen Arten von Merkmalssignalen anwendbar ist. Eng oder fein bzw. scharf definierte phonetische Merkmalssignale erleichtern die Erklärung des folgenden Schaltkreises, weshalb angenommen wird, daß die digitalen Merkmalssignale auf den Leitungen 60a diese Form aufweisen. Es muß jedoch betont werden, daß- die vorliegende Erfindung nicht auf irgendeine spezielle Form der Merkmalssignalerzeugung beschränkt ist, so lange die
409813/0965 - 11 -
2347739
gebildeten Merkmale digitaler Art sind.
Bei der hier beschriebenen Ausführungsform werden 32 binäre Merkmalssignale, welche mit f bis f.,, bezeichnet sind, an J52 getrennten Leitungen 6oA erhalten. Die Merkmalssignale f. bis f-^ zeigen kontinuierlich die Anwesenheit oder das Fehlen von einem spezifischen phonetischen Merkmal an, während das Merkmal f die Anwesenheit von irgendwelchen Eingabegeräuschen.oder Tönen anzeigt, welche Sprache sein können. Die konditionale Ausdrucksweise wird verwendet, da darauffolgend eine Verarbeitung oder Aufbereitung zur Anwendung kommt, welche dazu dient, ein kurzzeitiges Auftreten von tQ, das mehr Lärm als tatsächliche Sprache ist, auszuschalten. Bei der vorliegenden Ausführungsform beträgt die minimale zulässige Dauer für f 25o msek.
Die Computereinrichtung Jo empfängt die Merkmalssignale f bis F-zTt wie dies in Fig. 1 gezeigt ist. Das allgemeine Merkmal f für das Vorliegen gesprochener Worte wird vom Computer verwendet, um anzuzeigen, ob eine Notwendigkeit besteht, die spezifischen Merkmale f., bis f,, zu Überwachen. Aus den folgenden Erläuterungen wird ferner ersichtlich, daß die Dauer von f vom Computer festgehalten und später als Basis für eine Zeitnormierung der Merkmalsmatrix der Eingabeworte, verwendet wird. Es sind verschiedene Techniken bekannt, um ein Merkmal wie f für das Vorliegen eines gesprochenen Wortes zu erzeugen, wobei es am einfachsten ist, zu dem englischen Wort "OR" alle spezifischen Merkmale zusammen mit der erforderlichen Energieschwelle zu verwenden. Die Schaltung für die "Erzeugung von f_ ist typischerweise mit einer inneren Hysterese versehen, d.h. sie schaltet ihre Ausgangsinformation (fQ) nicht ab, bis sie feststellt, daß für eine vorbestimmte Zeitdauer keine Spracheingabe stattgefunden hat, wobei diese Zeitdauer beispielsweise 2oo msek. beträgt. Diese Technik ist notwendig, da viele Worte bei ihrer natürlichen Aussprache Pausen einer wesentlichen Dauer enthalten. Wenn, eine derartige Hysterese nicht vorhanden wäre, würde die Vorrichtung den ersten Teil eines Wortes als vollständiges und
409813/0965 _12_
eigenständiges Wort interpretieren. Das Vorhandensein einer derartigen Hysterese führt jedoch zur Notwendigkeit, daß darauffolgende Eingabewörter voneinander um mindestens diese vorbestimmte Zeitdauer getrennt sind, wenn sie nicht als ein zusammenhängendes Wort interpretiert werden sollen.
Wenn von der Computere-inrichtung 70 das Vorhandensein eines Signales f ermittelt wird, beginnt die Überwachung und Speicherung von dem Zustand von f^ bis f·^· Wenn f die minimale Zeitschwelle überschreitet, im vorliegenden Falle 25o msek., werden die Eingabegeräusche oder Töne als ein Wort betrachtet und nicht als Rauschen und die gespeicherte Merkmalsmatrix wird in der folgenden Weise weiterverarbeitet. Wenn das Ende von f ermittelt wird, ist die gespeicherte Wortmatrix vollständig. Sie weist eine Dimension von 32 χ T auf, wobei T die Dauer des Wortes darstellt, d.h. die wahre Dauer von f . Da es möglich ist, daß der wahre Wert fQ zwischen 25o msek. und beispielsweise I.500 msek. variiert,'kann die Matrix eine Gesamtdimension aufweisen, welche von J52 χ 25o bis 32 χ 15oo reicht. Es wird jedoch ersichtlich, daß die Dauer des Eingabewortes nicht kritisch ist, da die darauffolgende Zeitnormierung vorgenommen wird. Auf diese Weise wird die Abhängigkeit von der Sprechgeschwindigkeit der jeweiligen Person für das spezielle Eingabewort auf einen minimalen Wert gebracht.
Pig. 3zeigt den Matrixtypus, der sich aus der Speicherung des Zustandes von den Binär merkmalen ergibt, welche während eines Eingabewortes auftreten. Bei dem in Fig. 3 gezeigten Beispiel wird zu Erlauterungszwecken angenommen, daß das Eingabewort eine Zeitdauer von 800 msek. aufweist. Dies bedeutet, daß die resultierende Matrix eine Dimension von 3I x 800 aufweist. Mit anderen Worten, die Matrix zeichnet das Vorhandensein oder Fehlen von jedem von"Jl Merkmalen über 800 abgetastete Zeitintervalle (time slots) auf. Wie von den stellvertretend wiedergegebenen Einsern der Figur hervorgeht, welche zu Erlauterungszwecken willkürlich gegeben sind, treten verschiedene Merkmale über unterschiedliche Zeitintervalle der Gesamtwortdauer auf, wobei ein
409813/0965 -13-
2347733
spezielles Merkmal üblicherweise für eine Anzahl von msek. kontinuierlich vorhanden ist.
•Das Fehlen einer "l" an einer Matrixstelle bedeutet eine "Q", d.h. das Fehlen des entsprechenden Merkmals. Die Zeitnormierungsfunktion, welche von dem Computer geliefert wird, reduziert jede Eingabewort-Matrix auf eine 3X χ ΐβ Matrix, wobei die Zeitachse auf l6 normalisierte Zeitintervalle reduziert ist. Die Normierung läßt sich auf verschiedene Wege durchführen, wobei die Technik, welche bei der vorliegenden Ausführungsform zur Anwendung kommt, eine Auswahl von normierten Zeitperiode.n beinhaltet, welche ein Überwiegen von "Einsern" enthält. Das arithmetische Verfahren für die Durchführung dieser Technik i©t für den Computer unkompliziert und enthält grundsätzlich einfaches Dividieren und Zählen. Bei dem in Fig. 3 gezeigten Beispiel würden erläuterungshalber die 8oo Zeitintervalle für jedes Merkmal in Gruppen von 5o unterteilt, wie dies durch die mit B^ bis B^g gekennzeichneten Klammern dargestellt ist. Jede Klammer enthält 5o Zeitabschnitte, so daß im vorliegenden Beispiel ein speziell normierter Zeitabschnitt für ein Merkmal mit einer "l" bezeichnet wird, wenn die Klammer wenigstens 2β Einsen enthält. In Fig. 3 weist das Merkmal f^ ein Überwiegen von Einsen in der von der Klammer B1^ umfaßten Zeit auf. Der sechzehnte und letzte normierte Zeitabschnitt für f·, enthält somit eine "l". Auf diese Weise wird eine vollständig auf 3% χ 1β normierte Matrix gebildet, indem man die Summe der Einsen in jeder der sechzehn Klammern für jedes der 3^ Merkmale untersucht» In dem gegebenen Beispiel ist die Gesamtzeit ein exaktes Vielfaches von l6. Für die anderen Fälle ist der Computer so programmiert, daß er eine Aufteilung von jeglichem Rest unter den Klammern in einer speziell gegebenen Weise durchführt. Wenn beispielsweise ursprünglich 8o2 Zeitintervalle, d.h. msek. vorhanden waren, würde jede der 3 ersten Klammern 51 msek. anstatt 5o enthalten, während der. Rest der Klammern 5o msek» jeweils enthalten wür- _ de. ' . :
4098 13/Ö Ö 65
Pig. 4 zeigt eine typische normierte Matrix eines Eingabewortes, wobei lediglich die "Einsen" dargestellt sind, während die Nullen durch ein Fehlen der Einsen an der entsprechenden Matrixstelle wiedergegeben werden.
Die Fig. 5A und 5B zeigen ein vereinfachtes Flußdiagramm des Computer Programms, das zur Ausführung der Funktionen verwen- . det wird, welche im Groben im Inneren des Kästchens 7o von Fig. 1 definiert waren. Wie bereits vorstehend angezeigt worden war, empfängt der Computer die Eingangssignale der Merkmale fQ bis f^, sowie ferner Befehle von der Bedienungsperson, in Form von Schalterbetätigungen, welche die Übungs- oder Lärmsowie die Befehlsphasen des Betriebes steuern. Bei Beginn des Routinebetriebs ist die erste wesentliche Handlung, den Zustand des von der Bedienungsperson gesteuerten Einstellschalters zu prüfen, welcher festlegt, ob die Vorrichtung den Übungs- oder Lärmzustand oder den Betriebszustand einnimmt. Diese Funktion wird von dem Block 7ol wiedergegeben.Wenn die Übungs- oder Lärmbetriebsart angezeigt ist, prüft die Maschine zwei andere Schaltereinstellungen, welche als m und η (Block 7o2) bezeichnet werden, wobei der Zweck dieser Eingabeparameter an einem späteren Punkt noch näher erläutert wird. Der Computer wartet dann auf das Einsetzen von fQ, was durch das rautenartige Entscheidungskästchen 7oj5 in Verbindung mit der geschlossenen "Nein"-Schleife 7o4 angezeigt ist. Wenn f auftritt, wird die "Ja"-Seite aktiv und das Signal gelangt zu dem Block 7o5V Block definiert die Funktion der kontinuierlichen Abtastung und Speicherung des Zustandes von den Merkmalen f1 bis f, χ, um eine Empfangsmatrix von der in Fig. 3 gezeigten Art zu bilden. Dieser Betrieb dauert aufgrund der Unterscheidungsraute 7οβ zusammen mit der Schleife 7o7 an, bis fQ endet, wrauf die "Ja"-Seite der Raute 7οβ aktiv wird. Die Dauer T des soeben beendeten Eingabewortes wird anschließend untersucht (Raute 7o8), um festzustellen, ob T größer ist als eine vorher festgelegte Zeit T., welche im vorliegenden Falle auf 25o msek, festgelegt 1st. Wenn T zu kurz ist, bewirkt der Block 7o9 eine Löschung
409 81 3/096.5 , 15 -
der Empfangsmatrix und die Raute Jo3 wird wieder in den Zustand zurückgebracht, in der sie auf das nächste Einsetzen von f_ wartet.
Wenn T größer ist als Tmin, wird die Empfangsmatrix auf eine 31 x 16 normierte Matrix normiert, welche mit p" dargestellt ist, wie dies von dem Block 7I0 wiedergegeben wird. Die Normierung ist ein relativ unkomplizierter arithmetischer Vorgang von der im Zusammenhang mit Fig.. 4 beschriebenen Art. Als nächster Schritt wird festgestellt, welcher Betriebszustand aktiv ist (Raute 111), wobei bei aktivem Lehr- oder Übungszustand in den Block 712 eingegangen wird. Dieser Block stellt die Punktion der Bildung einer F m Matrix dar, welche gleich der Matrix F ist. Der untere Index ή bezeichnet hierbei die Nummer des speziell eingegebenen Wortes, z.B. des sechzehnten Wortes eines Jo Wörter-aufweisenden Vokabulares. Der obere Index m gibt die Rasterzählung für das spezielle eingegebene Übungswort an. Es ist, wie oben bereits ausgeführt wurde, erwünscht, vielfach Abtastungen desselben Übungswortes zu verwenden, um eine verläßliche Durchschnittsabtastung zu erhalten, welche eine wahrheitsgetreue Wiedergabe der Weise darstellt, in der von der jeweiligen Person das in Rede stehende Wort artikuliert wird. Bei der vorliegenden Ausführungsform werden fünf Proben von Jedem Übungswort verwendet und diese Wähl ist Jedoch bis zum gewissen Grad willkürlich und hängt von praktischen Überlegungen ab, wobei eine relativ große Anzahl von Proben höchst erwünscht ist, jedoch eine längere Übungs- oder Lärmperiode beansprucht. Bei dem vorliegenden Programm werden die Werte von m und η von der Bedienungsperson während der Lärm- oder Übungsperiode festgesetzt und nach jedem Wort und nach jeder Probe oder Abtastung geändert. Es ist jedoch ersichtlich,, daß diese Parameter automatisch erhöht werden können, wobei der Computer anzeigt, bis zu welcher Wortzahl und Probe die nächste Eingabe erfolgen soll.
- 16 409813/0 9 65
Der nächste Betriebsschritt ist die Peststellung, ob m gleich der maximalen Zahl der verwendeten Proben in der Prozedur ist, welche mit M bezeichnet ist. In der vorliegenden Ausführungsform ist M gleich 5, so daß, wenn die Proben-zahl für das spezielle Übungs- oder Lehrwort kleiner als 5 ist, die "Nein"-Seite der Raute 713 aktiv wird und der Computerausgang anzeigt, daß die Probe des Übungswortes-eingegangen ist und daß die nächste Probe für dieses Übungswort von der Bedienungsperson genommen werden sollte. Wenn diese Anzeige bestätigt ist, führt der Zweig 7l4a das Programm zurück zu dem Block ToI und die nächste Schaltereinstellung (von m) wird von der Bedienungsperson in Vorwegnahme des Empfangs von der nächsten Probe des Übungswortes vorgenommen. Wenn daher beispielsweise die erste Probe des ersten Übungswortes gerade eingegangen war, ändert die Bedienungsperson den Einstellschalter, welcher η steuert, auf m=2 und das System arbeitet in der oben beschriebenen Weise, um das nächstgesprochene
-* 2
Wort als normierte Matrix P , einzutragen.
Wenn die 'erwünschten fünf Proben von einem Übungswort eingetragen sind, wirdm gleich M und der "ja"~Ausgang der Raute 713 aktiv, so daß der Block 715 aufgesucht wird. Dieser Block entspricht der Funktion einer Mittelwertbildung der P Matrizen von den Übungswort-Proben, so daß eine Endmatrix für das Übungswort erhalten wird, welche mit P (ohne oberen Index) bezeichnet wird. Auch die Mittelwertbildung ist ein relativ unkomplizierter Vorgang, bei dem die Gesamtzahl der "Einsen", die in jeder der Matrixstellen (31 χ 16) auftreten, gezählt wird und bei der eine "l" in den entsprechenden Stellen in der Endmatrix eingesetzt wird,-wenn die Gesamtsumme größer oder gleich einer vorbestimmten Schwellenzahl ist. In der vorliegend beschriebenen Ausführungsform wurde beispielsweise drei als geeigneter Wert für die Schwelle gefunden, so daß irgendeine Matrixstelle, welche in wenigstens drei der fünf übuagswactproben -Matrizen eine "l" aufweist, eine "l" in der schließlich gespeicherten Matrix für dieses Übungswort erhält.
V/enn die Mittelwertsbildung des Blockes 715 fertiggestellt und
409813/0965
- 17 -
die Matrix F gespeichert ist, zeigt der Computer an, daß das spezielle Übungswort fertiggestellt ist ("completed") (Block 716). Dies bedeutet, daß seine endgültige Matrix berechnet und gespeichert ist.· Die Bedienungsperson erhöht dann typischerweise η auf die nächste Übungswortzahl und setzt den Übungs- oder Lehrvorgang fort oder sie schaltet nach Beendigung des Lehrvorganges die gesamte Anordnung auf den Betriebszustand.
Wenn die Anordnung ihren Betriebszustand einnimmt, wird ein empfangenes Wort in der oben beschriebenen Weise aufbereitet oder verarbeitet, und zwar bis zu dem Punkt, an dem die normierte Matrix P gespeichert ist. An dieser Stelle zeigt die Raute 711 ein "Nein" an und der Block 717 wird aufgesucht. Die Funktion des Blockes 717 ist es, den Übungswortindex η auf' eins zu setzen, daß die gespeicherten Übungswort-Matrizen, beginnend mit F1 vom Speicher zu Vergleichszwecken mit der Eingäbe-Befehlswort-Matrix F aufgerufen werden können. Der nächste Block, 718, enthält die Funktion eines Punkt-für Punkt erfolgenden Vergleiche^ der Matrix F mit der Matrix F . Bei der vorliegenden Ausführungsform führt dieser Vergleich zu einer Summe, welche allgemein durch S° dargestellt ist. Für die Erläuterung dieser Summenbildung und der anschließend aatwidcelten Summen unterschiedlicher Form hat es sich als zweckmäßig erwiesen, auf die Glieder der Matrix F durch die Bezeichnung F (f^, t.) Bezug zu nehmen, wobei nf " das i-te-Merkmal und "t." das i-te-nomierte Zeitintervall darstellen. Bei der Aufstellung der Summe S° wird jedes Glied
F (f., t.) von F mit dem entsprechenden Glied F (f.,, t.) der ij .α η 1 j
Übungswortmatrix Fn verglichen. Es zeigt sich, daß sich ein äußerst nützlicher Vergleich aus der Betrachtung der Übereinstimmung oder Nichtübereinstimmung der Einsen in den beiden Matrizen ergibt, welche gemäß folgender Regel miteinander verglichen werden: Wenn eine spezielle Matrixstelle eine "l" in beiden Matrizen aufweist, wird die" Summe um eins erhöht, wenn lediglich eine der beiden Matrizen eine "lTt an dieser Stelle aufweist, wird die Summe um eins erniedrigt. Wenn die spezielle Stelle eine "θ" in beiden Matrizen aufweist, wird zu der Summe nichis addiert
409813/0965 - 18 -
2347739
.und von ihr nichts abgezogen. Die Summe hängt somit lediglich von der Korrelation oder Nichtkorrelation der tatsächlich vorkommenden Merkmale, entweder in dem Übungswort oder in dem Befehlswort ab und nicht von der Korrelation des Fehlens derartiger Merkmale. Auf diese Weise führen Worte mit einer kleinen Zahl von Merkmalscharakteristiken nicht zu unrealistisch hohen Korrelationssummen, welche man erhalten würde, wenn man auf das Fehlen dieser Merkmale abstellen würde.
Wenn man zu dem Block 718 zurückkehrt, läßt sich die Summe S? von dem Computer entsprechend der soeben festgesetzten Regel ableiten. Typischerweise wird S? zu Beginn gleich Null gesetzt, während die Werte für die Indices 1 und j anfangs gleich 1 gesetzt werden. Die Matrixglieder F (fi* t-) werden dann miteinander verglichen. Wenn beide Einsen sind, wird S° um +1 erhöht. Wenn die beiden unterschiedliche Werte haben, z.B. eine "l" und eine 11O", wird S° um -1 vermindert. Wenn beide "o" sind, bleibt die Summe S? unbeeinflußt. Die Werte der Indices i und J werden anschließend schrittweise erhöht und es erfolgt ein Vergleich der entsprechenden Matrixglieder auf iterative Weise, bis die Endsumme S?, welche positiv oder negativ sein kann, erreicht ist.
Nach Berechnung der Gesamtsumme S ? werden zwei zusätzliche Vergleiche zwischen der Befehlswort-Matrix F und der ersten übungswortmatrix F1 durchgeführt. Diese Vergleiche führen zu zwei
+1 -1 Summen, welche allgemein mit S und S^ bezeichnet sind und
+1 -1 welche wenn der Index η eins ist, als S 7 und S 1 spezifiziert
+1
sind. Die Summe S wird im allgemeinen durch Vergleich aller Glieder F (f±, t.) der Befehlswort-Matrix mit den Gliedern F (f., t. ,) der Matrix für das Übungswort η gebildet. Entsprechend wird die Summe S~* durch einen Vergleich aller Glieder F (f., t.) der Befehlswort-Matrix mit den Gliedern Fn (f±, Ti_i) der Matrix für das Übungswort η gebildet. Diese Vorgänge lassen sich als punktweise Vergleiche der beiden Matrizen ansehen, bei der die Übungswort-Matrix zuvor um ein normiertes Zeitintervall zur Berechnung von S+, um eine Stelle nach links verschoben und zur Berechnung von S ; um ein Zeitintervall nach rechts ver-
40981 3/0965
- 19 -
schoben wurde. Bei der bildhaften Vorstellung dieser Vergleiche hilft es, wenn man sich die Übungswort-Matrix F1 direkt über die Befehlswort-Matrix F gelegt vorstellt. Der Hauptvergleich wurde in dieser zueinander ausgerichteten Lage der beiden Matrizen vorgenommen, wobei die Summe S? gebildet wurde,. Man kann sich nun vorstellen, daß die Matrix F. nach links um die Lage eines Zeitintervalles derart verschoben ist, daß die erste Zeitintervallspalte (t = 1) von F1 nach außen übersteht, während die letzte Zeitintervallsspalte (t=l6) die vorletzte Spalte (t=15) von F überlappt. Der Vergleich wird anschließend durchgeführt, wobei er gemäß· den oben aufgestellten Regeln zu der Bildung der Summe S+J führt. Beispielsweise wird der Punkt F1 (f1, t2) mit dem Punkt F (ίχ, t1) verglichen, der Punkt F (f., t,) mit dem Punkt F (f,, tp)usw. Die Indices i und j können ferner zur Bildung der Iterierung verwendet werden, um die Gesamtsumme S+J zu bilden, wobei jedoch j lediglich von j-1 bis 3=15 geht, da sich lediglich die 15 Spalten der Zeitintervalle überlappen unc1. zu Vergleichszwecken verwendet werden können.
Die Bildung von S+^ wird von dem Block 719 und die folgende BiI-
-1 '
dung von S Λ von dem Block 72o wiedergegeben» Bei der Berechnung
von S , kann man sich die Matrix F, so angeordnet vorstellen, daß sie die Matrix ]? überlappt und nach rechts um ein Zeitintervall verschoben ist. In diesem Falle ergibt sich ein Vergleich der Punkte F (f., t.) mit "den Punkten F (f^, t-j_i)' wobei der Index j von j=2 bis j=l6 während der Iteration läuft.
Nach Berechnung, der Summen.S°, S und S wird eine zusammengesetzte Summe S ohne oberen Index gebildet (Block 721) und zwar gemäß folgender Beziehung:
Sn = 2Sn - S+n + 3~n
Diese zusammengesetzte Summe, die mit S, für den Vergleich des ersten Übungswortes mit dem Befehlswort bezeichnet wird, gewichtet die Hauptsumme mit einem Faktor zwei im Vergleich zu den zu-
409813/0965 -2o-
- 2ο -
sätzlichen Summen. Es zeigte sich, daß ein derartiges Gewichten zu günstigen Ergebnissen führte, wobei es jedoch, falls dies erwünscht ist, möglich ist, auch andere Gewichtsverhältnisse zu verwenden.
Die zusätzlich durchgeführten Vergleiche erwiesen sich als eine nützliche Korrelationsinformation in dem Sinne, als sie die Abhängigkeit der Merkmale in der Befehlswort-Matrix von der genauen Dauer und Zeiteinteilung vermindern. Die bisherige. Zeitnormierung entfernte in starkem Maße die Abhängigkeit von der Dauer des Gesamtwortes. D.h., wenn ein Wort gleichmäßig gedehnt oder zusammengedrängt ist, ergibt sich immer noch die gleiche normierte Matrix* Diese Technik schafft jedoch allein keine ausreichende Maßnahme für Fälle, in denen eine Person auf bestimmten Merkmalen eines Wortes etwas langer verharrt oder bei denen sie bestimmte Merkmale leicht verkürzt. Diese Erscheinungen treten bevorzugt nicht gleichförmig auf. Sie können zu einer- Befehlswort-Matrix führen, die etwas gegenüber der vorher gespeicherten Lehr- oder Übungswort-Matrix für das spezielle Wort des Vokabulars verschoben ist. Die Dauer oder die Größe hinsichtlich der Zeitachse von der Verschiebung ist im vorhinein nicht determinierbar. Es zeigte sich jedoch, daß eine zusammengesetzte Summe, welche leichte Verschiebungen hinsichtlich der Zeitachse mit berücksichtigt zu günstigen Ergebnissen führt. So zeigte sich insbesondere, daß die Wahrscheinlichkeit, mit der eine geeignete Zuordnung festgestellt wurde, größer war als bei Schematas, welche lediglich die Hauptsummen (S ) verwendeten.
Nach Erhalt der ersten Zusammengesetzen Summen, S., wird der Index η überprüft (Raute 722), und da alle Übungsworte noch nicht überprüft waren, führt die "Neintt-Antwort zu dem Block 723, wo η um zwei erhöht wird. Eine zusammengesetzte Summe S2 wird anschließend berechnet, indem man die Matrix für das Befehlswort, P, mit der Matrix für das zweite Übungs- oder Lehrwort F2 vergleicht. Die Schleife 724 läuft dann weiter ab, bis für alle Übungsworte zusammengesetzte Summen berechnet sind, worauf
40981 3/0965
. - 21 -
der Index η den Wert von η annimmt. In der vorliegenden AusfUhrungsform nimmt η den Wert ;5o an, da die Anzahl der Übungsworte 30 ist.
Im nächsten Schritt wird der größte Wert von S aus der "Liste"
der ;5o zusammengesetzten Summen festgestellt. Diese Funktion wird von dem Block 725 wiedergegeben. Mit dieser Bestimmung wird das spezielle Übungswort η festgestellt, das dem Befehlswort am nächsteh kommt. Anschließend werden bevorzugt weitere Kriterien verwendet, um zu entscheiden, ob diese Übereinstimmung so eng ist, daß die Entscheidung gefällt werden kann, es handele sich um das Wort n. Bei der vorliegenden Ausführungsform wird die größte zusammengesetzte Summe S in Vergleich gesetzt zu einem vorbestimmten Niveau S . , wobei eine Entscheidung, welche das Wort η als das Befehlswort heraussucht, nur dann getroffen wird, wenn
S„ größer ist als Sm4_ . Diese Entscheidung erfolgt über die η IuX η #
Raute 726. Auf diese Weise wird beispielsweise das Wort η nur dann ausgewählt (Block 727)* wenn der größte Wert von S größer als 0 ist. Wenn S einen negativen Wert einnimmt, wird die Anzeige (Block 728) "keine Entscheidung" gegeben. In jedem Falle wird der "Prüfeinstellschalter"-(examine set switch) Block 7ol wieder über die Leitung 729 aufgesucht. Die Verarbeitungszeit hängt von der Anzahl der Worte des Vokabulars und von der Geschwindigkeit des Minicomputers ab, wobei sie jedoch typischerweise in der Größenordnung von 5o msek. liegt. Falls dies erwünscht ist, können Vorkehrungen getroffen werden, welche die Aufnahme eines neuen Befehlswortes ermöglichen, während noch die Aufbereitung des vorhergehenden Befehlswortes stattfindet. Diese Funktion wird beispielsweise von dem strichlierten Zweig 7j5o durchgeführt, welcher ein abermaliges Eintreten zu dem Block 7ol bewirkt» nachdem die Matrix F für das vorhergehende Befehlswort gebildet ist. Die Merkmale des nächsten Befehlswortes werden dann überwacht während die Vergleichsprozeduren ablaufen. In diesem Falle würden die Blocke 727 und 728 lediglich zu einem Pausenblock führen, der nicht gezeigt ist»
4098 13/0965 -22-
Es gibt verschiedene alternative Kriterien, welche aufgestellt werden könnten, um festzustellen, ob der größte Wert von S zu einer Entscheidung führt, daß ein "Wort n" vorliegt. So könnte beispielsweise gefordert sein, daß der größte Wert von S den zweitgrößten Wert von Sn um einen bestimmten Betrag überschreitet, bevor eine Entscheidung getroffen wird, daß ein bestimmtes Wort vorliegt. Diese Art einer Einschränkung könnte auch ein zusätzliches Erfordernis zii demjenigen von der Raute 72b bilden.
Vorstehend war eine spezielle Ausführungsform der vorliegenden Erfindung beschrieben worden. Es ist jedoch ersichtlich, daß Abwandlungen innerhalb des Grundgedankens der vorliegenden Erfindung von Fachleuten durchgeführt werden können. So könnten beispielsweise zur Erhaltung der erwünschten Funktionen einige der in dem Flußdiagramm von Fig. 5 dargestellten Operationen auch in unterschiedlicher Reihenfolge durchgeführt werden.
Mit der Erfindung ist somit eine Vorrichtung geschaffen, welche gesprochene Eingabe-Übungswörter und ein folgendes gesprochenes Eingabe-Befehlswort empfängt, und die eine Korrelationsfunktion erzeugt, welche die Ähnlichkeit zwischen dem Befehlswort und jedem Übungswort anzeigt; Eine Merkmalsauszugseinrichtung verarbeitet die empfangenen Eingabewörter und erzeugt digitale Merkmalsausgabesignale auf speziellen Leitungen von einer Anzahl von Merkmalsausgabeleitungen. Einrichtungen zur Speicherung des Zustandes der während jedes Übungswortes auftretenden Merkmalssignale als zeitabhängige Matrix sind ferner vorgesehen. Des weiteren sind Einrichtungen vorgesehen, um den Zustand der während jedes Befehlswort auftretenden Merkmalssignale als zeitabhängige Matrix zu speichern. Schließlich sind Einrichtungen vorgesehen, um einen elementweisen Vergleich der Befehlswort-Matrix mit jeder Übungswort-Matrix durchzuführen und um eine Korrelationsziffer zu bilden, welche jeden Vergleich wiedergibt. Bei einer bevorzugten Ausführungsform der Erfindung ist eine Einrichtung vorgesehen, um eine Zeitnormierung der die Übungsworte und das Befehlswort wiedergebenden Matrizen vor Durchführung des Vergleiches zu bewirken.
409813/096 5 -23-

Claims (11)

  1. Patentansprüche
    '1. Verfahren zum Empfang gesprochener Eingabe-Übungswörter und eines anschließenden gesprochenen Eingabe-Befehlswortes und zur Bildung einer Korrelationsfunktion, welche die Ähnlichkeit zwischen dem Befehlswort und jedem Übungswort anzeigt, gekennzeichnet durch
    (a) einen Merkmalsauszug von empfangenen Eingabewörtern und Erzeugung digitaler Merkmalsausgabesignale auf speziellen Leitungen von einer Anzahl von Merkmalsausgabe leitungen;
    (b) Speicherung des Zustandes der Merkmalssignale, welche jährend jedes Übungswortes auftreten als zeitabhängige Matrix;
    (c) Speicherung des Zustandes der Merkmalssignale, welche während jedes Befehlswortes auftreten als zeitabhängige Matrix; und
    (d) gliedweisen Vergleich der Befehlswort-Matrix mit jeder Übungswort-Matrix und Erzeugung einer Korrelationsziffer, welche das Ergebnis jedes Vergleiches wiedergibt. .
  2. 2. Verfahren nach Anspruch 1, g' e kennzei chnet durch eine Zeitnormierung der Übungswort-Matrizen und der Befehlswort-Matrix vor einer VergleichsdurohfUhrung.
  3. j5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei dem gliedweisen Vergleich lediglich' das Vorhandensein von Merkmalen in den miteinander verglichenen Matrizen berücksichtigt wird.
  4. 4. Verfahren nach Anspruch 2, dadurch gekenn-
    409813/0965 - 24 -
    ORlGiNAi INSPECTED
    zeichnet, daß der gliedweise Vergleich lediglich das Vorhandensein von verglichenen Merkmalen berücksichtigt.
  5. 5. Verfahren nach Anspruch 1 oder 4, dadurch gekennzeichnet, daß hinsichtlich der Zeitskala verschoben ein Vergleich zwischen der Befehlswort-Matrix mit jeder Übungswortmatrix durchgeführt und daß eine zusätzliche Korrelationsziffer , welche jeden dieser Vergleiche wiedergibt , gebildet wird.
  6. 6. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 1, welche gesprochene Eingabe-Übungsworte und ein darauffolgendes gesprochenes Eingabe-Befehlswort empfängt und eine Korrelationsfunktion erzeugt, welche die Ähnlichkeit zwischen dem Befehlswort und jedem Übungswort anzeigt, gekennzeichnet durch
    (a) eine Merkmalsauszugseinrichtung (5o, 6o) zur Verarbeitung der empfangenen Eingabewörter und zur Erzeugung digitaler Merkmalsausgabesignale auf speziellen Leitungen von einer Anzahl von Merkmalsausgabeleitungen (6oa);
    (b) eine Einrichtung (72) zur Speicherung des Zustandes
    der während jedes Übungswort auftretenden Merkmalssignale als zeitabhängige Matrix;
    (c) eine Einrichtung (73) zur Speicherung des Zustandes der während des Befehlswort auftretenden Merkmalssignale als zeitabhängige Matrix; und
    (d) eine Einrichtung (7Jk) für einen elementweisen Vergleich der Steuerwort-Matrix mit jeder Übungswort-Matrix und zur Erzeugung einer Korrelationsziffer, welche das Ergebnis jedes Vergleiches wiedergibt.
    409813/0965 -25-
  7. 7· . Vorrichtung nach Anspruch 6, gekenn zeichnet durch eine Einrichtung (7I0), um eine Zeitnormierung der Übungswort-Matrizen und der Befehlswort-Matrix vor deren Vergleich durchzuführen.
  8. 8. Vorrichtung nach Anspruch 6 oder J, dadurch gekennzeichnet , daß die Matrizen (Fig..4) binäre Elemente aufweisen, welche das Vorhandensein oder Fehlen von Merkmalen an speziellen Zeitperioden wiedergeben.
  9. 9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Vergleich lediglich das Vorhandensein der Merkmale in den miteinander verglichenen Matrizen berücksichtigt.
  10. 10. Vorrichtung nach Anspruch 9» dadurch g e k e η η ^ z e i c hn e t , daß die Korrelationsziffer für jeden Matrix-Vergleich eine Summe von Positiv- und Negativ-Elementvergleichen ist.
  11. 11. Vorrichtung nach Anspruch 6 bis lo, dadurch gekennzeichnet , daß eine Einrichtung (724·) vorgesehen ist, um bei gegeneinander verschobenen Zeitskalen einen Vergleich zwischen der Befehlswort-Matrix und jeder Übungswort-Matrix durchzuführen, um eine zusätzliche Korrelationsziffer zu bilden, welche das Ergebnis dieses Vergleiches wiedergibt.
    409 813/0965
DE19732347738 1972-09-21 1973-09-21 Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben Ceased DE2347738A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US29105172A 1972-09-21 1972-09-21

Publications (1)

Publication Number Publication Date
DE2347738A1 true DE2347738A1 (de) 1974-03-28

Family

ID=23118622

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19732347738 Ceased DE2347738A1 (de) 1972-09-21 1973-09-21 Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Country Status (4)

Country Link
US (1) US4069393A (de)
JP (1) JPS561640B2 (de)
DE (1) DE2347738A1 (de)
GB (1) GB1435779A (de)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2524804A1 (de) * 1974-06-04 1975-12-18 Fuji Xerox Co Ltd Verfahren und vorrichtung zur automatischen spracherkennung
DE2610439A1 (de) * 1975-03-12 1976-09-16 Nippon Electric Co Schaltungsanordnung zur automatischen erkennung von sprache
FR2306481A1 (fr) * 1975-04-02 1976-10-29 Rockwell International Corp Dispositif de detection de mots cles dans un discours continu
DE3048107A1 (de) * 1979-12-21 1981-09-10 Hitachi, Ltd., Tokyo Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem
EP0035761A2 (de) * 1980-03-07 1981-09-16 Siemens Aktiengesellschaft Verfahren zum Betrieb eines Spracherkennungsgerätes
DE3043516A1 (de) * 1979-11-19 1981-09-17 Hitachi, Ltd., Tokyo Verfahren und vorrichtung zur spracherkennung
DE3135483A1 (de) * 1980-09-12 1982-05-19 Western Electric Co., Inc., 10038 New York, N.Y. Verfahren und schaltungsanordnung zur erkennung einer eingangszeichenkette
DE3216800A1 (de) * 1981-05-15 1982-12-02 Asulab S.A., 2502 Bienne Anordnung zur eingabe von befehlsworten durch sprache
DE3236832A1 (de) * 1981-10-05 1983-09-01 Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. Verfahren und geraet zur sprachanalyse
DE3236834A1 (de) * 1981-10-05 1983-10-06 Exxon Corp Verfahren und geraet zur sprachanalyse
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
DE3416238A1 (de) * 1983-05-02 1984-12-20 Motorola, Inc., Schaumburg, Ill. Extremschmalband-uebertragungssystem
DE3630518A1 (de) * 1985-09-06 1987-03-19 Ricoh Kk Einrichtung zum erkennen von sprache
DE3733659A1 (de) * 1986-10-03 1988-04-21 Ricoh Kk Verfahren zum vergleichen von mustern
DE3643838A1 (de) * 1986-12-20 1988-06-30 Telefonbau & Normalzeit Gmbh Spracherkennungseinrichtung fuer dienste-integrierende kommunikationsanlagen, insbesondere fernsprechvermittlungsanlagen
DE3720882A1 (de) * 1987-06-24 1989-01-05 Media Control Musik Medien Verfahren und schaltungsanordnung zum automatischen wiedererkennen von signalfolgen
DE3645118A1 (de) * 1985-09-06 1989-08-17
DE4031421A1 (de) * 1989-10-05 1991-04-18 Ricoh Kk Musteranpassungssystem fuer eine spracherkennungseinrichtung
DE3645119C2 (de) * 1985-09-06 1991-06-06 Ricoh Kk Einrichtung zum Feststellen eines Sprachintervalis
FR2691829A1 (fr) * 1993-05-28 1993-12-03 Gold Star Electronics Système de reconnaissance de la parole.

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4178472A (en) * 1977-02-21 1979-12-11 Hiroyasu Funakubo Voiced instruction identification system
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
US4343969A (en) * 1978-10-02 1982-08-10 Trans-Data Associates Apparatus and method for articulatory speech recognition
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
JPS58129684A (ja) * 1982-01-29 1983-08-02 Toshiba Corp パタ−ン認識装置
WO1984000634A1 (en) * 1982-08-04 1984-02-16 Henry G Kellett Apparatus and method for articulatory speech recognition
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
US4980826A (en) * 1983-11-03 1990-12-25 World Energy Exchange Corporation Voice actuated automated futures trading exchange
US4817158A (en) * 1984-10-19 1989-03-28 International Business Machines Corporation Normalization of speech signals
FR2593608B1 (fr) * 1986-01-28 1988-07-15 Thomson Csf Procede et dispositif de reconnaissance automatique de cibles a partir d'echos " doppler "
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
AT391035B (de) * 1988-12-07 1990-08-10 Philips Nv System zur spracherkennung
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US6493744B1 (en) 1999-08-16 2002-12-10 International Business Machines Corporation Automatic rating and filtering of data files for objectionable content
US20030101052A1 (en) * 2001-10-05 2003-05-29 Chen Lang S. Voice recognition and activation system
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US20070239675A1 (en) * 2006-03-29 2007-10-11 Microsoft Corporation Web search media service
WO2014165286A1 (en) 2013-03-12 2014-10-09 Iowa State University Research Foundation, Inc. Systems and methods for recognizing, classifying, recalling and analyzing information utilizing ssm sequence models

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3536837A (en) * 1968-03-15 1970-10-27 Ian Fenton System for uniform printing of intelligence spoken with different enunciations
GB1261385A (en) * 1968-07-24 1972-01-26 Matsushita Electric Ind Co Ltd Speech analyzing apparatus
US3509280A (en) * 1968-11-01 1970-04-28 Itt Adaptive speech pattern recognition system
US3588363A (en) * 1969-07-30 1971-06-28 Rca Corp Word recognition system for voice controller
US3673331A (en) * 1970-01-19 1972-06-27 Texas Instruments Inc Identity verification by voice signals in the frequency domain
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
US3770891A (en) * 1972-04-28 1973-11-06 M Kalfaian Voice identification system with normalization for both the stored and the input voice signals
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2524804A1 (de) * 1974-06-04 1975-12-18 Fuji Xerox Co Ltd Verfahren und vorrichtung zur automatischen spracherkennung
DE2610439A1 (de) * 1975-03-12 1976-09-16 Nippon Electric Co Schaltungsanordnung zur automatischen erkennung von sprache
FR2306481A1 (fr) * 1975-04-02 1976-10-29 Rockwell International Corp Dispositif de detection de mots cles dans un discours continu
DE3043516A1 (de) * 1979-11-19 1981-09-17 Hitachi, Ltd., Tokyo Verfahren und vorrichtung zur spracherkennung
DE3048107A1 (de) * 1979-12-21 1981-09-10 Hitachi, Ltd., Tokyo Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem
EP0035761A3 (de) * 1980-03-07 1984-02-01 Siemens Aktiengesellschaft Verfahren zum Betrieb eines Spracherkennungsgerätes
EP0035761A2 (de) * 1980-03-07 1981-09-16 Siemens Aktiengesellschaft Verfahren zum Betrieb eines Spracherkennungsgerätes
DE3135483A1 (de) * 1980-09-12 1982-05-19 Western Electric Co., Inc., 10038 New York, N.Y. Verfahren und schaltungsanordnung zur erkennung einer eingangszeichenkette
DE3216800A1 (de) * 1981-05-15 1982-12-02 Asulab S.A., 2502 Bienne Anordnung zur eingabe von befehlsworten durch sprache
DE3236832A1 (de) * 1981-10-05 1983-09-01 Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. Verfahren und geraet zur sprachanalyse
DE3236834A1 (de) * 1981-10-05 1983-10-06 Exxon Corp Verfahren und geraet zur sprachanalyse
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
DE3416238A1 (de) * 1983-05-02 1984-12-20 Motorola, Inc., Schaumburg, Ill. Extremschmalband-uebertragungssystem
DE3630518A1 (de) * 1985-09-06 1987-03-19 Ricoh Kk Einrichtung zum erkennen von sprache
DE3645118A1 (de) * 1985-09-06 1989-08-17
DE3645119C2 (de) * 1985-09-06 1991-06-06 Ricoh Kk Einrichtung zum Feststellen eines Sprachintervalis
DE3733659A1 (de) * 1986-10-03 1988-04-21 Ricoh Kk Verfahren zum vergleichen von mustern
DE3643838A1 (de) * 1986-12-20 1988-06-30 Telefonbau & Normalzeit Gmbh Spracherkennungseinrichtung fuer dienste-integrierende kommunikationsanlagen, insbesondere fernsprechvermittlungsanlagen
DE3720882A1 (de) * 1987-06-24 1989-01-05 Media Control Musik Medien Verfahren und schaltungsanordnung zum automatischen wiedererkennen von signalfolgen
DE4031421A1 (de) * 1989-10-05 1991-04-18 Ricoh Kk Musteranpassungssystem fuer eine spracherkennungseinrichtung
FR2691829A1 (fr) * 1993-05-28 1993-12-03 Gold Star Electronics Système de reconnaissance de la parole.

Also Published As

Publication number Publication date
GB1435779A (en) 1976-05-12
JPS561640B2 (de) 1981-01-14
JPS4971845A (de) 1974-07-11
US4069393A (en) 1978-01-17

Similar Documents

Publication Publication Date Title
DE2347738A1 (de) Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
EP0533260B1 (de) Verfahren und Anordnung zum Erkennen der gesprochenen Wörter in einem Sprachsignal
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2844156A1 (de) Verfahren zum verifizieren eines sprechers
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE19510083A1 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
DE4031638C2 (de)
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
EP0285221A2 (de) Verfahren zum Erkennen kontinuierlich gesprochener Wörter
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP0981129A2 (de) Verfahren und Anordnung zum Durchführen einer Datenbankabfrage
DE19654549C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE102014207437A1 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE1937464B2 (de) Sprachanalysiergeraet
DE4209296A1 (de) Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren
DE19616103A1 (de) Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal

Legal Events

Date Code Title Description
OD Request for examination
8131 Rejection