DE3216800A1 - Anordnung zur eingabe von befehlsworten durch sprache - Google Patents
Anordnung zur eingabe von befehlsworten durch spracheInfo
- Publication number
- DE3216800A1 DE3216800A1 DE19823216800 DE3216800A DE3216800A1 DE 3216800 A1 DE3216800 A1 DE 3216800A1 DE 19823216800 DE19823216800 DE 19823216800 DE 3216800 A DE3216800 A DE 3216800A DE 3216800 A1 DE3216800 A1 DE 3216800A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- spoken
- repetition
- references
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 2
- 210000000056 organ Anatomy 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 238000005452 bending Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 abstract description 51
- 230000003044 adaptive effect Effects 0.000 abstract description 7
- 238000000034 method Methods 0.000 description 93
- 230000013016 learning Effects 0.000 description 53
- 230000008569 process Effects 0.000 description 41
- 230000006870 function Effects 0.000 description 18
- 230000001960 triggered effect Effects 0.000 description 11
- 108010032363 ERRalpha estrogen-related receptor Proteins 0.000 description 9
- 102100036832 Steroid hormone receptor ERR1 Human genes 0.000 description 9
- 101000851696 Homo sapiens Steroid hormone receptor ERR2 Proteins 0.000 description 7
- 102100036831 Steroid hormone receptor ERR2 Human genes 0.000 description 7
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000002858 crystal cell Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Electric Clocks (AREA)
- Channel Selection Circuits, Automatic Tuning Circuits (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Selective Calling Equipment (AREA)
Description
» we
* ψ
*■ ·
I) I I» L.-I Nd. II. MAKH(UI »,.»« 4000-I)(VnSEI-D on F 1.
DI I» I-.- I NG. Iv. SIMHI λIiJ HnniKumusii 183
PATENTANAVÄLTE _ U / 3/f ? 9
THKT»» HKiM KUIIOl'XlSf'II K.V MtKXTlIIT " '" " * '
IIIOEl. VKHTHKT»» HKiM KUIIOl'XlSf'II K.V MtKXTlIIT
ASULAB S.A.
Faubourg du Lac 6,
Faubourg du Lac 6,
CH-25O2 Bienne
Anordnung zur Eingabe von Befehlsworten durch Sprache
Die Erfindung bezieht sich auf eine Anordnung zur Eingabe von Befehlsworten durch Sprache. Genauer gesagt, bezieht
sich die Erfindung auf eine Anordnung, bei der der Lernvorgang durch den Benutzer selbst je nach der Art und Weise
erfolgt, in der der Benutzer der Anordnung sich des ihr zugeordneten Gerätes bedient. Die Begriffe "Worte" und "Lernvorgang
werden später definiert.
Unter Berücksichtigung der Vereinfachung der Benutzung,
die dadurch herbeigeführt wird, versucht man mehr und mehr, eine bestimmte Anzahl von Geräten direkt durch Sprache zu
steuern. Ein solches Gerät muß natürlich an seinem- Eingang
eine Anordnung aufweisen, die die Eingabe der Worte ermög licht und die dann dazu dient, das Gerät zu steuern. Unab
hängig vom Typ des zu steuernden Gerätes muß für seine Steuerung ein Vokabular zur Verfügung stehen, das im wesentlichen
aus Befehlen und Daten besteht. Die Befehle stellen sich meistens in Form von Worten oder Gruppen einer begrenzten An
zahl von Worten dar, während die Daten die Form von Ziffern
oder Zahlen besitzen. Im vorliegenden Text wird der Begriff
"Wort" für die Gesamtheit der Befehle und Daten benutzt, die in das Gerät .einzugeben sind. Ein "Wort" umfaßt demgemäß
einerseits Worte im eigentlichen sprachlichen Sinne oder Gruppen von Worten mit jeweils einer begrenzten Anzahl von
Worten sowie andererseits auch Zahlen.
- ar -
Die von Sprache gesteuerten Geräte arbeiten im wesentlichen gemäß der gleichen allgemeinen Weise. Das Gerät umfaßt
Speicher , in denen Informationen gespeichert sind, die in kodierter Form die verschiedenen Worte des für die Steuerung
des Gerätes erforder Liehen Vokabulars repräsentieren und
die nachstehend als "Referenz" bezeichnet werden sollen. Wenn der Benutzer ein solches Gerät steuern will, spricht er ein
Wort dieses Vokabulars aus. Die Eingangsanordnung wandelt dieses Wort in ein elektrisches Signal, das seinerseits kodiert
ist entsprechend demselben Kode wie derjenige, der für die Eingabe der gespeicherten Informationen benutzt worden
ist, welche das Vokabular des Gerätes darstellen. Die Eingabeanordnung für die Worte vergleicht das kodierte Wort mit den
verschiedenen in dem Speicher enthaltenen Referenzen und greift die gespeicherte Referenz heraus, die dem ausgesprochenen
Wort am ähnlichsten ist. Das dieser Referenz zugeordnete Wort wird dann für die Steuerung des Gerätes eingesetzt.
Die Phase, während der in den Speicher die Referenzen eingegeben werden entsprechend der Gesamtheit der Worte,
welche das Vokabular des Gerätes darstellen, soll als "Lernvorgang" bezeichnet werden. Es ist klar, daß die Qualität dieses
Lernvorgangs ein bestimmendes Element für die Qualität unddie Zuverlässigkeit der Befehlsgabe durch Sprache bei
dem Gerät darstellt.
Zwei Grundtypen des Lernvorgangs werden allgemein ins
Auge gefaßt. Bei dem ersten Typ, den man als vorprogrammierten Lernvorgang bezeichnen könnte, werden die Referenzen ursprünglich
ab Werk durch einen standardisierten Leser eingegeben. Diese Referenzen können auch aus Typusreferenzen bestehen,
definiert durch eine statistische Analyse der unterschiedlichen Aussprachen eines Wortes. Diese Informationen
entsprechend den verschiedenen Worten des Vokabulars werden demgemäß ein- für allemal und in definitiver Weise abgespeichert.
Diese Art des Lernvorgangs hat den Vorteil, daß der Benutzer des Gerätes sich sofort desselben bedienen kann,
ohne daß er selbst den Lernvorgang des Gerätes durchzuführen
braucht. Der HauptnacHteil eines derartigen Lernvorganges
ist'auf die Tatsache zurückzuführen, daß die Worte des abgespeicherten
Vokabulars von einem standardisierten Leser
• 5 ausgesprochen worden sind, während die in das Gerät zwecks
Steuerung eingegebenen Worte von dem Benutzer ausgesprochen werden. Es ist sehr wahrscheinlich,, daß ein- und dasselbe
Wort von dem Standardleser und von dem Benutzer in unterschiedlicher
Weise ausgesprochen wird. Damit das Gerät richtig funktioniert, d.h. damit das von dem Benutzer ausgesprochene Wort
von dem Gerät zuverlässig wiedererkannt wird, ist es erforderlich, eine ziemlich komplizierte Kodierung und einen sehr weitgehenden
Vergleichsalgorithmus vorzusehen, um das Problem der unterschiedlichen Aussprache ein- und desselben Wortes zu
lösen. Die Verwendung eines sehr weit ausgearbeiteten Vergleichsalgorithmus und eines sehr genauen Kodiervorgangs
führt zu einer erheblichen Komplikation der Kodierschaltkreise und der Speicher, womit natürlich die Kosten für diese
Schaltkreise und für den Oberflächenbedarf an Silicium vergrößert werden, auf dem diese Schaltkreise realisiert werden*
In bestimmten Anwendungsfällen ist es nicht möglich, bei der Herstellung einer Worteingabeanordnung einen solch hohen
Preis zu tolerieren, und ebensowenig ist es häufig möglich, in dem zu steuernden Gerät hinreichend viel Platz zur Ver- '
fügung zu stellen, um einen solchen Eingabeschaltkreis unterzubringen.
Die andere Art des Lernvorgangs kann als "Anfangslernvorgang"
bezeichnet werden. Die Worteingabeanordnung enthält ab Werk keinerlei abgespeicherte Informationen betreffend
die Worte des Vokabulars des Gerätes. Der Lernvorgang der Anordnung erfolgt zu Beginn durch den Benutzer selbst. Dieser
Lernvorgang erlaubt eine gute Qualität der Identifikation zwischen den Refererizworten und den ausgesprochenen Worten, da
der Benutzer selbst es ist, der die Referenzworte eingibt.
Der Hauptnachteil dieses Lernvorgangs beruht auf der Tatsache,
daß der Benutzer selbst das Referenzvokabular in das Gerät
eingeben muß und daß die Qualität dieser Lernphase das spätere gute Funktionen des Gerätes bestimmt. Darüberhinaus hat dieser
Lernvorgang,bei dem der Benutzer zum ersten Mal mit dem Gerät
in Kontakt gelangt, einen entmutigenden und erschreckenden Einfluß auf den Benutzer. Dies macht den Vertrieb einer Anordnung
mit einem solchen Lernmodus schwierig. Darüberhinaus hat dieser Lernvorgang zwei Beschränkungen. Einerseits ist
er nur dann wirklich brauchbar, wenn das Gerät nur von einem einzigen Benutzer in Betrieb zu nehmen ist. Andererseits
kann man leicht feststellen, daß ein- und derselbe Sprecher ein- und dasselbe Wort zu unterschiedlichen Zeiten auch unterschiedlich
ausspricht, und zwar aus einer großen Zahl von Gründen. Daraus folgt, daß der Vorteil, den Lernvorgang
durch den Benutzer ausführen zu lassen, verlorengehen kann. Es ist möglich, mit Hilfe eines gegebenen Vokabulars
eine bestimmte. Anzahl von Geräten direkt sprachsteuern zu können. Insbesondere gilt dies für Anordnungen zur Fernsteuerung
eines Gerätes, für den Programmierer einer Werkzeugmaschine oder eine Haushaltsmaschine, etwa eine Wasch- oder
Geschirrspülmaschine usw. Man kann sich leicht vorstellen, daß die Sprachsteuerung es ermöglicht, in sehr erheblicher
Weise die Anzahl von Befehlsorganen zu verringern oder solche ganz zu unterdrücken und einen Befehlsmodus zu verwenden,
der viel ähnlicher dem natürlichen Verhalten ist, d.h. daß man einfach ausspricht, was man wünscht.
um die oben erwähnten Nachteile zu vermeiden, ist es
die Hauptaufgabe der vorliegenden Erfindung, eine Eingabeanordnung für gesprochene Bclfchlsworte zu schaffen, welche die
Vorteile des vorprogrammierten Lernvorgangs mit jenen der
Anfangslernvorgänge durch den Sprecher kombiniert,ohne die
Nachteile beider beschriebenen Vorgänge aufzuweisen. Dabei soll die Anordnung so ausgebildet sein, daß sie besonders
geeignet ist für die Steuerung von Geräten, bei denen die Abmessungen der elektronischen Schaltungen Beschränkungen
unterworfen sind, d.h. die Anordnung darfkeine große Oberfläche
für die Komponenten erfordern und möglichst nur geringe Energiemengen verbrauchen. Schließlich soll die Anordnung eine
gute Qualität der Identifikation zwischen dem ausgesprochenen Wort und dem abgespeicherten Vokabular ermöglichen, und die
Anordnung soll ohne weiteres für mehrere Sprecher benutzbar sein, ohne daß erhebliche Manipulationen erforderlich sind.
Die erfindungsgemäß vorgesehene Lösung dieser Aufgabe
ergibt sich aus dem Patentanspruch 1; die Unteransprüche definieren vorteilhafte Weiterbildungen dieser Erfindung.
Demgemäß ist die Eingabeanordnung für gesprochene Befehlsworte so ausgebildet, daß ein hier so bezeichneter
"adaptiver" Lernvorgang erfolgt. Zu diesem Zweck umfaßt die Eingabeanordnung Eingangsschaltkreise zum Kodieren eines von
einem Sprecher ausgesprochenen Wortes in eine für das gesprochene Wort repräsentative Information und eine Anzeigeeinrichtung
eines von η Worten, welche das Vokabular des Gerätes bilden. Speichereinrichtungen für η Referenzen sind
vorgesehen, wobei jede Referenz in kodierter Form eines der η Worte des Vokabulars repräsentiert. Ferner ist mindestens
eine Information abgespeichert, die repräsentativ ist für das ausgesprochene Wort,und Steuerschaltkreise sind mit den
Anzeigeeinrichtungen verbunden. Der Steuerschaltkreis umfaßt eine Vergleichseinrichtung zum Vergleichen jedes von dem
Sprecher besprochenen Wortes mit den abgespeicherten Referenzen in kodierter Form und in der Reihenfolge der absteigenden
Ähnlichkeit mit dem gesprochenen kodierten Wort werden die . ri gespeicherten Referenzen in Abhängigkeit von einem vorgegebenen
Algorithmus plaziert. Wiederholungsdetektoreinrichtungen vergleichen ein kodiertes ausgesprochenes Wort mit
dem vorhergehenden kodierten ausgesprochenen Wort, falls ein solches vorliegt, in Abhängigkeit von einem weiteren vorgegebenen Algorithmus zwecks Feststellung, ob eine Wiederholung
stattgefunden hat oder nicht. Auf die Detektoreinrichturig ansprechende
Schaltkreise sind vorgesehen zum Steuern der Anzeige
- Sr-
eines der Referenz entsprechenden Wortes, das den ersten Ähn'lichkeitsrang aufweist, falls keine Wiederholung als
vorliegend ermittelt worden war und diese Schaltkreise steuern die Anzeige des der Referenz entsprechenden Wortes
mit dem Ähnlichkeitsrang, der unmittelbar dem Ähnlichkeitsrang der Information folgt, entsprechend dem Wort,
das vorher angezeigt worden war. Schließlich sind Schaltkreise vorgesehen, um in dom Speicher die Referenz entsprechend
dem zuletzt angezeigten Wort durch die Information zu ersetzen, entsprechend dem wiederholten Wort, falls
der Benutzer festgestellt hat, das das angezeigte Wort auf der Anzeigeeinrichtung dasjenige Wort ist, das er tatsächlich wiederholt hat.
Aus vorliegender Definition der Erfindung ergibt sich, daß sie im Falle des vorprogrammierten Lernvorgangs die Anordnung
in ihren Speicher die Referenzen enthält, entsprechend η Worten des zur Steuererung des Gerätes erforderlichen Vokabulars,
wobei diese Referenzen beispielsweise im Werk von einem Standardsprecher abgespeichert worden sind. Sobald der
Benutzer sich das erste Mal der Einrichtung bedient, spricht er ein Wort aus, entsprechend einem Befehl, den er dem Gerät
geben will. Wenn nach dem Aussprechen dieses Wortes durch den Benutzer die Anzeigeanordnung tatsächlich dieses Wort anzeigt,
ist dies der Nachweis dafür, daß der Standardsprecher und Benutzer
dieses Wort in gleicher Weise ausgesprochen haben und daß keine Lernphase erforderlich ist. Wenn jedoch nach dem
Aussprechen eines Wortes der Benutzer feststellt, daß das angezeigte Wort abweicht, muß er dieses Wort wiederholen, bis
die Anzeigeanordnung wirklich das ausgesprochene Wort wiedergibti
In diesem Augenblick also ist die kodierte Information entsprechend dem von dem Benutzer wiederholten Wort die ursprünglich
von dem Standardsprecher eingegebene kodierte Referenz. Für dieses Wort hat demgemäß ein Lernvorgang stattgefunden.
Es ist jedoch wichtig, festzuhalten, daß die Anzahl der Wiederholungen, die für das Lernen erforderlich ist, opti-
miert wird, wie in der ursprünglichen Klassierung in
der Reihenfolge der Ähnlichkeit zwischen dem ausgesprochenen Wort und den Referenzen.
Dabei ist offensichtlich, daß nicht ,wie im Falle des
Anfangs lernVorgangs,zunächst eine Lernphase vorliegt und
danach eine normale Benutzungsphase der. Worteingabeanordnung. Der Lernvorgang kann permanent erfolgen. Er findet
ohne besondere Prozedur statt, sobald der Benutzer feststellt, daß das angezeigte Wort nicht dem Wort entspricht,
das er ausgesprochen hat:.
AusführungsVarianten der oben definierten Anordnung ermöglichen
einerseits, Benutzungsfehler zu vermeiden, die
der Benutzer der Anordnung machen könnte und andererseits dienen sie dazu, die Funktion der den Gegenstand der Erfindung
bildenden Anordnung zu optimieren.
Ausführungsbeispiele des Gegenstandes der Erfindung werden
nachstehend unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert.
Fig. 1 ist eine vereinfachte Darstellung der An
ordnung gemäß der Erfindung.
Fig. 2 ist ein Diagramm zur Erläuterung der Funktionsweise dieser vereinfachten Ausführungs-'
form der Anordnung.
Die Fig. 2a bzw. 2b sind Tabellen zur Illustration von zwei möglichen Lernvorgangen.
Fig. 3 ist ein vollständiger Algorithmus in ver
einfachter Form zur Erläuterung der Funktionsweise der Anordnung der Erfindung.
Fig. 4 ist ein detailliertes Organigramm der
vollständigen Funktion des Steuerschaltkreises
der Anordnung gemäß der Erfindung.
' Fig. 5a und 5b sind Diagramme zur Erläuterung
der Kodierung eines Wortes und des Vergleichs zwischen einem Wort und einer gespeicherten
Referenz und 5
Fig. 6 zeigt das Organigramm eines Unterprogramms für die Funktion, die vollständig in Fig.4
dargestellt ist.
Fig. 1 zeigt in vereinfachter Form die Fortführung einer Worteingabeanordnung gemäß der Erfindung. Diese Anordnung umfaßt
einen Wandler 2, welcher die akustischen Informationen in ein elektrisches Signal umsetzt und bei dem es sich vorzugsweise
um ein Mikrofon handelt. Das von diesem Mikrofon 2 abgegebene
elektrische Signal wird mittels eines Schaltkreises 4 kodiert/ der an seinen Ausgang numerische Informationen, vorzugsweise
in Binärform liefert. Die Kodierung eines elektrischen Signals, das repräsentativ ist für Sprache in binären, numerischen
Informationen ist ein bekanntes Problem. Es gibt zahlreiehe Kodierverfahren und Anordnungen, um diese Verfahren durchzuführen.
Die vorliegende Erfindung ist anwendbar, unabhängig von dem Verfahren und der Anordnung für die Kodierung, welche
eingesetzt werden. Es versteht sich, daß die Information, welche man in die Anordnung eingeben will und die ursprünglich abgespeicherten
und kodierten Informationen, d.h. die Referenzen mittels des gleichen Prozesses kodiert werden. Die Anordnung
umfaßt ferner einen Steuerschaltkreis 6. Dieser Steuerschaltkreis wird später erläutert. Die Worteingabeanordnung umfaßt
ferner Speichereinrichtungen 8, in denen ursprünglich die Referenzen abgespeichert worden sind, vorzugsweise in Binärform,
entsprechend der Kodierung von η Worten, welche das für die Steuerung des der Worteingabeanordnung zugeordneten Gerätes
notwendige Vokabular bilden.
Die Anordnung umfaßt schlioßlich eine Anzeigeanordnung oder
Sichtanzeige 1o, welche es ermöglicht, eines von den η Worten
des Vokabulars in Erscheinung treten zu lassen. Diese Anzeigeanordnung kann einerseits von einer Flüssigkristallzelle gebildet
3? 16800
die numerische Informationen anzuzeigen gestattet und
andererseits von auf einen Sichtsehirm gedruckten Informationen/ denen Leuchtpunkte für die Anzeige zugeordnet
werden. Wenn man mit anderen Worten also die Anzeige eines Wortes in Betracht zieht, kann es sich tatsächlich
um die Anzeige einer Zahl handeln oder auch um die Ansteuerung eines Leuchtpunktes, der gegenüber einer
geschriebenen Angabe auf dem Sichtschirm des Gerätes vorgesehen ist. Diese geschriebenen Angaben könnenbeispielsweise
symbolische Darstellungen der verschiedenen Funktionen zeigen, welche von dem Gerät zu erfüllen sind. Es ist
klar, daß der Begriff "Anzeigeanordnung" im allgemeinsten Sinne verstanden werden muß. Im Rahmen der Dateneingabeanordnung
muß diese Anzeigeanordnung Io dem Benutzer des Gerätes, symbolisiert mit Bezugszeichen 12, ermöglichen, eine
Wiedergabe desjenigen Wortes zu erhalten, das tatsächlich von der Dateneingabeanordnung wiedererkannt worden ist. Es könnte
sich dabei um irgendeinen Sichtschirm handeln, auf dem das eingegebene Wort tatsächlich ausgeschrieben wird. Es könnte
sich aber auch um ein Druckwerk handeln, mittels dem der Benutzer die tatsächlich angezeigte Information kontrollieren
kann.
Die Anordnung 1o könnte schließlich sogar eine akustische
Anordnung sein, die in der Lage ist, ebensoviele akustische Signale abzugeben, wie Worte vorgesehen sind. Diese Anordnung
könnte ein Sprachsynthesegerät sein, welches das von der Worteingabeanordnung wiedererkannte Wort "ausspricht".
Es kann sich auch um einen akustischen Sender handeln, der ebensoviele Geräusche abgibt wie unterschiedliche Worte vorliegen.
Mit anderen Worten hat die Anordnung 10 einfach die Aufgabe, das erkannte Wort zu restituieren, um ein interaktives
Kontrollelement für den Benutzer 12 der in die Anordnung eingegebenen Information bilden. Man kann auch sagen,
daß die Anordnung 10 ein Wiedergabeelement des erkannten Wortes in visueller oder akustischer Form ist. In diesem Sinn also
32168ÖÖ
5-6!
sind die Ausdrücke "Anzeigeanordnung" bzw. "Wiedergabeanordnung" zu verstehen.
Es ist auch festzuhalten, daß diese Anzeigeanordnung
einfach die Aufgabe hat, eine eindeutige Beziehung zwischen dem erkannten Wort und dem wiedergegebenen Wort aufzubauen.
Wenn beispielsweise die "Worte" in einer Erstsprache auf der Anzeigeeinrichtung mit einem Leuchtpunkt für jedes Wort
ausgedruckt sind, um das erkannte Wort zu identifizieren, ist es ohne weiteres möglich, mittels der Anordnung gemäß
der Erfindung, entsprechende Worte in einer zweiten Sprache
einzugeben. Für die Kontrolle selbstverständlich muß der Benutzer selbst die Korrespondenz zwischen den gedruckten Worten
in der ersten Sprache und den in der zweiten Sprache eingegebenen Worten herstellen.
Die Speichereinrichtung 8 kann verlegt werden in einen Festwertspeicher
8a, in dem die kodierten Referenzen abgelegt sind, welche die Worte des ab Werk gespeicherten Vokabulars repräsentieren,
ferner einen Randomspeicher 8b, in den man Referenzen
eingeben kann, relativ zu den Worten des Vokabulars, einen Speicher 8c zum Speichern des Wortes,- das gerade ausgesprochen
worden ist und das von dem Schaltkreis 4 kodiert worden ist und einen Speicher 8d zum Speichern des zuvor gesprochenen
Wortes. Es versteht sich, daß die Speicher 8c und 8d in der Realisierung Speicherplätze des jeweiligen als Randomspeicher
verwendeten Speichers 8b sind.
Der Steuerschaltkreis 6 umfaßt zunächst einen Klassierschaltkreis 14 für η im Speicher 8b enthaltene Referenzen
in Abhängigkeit von deren Ähnlichkeit mit dem vom Benutzer in das Mikrofon gesprochenen Wort, kodiert vom Schaltkreis
4 und enthalten im Speicher 8c. Diese Klassierung resultiert aus der Anwendung eines Algorithmus, der es ermöglicht, die
Distanz zwischen der kodierten, dem ausgesprochenen Wort zugeordneten Information und den kodierten, abgespeicherten Referenzen
in dem Speicher 8 entsprechend η Worten des Vokabulars zu messen. Eine große Anzahl von Algorithmen könnte ins Auge
3216t 6 O
gefaßt werden. Einer dieser Algorithmen wird später als Beispiel erläutert. Der Steuerschaltkreis 6 umfaßt ferner
eine Detektoreinrichtung 16 zum Erfassen einer eventuellen
Wiederholung zwischen zwei aufeinanderfolgend von dem Benutzer 12 gesprochenen Worten. Der Detektorschaltkreis 16
liefert zwei Signale, je nachdem ob eine Wiederholung erfaßt worden ist oder nicht. Die Erfassung einer Wiederholung
besteht in der Anwendung eines zweiten Vergleichsalgorithmus der beiden aufeinanderfolgenden ausgesprochenen Worte.
Zahlreiche Algorithmen können verwendet werden und ein möglicher Algorithmus wird später erläutert. Dieser Schaltkreis
wird gleich dem gemäß die Information enthaltenen Speicher 8c mit der Information enthalten im Speicher 8d, falls eine
solche vorliegt. Der Steuerschaltkreis 6 umfaßt ferner einen
.15 Anzeigesteuerkreis 18 für die Anzeige 10. Der Schaltkreis 18>
der mit dem Speicher 8b verbunden ist, erlaubt die Anzeige desjenigen der η im Speicher 8 abgespeicherten Worte auf der
Anzeigeeinrichtung 10, das den ersten Ähnlichkeitsrang mit dem gesprochenen Wort einnimmt, falls keine Wiederholung vom
Schaltkreis 16 erfaßt worden ist und dem Wort, das den Rang der Wiederholung präsentiert, der unmittelbar dem vorher angezeigten
Wort folgt, falls eine Wiederholung vom Schaltkreis 16 erfaßt worden ist. Schließlich' umfaßt der Steuerschaltkreis
6 eine Anordnung 2 0 zum Modifizierung der in den Speiehern
8b und 8a enthaltenen Referenzen. Dieser Schaltkreis ersetzt für eine gegebene Speicherposition die in diesem
Speicher enthaltene Information, zugeordnet dem wiederholten Wort und demgemäß angezeigt auf der Anordnung 10 durch die
kodierte Information entsprechend dem vom Benutzer 12 gesprochenen
Wort, enthalten im Speicher 8d. Diese Substitution wird durch den Benutzer 12 gesteuert durch Mittel, die mit
dem Bezugszeichen 21 symbolisiert sind..Diese Mittel können z.B. von einem Druckknopf gebildet werden. Wie später noch
zu erläutern, können diese Mittel auch aus einem Zeitgeber bestehen. Wenn eine bestimmte Verzögerungszeit nach Aussprechen
eines Wortes abläuft, ohne daß erneut ein Wort aus-
-Yl-
gesprochen wird, interpretiert der Steuerschaltkreis 6
diese Stille als Einverständnis des Benutzers mit dem Wort, das angezeigt worden ist. Man versteht, daß in diesem Falle
für dieses bestimmte Wort ein Lernvorgang stattgefunden hat, sofern eine diesem Wort zugeordnete Modifikation der gespeicherten
Information stattfand.
Fig. 2 zeigt die Funktion der in Fig. 1 dargestellten Anordnung. Zu Beginn eines Zyklus werden die im Festwertspeicher
8a enthaltenen Informationen in den Randomspeicher 8fa transferiert.
Das vom Sprecher gesagte Wort,symbolisiert durch Bezugszeichen 4', das in den Speicher 8c eingegeben worden ist,
wird verarbeitet, um eine Klassierung der Reihenfolge der Ähnlichkeiten für die im Speicher 8b enthaltenen Referenzen aufzubauen.
Dieser Schritt ist mit 14' bezeichnet. In der nachfolgenden
Erläuterung werden mit "Kandidaten" die verschiedenen, klassierten Referenzen bezüglich η gespeicherten Worten bezeichnet,
wobei der erste Kandidat die Referenz ist, die dem gesprochenen Wort am ähnlichsten ist, der zweite Kandidat die ■
Referenz ist, die in der Reihenfolge der Ähnlichkeiten unmittelbar
nachfolgt, usw. Man erfaßt dann bei 16', ob das gerade ausgesprochene Wort eine Wiederholung des zuvor gesprochenen
Wortes darstellt, indem man einen Vergleich zwischen der im
Speicher 8c enthaltenen Information und jener durchführt, die im Speicher 8d vorliegt, falls es dort eine gibt. Wenn es sich
nicht um eine Wiederholung handelt, wird angenommen, daß das erkannte Wort der erste Kandidat im obigen Sinne ist. Diese
Operation ist mit 22' bezeichnet. Wenn aber eine Wiederholung erfolgt war, wird das erkannte Wort identifiziert mit dem Kandidaten,
der dem Kandidaten folgt, der in Verbindung mit dem zuvor ausgesprochenen Wort angezeigt worden war. Diese Operation
ist mit 24' bezeichnet. Unabhängig von der vorhergehenden Operation wird das erkannte Wort im Schritt 18* angezeigt, d.h.
das System reagiert immer auf die Eingabe eines Wortes. Mit anderen Worten wird selbst dann, wenn das ausgesprochene Wort
sehr stark abweicht von der Gesamtheit der abgespeicherten Refe-
- VS -
renzen die Anzeigeanordnung irgendein Wort anzeigen, dasjenige nämlich, dessen Referenz dem gesprochenen
Wort am ähnlichsten zu sein scheint. Es gibt keine Zurückweisungsschwelle
bei der Definition der Kandidaten.
Wenn das erkannte Wort übereinstimmt mit dem tatsächlich ausgesprochenen Wort, was festgelegt wird durch den Robus
12', welcher tatsächlich den Benutzer 12 symbolisiert und
wenn, darüberhinaus, keine Wiederholung stattgefunden hatte (was im Schritt 12" erfasst wird) ist der Betriebszyklus
beendet (Rechteck 24'). Wenn das angezeigte Wort zutreffend ist, aber eine Wiederholung bei 16" erfaßt worden war, substituiert
man bei 20' die Information bezüglich des erkannten Wortes durch die Information bezüglich des tatsächlich
■ ausgesprochenen Wortes, wenn der Benutzer dies befiehlt mittels 21 und der Zyklus ist ebenfalls beendet. Wenn jedoch
bei 12' festgestellt wurde, daß das erkannte, angezeigte Wort nicht das gesprochene Wort ist, wiederholt der Benutzer
12 dasselbe Wort, was durch Rechteck 26' symbolisiert wird.
Das wiederholte Wort wird wieder in die Schleife eingegeben und ersetzt dabei das gesprochene Wort 41.
Es ergibt sich demgemäß deutlich, daß in einem ersten Fall
das erste Mal,bei dem ein Wort gesprochen wird, dieses selbe
Wort auf der Anzeigeanordnung 10 erscheint, in diesem Fall
erfolgt kein Lernvorgang und der Befehl entsprechend diesem Wort kann direkt dem Gerät übermittelt werden, dem die Eingabeanordnung
zugeordnet ist. Anders gesagt bedeutet dies, daß die Aussprache dieses Wortes durch den Standardsprecher
oder Leser und die Aussprache desselben Wortes durch den Benutzer sehr ähnlich sind.
Im zweiten Fall ist das erste Mal, daß ein Wort ausgesprochen wird, das angezeigte Wort abweichend von diesem.
Der Sprecher 12 wiederholt dieses Wort. Bei der Wiederholung wird bei 16 * diese Wiederholung festgestellt und das angezeigte
Wort wird dann der zweite Kandidat in der Reihenfolge der Ähnlichkeit sein. Wenn dieser zweite Kandidat tatsächlich
-χ-
das gesprochene Wort ist, ersetzt die. Anordnung bei 20'
im 'Speicher 8b eine Information entsprechend dem tatsächlich
ausgesprochenen Wort für die ursprünglich in diesem Speicher enthaltene Referenz. Wenn bei dieser ersten Wiederholung
das angezeigte Wort abweicht von dem gesprochenen Wort, wiederholt der Sprecher 12 das Wort ein zweites
Mal, was zur Anzeige des dritten Kandidaten in der Reihenfolge der Ähnlichkeiten führt. Der Vorgang wird wiederholt,
bis das angezeigte Wort, d.h. das erkannte Wort, identisch
10- wird mit dem gesprochenen Wort, in welchem Falle eine Substitution
in dem Speicher der kodierten Information entsprechend dem gesprochenen Wort bezüglich des ursprünglichen
Referenzinhalts erfolgt. Es ergibt sich demgemäß, daß die Funktion des Lernvorgangs nur dann eingreift, wo dies erforderlich
ist und darüberhinaus liegt eine Optimierung des Lernvorgangs vor, d.h. eine Minimierung der Anzahl von Wiederholungen,
die erforderlich sind wegen der Klassierung der Kandidaten entsprechend ihrem A'hnlichkeitsrang.
Die Tabelle 2a zeigt einen ersten Lernvorgang. In dem betrachteten
Beispiel umfaßt das Vokabular mindestens die Worte "ON", "OFF", "UP", "DOWN" und "FAST". Der Benutzer spricht ein
erstes Mal das Wort "ON". Das erste angezeigte Wort ist "OFF". Dieser unterschied beruht auf der Tatsache, daß die erstmalige
Eingabe der Referenzen durch einen anderen Sprecher erfolgte. Der Benutzer wiederholt das Wort "ON" und der zweite
Kandidat in der Reihenfolge der Ähnlichkeiten mit dem Wort "ON" ist jetzt "UP", das demgemäß durch die Anzeigeeinrichtung 10 angezeigt wird. Der Benutzer wiederholt ein zweites
Mal das Wort "ON" und die Anzeigeeinrichtung zeigt tatsächlich das Wort "ON" an. Demgemäß ersetzt der Schaltkreis 20 das kodierte
Wort "ON", wie es durch den Benutzer ausgesprochen worden ist für die ursprünglich entsprechend dem Wort "ON"
eingegebene Referenz.
Die Tabelle gemäß Fig. 2b entspricht einem zweiten Lern-Vorgang.
Der Sprecher spricht ein erstes Mal das Wort "ON" aus. Die Anzeigeanordnung zeigt "OFF" an. Der Sprecher muß
demgemäß das Wort "ON" wiederholen. Unabsichtlich jedoch sagt er "DOWN". Der Schaltkreis 16 erfaßt, daß keine Wiederholung
vorliegt und der Schaltkreis 14 definiert demgemäß eine neue Reihenfolge der Kandidaten. Der erste Kandidat ist
das Wort "UP", das demgemäß angezeigt wird. Der Sprecher stellt fest, daß ein Irrtum erfolgt ist und wiederholt "DOWN",und in
dem betrachteten Beispiel ist "DOWN" der zweite Kandidat. Dies wird demgemäß durch die Anzeigeeinrichtung 10 angezeigt und der
Schaltkreis 20 substituiert in dem Speicher 8b, 8a die Kodierung des Wortes "DOWN" so, wie es von dem Sprecher gesagt worden, ist
für die Referenz "DOWN", welche ursprünglich gespeichert worden war.
Fig. 3 zeigt in größeren Einzelheiten die Funktionsweise
einer verbesserten Ausführungsform der Worteingabeanordnung
gemäß der Erfindung. Bei dieser Ausführungsform berücksichtigt die Anordnungsprozedur Fehler, die der Sprecher bei der ursprünglichen
Phase machen kann, d.h., wenn er sich das erste Mal der Anordnung bedient. Aus der vorangehenden Erläuterung
kann man nämlich entnehmen, daß die Vorrichtung eine bestimmte
Anzahl von Vergleichseinrichtungen verwendet, um einen Vergleich zwischen einem kodierten ausgesprochenen Wort und den gespeicherten
kodierten Worten vorzunehmen. Dies findet sich beispielsweise, wenn eine eventuelle; Wiederholung zu erfassen ist oder
wenn eine Liste von Kandidaten aufzustellen ist. Unabhängig von der Genauigkeit der verwendeten Algorithmen ist es klar,
daß Fehler auftreten können, welche die Funktion'der Anordnung beeinträchtigen könnten.
Die Funktion der Anordnung kann in vier Teile zerlegt werden: Ein Abschnitt A1 entsprechend der normalen Funktion,
d.h.,. wenn das vom Benutzer ausgesprochene Wort tatsächlich erkannt wird und sofort von der Anzeigeeinrichtung angezeigt
wird; ein Abschnitt A2,entsprechend einer Fehlerprozedur, wobei diese Fehlerprozedur eingeführt wurde, wenn ein angezeigtes
Wort von dem vom Benutzer gesprochenen Wort abweicht; ein Ab-
^5 schnitt A3, entsprechend dem eigentlichen adaptiven Lernvorgang,
wobei diese Phase vorliegt, wenn das angezeigte Wort identisch
321SSOO
- ys -
mit dem gesprochenen Wort nach mindestens einer Wiederholung
gemacht wird und das Problem gelöst wird, eine ursprüngliche
Referenz durch eine Neuinformation in den Speichern 8a, 8b
zu setzen und schließlich ein Abschnitt A4, der es ermöglicht, eventuelle Fehler zu erfassen, die von dem Sprecher gemacht
werden, wenn eine Fehlerprozedur ausgelöst worden ist.
Das kodierte von dem Sprecher ausgesprochene Wort wird bei 30 eingegeben. Bei 32 wird eine Wartezeit dl eines Wortes eingeführt.
Bei 34 wird überprüft, ob die zwischen zwei naeheinander ausgesprochenen Worten abgelaufene Zeit kleiner ist als
die Wartezeit dt oder nicht. Wc;nn die Wartezeit größer ist
als d1, geht man zu Abschnitt A3 des adaptlven Lernvorgangs
über. Wenn jedoch diese Verzögerung kleiner ist als d1, geht
man zur Etappe 36 über, wo verifiziert wird, ob das kodierte ausgesprochene Wort gültig ist. Diese Etappe hat die Aufgabe,
von vornherein die Eingabe von Informationen zu eliminieren, die nicht wirklbh gesprochenen Worten zugeordnet sind, beispielsweise
parasitären Geräuschen, usw. Die Etappe 36 wird
später näher erläutert. Wenn das gesprochene Wort ungültig ist, kehrt man zum Beginn des Verfahrens der Worteingabe zurück. Wenn
jedoch dieses Wort gültig ist, geht man zur Etappe. 38 über, in welcher festgestellt wird, ob eine Fehlerprozedur (PE) vorliegt.
Wenn die Antwort positiv ist, geht man zum Abschnitt A2 über, entsprechend der Fehlerprozedur. Wenn die Antwort negativ ist,
geht man zur Etappe 40 über, in der die Kandidatenliste (Cdd) aufgestellt wird, d.h. die Liste in absteigender Reihenfolge
der Ähnlichkeit mit dem ausgesprochenen Wort für die verschiedenen
Referenzen, die im entsprechenden Speicher vorhanden sind, welcher die für die Steuerung des Geräts erforderlichen Worte
enthält. Danach wird in Etappe 4 2 verifiziert, daß die Zeit d2, • abgelaufen zwischen dem aktuellen Wort und dem vorhergehenden
Wort kleiner ist als die Wartezeit d1. Wenn die Antwort positiv ist, geht man zur Etappe 4 4 über, in der festgestellt wird,
ob das gesprochene Wort eine Wiederholung (REP) des vorher ausgesprochenen Wortes (Mt prec.) ist. Man verwendet für diesen
Zweck einen Vergleichsalgorithmus, der später erläutert wird.
Wenn tatsächlich eine Wiederholgung (REP) vorliegt, geht man über zum Abschnitt A2. Wenn keine Wiederholung vorgelegen hat,
geht man zur Etappe 4 6 über, in der ein erster Kandidat (1er Cdd) angezeigt wird, d.h. daß die Anzeigeeinrichtung
das Wort anzeigt, das in der Etappe 40 als derjenigen Referenz zugeordnet erkannt worden war, die dem ausgesprochenen
Wort am nächsten kam. Dies ist der Normalvorgang und damit derjenige, der Verwendung findet nach der ursprünglichen
Lernphase. Es ist festzuhalten, daß dann, wenn in der Etappe
4 2 die zwischen dem vorhergehenden Wort und dem ausgesprochenen Wort ablaufende Zeit größer ist als d1, direkt der erste
Kandidat bei 4 6 angezeigt wird, weil man dann sicher ist, daß keine Wiederholung stattgefunden hat.
Nachstehend wird der Abschnitt A2 entsprechend der Fehlerprozedur (PE) erläutert. Wie bereits angedeutet, kann man in
die Fehlerprozedur A2 an zwei Stellen eintreten: Entweder in Höhe der Etappe 38 oder in Höhe der Etappe 44. Man beginnt
die Fehlerprozedur A2 in Höhe 44, wenn man feststellt/ daß das gerade ausgesprochene Wort (Mt pron.) eine Wiederholung
des vorher ausgesprochenen Wortes (Mt prec.)ist. In diesem Falle löst man bei 48 eine Fehlerprozedur (PE) aus und bei
50 wird der folgende Kandidat angezeigt, d.h. in diesem Fall der Einleitung der Fehlerprozedur der zweite Kandidat. Es
versteht sich, daß in diesem Falle, wenn der zweite angezeigte Kandidat das tatsächlich von dem Sprecher ausgesprochene
Wort ist, man zur adaptiven Lernetappe A3 übergeht. Man kann auch in die Fehlerprozedur A2 in Höhe 38 eintreten, in dem
Falle, wo bei 38 festgestellt wird, daß die Fehlerprozedur bereits ausgelöst worden ist. Im Falle einer posithren Antwort
verifiziert man bei 52, ob das ausgesprochene Wort tatsächlich keine Wiederholung des Wortes ist, das zur Auslösung der Fehlerprozedur
geführt hatte. Wenn die Antwort auf diese Frage ja ist, verifiziert man bei 54, daß tatsächlich ein folgender
Kandidat existiert, d.h., daß der zunächst angezeigte Kandidat
• Ct ···
nicht der letzte in der Liste der klassierten Kandidat
ist. Falls bei 52 dio Antwort negativ ist, geht man zum
Abschnitt A4 der Erfassung des Fehlers in der Fehlerprozedur über. Wenn bei 54 festgestellt wird, daß ein folgender
Kandidat existiert, wird bei 50 der folgende Kandidat angezeigt.
Man gelangt zur adaptiven Lernprozedur A3 in Höhe der Etappe 34. Wenn die Zeit,die verstrichen ist, ohne daß ein
Wort ausgesprochen wird, größer ist als die Wartezeit A1,
überprüft man bei 56, ob es sich um die erste Wartezeit d1 nach der Fehlerprozedur handelt. Wenn die Antwort positiv
ist, überprüft man bei .'38, ob das letzte ausgesprochene Wort tatsächlich eine Wiederholung ist. Wenn die Antwort
wiederum positiv ist, ersetzt man bei 60 die im Speicher enthaltene Referenz des ausgesprochenen Wortes durch die
kodierte Information entsprechend dem Wort, das die Fehlerprozedur ausgelöst hat und bei 62 wird die Fehlerprozedur
beendet. Wenn bei 56 die Antwort negativ ist, kehrt man zum
Eingang zurück, wobei die Fehlerprozedur vorher ausgelöst worden war. Wenn hingegen die Antwort negativ ist bei Etappe
58, geht man direkt zu 62 über zum Unterbrechen der Fehlerprozedur
und der Vorgang wird demgemäß auf null rückgesetzt.
Man tritt in den Abschnitt A4 der Erfassung eines Fehlers
in der Fehlerprozedur in Höhe der Etappe 52 ein. Wenn das gesprochene
Wort keine Wiederholung des Wortes ist, welches, die Fehlerprozedur ausgelöst hat, verifiziert man bei 64, ob der
nächste Kandidat der dritte Kandidat ist. Wenn die Antwort positiv ist, verifiziert man bei 66, ob es das zweite Mal
nach einer Fehlerprozedur ist, daß keine Wiederholung vorgelegen hat. Wenn die Antwort negativ ist, kehrt man zum Eingang
zurück. Wenn die Antwort positiv ist, unterbricht man bei 62 die Fehlerprozedur und der Zyklus wird auf null rückgesetzt.
Es ist festzustellen, daß die Etappen 32 und 34, welche
die Wartezeit d1 einführen, eine bevorzugte Ausbildung der Einrichtung 21 darstellen, mittels welcher der Benutzer die
' 3Ll.
Lernphase in Angriff nimmt, d.h. der Ersatz einer Referenz
durch eine andere kodierte Information entsprechend demselben Wort. Es ist ferner festzustellen, daß die Etappe
52 zum Ziel hat zu erfassen, ob ein Fehler in der Fehlerprozedur vorliegt oder nicht. In der vorangehenden Beschreibung
erfolgt diese Erfassung automatisch durch Vergleich des gesprochenen Wortes mit dem wiederholten Wort, welches
die Fehlerprozedur in Gang gesetzt hat. Dieser Vergleich kann seinerseits eine Fehlerquelle darstellen. Es wäre demw
gemäß möglich, die Etappe 52 zu ersetzen durch einen Umschalter, der vom Benutzer selbst betätigt wird und der seinerseits
die Fehlerprozedur in Gang setzt, wenn er festgestellt hat, daß er beispielsweise unterlassen hat, ein Wort zu wiederholen. .
Der Steuerschaltkreis 6, dessen Funktionsweise erläutert wurde, wird vorzugsweise durch einen Mikroprozessor realisiert.
Fig. 4 zeigt den detaillierten Algorithmus, der von diesem Mikroprozessor verwendet wird. Dieser Algorithmus
verwendet eine bestimmte Anzahl von Variablen, die später erläutert werden. Die erste Variable S ist ein SUBROÜTINE-Parameter.
Wenn innerhalb der Wartezeit d1 kein Wort ausgesprochen worden ist, hat S den Wert null. Wenn das ausgesprochene Wort ungültig ist, hat S den Wert 1. Wenn das Wort
gültig ist, nimmt S einen anderen Wert an.
Die Variable C ist ein Kandidatenzähler in dem Sinne, wie
er oben erläutert wurde. Die Variable D2 ist ein Verzögerungsparameter, der die Werte null oder 1 annehmen kann. Der Parameter
ERR1 ist ein binärer Parameter, der definiert, ob eine
Fehlerprozedur ausgelöst worden ist. Der Parameter ERR1 hat den Wert null, wenn keine Fehlerprozedur vorliegt und den
Wert 1 im gegenteiligen Falle. Schließlich ist der Parameter ERR2 ein Fehlerparameter in der Fehlerprozedur.
Nach Beginn des Programms bei 100 umfaßt das Programm Befehle 102 für die Initiierung bestimmter Variablen. Die
Parameter ERR1, ERR2 und D2 werden zunächst auf null gesetzt,
- 2ß -
während der Parameter C für die Kandidatenzählung zunächst
auf 1 geht. Das Rechteck 104 symbolisiert ein Unterprogramm
der Worteingabe. Dieses Unterprogramm umfaßt einerseits die Kodierung der aufeinanderfolgend ausgesprochenen Worte, andererseits
eine erste Verarbeitung dieser Kodierung zum Verifizieren der Gültigkeit des Wortes. Ferner umfaßt das Unterprogramm
das Äquivalent der Verzogerungselemente, d.h. es erfaßt, ob die zwischen einem gesprochenen Wort und dem vorher
gesprochenen Wort verstrichene Zeit größer ist als d1. Schließlieh
löst das Unterprogramm den Beginn der Punktion der Anordnung aus. Es ist gleichermaßen dieses Unterprogramm, das das
kodierte, ausgesprochene Wort in den Speicher 8c einschreibt und dass für jedes kodierte Wort ihm ein Wert der Variablen S
zuordnet, wie oben angedeutet. Der Komparator -106 vergleicht den Parameter des Wertes S mit null. Wenn S von null abweicht,
vergleicht der Komparator 108 S mit eins. Wenn S von eins abweicht, vergleicht der Komparator 110 C mit eins. Wenn der Detektor
108 feststellt, daß S gleich eins ist, kehrt das Programm zur Warteposition zurück für die Eingabe eines neuen '
Wortes. Wenn der Komparator 110 feststellt, daß C gleich eins
ist, d.h., daß keine Fehlerprozedur vorliegt, definiert das Unterprogramm 112 die Klassierung der Kandidaten durch einen
Algorithmus, der später erläutert wird. Danach vergleicht der Komparator 114 den Wert der Variablen D2 mit null. Wenn
dieser Wert von null abweicht, erfaßt das Programm 116, ob eine Wiederholung stattgefunden hat oder nicht mittels eines
Unterprogramms, das später erläutert wird. Wenn keine Wiederholung stattgefunden hat, überträgt die Instruktion 118 in
den Speicher 8d für vorhergehende Worte das Wort, das gerade gesprochen worden ist und die Variable D2 wird von dem Wert
eins beeinflußt. Das Unterprogramm 120 bewirkt die Anzeige auf der Anzeigeeinrichtung 10,des dem Wert des Zählers C der
Kandidaten entsprechende Worte, d.h., daß dieses Programm als Ergebnis die Anzeige des Wortes abgibt, das als ähnlichstes
angesehen wird. Nach dem Unterprogramm 120 kehrt das Programm zur Warteposition für den Eingang eines neuen Wortes zurück.
321'6-MÖ-
I» f ir ·«*
Wenn der Detektor 110 festgestellt hat, daß C von eins abweicht, beginnt man mit dem Unterprogramm 122, welches
das gesprochene Wort mit dem wiederholten Wort vergleicht, welches die Fehlerprozedur ausgelöst hatte. Wenn die Antwort
auf diese Frage ja lautet, gibt der Befehl 124· der Variablen ERR1 den Wert null und der Befehl 125 bewirkt die
Operation C = C + 1, d.h., daß der Kandidatenzähler um eine Einheit inkrementiert wird. Der Komparator 126 vergleicht
den Wert von C mit der Gesamtzahl der Worte, d.h. der Referenzen, die im Speicher enthalten sind, wobei diese Anzahl
mit VOC bezeichnet werden soll. Wenn C größer ist als VOC, bedeutet dies, daß ein FoIi Ie r vorliegt und die Befehle 128
setzen den Parameter D2 wieder auf null, die Variable ERR1 auf null und den Kandidatenzähler C auf den Wert eins. Das
Programm kehrt zur Warteposition für ein neues Wort zurück. Wenn hingegen der Komparator 126 festgestellt hat, daß der
Rang des Kandidaten nicht höher ist als die Gesamtzahl der Referenzen, tritt man in das Unterprogramm 120 für die Anzeige
des festgehaltenen Kandidaten ein. Im Falle, wo der Komparator 114 festgestellt hat, dass D2 tatsächlich gleich null war, geht
man direkt zum Befehl 118 über, weil man dann sicher sein kann,
daß in diesem Falle keine Wiederholung stattgefunden hat. Wenn das Unterprogramm 116 festgestellt hat, daß jedoch eine Wiederholung
stattfand, geht man direkt zum Operator 125, der, wie beieLts angedeutet, den Kandidatenzähler C um eine Einheit
inkrementiert, entsprechend der Auslösung der Fehlerprozedur.
Wenn der Komparator 106 feststellt, daß S den Wert null hat, d.h. daß die Wartezeit abgelaufen ist, gibt der Befehl 130
der Variablen D2 den Wert null und danach vergleicht der Komparator 132 den Wert von C mit eins. Wenn C gleich eins ist,
kehrt das Programm zum Anfang zurück unter Erwartung eines neuen Wortes, falls C von eins abweicht, d.h. wenn eine Fehlerprozedur
vorliegt, vergleicht der Komparator 134 den Wert der Variablen ERR1 mit null. Wenn dieser Wert null beträgt, befiehlt das Unterprogramm
36 den Austausch im Speicher 8b der vorherigen ge-
speidherten Referenz gegen die Kodierung des Kandidaten mit
dem·Rang C. In dem folgenden Befehl 138 wird die Variable
ERR1 auf null rückgesetzt, die Variable C wird wieder auf eins gebracht. Das Programm kehrt zur Warteposition für die
eventuelle Eingabe eines neuen Wortes zurück. Wenn der Komparator 134 feststellt, daß die Variable ERR1 von null abweicht,
geht das Programm direkt zum Uofohl 138.
Wenn man jetzt zum Unterprogramm 122 zurückkehrt, erkennt man, daß im Falle eher Negativantwort der Befehl 140 der Variablen
ERR1 den Wert von eins gibt. Der Komparator 142 vergleicht den Wert von C mit zwei. Wenn C von zwei abweicht, kehrt das
Programm zur Warteposition für die Eingabe eines neuen Wortes zurück.'Wenn der Vergleich im Komparator 142 positiv ausgeht,
inkrementiert der Befehl 143 die Variable ERR2 um eine Einheit unter Durchführung der Operation ERR2 = ERR2 +1. Der Wert der
Variablen ERR2 wird danach mit zwei verglichen im Komparator 146. Wenn die Antwort nein ist, kehrt das Programm direkt in
die Warteposition für die Eingabe eines neuen Wortes zurück.
Wenn die Antwort positiv ist, setzt der Befehl 148 die Variable ERR2 wieder auf null und das Programm geht zum Befehl 128.
Man kann leicht erkennen, daß die Abfolge der Befehle und Unterprogramme 106 bis 120 der Normalfunktion entspricht, d,h.
dem Abschnitt A1, daß die Befehle 122 bis 128 der Fehlerprozedur
entsprechen, daß die Befehle und Unterprogramme 130 bis 138 dem adaptiven Lernvorgang zugeordnet sind und daß schließlich
die Befehle 140 bis 148 dor Erfassung eines Fehlers in der Fehlerprozedur zugeordnet sind.·
Fig. 5a zeigt die kodierte Information, wobei die Kodierung mittels eines bestimmten Kodierverfahrens erfolgt, zugeordnet
einem, ausgesprochenen Wort. Gemäß diesem Kodierverfahren wird das dem Wort entsprechende und von dem Mikrofon 2 gelieferte
elektrische Signal gleichzeitig in sieben Bandpasskanälen gefiltert. Die elektrischen Signale vom Ausgang dieser sieben
Filter werden in binäre logische Signale transformiert durch Vergleich mit einer Schwelle. Diese logischen Signale werden
abgetastet, in Abhängigkeit von ihrer Position in dem Signal
32161
- 2-3 -
und werden verarbeitet, damit die Gesamtlänge der erhaltenen
Informationen standardisiert wird. Man erhält auf diese Weise eine Information bestehend aus Nullen-und
Einsen, die verteilt sind entsprechend Linien gemäß den verschiedenen Filterkanälen und entsprechend Spalten geftiäß
verschiedenen Zeitpunkten der erhaltenen Abtastung. In dem
bestimmten Beispiel gibt es sieben Kanäle und sechzehn Abtastungen. Diese Gesamtheit von Informationen repräsentieren
ein Wort. In Fig. 5 a sind die Punkte der Matrize schraffiert, welche den binären Wert eins aufweisen. Man kann ferner in
Betracht ziehen, daß die Gesamtheit der Punkte der Matrize mit dem Wert eins von Blöcken gebildet wird, wobei jeder Block definiert
wird als eine fortlaufende Folge von Punkten mit dem binären. Wert eins und ausgehend von ein- und demselben·■ Filterkanal.
Im Falle der Fig. 5a erkennt man die Blöcke B1, B2, B3
und B4. Als Beispiel kann die Gültigkeitsprüfung eines ausgesprochenen
-Wortes gemäß Etappe 36 der Fig. 3 folgendermaßen ablaufen. Ein Wort wird domgemäß durch die allgemeine Formel
definiert
Wort = JB1, B2, .., B1, .. BnJ
worin jeder Block B. in der folgenden Weise definiert ist:
B1'= -TcANAL1, START±, S TOP J-
START bzw. STOP bilden den Zeitpunkt des Beginns und des Endes eines Blockes. Ein Wort wird als gültig angesehen,
wenn" es beispielsweise von mindestens drei Blöcken gebildet wird, welche von drei verschiedenen Kanälen herrühren. Das
Programm, das es ermöglicht, diese Bedingung zu verifizieren,
ausgehend von der kodierten Information, die dem Wort zugeordnet ist, ist dem Fachmann geläufig und braucht hier deshalb
nicht weiter ausgeführt zu werden.
Dieses Programm wird in dem Unterprogramm aus Fig. 4 mit dem Bezugszeichen 104 durchgeführt.
Nächstehend soll auf eine an sich bekannte Möglichkeit
zum· Messen des Abstands zwischen zwei kodierten Worten oder zwischen einem kodierten Wort und einer Referenz hingewiesen
werden, um so das Unterprogramm 112 der Klassierung der Kandidaten
oder die Erfassungen der Wiederholungen gemäß Unterprogrammen 116 und 122 durchzuführen. Der Abstand zwischen
einem Wort und einer Referenz kann in folgender Weise definiert werden. Ein Wort wird in folgender Weise definiert:
Wort = {wort^ .; i = 1 , 2. . .1; j = 1 , 2. . . j}
mit Wort i
wobei beispielsweise im Falle der Fig. 5a das Wort Wort., ,. 3
null hat und das Wort^ ir eins hat. In derselben Weise kann
der Speicher 8a der Referenzen definiert werden als eine Gesamtheit von kodierten Informationen von Referenzworten, definiert
durch:
Ref = {Refk, k = 1,2...n$
20
20
worin η die Anzahl der Referenzen im Speicher ist, d.h. die Anzahl der Worte im Vokabular. Jedes Wort des Speichers wird
mit Ref bezeichnet mit
Refk = iRefk .; i = 1 , 2...1;j = 1,2...JX
v 1, j J
Der Abstand zwischen einem kodierten Wort "Wort" und einer
Referenz des Speichers Ref ist gegeben durch den Ausdruck:
X=Ij=J
^ k
(Wort. .<+)RefH ί
•i/D ifj
<Wort,Refk) = . . '■
(D
i = Ij=J
Σ. Σ (Wortifj ♦ Refi# k) .
i « 1 j - 1
worin das (^ die logische Funktion ODER EXKLUSIV repräsentiert,
worin I die Anzahl der Kanäle und J die Anzahl der Abtastungen
ist.
Es ist klar, daß die Distanz in konkreter Weise folgendermaßen definiert werden kann. Man geht aus von der Tabelle ähnlich
jender nach Fig. 5a, entsprechend jeweils dem Wort "Wort" und der Referenz Ref und überlagert diese beiden Tabellen.
Der Zähler des rechten Ausdrucks in Gleichung (1) ist gleich der Anzahl der Punkte der beiden Tabellten mit dem Binärwert
1i die einander nicht überlagern, während der Nenner gleich
der Summe der Punkte beider Tabellen ist, welche den Binärwert 1 haben. In Fig. 5b ist dementsprechend eine Tabelle dargestellt
für ein Wort und eine Tabelle entsprechend einer Refe-
2
renz Ref . Man erkennt sofort, daß durch überlagern dieser1 beiden Tabellen, so wie sie gezeigt sind, die Punkte mit Binärwert 1, die einander nicht überlagern, sehr hoch ist. Mit anderen Worten ist der Abstand zwischen diesen beiden Worten groß. Man erkennt jedoch, daß durch Verschieben nach links um einen Schritt der Kontur der Tabelle des Wortes ohne Modifikation der Position der Punkte mit dem Binärwert eins die Ähnlichkeit zwischen den beiden derart modifizierten Tabellen sehr hoch ist. Man erkennt leicht, daß tatsächlich das Wort und die Referenz ein- und demselben gesprochenen Wort zugeordnet sind und daß die scheinbare Differenz großenteils von einer Globalver-Schiebung herrührt während der Erfassung und Kodierung des Wortes. Damit die Messung der Distanz zwischen zwei Worten tatsächlich wirksam ist, ist es demgemäß wünschenswert, darüberhinaus die Möglichkeiten der Verschiebung zwischen den zu vergleichenden Worten oder zwischen dem Wort und der zu vergleichenden Referenz ins Auge zu fassen. Dies wird nachstehend erläutert, wobei mit Z die Verschiebung bezeichnet werden soll, welche im Fall der Fig. 5 den Wert -1 hat.
renz Ref . Man erkennt sofort, daß durch überlagern dieser1 beiden Tabellen, so wie sie gezeigt sind, die Punkte mit Binärwert 1, die einander nicht überlagern, sehr hoch ist. Mit anderen Worten ist der Abstand zwischen diesen beiden Worten groß. Man erkennt jedoch, daß durch Verschieben nach links um einen Schritt der Kontur der Tabelle des Wortes ohne Modifikation der Position der Punkte mit dem Binärwert eins die Ähnlichkeit zwischen den beiden derart modifizierten Tabellen sehr hoch ist. Man erkennt leicht, daß tatsächlich das Wort und die Referenz ein- und demselben gesprochenen Wort zugeordnet sind und daß die scheinbare Differenz großenteils von einer Globalver-Schiebung herrührt während der Erfassung und Kodierung des Wortes. Damit die Messung der Distanz zwischen zwei Worten tatsächlich wirksam ist, ist es demgemäß wünschenswert, darüberhinaus die Möglichkeiten der Verschiebung zwischen den zu vergleichenden Worten oder zwischen dem Wort und der zu vergleichenden Referenz ins Auge zu fassen. Dies wird nachstehend erläutert, wobei mit Z die Verschiebung bezeichnet werden soll, welche im Fall der Fig. 5 den Wert -1 hat.
Durch Einführung der Verschiebung χ ist der Abstand Op
k zwischen dem Wort "Wort" und der Referenz Ref in folgender
Weise definiert:
J =
1*1 i-
(Wort,Refk) = —
i = I J=J
i = 1 j =
mit Wor^ ._» = 0 für j -
und Ref± Ϊ =0 für j (£ii,2..,jj
Um ein Wort oder eine Referenz zu vergleichen oder zwei
Worte untereinander, berechnet man die Distanzenic für die
Verschiebungen von £ =+£, bis £ = -f in Schritten von
einer Einheit. Als Beispiel ^1 =2.
Die Klassierung der Kandidaten kann in folgender Weise erfolgen:
Man notiertet = MIN r<T(f(Wort,Refk)J
*
Man berechnet die Tabelle der Distanzen T definiert durch:
T =
25
25
= 1/2,..., nj
Um die Klassierung der Kandidaten zu erhalten, sortiert man die Elemente, um eine geordnete Gesamtheit Cdd zu erhalten,
definiert durch:
Cdd s £ cdd ; k = 1,. .., nj
■ mit Cddk€ £ 1 ,.. . f η ]■
derart daß ζ ^ 4 ό
Der erste Kandidat ist demgemäß die Referenz mit dem Index
cdd1' unc*' c^erzweiteKandidat ist demgemäß die Referenz mit dem
Index Cddi.
'Ausgehend von diesem Berechnungsmödus des Abstands
zwischen zwei Worten ist es möglich, die Unterprogramme 116 und 122 aus Fig. 4 weiter zu erläutern. Das Unterprogramm
116 ist dasjenige, das es ermöglicht, festzustellen, ob es sich um eine Wiederholung des gesprochenen Wortes
handelt oder, nicht zum Auslösen (oder NichtauslÖsen) der Pehlerprozedur. Um zu wissen, ob eine Wiederholung vorliegt
oder nicht, verwendet man die folgenden Bedingungen:
^1 4 si
^1 - Best^ S2^dIfB = 1
(2)
^1 + Best
^1 < S3 &ΪΌ = 1
' .
' .
Die Bedingung, bei der eine Wiederholung vorliegen soll ist:
AU ( BAD) Φ 0
In diesen Beziehungen repräsentieren S1, S2 und S3 Schwellen,^
repräsentiert die Distanz zwischen dem gerade gesprochenen Wort und dem vorher gesprochenen Wort und BEST repräsentiert
die Distanz zwischen dem gerade gesprochenen Wort und der ähnlichsten Referenz, enthalten in den Speichern. S1
ist immer kleiner als S3. Als Beispiel beträgt die Schwelle
S1 0,2, die Schwelle S3 -0,08 und die Schwelle S3 0,5. Man
erkennt demgemäß, daß dieser Entscheidungsalgorithmus entweder eine absolute Distanz (A) oder eine Doppelbedingung eingreifen
läßt, die auf eine Äbsolutschwelle zurückgeht und auf eine Relativschwelle, verglichen mit der kleinsten Distanz
zwischen dem gesprochenen Wort und den Worten enthalten im Vokabular. Natürlich werden <T 1 und BEST berechnet,wie oben
angegeben für die Bestimmung der Distanz zwischen zwei Worten. Das Unterprogramm 122 hat zum Ziel festzuhalten, ob das
gesprochene Wort das erste Wort ist, welches die Fehlerprozedur ausgelöst hat. Der verwendete Algorithmus' lautet:
- 28 -
Y2 - BEST
/S
+ BEST
wobei ο 2 die Distanz zwischen dem gesprochenen Wort und.
dem ersten Wort darstellt, das die Fehlerprozedur ausgelöst
hat, BEST identisch mit der Variablen ist* iS vorhergehend definierten Algorithmus verwendet wurde und S. eine
andere Schwelle bezeichnet, die beispielweise 0,1 beträgt. Es ist festzuhalten, daß die Bedingungen A, B und D, die
in den Test 116 eingehen, jeweils einer bestimmten Punktionsbedingung
entsprechen.
Die Bedingung B= 1 ist die Normalerfassungsbedingung
der Wiederholung eines gesprochenen Wortes. Es bedeutet einfach, daß 6 λ kleiner als BEST sein soll, d.h., daß die
Distanz zwischen dem vorher gesprochenen Wort kleiner sein
soll als die Distanz zwischen dem gerade ausgesprochenen Wort und dem ersten Kandidaten. Im Falle geringer Geräusche
werden die beiden Abstände <j. und BEST beide etwas vergrössert
und das Kriterium bleibt gültig. Im Falle der überIagerung
eines starken Lärms bei dem gesprochenen Wort jedoch, kann eintreten, daß die Bedingung B = 1 erfüllt wird, obwohl
keine Wiederholung vorliegt. Die Absolutschwelle S3 für <&.
hat die Aufgabe,eine fehlerhafte Wiederholungserfassung bei der Schwelle zu verhindern, bei der Kondition B = 1.
Die dritte Bedingung A = 1 hat zum Ziel, das Risiko einer
Blockierung des Systems nach einer vorläufigen fehlerhaften Lernphase zu vermeiden, die zur Eingabe einer Referenz geführt
hat, entsprechend einem Wort in der Speicherposition, die .einem anderen Wort zugeordnet ist. Das kann mit der folgenden
Sequenz geschehen.
Der Benutzer spricht "ON" aus und die Anzeigeanordnung zeigt "OFF", Der Benutzer wiederholt demgemäß "ON", was die
Fehlerprozedur (PE) auslöst und das Wort "FAST" wird angezeigt. Der Benutzer wiederholt erneut "ON" und das Wort
"DOWN" wird angezeigt. Darüberhinaus läßt der Benutzer die Wartezeit d.. verstreichen. Die autoadaptive Lernprozedur
32161
- 29 -
» · ν m m u ν
füKrt die Referenz ON in diejenige Position des Speichers
ein, die dem Wort DOWN zugeordnet ist. Wenn der Benutzer erneut das Wort ON ausspricht kann BEST (Abstand zwischen dem
ausgesprochenen ON und dem in der Position DOWN befindlichen ON) häufig kleiner sein als (Abstand zwischen ON ausgesprochen und ON vorher ausgesprochen). Dies macht die Erfassung
der Wiederholung zufällig, so daß in diesem Falle man den
oben beschriebenen Fehler eine Sicherung vorschieben muß. Dies ist die Bedingung A = 1, die nach Verifikation es ermöglicht,
die Wiederholung zu erfassen.
Die Fi.g 6 ist ein Algorithmus des Unterprogramms 104
für die Eingabe kodierter Worte. Dieses Unterprogramm hat im wesentlichen zum Ziel, den Wert des Pairamters S festzulegen,
der 0, 1 der 2 betragen kann. Dieses Unterprogramm bezieht sich auf Hilfsvariable L der Wortlänge und X, was
eine Binärzahl mit sieben Bits bedeutet und ein Abtastmuster
des Wortes darstellt. Es handelt sich demgemäß um eine Spalte der Matrizen, die in Fig. 5a und 5b gezeigt sind.
In dem Programm wird an einem Anfangs- oder Eingangspunkt
200 mittels der Befehle 202 die Anfangssetzung der Parameter S auf S0 und des Parameters L auf 0 vorgenommen. Der Takt des
Mikroprozessors liefert die Taktimpulse CK mit einer Frequenz
von 100 Hz. S0 entspricht der Wartezeit d.. aus der Fig. 3.
Wenn demgemäß die Wartezeit d. gleich 5 Sekunden gewählt wird,
hat Sq den Wert 500. Die Befehle 204 und 206, welche die Impulse
CK mit Logikpegeln 0 bzw. 1 mit ihrer Meldung vergleichen, haben einfach die Aufgabe, das Programm mit der Taktfrequenz von 100 Hz zu synchronisieren. Bei 208 werden die
Abtastmuster X, herrührend vom Kodierschaltkreis nacheinander. mit Frequenz von 100 Hz eingegeben. Der Befehl 210 vergleicht
X mit 0. Die Antwort ist positiv (X=O), wenn die 7 Bits wirklich den Wert 0 aufweisen. Die Antwort ist negativ,
wenn mindestens eines der Bits von 0 abweicht. Wenn die Antwort negativ ist, setzt der Befehl 212 den Wert S1 für den
Parameter S. S1 hat beispielsweise den Wert 20. Danach inkrementiert
der Befehl 214 um eine Einheit den Parameter L und
-33-
der'Befehl 216 lädt in den Speicher 8c in kodierter Form
oder nicht kodierter Form das Abtastmuster von sieben Bits X. Das Programm kehrt zum Befehl 204 zurück für die Eingabe des
folgenden Abtastmusters.
.5 Wenn das Abtastmuster X gleich null ist (Befehl 210),
wird der Parameter S um eine Einheit von dem Befehl 218 dekrementiert.
Bei 220 wird der Parameter S mit 0 verglichen. Wenn die Antwort positiv ist (S=O),wird der Parameter L mit
null verglichen bei 222. Wenn die Antwort positiv ist (L=O), geht man zum Ausgang des Unterprogramms, d.h. man geht zum
Befehl 106 aus Fig. 4 über. Der Paramter S hat den Wert null. Wenn der Operator 220 eine negative Antwort liefert (Sj*O),
vergleicht der Befehl 224 den Parameter L mit null. Wenn das Ergebenis des Vergleichs positiv ist (L=O), geht man direkt
zum Befehl 216, der in dem Speicher 8c das getestete Abtastmuster einschreibt. Wenn die Antwort negativ ist (L^O),geht
man zum Befehl 214.
Wenn die Antwort auf den Vergleich gemäß Befehl 222 negativ
ist (L^O), geht man zum Befehl 224, bei dem es sich tatsächlich
um ein Unterprogramm für die Erfassung der Gültigkeit des Wortes handelt. Dieser Test wurde bereits erläutert. In
dieser Ausführungsform kann eine zusätzliche Bedingung eingeführt
werden, nämlich beispielsweise, daß der Parameter L größer oder gleich zehn sei. Wenn das Wort ungültig ist, setzt
der Befehl 226 den Parameter auf den Wert eins und wenn das
Wort gültig ist, setzt der Befehl 228 den Parameter L auf 2. Die Funktion des Unterprogramms ergibt sich klar aus der
vorstehenden Erläuterung. Solange kein Abtastmuster von null abweicht bleibt der Parameter L null und der Parameter S wird
um eine Einheit bei jedem Schleifendurchlauf dekrementiert.
Wenn '500 aufeinanderfolgende Schleifen durchlaufen sind und X konstant bei null bleibt, erreicht der Parameter S den Wert
null mit einem Wert von L, der ebenfalls null beträgt. Dies zeigt, daß kein Wort während der Verzögerungszeit cL, die
fünf Sekunden betrug, gesprochen wurde. Der Parameter S hat den Wert null. Sobald ein Abtastmuster X abweichend von null
Erscheint, nimmt der Paramter L den Viert eins an und
.der Parameter S den Wert S., d.h. zwanzig. Diese Inkrementierung
auf S1 zeigt an, daß in diesem Falle, falls während
zwanzig Schleifendurchläufen X null geblieben ist, das Wort als beendet angesehen wird, da der Befehl 218 den Parameter
S auf null gesetzt haben wird. Unter dieser Bedingung wird, falls der Befehl 224 festgestellt hat, daß das von den aufeinanderfolgenden
Mustern X gebildete Wort gültig ist, dein Parameter S der Wert zwei zugeordnet; im anderen Falle ist
es der Wert eins, der ihm zugeordnet wird.
In der vorstehenden Erläuterung wurde von der Eingabe
eines einzigen Wortes ausgegangen. Dieser Steuermodus entspricht konkret dem Fall, wo die zu gebenden Befehle des
Geräts jeweils ein einziges Wort umfassen. Es ist dabei klar, daß bestimmte Befehle mehrere isolierte Worte umfassen
können. Um beispielsweise eine bestimmte Zahlenangabe, die zu einem Funktionsbefehl gehört, dem Gerät zu
übermitteln, muß beispielsweise das Wort ON eingegeben werden und danach die Worte entsprechend den gewünschten Ziffern.
Es ist demgemäß erforderlich, daß die Eingabeanordnung "versteht", daß die aufeinanderfolgend ausgesprochenen
Worte, die einen Teil eines desselben Befehls bilden, voneinander getrennt zu behandelt sind. Aus diesem Grunde muß
der Benutzer die Wartezeit d.. zwischen dem Ende der Eingabe
eines Wortes des Befehls und dem Anklingen des folgenden
Wortes verstreichen lassen. Diese Verzögerung kann dem Benutzer beispielsweise durch ein Blinksignal der Anzeigeanordnung
übermittelt werden oder durch Verwendung eines akustischen Signals. In dem beschriebenen Beispiel ist die
Wartezeit d.. auf 5 Sekunden festgesetzt.
Im Falle, wo der erste Kandidat viel näher dem gesprochenen Wort ist als der zweite Kandidat, ist es quasi .sicher,
daß dieser erste Kandidat tatsächlich das richtige Wort ist. Mit anderen Worten ist es quasi sicher, daß der
3^ Benutzer dieses Wort nicht wiederholen wird. Es ist demgemäß
interessant, in diesem Falle den Wert von d.. zu verringern. Für diesen Zweck kann man Y berechnen, das folgendermaßen
definiert ist:
JC* X*
ö edd. -*
Y _- u«u. Gdd-
^* Cdd1 + * Cdd2 .
I*
wobei ο j, den Abstand zwischen dem gesprochenen Wort
und dem ersten Kandidaten bedeutet und & ·■„,, den Abstand
zwischen dem zweiten Wort und dem Kandidaten. Y liegt zwischen 0 und 1. Je größer Y ist, desto sicherer ist das
wiedererkennen des ersten Kandidaten. Es ist demgemäß möglich, d.. zu verringern, sobald Y größer ist als irgendein
Wert a, wobei der Wert von d.. definiert sein kann als eine
absteigende Funktion f von Y. Man kann beispielsweise a = 0,3 wählen und dmax (1- ^) mit dmax = 5 Sekunden.
Die Bedingung Y^ a mit a impliziert das ~
Der zweite Kandidat muß demgemäß mindestens um deutlich
das Zweifache "unähnliche" dem gesprochenen Wort sein als
der erste Kandidat. .
Im Algorithmus nach Fig. 6 bedeutet dies, daß S variabel ist. In dem Algorithmus nach Fig. 4 ist demgemäß ein Unterprogramm
150 hinzuzufügen, welches Y berechnet und Y mit
a vergleicht sowie berechnet:
25
25
S0 = SQf (Y) si Y>
a.
Allgemeiner gesagt, kann die Berechnung- von Y ersetzt
- werden durch die Berechnung einer Funktion f.. (£*Ctjj » &caa ^
welche die Werte von ό ... und von 6 cdd vergleicht.
1 t * 2 - v
Diese Funktion muß null sein für ο cdd s i*cüd und den Werf
haben für if*^ = 0 und i^ . 1. FaIlSf ^
größer ist als a, berechnet man demgemäß cL = d ^0 Cf1).-f
>, ist eine absteigende Punktion von f. mit numerischen
Werten, die strikt zwischen 0 und 1 liegen.
Das Hauptinteresse der Worteingabeanordnung gemäß der Erfindung ergibt sich klar aus vorstehender Erläuterung.
Die normale Benutzung der Anordnung, d.h. die Eingabe von Worten zum Steuern des zugeordneten Gerätes und der Lern*-
vorgang sind eng miteinander verflochten und können tatsächlich gleichzeitig ablciufen. Man vermeidet auf diese Weise
gegenüber dem Lernvorgang mit Werkseingabe eine lange und ermüdende Phase, die strikt für den Lernvorgang reserviert
ist und ermöglicht eine Auswechselung des Benutzers, ohne
daß die Gesamtheit der eingegebenen Referenzen zu erneuern ist. Es brauchen nämlich nur die Worte ausgetauscht zu werden,
deren Aussprache sich ändern wird.Darüberhinaus betrifft die Lernphase nur jene Worte, die man wirklich benutzen will
und die Anordnung zeigt dem Benutzer nacheinander die Worte,
die er der Worteingabeanordnung erneut beibringen muß.
Durchgeführte Versuche haben gezeigt, daß diese Anordnung eine viel größere Flexibilität und eine viel einfachere Benutzung
mit sich bringt, wenn irgendein Gerät, beispielsweise eines mit Digitalanzeige, zu steuern ist. Dieses Ergebnis
beruht wahrscheinlich auf der Tatsache, daß bei der mehrfachen Wiederholung ein- und desselben Wortes durch den. Benutzer
die Aussprache sich kaum ändert und man demgemäß die
Wiederholung leicht feststellen kann. Mit der Anordnung gemäß der Erfindung führt diese Wiederholung nicht nur zu einem
erneuten Lernvorgang, sondern zugleich zur Eingabe des Wortes und demgemäß des Kommandos in einer gewünschten Punktion. Im
Falle der Eingabe von Referenzen ab Werk muß der Benutzer das Wort solange wiederholen, bis seine eigene Aussprache dieses
Wortes mit derjenigen des Standardsprechers oder Lesers im Werk zusammenfällt. Im Falle der Anfangslernphase durch den
Benutzer selbst vergeht eine gewisse Zeit zwischen der Lernphase und der wirksamen Phase der Worteingabe. Es gibt ein
-M-
β*
erhebliches Risiko, das die Aussprache dieses Wortes nicht dieselbe sein wird. Die Worteingabe kann demgemäß gegebenenfalls
unmöglich sein und man muß die gesamte Lernphase wiederholen.
Es scheint, daß die Flexibilität der Benutzung der Anordnung
gemäß der Erfindung im wesentlichen auf der Tätsache
beruht, daß jede Wiederholung eines Wortes oder genauer gesagt bei jedem .Mal, dass die Anordnung eine Wiederholung erfaßt,
die Anzeigeeinrichturlgen den folgenden Kandidaten in der Reihenfolge der absteigenden Ähnlichkeit präsentiert,
ohne daß eine Modifikation in der Klassifizierung der Kandidaten vorgenommen wird. Während der Anfangslernphase hingegen
ist es immer der erste Kandidat, der angezeigt wird. Es ergibt
demgemäß keinerlei Fortschritt in der Anzeige der Kandidaten.
Es ist festzuhalten, daß Umgebungsgeräusche die Funktion der Worteingabeanordnung nicht stören, im Falle von Geräuschen
höheren Pegels ändert sich die Wiederholung von zwei aufeinanderfolgenden
Worten in derselben Weise wie die Ergebnisse der Korrelation mit den Referenzen. Jenseits der Schwelle S-jedoch
erfaßt die Anordnung die Wiederholung nicht und man gelangt nicht zur Fehlerprozedur. Dies verbietet jegliche Modifikationen
der Referenzen unter solchen ungünstigen aktustischen Bedingungen und stallt: demgemäß gleichzeitig eine gute
Immunität gegen Lärm sicher, ohne daß in anderör Weise das System seine Funktion einstellt. Man kann sagen, daß in einer
Umgebung mit hohem Lärmpegel die aufeinanderfolgenden Wiederholungen
ein- und desselben Wortes nicht als solches erkannt werden. Das System liefert demgemäß jedes Mal den ersten Kandidaten
als Antwort. Der erste Kandidat ändert sich praktisch jedes Mal und der Benutzer hat demgemäß statistisch gute Chancen,
daß nach einer begrenzten Anzahl von Versuchen das richtige Wort angezeigt wird. Darüberhirtaus enthält solcher Lärm,
etwa das Geräusch von Gesprächen, Augenblicke der Stille, die es dem System ermöglichen, ein nicht gestörtes Wort zu
empfangen.
321690-0
'In der vorstehenden Erläuterung wurde auch beschrieben,
daß die Klassierung der Kandidaten sich auf die Gesamtheit der η Worte des Vokabulars bezieht, das der Steuerung das
der Worteingabeanordnung zugeordneten Gerätes dient·. Es versteht sich von selbst, daß das Vokabular in mehrere Grup
pen unterteilt worden kann, nie Klassierung der Kandidaten
erfolgt dann nur unter dun Worten dieser Gruppe/ d.h. unter
n. Worten (n„>
n). Der Festwertspeicher 8a hingegen enthält natürlich die Gesamtheit des Vokabulars. Die Anordnung umfaßt
in diesem Fall ein Unterprogramm, das es ermöglicht, die Worte der betreffenden Gruppe zu definieren. Man erkennt,
daß durch Herabsetzung der Anzahl von Referenzen, die zu berücksichtigen"
sind, die Möglichkeit gegeben ist, die Kodie rung zu vereinfachen und die Vergleichsalgorithmen weniger
' schwierig zu gestalten. Dies ermöglicht eine Verringerung
der Anzahl von Speicherplätzen in dem Random-Speicher und
der Anzahl von Binärpositionen, die für die Kodierung eines Wortes erforderlich sind.
Leerseite
Claims (5)
- Patentansprüche1 J Worteingabeanordnung für sprachgesteuerte Geräte, bei der ein von einem Sprecher gesprochenes Wort kodiert und mit gespeicherten Informationen verglichen wird entsprechend jeweils der Kodierung eines von η Worten, die vorher.in die An-5 Ordnung eingegeben worden sind, gekennzeichnet durch- eine Kodiert· Lnr LuhUing für jedes von dem Sprecher gesprochene Wort gemäß einem ersten vorgegebenen Algorithmus zur Ableitung eines kodierten Worten,- eine Speichereinrichtung zum Speichern von η Referenzen entsprechend jeweils der Kodierung eines der η Worte gemäß dem ersten Algorithmus und mindestens eines von dem Sprecher gesprochenen Wortes in kodierter Form,- eine Anzeigeeinrichtung zum Anzeigen eines der η Worte,- eine Steuereinrichtung für die Änderung der Referenzen und- einen Steuerschaltkreis, der an die Speichereinrichtung und die Anzeigeeinrichtung angeschlossen ist und umfaßtsa) Mittel zum Erfassen der Wiederholung durch Ver-gleichen eines kodierten Wortes mit dem vorher ausgesprochenen kodierten Wort, falls ein solches vorliegt, in Abhängigkeit von einem zweiten vorgegebenen Algorithmus, um festzustellen, ob eine Wiederholung vorliegt oder nicht,b) von den Erfassungsmitteln ansteuerbare Mittel zum Vergleichen eines gesprochenen kodierten.Wortes , wenn es sich um keine Wiederholung handelt, mit den η Referenzen und zum Zuordnen eines Ähnlichkeitsranges zu jeder Referenz bezüglich• · a- 2 - ■des kodierten gesprochenen Wortes in Abhängigkeit von einem dritten vorgegebenen Algorithmus,c) Mittel zum Steuern der Anzeige der gespeicherten Referenz, die den ersten Ähnlichkeitsrang besitzt, wenn keine Wiederholung festgestellt worden ist, und zum Steuern, falls eine Wiederholung erfaßt worden ist, der Anzeige desjenigen Wortes, das der Referenz zugeordnet ist, die den Ähnlichkeitsrang einnimmt, welcher unmittelbar der Referenz folgt, die dem unmittelbar zuvor angezeigten Wort zugeordnet ist, ο undd) Mittel zum Ersetzen, in der Speichereinrichtung, der dem zuletzt angezeigten Wort zugeordneten Referenz durch die Information entsprechend der Kodierung des wiederholten Wortes im Ansprechen auf die Aktivierung durch den Sprecher von Steuerorganen zum Ändern der Referenzen, wenn der Sprecher festgestellt hat, daß das angezeigte Wort und das von ihm tatsächlich ausgesprochene Wort übereinstimmen, was zu einer neuen Referenz für dieses Wort führt.
- 2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Steuerorgane zum Ändern der Referenzen umfassen:- Mittel zum Festlegen einer Zeitdauer d.. ,- Mittel zum Vergleichen der Zeit, die zwischen einem gesprochenen Wort und dem vorher gesprochenen Wort verstrichen ist, mit einer Referenzzeitdauer d.., wobei die Steuerorgane aktiviert werden, wenn diese Zeitdauer größer oder gleich 1 ist.
- 3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Vergleichseinrichtung umfaßt:- Mittel zum Messen des Abstandes zwischen einem kodierten gesprochenen Wort und den Referenzen und- Mittel zum Klassieren der Referenzen in absteigender Reihenfolge dieser Distanzen.
- 4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die Mittel zum Festlegen der Zeitdauer d^ umfassen:- Mittel zum Pea biegen einer Funktion f., (Δ ^^),ir,'.--y '-^a-Jr'" VWME^." tworin Δ 2 ^ie Distanz zwischen einem gesprochenen Wort und der Referenz repräsentiert, welche den zweiten Ähnlichkeifesrang einnimmt, und Δ 1 die Distanz zwischen dem gesproche-. nen Wort und der Referenz repräsentiert, die den ersten A'hnlichkeitsrang einnimmt, wobei diese Funktion O ist für A = Δ 2 und 1 ist für Δ - = O und Δ 2 = 1.- Mittel zum Vergleichen des Wertes der Funktion f.. mit einer Zahl a, die genau zwischen O und 1 liegt, und- Mittel zum Setzen der Zeitdauer d1 auf den Wert^x, wenn f1 kleiner als a ist, und auf den Wert CL3x ^9^f1^ in dem gegenteiligen Falle, wobei f2 eine absteigende Funktion von f1 für numerische Werte ist, die strikt zwischen O und 1 liegen.
- 5. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die Wxederholungserfassungsmittel umfassen:- Mittel zum Festlegen eines Abstandes Δ « zwischen einem gesprochenen Wort und dem vorhergehend gesprochenen Wort,- Mittel zum Festlegen eines Abstandes A . zwischen dem gesprochenen Wort und der Referenz, welche den ersten Ähn-lichkeitsrang einnimmt, ' ■- Mittel zum Festlegen des VerhältnissesS1 +A1„e - Mittel zum Vergleichen des Wertes von Z mit einem Schwellenwert S2, wobei j S2 | >1,- Mittel zum Vergleichen des Wertes S1 mit einem ersten Schwellenwert S1 und einem zweiten Schwellenwert S3, die positiv und kleiner als 1 sind mit S1 <ζ S, und„ - Mittel zum Feststellen, daß eine Wiederholung stattgefunden hat, falls & 1 kleiner als S1 oder wenn gleichzeitig Z kleiner als S2 und δ 1 kleiner als S3 sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CH3179/81A CH644246B (fr) | 1981-05-15 | 1981-05-15 | Dispositif d'introduction de mots a commande par la parole. |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3216800A1 true DE3216800A1 (de) | 1982-12-02 |
DE3216800C2 DE3216800C2 (de) | 1988-03-10 |
Family
ID=4250332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823216800 Granted DE3216800A1 (de) | 1981-05-15 | 1982-05-05 | Anordnung zur eingabe von befehlsworten durch sprache |
Country Status (6)
Country | Link |
---|---|
US (1) | US4509133A (de) |
JP (1) | JPS57198500A (de) |
CH (1) | CH644246B (de) |
DE (1) | DE3216800A1 (de) |
FR (1) | FR2510794A1 (de) |
GB (1) | GB2098773B (de) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0119589A2 (de) * | 1983-03-17 | 1984-09-26 | Alcatel N.V. | Bedienungseinrichtung für ein Teilnehmergerät eines Informationssystems |
DE3515881A1 (de) * | 1985-05-03 | 1986-11-06 | Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt | Verfahren zum synchronen sortieren von digitalen wertgroessen |
DE4010028A1 (de) * | 1989-04-12 | 1990-10-18 | Smiths Industries Plc | Spracherkennungsverfahren |
US5040213A (en) * | 1989-01-27 | 1991-08-13 | Ricoh Company, Ltd. | Method of renewing reference pattern stored in dictionary |
DE4109785A1 (de) * | 1990-03-26 | 1991-10-02 | Ricoh Kk | Standardmuster-vergleichssystem |
US5091947A (en) * | 1987-06-04 | 1992-02-25 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
US5231691A (en) * | 1989-10-06 | 1993-07-27 | Ricoh Company, Ltd. | Speech recognition system including interrupt scheme that avoids operational and interfacing conflicts |
US5347612A (en) * | 1986-07-30 | 1994-09-13 | Ricoh Company, Ltd. | Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns |
DE19754383A1 (de) * | 1997-12-08 | 1999-06-10 | Siemens Ag | Verfahren und Vorrichtung zur Verarbeitung gesprochener Sprache |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
GB2155217A (en) * | 1983-08-22 | 1985-09-18 | Bernard Albert Hunn | Mind simulator |
NL8401862A (nl) * | 1984-06-13 | 1986-01-02 | Philips Nv | Werkwijze voor het herkennen van een besturingskommando in een systeem, en een interaktief systeem voor het uitvoeren van de werkwijze. |
US4797927A (en) * | 1985-10-30 | 1989-01-10 | Grumman Aerospace Corporation | Voice recognition process utilizing content addressable memory |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
US4908864A (en) * | 1986-04-05 | 1990-03-13 | Sharp Kabushiki Kaisha | Voice recognition method and apparatus by updating reference patterns |
AU7695987A (en) * | 1986-07-07 | 1988-01-29 | Newex, Inc. | Peripheral controller |
GB8617389D0 (en) * | 1986-07-16 | 1986-08-20 | British Telecomm | Speech recognition |
US4827520A (en) * | 1987-01-16 | 1989-05-02 | Prince Corporation | Voice actuated control system for use in a vehicle |
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
DE3879028T2 (de) * | 1987-07-16 | 1993-06-24 | Fujitsu Ltd | Spracherkennungseinrichtung. |
GB2207783B (en) * | 1987-08-07 | 1991-05-22 | Casio Computer Co Ltd | Recording/reproducing apparatus with voice recognition function |
US4984177A (en) * | 1988-02-05 | 1991-01-08 | Advanced Products And Technologies, Inc. | Voice language translator |
GB8813713D0 (en) * | 1988-06-09 | 1988-07-13 | Harvey P D | Hands free environmental controller |
US4984274A (en) * | 1988-07-07 | 1991-01-08 | Casio Computer Co., Ltd. | Speech recognition apparatus with means for preventing errors due to delay in speech recognition |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
KR910700582A (ko) * | 1989-01-05 | 1991-03-15 | 에이취. 프라이드 로널드 | 음성 처리 장치 및 방법 |
US5007081A (en) * | 1989-01-05 | 1991-04-09 | Origin Technology, Inc. | Speech activated telephone |
JPH067348B2 (ja) * | 1989-04-13 | 1994-01-26 | 株式会社東芝 | パタン認識装置 |
GB2253296B (en) * | 1991-02-28 | 1995-05-24 | Toshiba Kk | Pattern recognition apparatus |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US6092043A (en) * | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
US5983179A (en) * | 1992-11-13 | 1999-11-09 | Dragon Systems, Inc. | Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation |
US5890122A (en) * | 1993-02-08 | 1999-03-30 | Microsoft Corporation | Voice-controlled computer simulateously displaying application menu and list of available commands |
CA2115210C (en) * | 1993-04-21 | 1997-09-23 | Joseph C. Andreshak | Interactive computer system recognizing spoken commands |
US5787231A (en) * | 1995-02-02 | 1998-07-28 | International Business Machines Corporation | Method and system for improving pronunciation in a voice control system |
US5748191A (en) * | 1995-07-31 | 1998-05-05 | Microsoft Corporation | Method and system for creating voice commands using an automatically maintained log interactions performed by a user |
US5857172A (en) * | 1995-07-31 | 1999-01-05 | Microsoft Corporation | Activation control of a speech recognizer through use of a pointing device |
US5761641A (en) * | 1995-07-31 | 1998-06-02 | Microsoft Corporation | Method and system for creating voice commands for inserting previously entered information |
US5864815A (en) * | 1995-07-31 | 1999-01-26 | Microsoft Corporation | Method and system for displaying speech recognition status information in a visual notification area |
US6067521A (en) * | 1995-10-16 | 2000-05-23 | Sony Corporation | Interrupt correction of speech recognition for a navigation device |
EP0920692B1 (de) * | 1996-12-24 | 2003-03-26 | Cellon France SAS | Verfahren zum trainieren eines spracherkennungssystems und ein gerät zum praktizieren des verfahrens, insbesondere eines tragbaren telefons |
US5933804A (en) * | 1997-04-10 | 1999-08-03 | Microsoft Corporation | Extensible speech recognition system that provides a user with audio feedback |
DE19824450C2 (de) * | 1998-05-30 | 2001-05-31 | Grundig Ag | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
DE19839466A1 (de) | 1998-08-29 | 2000-03-09 | Volkswagen Ag | Verfahren und Steuereinrichtung zur Bedienung technischer Einrichtungen eines Fahrzeugs |
US7257426B1 (en) * | 1999-05-26 | 2007-08-14 | Johnson Controls Technology Company | Wireless communications systems and method |
US7346374B2 (en) | 1999-05-26 | 2008-03-18 | Johnson Controls Technology Company | Wireless communications system and method |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
GB2365188B (en) | 2000-07-20 | 2004-10-20 | Canon Kk | Method for entering characters |
US6556971B1 (en) | 2000-09-01 | 2003-04-29 | Snap-On Technologies, Inc. | Computer-implemented speech recognition system training |
EP1448090A4 (de) | 2001-11-01 | 2010-07-14 | Scott Lab Inc | Anwenderschnittstelle für sedierungs- und analgesie-systeme und verfahren |
US6688652B2 (en) * | 2001-12-12 | 2004-02-10 | U.S. Pipe And Foundry Company | Locking device and method for securing telescoped pipe |
US7324942B1 (en) | 2002-01-29 | 2008-01-29 | Microstrategy, Incorporated | System and method for interactive voice services using markup language with N-best filter element |
US6882974B2 (en) * | 2002-02-15 | 2005-04-19 | Sap Aktiengesellschaft | Voice-control for a user interface |
KR100552693B1 (ko) * | 2003-10-25 | 2006-02-20 | 삼성전자주식회사 | 피치검출방법 및 장치 |
US8788271B2 (en) * | 2004-12-22 | 2014-07-22 | Sap Aktiengesellschaft | Controlling user interfaces with contextual voice commands |
US7409344B2 (en) * | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
WO2009082378A2 (en) | 2006-10-11 | 2009-07-02 | Johnson Controls Technology Company | Wireless network selection |
EP2199877B1 (de) * | 2008-11-05 | 2011-07-27 | The Swatch Group Research and Development Ltd. | Armbanduhr mit eingebautem Mikrophon im Uhrgehäuse |
US8577671B1 (en) | 2012-07-20 | 2013-11-05 | Veveo, Inc. | Method of and system for using conversation state information in a conversational interaction system |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
DK2994908T3 (da) * | 2013-05-07 | 2019-09-23 | Veveo Inc | Grænseflade til inkrementel taleinput med realtidsfeedback |
WO2014183035A1 (en) | 2013-05-10 | 2014-11-13 | Veveo, Inc. | Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system |
US9852136B2 (en) | 2014-12-23 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for determining whether a negation statement applies to a current or past query |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
US3812291A (en) * | 1972-06-19 | 1974-05-21 | Scope Inc | Signal pattern encoder and classifier |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4394539A (en) * | 1981-03-24 | 1983-07-19 | Chu Tsan Chen | Timepiece with automatic time setting system thru dial telephone line and automatic speed adjusting system |
-
1981
- 1981-05-15 CH CH3179/81A patent/CH644246B/fr unknown
-
1982
- 1982-05-03 US US06/374,019 patent/US4509133A/en not_active Expired - Fee Related
- 1982-05-05 DE DE19823216800 patent/DE3216800A1/de active Granted
- 1982-05-13 GB GB8214001A patent/GB2098773B/en not_active Expired
- 1982-05-13 FR FR8208539A patent/FR2510794A1/fr active Granted
- 1982-05-14 JP JP57080306A patent/JPS57198500A/ja active Granted
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3812291A (en) * | 1972-06-19 | 1974-05-21 | Scope Inc | Signal pattern encoder and classifier |
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
Non-Patent Citations (3)
Title |
---|
CLAPPER, G.L., Spoken Word Recognizer, In: IBM Technical Disclosure Bulletin, Vol. 13, 1970, No. 7, S. 1944, 1945 * |
MILLER, I.C. ET AL, An Adaptive Speech Recognition System Operating in a Remote Time-Shared Computer Environment, In: IEEE Transactions on Audio and Electroacoustics, Vol. AU-18, 1970, No. 1, S. 26-31 * |
RUSKE, GÜNTER, Maschinen verstehen gesprochene Sprache, In: Umschau, 1979, H. 18, S. 566-572 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0119589A2 (de) * | 1983-03-17 | 1984-09-26 | Alcatel N.V. | Bedienungseinrichtung für ein Teilnehmergerät eines Informationssystems |
EP0119589A3 (de) * | 1983-03-17 | 1985-03-06 | Alcatel N.V. | Bedienungseinrichtung für ein Teilnehmergerät eines Informationssystems |
DE3515881A1 (de) * | 1985-05-03 | 1986-11-06 | Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt | Verfahren zum synchronen sortieren von digitalen wertgroessen |
US5347612A (en) * | 1986-07-30 | 1994-09-13 | Ricoh Company, Ltd. | Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns |
US5091947A (en) * | 1987-06-04 | 1992-02-25 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
US5040213A (en) * | 1989-01-27 | 1991-08-13 | Ricoh Company, Ltd. | Method of renewing reference pattern stored in dictionary |
DE4010028A1 (de) * | 1989-04-12 | 1990-10-18 | Smiths Industries Plc | Spracherkennungsverfahren |
DE4010028C2 (de) * | 1989-04-12 | 2003-03-20 | Smiths Group Plc London | Spracherkennungsverfahren |
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
US5231691A (en) * | 1989-10-06 | 1993-07-27 | Ricoh Company, Ltd. | Speech recognition system including interrupt scheme that avoids operational and interfacing conflicts |
DE4109785A1 (de) * | 1990-03-26 | 1991-10-02 | Ricoh Kk | Standardmuster-vergleichssystem |
US5355433A (en) * | 1990-03-26 | 1994-10-11 | Ricoh Company, Ltd. | Standard pattern comparing system for eliminating duplicative data entries for different applications program dictionaries, especially suitable for use in voice recognition systems |
DE19754383A1 (de) * | 1997-12-08 | 1999-06-10 | Siemens Ag | Verfahren und Vorrichtung zur Verarbeitung gesprochener Sprache |
Also Published As
Publication number | Publication date |
---|---|
GB2098773B (en) | 1985-02-06 |
CH644246B (fr) | 1900-01-01 |
JPH0221599B2 (de) | 1990-05-15 |
CH644246GA3 (de) | 1984-07-31 |
GB2098773A (en) | 1982-11-24 |
DE3216800C2 (de) | 1988-03-10 |
FR2510794B1 (de) | 1984-12-28 |
US4509133A (en) | 1985-04-02 |
FR2510794A1 (fr) | 1983-02-04 |
JPS57198500A (en) | 1982-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3216800A1 (de) | Anordnung zur eingabe von befehlsworten durch sprache | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
EP0299572B1 (de) | Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern | |
DE3600762C2 (de) | Arbeitsverfahren für ein Dialogsystem sowie Dialogsystem zum Durchführen des Verfahrens | |
DE3244476C2 (de) | ||
DE69519328T2 (de) | Verfahren und Anordnung für die Umwandlung von Sprache in Text | |
DE69818930T2 (de) | Verfahren zur Ausrichtung von Text an Audiosignalen | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE3211313C2 (de) | ||
DE3645118C2 (de) | ||
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
EP1139333A2 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
EP1927980A2 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2659083A1 (de) | Verfahren und vorrichtung zur sprechererkennung | |
WO1999059141A1 (de) | Verfahren und anordnung zur einführung zeitlicher abhängigkeit in hidden-markov-modellen für die spracherkennung | |
DE69636731T2 (de) | System und Verfahren zur Aufnahme von Namen in einer Spracherkennungsdatenbank | |
DE3853702T2 (de) | Spracherkennung. | |
DE10216117A1 (de) | Verfahren und System zur Spracherkennung von Symbolfolgen | |
EP0677835B1 (de) | Verfahren zum Ermitteln einer Folge von Wörtern | |
EP1659572A1 (de) | Verfahren zur Dialogsteuerung und danach arbeitendes Dialogsystem | |
DE102008024257A1 (de) | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |