-
Die
Erfindung bezieht sich auf eine Spracherkennungseinrichtung gemäß dem Oberbegriff von
Anspruch 1 und auch auf ein Spracherkennungsverfahren gemäß dem Oberbegriff
von Anspruch 3.
-
Spracherkennungseinrichtungen
werden heutzutage allgemein verwendet, und daher sind ein paar Lösungen zum
Anpassen einer solchen Einrichtung an die Aussprache des Benutzers
nach dem Stand der Technik bekannt.
-
Das „Speech-to-text
dictation system with audio message capability" des US-Patents 5.857.099, vom 15. Januar
1999, offenbart beispielsweise ein „Sprache in Text"-Diktatsystem, bei
dem erkannte Wörter
oder Zeichen zusammen mit den entsprechenden Audiodaten gespeichert
werden. Darüber
hinaus werden Verbindungsdaten gebildet, um die Position der Wörter oder
Zeichen in der Datei und die Position der entsprechenden Audiokomponente in
den Audiodaten miteinander zu verbinden. Daher können die erkannten Wörter oder
Zeichen ohne Verlust der Audiodaten verarbeitet werden, beispielsweise
wenn das Spracherkennungsmodell aktualisiert wird. In diesem Fall
kann der Bediener eine bestimmte Textpassage für diese Aktualisierung wählen.
-
EP 0 773 532 , „Continuous
speech recognition",
14. Mai 1997, schlägt
darüber
hinaus ein Verfahren zur Verwendung bei der Erkennung von Sprache vor,
bei dem Signale akzeptiert werden, die eingefügten Sprachelementen entsprechen,
die Textelemente, die zu erkennendem Text entsprechen, und auszuführende Kommandoelemente
enthalten. Abwandlungsprozeduren werden in Reaktion auf erkannte, zuvor
bestimmte Kommandoelemente ausgeführt. Die Abwandlungsprozeduren
enthalten das Absehen vom Trainieren von Sprachmodellen, wenn die
Abwandlungsprozeduren keinen Spracherkennungsfehler korrigieren.
Bei einem anderen Aspekt enthalten die Abwandlungsprozeduren gleichzeitig
das Abwandeln von zuvor erkannten Textelementen.
-
Zusätzlich offenbart „On-Line
Distinction between Text Editing and Speech Recognition Adaption", IBM Technical Disclosure
Bulletin, IBM Cooperation New York, Bd. 37, Nr. 10, 1. Oktober 1994,
S. 403, ein Merkmal für
ein Diktatsystem, das einem Be nutzer die Möglichkeit gibt, den erkannten
Text zu ändern
und anzugeben, welche Änderungen
auf einer Fehlinterpretation beruhen und welche Änderungen nicht auf einer Fehlinterpretation
beruhen. Hierfür bietet
das System dem Benutzer eine Nachricht der Art an: „Von jetzt
an, wenn Sie sagen xxx, wird yyy geschrieben, OK?" Der Benutzer kann
dann entscheiden, ob er die vorgeschlagene Systemanpassung wünscht oder
nicht.
-
Außerdem offenbart „Distinction
at Exit between Text Editing and Speech Recognition Adaptation", IBM Technical Disclosure
Bulletin, IBM Cooperation New York, Bd. 37, Nr. 10, 1. Oktober 1994,
S. 391, ein Merkmal für
ein Diktatsystem, das es dem System erlaubt, sich an die Sprache
eines individuellen Benutzers anzupassen. Hierzu wird erwartet, dass
der Benutzer mit der Hand geänderte
oder eingefügte
Wörter
am Endpunkt eines Vorgangs ausspricht. Da dieser Prozess zeitlich
von dem Prozess des Diktierens von Text getrennt ist, ist es für den Benutzer
einfach, den Unterschied zwischen der Änderung des laufenden Textes
und der Änderung
der Weise, in der das Spracherkennungsmerkmal zukünftiges
Diktieren erkennt, zu verstehen und anzuwenden.
-
Schließlich offenbart „Addword
through correction of recognition Errors", IBM Technical Disclosure Bulletin,
IBM Cooperation New York, Bd. 35, Nr. 1A, 1. Juni 1994, S. 226–227, ein
Verfahren zum Zufügen
neuer Wörter
zu dem Diktatsystem, wobei Erkennungsfehler während des Diktierens korrigiert werden.
Daher braucht der Benutzer zusätzliche Wörter für das System
nicht zuvor zu definieren. Wenn das System einen Fehler macht, korrigiert
der Benutzer einfach den Fehler.
-
Eine
weitere Spracherkennungseinrichtung und ein solches Spracherkennungsverfahren
sind auch aus
US 5.031.113 bekannt.
Die bekannte Spracherkennungseinrichtung weist Empfangsmittel auf, die
durch ein Mikrofon und einen Audiospeicher zum Empfangen und Speichern
einer von einem Sprecher bei einem Diktat gesprochenen Sprachinformation gebildet
sind.
-
Die
bekannte Spracherkennungseinrichtung weist weiterhin Sprachkoeffizienten-Speichermittel auf,
in denen ein Sprachkoeffizienten-Indikator gespeichert ist, der
bei der Abarbeitung des Spracherkennungsverfahrens benötigt wird.
Ein solcher Sprachkoeffizienten-Indikator beinhaltet Wortschatz-Information,
Sprachmodell-Information und Phonemreferenz-Information. Die Wortschatz-Information
enthält
sämtliche
von der Spracherkennungseinrichtung erkennbaren Wörter, die
Sprachmodell-Information enthält
Wahrscheinlichkeiten für
die Abfolge der Wörter
der Wortschatz-Information in einer Sprachinformation und die Phonemreferenz-Information
enthält
Informationen, wie ein Wortteil (Phonem) von einem Sprecher ausgesprochen
wird.
-
Die
bekannte Spracherkennungseinrichtung weist weiterhin Spracherkennungsmittel
auf, die bei der Abarbeitung des Spracherkennungsverfahrens durch
Auswertung des in den Sprachkoeffizienten-Speichermitteln gespeicherten
Sprachkoeffizienten-Indikators
zum Erkennen einer der empfangenen Sprachinformation entsprechenden
Textinformation und zum Abgeben dieser Textinformation als erkannte
Textinformation ausgebildet sind. Die erkannte Textinformation wird
mit einem Monitor dargestellt.
-
Ein
Textverarbeitungsprogramm und eine Tastatur bilden Korrekturmittel,
mit denen eine mit dem Monitor dargestellte erkannte Textinformation korrigiert
und als korrigierte Textinformation erneut mit dem Monitor dargestellt
werden kann. Hierbei werden von einem Benutzer üblicherweise einerseits bei
dem Spracherkennungsvorgang falsch erkannte Wörter der erkannten Textinformation
durch die eigentlich gesprochenen Wörter ersetzt und andererseits
auch andere Korrekturen durchgeführt.
Solche anderen Korrekturen können
beispielsweise das Einfügen
eines Standard-Textabschnitts, wie beispielsweise eine Adresse,
das Einfügen
von bei dem Diktat vergessenen Textabschnitte oder das Ersetzten
eines Textteils der erkannten Textinformation durch eine mit der
Tastatur eingegebene Textinformation sein.
-
Die
bekannte Spracherkennungseinrichtung weist Anpassungsmittel zum
Anpassen des Sprachkoeffizienten-Indikators auf, um durch eine bessere Anpassung
an den Sprecher und die Sprache bei einem darauffolgenden Spracherkennungsvorgang
zuvor falsch erkannte Wörter
nunmehr richtig zu erkennen. Zur Anpassung der Wortschatz-Information und der
Sprachmodell-Information wird die korrigierte Textinformation und
zur Anpassung der Phonemreferenz-Information zusätzlich auch die in dem Audiospeicher
gespeicherte Sprachinformation ausgewertet, um einen angepaßten Sprachkoeffizienten-Indikator zu erhalten
und in den Sprachkoeffizienten-Speichermitteln zu speichern.
-
Bei
der bekannten Spracherkennungseinrichtung und bei dem bekannten
Spracherkennungsverfahren hat sich als Nachteil erwiesen, daß eine für die Anpassung
des Sprachkoeffizienten-Indikators verwendete korrigierte Textinformation
auch Textteile enthält,
die mit der Sprachinformation überhaupt
keinen Zusammenhang haben. Wenn solche Textteile zum Anpassen des
Sprachkoeffizienten-Indikators verwendet werden, dann kann es vorkommen,
daß der
Sprachkoeffizienten-Indikator nach dem Anpassen nicht besser, sondern
schlechter an einen Sprecher und die Sprache angepaßt ist.
-
Die
Erfindung hat sich zur Aufgabe gestellt, eine Spracherkennungseinrichtung
und ein Spracherkennungsverfahren zu schaffen, bei der bzw. bei dem
nur eine korrigierte Textinformation zur Anpassung des Sprachkoeffizienten-Indikators
verwendet wird, die einen ausreichenden Zusammenhang mit der empfangenen
Sprachinformation aufweist. Diese Aufgabenstellung wird bei einer
Spracherkennungseinrichtung gemäß dem Oberbegriff
von Anspruch 1 durch die Maßnahmen
des kennzeichnenden Teils von Anspruch 1 und bei einem Spracherkennungsverfahren
gemäß dem Oberbegriff
von Anspruch 3 durch die Maßnahmen
des kennzeichnenden Teils von Anspruch 3 gelöst.
-
Hierdurch
wird erreicht, daß vor
dem Anpassen des Sprachkoeffizienten-Indikators geprüft wird, ob die korrigierte
Textinformation Textwörter
enthält, die
sehr stark korrigiert oder gar vollständig neu eingefügt wurden,
und daß solche
Textwörter
nicht zum Anpassen des Sprachkoeffizienten-Indikators verwendet
werden. Vorteilhafterweise ist daher nach jedem Anpassen des Sprachkoeffizienten-Indikators die
Erkennungsrate der Spracherkennungseinrichtung und des Spracherkennungsverfahrens
wesentlich verbessert und alle in dem Sprachkoeffizienten-Indikator
enthaltene Information ist sehr gut angepaßt.
-
Gemäß den Maßnahmen
von Anspruch 2 und Anspruch 4 werden Textwörter der erkannten Textinformation,
die einen ausreichenden Zusammenhang mit der empfangenen Sprachinformation oder
der erkannten Textinformation aufweisen, zu Abfolgen von Textwörtern aneinander
gereiht. Es wird die Abfolge der Textwörter der erkannten Textinformation
zum Anpassen verwendet, die den größten Summen-Übereinstimmungswert
aufweist. Dies bietet den der Vorteil, daß auch ein zwischen Textwörtern mit
einem hohen Übereinstimmungsindikator aufgenommenes
Textwort zum Anpassen verwendet wird und somit die Erkennungsrate
der Spracherkennungseinrichtung und des Spracherkennungsverfahrens
bei jedem Anpassen des Sprachkoeffizienten-Indikators (im weiteren
als Sprachkoeffizienten-Information bezeichnet) weiter verbessert
wird.
-
Die
Erfindung wird im Folgenden anhand von drei Anwendungsbeispielen
eines in den Figuren dargestellten Ausführungsbeispiels beschrieben,
auf das die Erfindung aber nicht beschränkt ist.
-
1 zeigt
eine Spracherkennungseinrichtung in Form eines Blockschaltbilds,
an die eine in einer Hand haltbare Eingabeeinrichtung und eine mit einem
Fuß betätigbare
Eingabeeinrichtung angeschlossen sind und die Textvergleichsmittel,
zum Vergleichen einer erkannten Textinformation mit einer korrigierten
Textinformation, und die Transfermittel, zum Importieren und Exportieren
einer Sprachkoeffizienten-Information, aufweist.
-
2 zeigt
die in der Hand haltbare Eingabeeinrichtung gemäß 1 in Form
eines Blockschaltbilds, welche Eingabeeinrichtung Audio-Verarbeitungsmittel
zum Verarbeiten eines analogen Audiosignals und zum Abgeben digitaler
Audiodaten aufweist.
-
3 zeigt
die mit einem Fuß betätigbare Eingabeeinrichtung
gemäß 1 in
Form eines Blockschaltbilds, an die ein Kopfhörer anschließbar ist
und die einen eingebauten Lautsprecher aufweist.
-
4 zeigt
eine von den Textvergleichsmitteln der Spracherkennungseinrichtung
erstellte Anpassungstabelle, in der eine erkannte Textinformation
und eine korrigierte Textinformation eingetragen sind.
-
1 zeigt
einen Computer 1, mit dem ein Spracherkennungsprogramm
gemäß einem
Spracherkennungsverfahren abgearbeitet wird, wobei der Computer 1 eine
Diktiereinrichtung mit nachgeschalteter Spracherkennungseinrichtung
bildet.
-
An
den Computer 1 ist ein Diktiermikrofon 2, das
eine in einer Hand haltbare Eingabeeinrichtung bildet, ein Fußschalter 3,
der eine mit einem Fuß betätigbare
Eingabeeinrichtung bildet, ein Monitor 4 und eine Tastatur 5 angeschlossen.
In 2 ist das Diktiermikrofon 2 in Form eines
Blockschaltbilds detaillierter dargestellt.
-
Das
Diktiermikrofon 2 weist ein Mikrofon 6 auf, das
Audio-Empfangsmittel bildet und zum Empfangen einer von einem Benutzer
in das Mikrofon 6 gesprochenen Sprachinformation und zum
Abgeben eines ersten analogen Audiosignals AS1 ausgebildet ist.
Das Diktiermikrofon 2 weist weiterhin Audio-Verarbeitungsmittel 7 auf,
die zum Verarbeiten des ersten analogen Audiosignals AS1 und zum
Abgeben digitaler Audiodaten als Audioinformation AI ausgebildet
sind.
-
Die
Audio-Verarbeitungsmittel 7 weisen eine erste Verstärkerstufe 8,
eine A/D-Wandlerstufe 9, eine zweite Verstärkerstufe 10 und
eine D/A-Wandlerstufe 11 auf. Das erste analoge Audiosignal
AS1 ist der ersten Verstärkerstufe 8 und
das verstärkte erste
analoge Audiosignal ist der A/D-Wandlerstufe 9 zuführbar. Die
A/D-Wandlerstufe 9 ist zum Abtasten des verstärkten analogen
Audiosignals mit einer Abtastfrequenz von 16 kHz und zum Abgeben
von Abtastwerten in digitalen Audiodaten ausgebildet, die Datenblöcke mit
16 Bit aufweisen und als Audioinformation AI an USB-Anschlußmittel 12 abgebbar
sind.
-
Dies
bietet den Vorteil, daß das
erste analoge Audiosignal AS1 gleich in dem Diktiermikrofon digitalisiert
wird daß die
Verstärkerstufe 8 bereits
bei der Herstellung des Diktiermikrofons 2 an die maximale
Ausgangsspannung des Mikrofons 6 angepaßt werden kann. Es geht somit
keine Sprachinformation durch ein Übersteuern der Verstärkerstufe 8 verloren, weshalb
die digitale Audiodaten enthaltende Audioinformation AI eine gute
Qualität
aufweist.
-
Von
den USB-Anschlußmitteln 12 ist
eine digitale Audiodaten enthaltende Audioinformation AI an die
D/A-Wandlerstufe 11 der Audio-Verarbeitungsmittel 7 abgebbar.
Von der D/A-Wandlerstufe 11 ist ein den digitalen Audiodaten
entsprechendes analoges Audiosignal an die zweite Verstärkerstufe 10 abgebbar.
Ein von der zweiten Verstärkerstufe 10 abgegebenes
zweites analoges Audiosignal AS2 ist an einen Lautsprecher 13 zur
akustischen Wiedergabe abgebbar.
-
Das
Diktiermikrofon 2 weist weiterhin Eingabemittel 14 zum
manuellen Eingeben einer Steuerinformation SI auf, welche Eingabemittel
eine Tastatur 15, einen Trackball 16 und Eingabe-Verarbeitungsmittel 17 enthalten.
Die Tastatur 15 weist unter anderem eine Aufnahme-Taste
(Record-Taste) 18, eine Stop-Taste 19, eine Vorlauf-Taste 20 und
eine Rücklauf-Taste 21 auf.
Von der Tastatur 15 ist eine Tasteninformation TSI an die
Eingabe-Verarbeitungsmittel 17 abgebbar.
-
Der
Trackball 16 ist durch eine in einer Öffnung des Diktiermikrofons 2 eingelegte
Kugel gebildet, die von einem Benutzer gedreht werden kann, um beispielsweise
einen mit dem Monitor 4 dargestellten Cursor zu positionieren.
Von dem Trackball 16 ist eine Trackballinformation TBI
an die Eingabe-Verarbeitungsmittel 17 abgebbar. Die Eingabe-Verarbeitungsmittel 17 sind
zum Verarbeiten der an sie abgegebenen Tasteninformation TSI und Trackballinformation
TBI und zum Abgeben einer entsprechenden Steuerinformation SI an
die USB-Anschlußmittel 12 ausgebildet.
-
Von
den USB-Anschlußmitteln 12 ist
eine Versorgungsspannung U sowohl an die Audio-Verarbeitungsmittel 7 als
auch an die Eingabemittel 14 zur Versorgung der in den
Audio-Verarbeitungsmitteln 7 und den Eingabemitteln 14 enthaltenen
Stufen abgebbar. Dies bietet den Vorteil, daß das Diktiermikrofon 2 sowohl
Informationen als auch die Versorgungsspannung U der Stufen des
Diktiermikrofons 2 über
nur eine einzige Kabelverbindung erhält.
-
Die
USB-Anschlußmittel 12 sind über einen ersten
Anschluß 22 des
Diktiermikrofons 2 mit USB-Anschlußmitteln 23 des Computers 1 verbunden.
Die USB- Anschlußmittel 12 des
Diktiermikrofons 2 sind zum Aufbau einer digitalen Datenbusverbindung
und hierbei vorteilhafterweise zum Aufbau einer USB-Datenbusverbindung
(Universal Serial Bus: Specification Version 1.0 on January 15 and Version
2.0) mit den USB-Anschlußmitteln 23 des Computers 1 ausgebildet.
-
Bei
einer USB-Datenbusverbindung werden den an das USB-Anschlußmittel 12 oder 23 abgegebenen
Audiodaten der Audioinformation AI oder Steuerdaten der Steuerinformation
SI Fehlerkorrekturcodes angehängt
und diese gemeinsam als Übertragungsdaten
UD an das USB-Anschlußmittel 23 oder 12 übertragen.
Das USB-Anschlußmittel 12 oder 23,
von dem die Übertragungsdaten
UD empfangen wurden, ist zum Auswerten der Fehlerkorrekturcodes
und zum Korrigieren gegebenenfalls bei der Übertragung aufgetretener Fehler
in den Audiodaten oder den Steuerdaten ausgebildet. Bei einer USB-Datenbusverbindung
werden Steuerdaten einer Steuerinformation SI mit einer Datenübertragungsrate
von 1,5 MBps und Audiodaten einer Audioinformation AI mit einer
Datenübertragungsrate
von 12 MBps übertragen.
-
In 3 ist
der in 1 dargestellte Fußschalter 3 in Form
eines Blockschaltbildes detailliert dargestellt. Der Fußschalter 3 weist
Fußeingabemittel 24 zum
manuellen Eingeben einer Steuerinformation SI auf. Die Fußeingabemittel 24 enthalten
einen Audiowiedergabe-Schalter 25, einen Stop-Schalter 26 und
Eingabe-Verarbeitungsmittel 27. Eine von dem Audiowiedergabe-Schalter 25 oder
dem Stop-Schalter 26 abgegebene Schaltinformation SCI ist
an die Eingabe-Verarbeitungsmittel 27 abgebbar. Die Eingabe-Verarbeitungsmittel 27 sind
zum Verarbeiten der an sie abgegebenen Schaltinformation SCI und
zum Abgeben einer entsprechenden Steuerinformation SI an USB-Anschlußmittel 28 des
Fußschalters 3 ausgebildet.
-
Der
Fußschalter 3 weist
weiterhin Audio-Verarbeitungsmittel 29 auf, die eine D/A-Wandlerstufe 30 und
eine dritte Verstärkerstufe 31 enthalten.
Eine Audiodaten enthaltene Audioinformation AI ist von den USB-Anschlußmitteln 28 an
die D/A-Wandlerstufe 30 abgebbar, welche ein den Audiodaten entsprechendes
analoges Audiosignal an die dritte Verstärkerstufe 31 abgibt.
Ein von der dritten Verstärkerstufe 31 abgegebenes
drittes analoges Audiosignal AS3 ist sowohl an einen in dem Fußschalter 3 vorgesehenen
Lautsprecher 32 als auch an einen zweiten Anschluß 33 abgebbar.
An den zweiten Anschluß 33 ist ein
Kopfhörer 34 angeschlossen.
Mit dem Lautsprecher 32 und dem Kopfhörer 34 ist eine akustische Wiedergabe
einer Sprachinformation ermöglicht,
worauf nachfolgend noch näher
eingegangen werden soll.
-
Durch
das Vorsehen der Audio-Verarbeitungsmittel 29 in dem Fußschalter 3 wird
der Vorteil erhalten, daß der
Kopfhörer 34 oder
ein Lautsprecher direkt an den Fußschalter 3 angeschlossen
werden kann. Hierdurch braucht der Computer 1, der auch eine
Diktiereinrichtung bildet, keine Sound-Karte mit Audio-Verarbeitungsmitteln
aufzuweisen.
-
Die
USB-Anschlußmittel 28 des
Fußschalters 3 entsprechen
den USB-Anschlußmitteln 12 und 23.
Von den USB-Anschlußmitteln 28 ist
eine Versorgungsspannung U sowohl an die Eingabe-Verarbeitungsmittel 24 als
auch an die Audio-Verarbeitungsmittel 29 zur Versorgung
der in den Eingabe-Verarbeitungsmitteln 24 und den Audio-Verarbeitungsmitteln 29 enthaltenen
Stufen abgebbar. Dies bietet den Vorteil, daß der Fußschalter 3 sowohl
Informationen als auch die Versorgungsspannung U über nur
eine Kabelverbindung erhält.
-
Die
USB-Anschlußmittel 28 des
Fußschalters 3 sind über einen
dritten Anschluß 35 an
die USB-Anschlußmitteln 23 des
Computers 1 angeschlossen. Der Computer 1 weist
Empfangsmittel 36 auf, die die USB-Anschlußmittel 23 und
Audio-Speichermittel 37 enthalten und die zum Empfangen
einer von einem Sprecher gesprochenen Sprachinformation ausgebildet
sind. Hierbei ist eine von einem Sprecher in das Mikrofon 6 des
Diktiermikrofons 2 gesprochene Sprachinformation als durch
digitale Audiodaten gebildete Audioinformation AI von den USB-Anschlußmitteln 12 an
die USB-Anschlußmittel 23 übertragbar
und von den USB-Anschlußmitteln 23 an
die Audio-Speichermittel 37 zur Speicherung der Audioinformation
AI abgebbar. Eine von den USB-Anschlußmitteln 12 des Diktiermikrofons 2 oder
von den USB-Anschlußmitteln 28 des
Fußschalters 3 an
die USB-Anschlußmittel 23 des
Computers 1 abgegebene Steuerinformation SI ist von den
USB-Anschlußmitteln 23 empfangbar
und an weitere Mittel des Computers 1 abgebbar, worauf
nachfolgend noch näher
eingegangen werden soll.
-
Die
durch den Computer 1 gebildete Spracherkennungseinrichtung
weist Sprachkoeffizienten-Speichermittel 38 auf, die zum
Speichern einer Sprachkoeffizienten-Information SKI ausgebildet sind. Die
Sprachkoeffizienten-Information SKI enthält eine Sprachmodell-Information
SMI, eine Wortschatz-Information WI und eine Phonemreferenz-Information
PRI.
-
Die
Wortschatz-Information WI ist in Wortschatz-Speichermitteln 39 gespeichert
und enthält sämtliche
von der Spracherkennungseinrichtung in einer Sprachinformation erkennbaren
Wörter
sowie einen Häufigkeitszähler je
Wort, der die Auftrittswahrscheinlichkeit des Worts in einer Sprachinformation angibt.
Die Sprachmodell- Information
SMI ist in Sprachmodell-Speichermitteln 40 gespeichert
und enthält
Wortfolgen sowie einen Häufigkeitszähler je Wortfolge,
der die Auftrittswahrscheinlichkeiten dieser Wortfolge in einer
Sprachinformation angibt. Die Phonemreferenz-Information PRI ist
in Phonemreferenz-Speichermitteln 41 gespeichert und ermöglicht ein
Anpassen der Spracherkennungseinrichtung an Eigenarten der Aussprache
eines Sprechers.
-
Die
Spracherkennungseinrichtung weist weiterhin Spracherkennungsmittel 42 auf.
Von den USB-Anschlußmitteln 23 ist
eine Steuerinformation SI zur Aktivierung einer Spracherkennungs-Betriebsart
zur Abarbeitung eines Spracherkennungsverfahrens an die Spracherkennungsmittel 42 abgebbar. Die
Spracherkennungsmittel 42 sind bei aktivierter Spracherkennungs-Betriebsart
zum Auslesen einer in den Audio-Speichermitteln 37 gespeicherten
Audioinformation AI und zum Auslesen einer in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten
Sprachkoeffizienten-Information SKI ausgebildet.
-
Die
Spracherkennungsmittel 42 sind bei der Abarbeitung des
Spracherkennungsverfahrens zum Auswerten der Audioinformation AI
und der Sprachkoeffizienten-Information
SKI ausgebildet. Hierbei ermitteln die Spracherkennungsmittel 42 zu
jedem Teil der Audioinformation AI mehrere mögliche Wortfolgen, die gegebenenfalls
dem jeweiligen Teil der Audioinformation AI entsprechen, und geben
diese möglichen
Wortfolgen für
alle Teile der Audioinformation AI als mögliche Textinformation PTI
ab. Die mögliche Textinformation
PTI enthält
also beispielsweise 20 mögliche
Wortfolgen für
die Audioinformation AI. Weiterhin ermitteln die Spracherkennungsmittel 42 – bei der
Abarbeitung des Spracherkennungsverfahrens – die jeweils wahrscheinlichste
Wortfolge für
jeden Teil der Audioinformation AI und geben diese ermittelten wahrscheinlichsten
Wortfolgen der gesamten Audioinformation AI als erkannte Textinformation RTI
ab.
-
Die
Spracherkennungseinrichtung weist Text-Speichermittel 43 zum
Speichern von Textinformationen auf. Die Text-Speichermittel 43 enthalten Möglicher-Text-Speichermittel 44,
Erkannter-Text-Speichermittel 45, Korrigierter-Text-Speichermittel 46 sowie
Trainings-Text-Speichermittel 47. Eine von den Spracherkennungsmitteln 42 bei
der Abarbeitung des Spracherkennungsverfahrens abgegebene mögliche Textinformation
PTI ist in den Möglicher-Text-Speichermittel 44 und
erkannte Textinformation RTI ist in den Erkannter-Text-Speichermittel 45 speicherbar.
-
Der
Computer 1 ist weiterhin zum Abarbeiten eines Textverarbeitungsprogramms – wie beispielsweise „Word for
Windows95" – ausgebildet
und bildet hierbei Textverarbeitungsmittel 48. Eine von
den Spracherkennungsmitteln 42 bei der Abarbeitung des
Spracherkennungsverfahrens erzeugte erkannte Textinformation RTI
ist an die Textverarbeitungsmittel 48 abgebbar. Die Textverarbeitungsmittel 48 sind dann
zum Abgeben einer die erkannte Textinformation RTI enthaltenden
Bildinformation PI an den Monitor 4 ausgebildet.
-
Mit
den Eingabemitteln 14 des Diktiermikrofons 2 ist
eine Steuerinformation SI eingebbar, die an die Spracherkennungsmittel 42 und
die Textverarbeitungsmittel 48 abgebbar ist und die eine
Korrektur-Betriebsart der Spracherkennungseinrichtung aktiviert.
Die Textverarbeitungsmittel 48, der Monitor 4 und
die Tastatur 5 bilden hierbei Korrekturmittel 49. Bei
aktivierter Korrektur-Betriebsart kann ein Benutzer mit der Tastatur 5 die
erkannte Textinformation RTI korrigieren und eine korrigierte Textinformation CTI
in den Korrigierter-Text-Speichermitteln 46 speichern,
worauf nachfolgend noch näher
eingegangen werden soll.
-
In
den Trainings-Text-Speichermitteln 47 ist eine Trainingstextinformation
TTI gespeichert, die typische Wörter
und Redewendungen bzw. Wortfolgen eines bestimmten Bereichs (Geschäftsbriefe;
Fachgebiet: Radiologie; Fachgebiet: Recht...) enthält. Mit den
Eingabemitteln 14 des Diktiermikrofons 2 ist eine Steuerinformation
SI eingebbar, die an die Spracherkennungsmittel 42 und
die Textverarbeitungsmittel 48 abgebbar ist und die eine
Initialtraining-Betriebsart der Spracherkennungseinrichtung aktiviert.
-
Bei
aktivierter Initialtraining-Betriebsart sind die Textverarbeitungmittel 47 zum
Auslesen der Trainingstextinformation TTI aus den Trainingstext-Speichermitteln 47 und
zum Abgeben einer entsprechenden Bildinformation PI an den Monitor 4 ausgebildet. Von
einem Benutzer kann hierauf der mit dem Monitor 4 angezeigte
Trainingstext in das Mikrofon 6 gesprochen werden, um die
Spracherkennungseinrichtung an die Art der Aussprache des Benutzers
anzupassen.
-
Die
Spracherkennungseinrichtung weist Anpassungsmittel 50 auf,
um die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte
Sprachkoeffizienten-Information SKI sowohl an die An der Aussprache
des Benutzers als auch an von dem Benutzer üblicherweise verwendete Wörter und
Wortfolgen anzupassen. Die Text-Speichermittel 43, die
Korrekturmittel 49, und die Anpassungsmittel 50 bilden
hierbei Trainingsmittel 51. Ein solches Anpassen der Sprachkoeffizienten-Information
SKI erfolgt bei aktivierter Initialtraining-Betriebsart, bei der
die von dem Benutzer vorgelesene Trainingstextinformaion TTI bekannt
ist.
-
Ein
solches Anpassen erfolgt aber auch bei einer Anpassungs-Betriebsart,
bei der eine einer Sprachinformation entsprechende Textinformation als
erkannte Textinformation RTI erkannt und von dem Benutzer in eine
korrigierte Textinformation CTI korrigiert wurde. Hierfür weisen
die Trainingsmittel 51 Textvergleichsmittel 52 auf,
die zum Vergleichen der erkannten Textinformation RTI mit der korrigierten Textinformation
CTI und zum Ermitteln zumindest eines Übereinstimmungsindikators CI
ausgebildet sind. In den Textvergleichsmitteln 52 wird
bei aktivierter Anpassungs-Betriebsart eine in 4 dargestellte
Anpassungstabelle 53 erstellt, worauf nachfolgend noch
näher eingegangen
werden soll.
-
Von
den Anpassungsmitteln 50 ist als Ergebnis der Anpassung
eine Anpassungsinformation NI an die Sprachkoeffizienten-Speichermittel 38 abgebbar,
mit der die gespeicherte Sprachkoeffizienten-Information SKI angepaßt wird.
Von den Anpassungsmitteln 50 der Trainingsmittel 51 ist
weiterhin ein Trainingsindikator TI abgebbar, der das Ausmaß der Anpassung
der in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten
Sprachkoeffizienten-Information SKI angibt. Der Trainingsindikator
TI enthält
eine Information, wie oft und mit welcher Anzahl von Wörtern die
in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte
Sprachkoeffizienten-Information SKI bereits an einen Benutzer angepaßt wurde.
Je öfter die
Sprachkoeffizienten-Information SKI an einen Benutzer angepaßt wurde,
desto besser ist die Erkennungsrate der Spracherkennungseinrichtung
für diesen
Benutzer.
-
Die
Spracherkennungseinrichtung weist Transfermittel 54 auf,
die ein Importieren einer Sprachkoeffizienten-Information SKI und
ein Speichern der importierten Sprachkoeffizienten-Information SKI
in den Sprachkoeffizienten-Speichermitteln 38 und/oder
ein Exportieren der in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten
Sprachkoeffizienten-Information SKI ermöglichen. Hierfür ist von
dem Benutzer eine Transferinformation TRI mit der Tastatur 5 eingebbar
und an die Transfermittel 54 abgebbar, worauf nachfolgend
näher eingegangen werden
soll.
-
Anhand
eines ersten Anwendungsbeispiels soll ferner die Funktion des Diktiermikrofons 2,
des Fußschalters 3 und
der durch den Computer 1 gebildeten Diktiereinrichtung
und Spracherkennungseinrichtung näher erläutert werden. Gemäß dem ersten Anwendungsbeispiel
wird angenommen, daß der
Benutzer des Computers 1 einen Brief diktieren möchte, um
bei seinem Bekannten „John" drei Computer des Typs „Quality" zu bestellen. Hierfür betätigt der
Benutzer die Record-Taste 18 des Diktiermikrofons 2 und
diktiert „Dear
John I herewith order three computer Quality for my office Harry". Eine dieser Sprachinformation
entsprechende Audioinformation AI wird hierauf von dem Diktiermikrofon 2 als Übertragungsdaten
UD an die USB-Anschlußmittel 23 übertragen und
schließlich
in den Audio-Speichermitteln 37 gespeichert. Bei diesem
Vorgang bilden das Diktiermikrofon 2 und der Computer 1 eine
Diktiereinrichtung.
-
Durch
das Betätigen
der Record-Taste 18 des Diktiermikrofons 2 wird
eine die Spracherkennungs-Betriebsart der Spracherkennungsmittel 42 aktivierende
Steuerinformation SI von dem Diktiermikrofon 2 als Übertragungsdaten
UD über
die USB-Anschlußmittel 23 an
die Spracherkennungsmittel 42 abgegeben. Bei in den Spracherkennungsmitteln 42 aktivierter
Spracherkennungs-Betriebsart wird die in den Audio-Speichermitteln 37 gespeicherte
Audioinformation AI ausgelesen und gemeinsam mit der aus den Sprachkoeffizienten-Speichermitteln 38 ausgelesenen
Sprachkoeffizienten-Information SKI ausgewertet. Hierbei ermitteln
die Spracherkennungsmittel 42 mehrere mögliche Wortfolgen als mögliche Textinformation
PTI und speichern diese in den Möglicher-Text-Speichermitteln 44.
Eine mögliche
Textinformation PTI könnte
hierbei für
den ersten Teil der Audioinformation AI beispielsweise die Wortfolgen „Hear John
why", „Dear John
I" und „Bear John
hi" enthalten.
-
Die
Spracherkennungsmittel 42 ermitteln die Textinformation „Dear John
I herewith organ three computer Quality for my office Mary" als wahrscheinlichste
Textinformation und geben diese als erkannte Textinformation RTI
an die Erkannter-Text-Speichermittel 45 ab.
Hierbei wurde das gesprochene Wort „order" als das Wort „organ" und das gesprochene Wort „Harry" als das Wort „Mary" falsch erkannt.
-
Die
von den Spracherkennungsmitteln 42 erkannte und in den
Erkannter-Text-Speichermitteln 45 gespeicherte
erkannte Textinformation RTI wird dann mit den Textverarbeitungsmitteln 48 ausgelesen
und mit dem Monitor 4 dargestellt. Der Benutzer erkennt, daß die beiden
gesprochenen Wörter „order" und „Harry" falsch erkannt wurden
und möchte
die erkannte Textinformation RTI korrigieren, weshalb der Benutzer
mit den Eingabemitteln 14 des Diktiermikrofons 2 die
Korrektur-Betriebsart der Spracherkennungseinrichtung aktiviert.
-
Bei
aktivierter Korrektur-Betriebsart kann der Benutzer durch Betätigen des
Audiowiedergabe-Schalters 25 des Fußschalters 3 die in
den Audio-Speichermitteln 37 gespeicherte Audioinformation
AI mit dem Kopfhörer 34 oder
dem Lautsprecher 32 akustisch wiedergeben, wobei synchron
zu der wiedergegebenen Audioinformation AI die zu der Audioinformation
AI erkannte Textinformation RTI mit dem Monitor 4 gekennzeichnet
wird. Ein solches synchrones Editieren bzw. Korrigieren ist seit
langem bekannt.
-
Bei
einer ersten Art der Korrektur der erkannten Textinformation RTI
durch den Benutzer korrigiert der Benutzer nur die falsch erkannten
Wörter „organ" und „Mary" in die beiden ursprünglich gesprochenen Wörter „order" und „Harry" und es wird eine
korrigierte Textinformation CTI in den Textverarbeitungsmitteln 48 erstellt
und in den Korrigierter-Text-Speichermitteln 46 gespeichert.
Diese nach dem ersten Korrekturschritt in den Korrigierter-Text-Speichermitteln 46 gespeicherte
korrigierte Textinformation CTI wäre zur Anpassung der Sprachkoeffizienten-Information SKI
besonders gut geeignet. Die bei einem weiteren Diktat des Benutzers
gesprochenen Wörter „order" und „Harry" würden bei
einem darauffolgenden Spracherkennungsvorgang mit der zuvor angepaßten Sprachkoeffizienten-Information
SKI richtig erkannt werden.
-
Wie
die Praxis zeigt, werden von Benutzern bei aktivierter Korrektur-Betriebsart auch
andere Korrekturen gemäß einer
zweiten Art der Korrektur durchgeführt. Gemäß dem ersten Anwendungsbeispiel
wird angenommen, daß sich
der Benutzer nunmehr erinnert, daß er ebenfalls drei Computer
des Typs „Standard" bestellen möchte, weshalb
der Benutzer die Wortfolge „and
three computer Standard" mit
der Tastatur 5 in die bereits korrigierte Textinformation
CTI einfügt.
Weiterhin kopiert der Benutzer einen Text A vor den Anfang der bereits
korrigierten Textinformation CTI, der die Adresse des Briefes an seinen
Bekannten „John" enthält. Schließlich kopiert der
Benutzer einen Text B hinter der bereits korrigierten Textinformation
CTI in die korrigierte Textinformation CTI hinein, die eine bei
solchen Bestellungen übliche
Fußnote über vereinbarte
Prozentnachlässe
beinhaltet.
-
Der
Benutzer fügt
dann Textteile in die erkannte Textinformation RTI ein, die mit
der von dem Benutzer bei dem Diktat gesprochenen Sprachinformation
keinen Zusammenhang haben. Solche Textteile dürfen nicht zur Anpassung der
Phonemreferenz-Information
PRI ausgewertet werden, da keine entsprechende Audioinformation
AI in den Audio-Speichermitteln 37 gespeichert ist. Weiterhin
ist es nicht gut, die Wortschatz-Information
WI oder die Sprachmodell-Information SMI mit solchen Textteilen anzupassen,
da der Text A und der Text B oft in korrigierten Textinformationen
CTI des Benutzers enthalten sind, in Diktaten des Benutzers aber
praktisch nie gesprochen werden.
-
Wenn
die Wortschatz-Information WI und die Sprachmodell-Information SMI
mit Textteilen trainiert werden würden, die keinen Zusammenhang
mit der Sprachin formation aufweisen, dann hätte beispielsweise die Wortfolge
des in dem Text A enthaltenen Straßennamen „Hell Road" der Adresse des Bekannten John eine
hohe Auftrittswahrscheinlichkeit, da der Benutzer oft Briefe an
John schreibt und die Adresse immer in die korrigierte Textinformation
CTI hinein kopiert. Nun würde
aber eine in einem Diktat gesprochene Wortfolge „Hello Rod" relativ leicht falsch erkannt werden,
da die Wortfolge „Hello
Rod" in den Sprachmodell-Speichermitteln 40 eine
verglichen mit der Wortfolge „Hellroad" relativ niedrigere Auftrittswahrscheinlichkeit
aufweisen würde,
obwohl die Wortfolge „Hello
Rod" in Diktaten
des Benutzers relativ häufig
vorkommt.
-
Nachdem
der Benutzer alle von Ihm gewünschten
Korrekturen durchgeführt
hat und die korrigierte Textinformation CTI in den Korrigierte-Text-Speichermitteln 46 gespeichert
wurde, betätigt
der Benutzer eine Taste der Tastatur 15 des Diktiermikrofons 2,
um die Anpassungs-Betriebsart der Spracherkennungseinrichtung zu
aktivieren und die Sprachkoeffizienten-Information SKI der Spracherkennungseinrichtung
anzupassen. Eine entsprechende Steuerinformation SI wird hieraufhin
von dem Diktiermikrofon 2 über die USB-Anschlußmittel 23 an die
Spracherkennungsmittel 42 abgegeben.
-
Bei
in der Spracherkennungseinrichtung aktivierter Anpassungs-Betriebsart
sind die Anpassungsmittel 50 zum Auslesen der in den Audio-Speichermitteln 37 gespeicherten
Audioinformation AI sowie der in den Text-Speichermitteln 43 gespeicherten möglichen
Textinformation PTI, erkannten Textinformation RTI und korrigierten
Textinformation CTI ausgebildet. Weiterhin sind die Textvergleichsmittel 52 bei
aktivierter Anpassungs-Betriebsart zum Erstellen der in 4 dargestellten
Anpassungstabelle 53 ausgebildet, um einen Textteil der
korrigierten Textinformation CTI zu ermitteln, der zur Anpassung
der Sprachkoeffizienten-Information SKI geeignet ist.
-
Hierfür wird vorerst
die erkannte Textinformation RTI und die korrigierte Textinformation
CTI in die Anpassungstabelle 53 eingetragen, wobei falsch erkannte
Wörter
sowie korrigierte und eingefügte Wörter und
Textteile mit der Schriftart „fett" dargestellt sind.
Die Textvergleichsmittel 52 sind nunmehr zum Vergleichen
der erkannten Textinformation RTI und der korrigierten Textinformation
CTI und zum Kennzeichnen übereinstimmender
Wörter
durch graue Felder an der entsprechenden Stelle der Anpassungstabelle 53 ausgebildet.
Der Textteil mit den Wörtern „three
computer" der erkannten
Textinformation RTI wird zwei Mal in der korrigierten Textinformation
CTI gefunden.
-
Weiterhin
sind die Textvergleichsmittel 52 beim Vergleichen der erkannten
Textinformation RTI und der korrigierten Textinformation CTI zum
Ermitteln eines Über einstimmungsindikators
CI für
jeden Textteil ausgebildet. Hierbei ermitteln die Textvergleichsmittel 52,
wie viele übereinstimmende
durch ein graues Feld gekennzeichnete Wörter ein Textteil aufweist.
Weiterhin ermitteln die Textvergleichsmittel 52 Strafpunkte
für jeden
Textteil, wobei für
jede Einfügung,
Löschung
oder Ersetzung eines Wörters
in der korrigierten Textinformation CTI ein Strafpunkt vergeben
wird. Aus der Anzahl der übereinstimmenden
Wörter
und der Strafpunkte eines Textteils wird der Übereinstimmungsindikator CI
des Textteils ermittelt.
-
In
den Textvergleichsmitteln 52 ist ein Mindestwert MW für den Übereinstimmungsindikator
CI festgelegt, der unterschritten wird, wenn für einen Textteil mehr als drei
Strafpunkte für
Korrekturen benachbarter Wörter
der korrigierten Textinformation CTI vergeben werden. Für die Anpassung
der Sprachkoeffizienten-Information SKI werden nur Textteile verwendet,
deren Übereinstimmungsindikator
CI den Mindestwert MW überschreitet.
-
Die
Textvergleichsmittel 52 werten die Anpassungstabelle 53 aus
und erkennen, daß sämtliche
Wörter
von Text A und von Text B in der korrigierten Textinformation CTI
eingefügt
wurden, weshalb die Textvergleichsmittel 52 für den Text
A und den Text B eine mit der Anzahl der Wörter des Text A und das Text
B übereinstimmende
Anzahl an Strafpunkten vergeben. Die Textvergleichsmittel 52 geben
daher einen Übereinstimmungsindikator
CI für
den Text A und den Text B an die Anpassungsmittel 50 ab,
der kleiner als der Mindestwert MW ist. Dies bietet den Vorteil,
daß ein
Textteil der korrigierten Textinformation CTI, der überhaupt
keinen Zusammenhang mit der Sprachinformation aufweist, für die Anpassung der
Sprachkoeffizienten-Information SKI nicht verwendet wird.
-
Gemäß der Anpassungstabelle 53 verbleiben
nun Textteile entlang eines Pfades P1 und eines Pfades P2 der korrigierten
Textinformation CTI, die für
eine Anpassung der Sprachkoeffizienten-Information SKI verwendet
werden könnten.
-
Der
Pfad P1 enthält
einen ersten Textteil „Dear
John I herewith",
dem von den Textvergleichsmitteln 52 keine Strafpunkte
zugeordnet werden und dessen Übereinstimmungsindikator
daher den Mindestwert MW überschreitet.
Der Pfad P1 enthält
nach dem ersten Textteil einen zweiten Textteil „order three computer Quality
and", dem fünf Strafpunkte
(1) bis (5) für
die Einfügung
der Wörter „order
three computer Quality" und
die Ersetzung des Wortes „organ" durch das Wort „and" zugeordnet werden
und dessen Übereinstimmungsindikator
daher den Mindestwert MW unterschreitet. Der Pfad P1 enthält nach
dem zweiten Textteil einen dritten Textteil „three computer Standard for
my office Harry",
dem nur ein Strafpunkt (6) für
die Einfügung
des Wortes „Standard" zugeordnet wird
und dessen Übereinstimmungsindikator
CI daher den Mindestwert MW überschreitet.
Der Pfad P1 enthält
daher den ersten und den dritten Textteil, die prinzipiell für eine Anpassung
der Sprachkoeffizienten-Information SKI geeignet sind.
-
Der
Pfad P2 enthält
einen vierten Textteil „Dear
John I herewith order three computer Quality", dem von den Textvergleichsmitteln 52 nur
ein Strafpunkt (1) für
die Ersetzung des Wortes „organ" durch das Wort „order" zugeordnet wird
und dessen Übereinstimmungsindikator
CI daher den Mindestwert MW überschreitet.
Der Pfad P2 enthält
nach dem vierten Textteil einen fünften Textteil „and three
computer Standard",
dem vier Strafpunkte (2) bis (5) für die Einfügung dieser Wörter zugeordnet
werden und dessen Übereinstimmungsindikator
daher den Mindestwert MW unterschreitet. Der Pfad P2 enthält nach
dem fünften
Textteil einen sechsten Textteil „for my office Harry", dem ein Strafpunkt
(6) für
die Ersetzung des Wortes „Mary" durch das Wort „Harry" zugeordnet wird
und dessen Übereinstimmungsindikator
CI den Mindestwert MW überschreitet.
Der Pfad P2 enthält
daher den vierten und den sechsten Textteil; die prinzipiell für eine Anpassung
der Sprachkoeffizienten-Information SKI geeignet sind.
-
Die
Textvergleichsmittel 52 sind zum Ermitteln der Textteile
des Pfades P1 oder P2 ausgebildet, die den größten Summen-Übereinstimmungsindikator
SCI aufweisen. Hierfür
ermitteln die Textvergleichsmittel 52, daß neun Wörter des
Pfades P1 und zehn Wörter
des Pfades P2 der korrigierten Textinformation CTI vollkommen mit
den Wörtern
der erkannten Textinformation RTI übereinstimmen und in der Anpassungstabelle 53 als
graues Feld gekennzeichnet sind. Weiterhin werden von den Textvergleichsmitteln 52 die
Strafpunkte jedes Pfades addiert, wobei für den Pfad P1 sieben Strafpunkte
und für
den Pfad P2 sechs Strafpunkte ermittelt werden.
-
Schließlich ermitteln
die Textvergleichsmittel 52, daß die Textinformationen des
Pfades P2 mit zehn übereinstimmenden
Wörtern
und nur sechs Strafpunkten eine größere Summen-Übereinstimmung
mit der erkannten Textinformation RTI aufweisen und geben einen
entsprechend hohen Summen-Übereinstimmungsindikator
SCI für
die Textteile des Pfades P2 an die Anpassungsmittel 50 ab.
-
Dies
bietet den Vorteil, daß für die Anpassung
der Sprachkoeffizienten-Information
SKI gemäß einer
ersten An der Korrektur korrigierte Wörter – wie beispielsweise „order" und „Harry" – zur Anpassung verwendet werden
und gemäß der zweiten
An der Korrektur korrigierte Textteile – wie beispielsweise „and three
computer Standard",
die mit der Sprachinformation keinen Zusammenhang aufweisen – nicht
zur Anpassung verwendet werden. Hierdurch wird die Sprachkoeffizienten-Information
SKI besonders rasch und gut an Eigenarten der Aussprache eines Benutzers
und typische Formulierungen eines Benutzers angepaßt, womit
eine besonders gute Erkennungsrate der Spracherkennungseinrichtung
erzielt wird.
-
Die
Anpassungsmittel 50 sind bei in der Spracherkennungseinrichtung
aktivierter Anpassungs-Betriebsart nach dem Erhalt des Summen-Übereinstimmungsindikators
SCI von den Textvergleichsmitteln 52 zum Auslesen der Textteile
des Pfades P2 der korrigierten Textinformation CTI aus den Korrigierter-Text-Speichermitteln 46 und
zum Auswerten dieser Textteile ausgebildet.
-
Zur
Anpassung der Wortschatz-Information WI werden für jedes Wort des vierten und
des sechsten Textteils „Dear", „John", „I",..., „Harry" der Wortfolge P2
in dem Wortschatz-Speichermitteln 39 zugeordnet gespecherten
Häufigkeitszähler der
Wert „1" hinzu addiert, wobei
der Häufigkeitszähler die
Auftrittswahrscheinlichkeit des jeweiligen Worts in einem Diktat
des Benutzers kennzeichnet. Wenn ein Wort des zur Anpassung verwendeten
Textteils erstmals von dem Benutzer diktiert wurde, dann wird es
in den Wortschatz-Speichermitteln 39 gemeinsam mit einem
Häufigkeitszähler mit
dem Wert „1" gespeichert.
-
Zur
Anpassung der in den Sprachrmodel-Speichermitteln 40 gespeicherten
Sprachmodell-Information SMI wird beispielsweise der der Wortfolge „I herewith
order" zugeordnet
gespeicherte Häufigkeitszähler um
den Wert „1" erhöht, um eine höhere Wahrscheinlichkeit
des Auftretens einer solchen Formulierung in einem Diktat des Benutzers
zu kennzeichnen.
-
Zur
Anpassung der in den Phonemreferenz-Speichermitteln 41 gespeicherten
Phonemreferenz-Information PRI werden nur solche Wörter des vierten
und des sechsten Textteils der Wortfolge P2 gemeinsam mit der zugehörigen Audioinformation
AI ausgewertet, die eine völlige Übereinstimmung
mit einem Wort der erkannten Textinformation RTI aufweisen und in
der Anpassungstabelle 53 durch ein graues Feld gekennzeichnet
sind. Zusätzlich
können auch
noch Wörter
der möglichen
Textinformation PTI mit der zugehörigen Audioinformation AI ausgewertet werden.
Hierfür
prüfen
die Anpassungsmitte150 ob ein von dem Benutzer bei der ersten Art
der Korrektur ersetztes Wort („order", „Harry") in den Möglicher-Text-Speichermitteln 44 für diesen
Teil der Audioinformation AI gespei chert ist. Wenn ein solches Wort
in den Möglicher-Text-Speichermitteln 44 gefunden
wird, dann wird auch diese Wort mit der zugehörigen Audioinformation AI zur
Anpassung der Phonemreferenz-Information PRI ausgewertet.
-
Eine
diese Anpassungen enthaltende Anpassungsinformation NI wird anschließend von
den Anpassungsmitteln 50 an die Sprachkoeffizienten-Speichermittel 38 zur
Anpassung der Sprachkoeffizienten-Information SKI abgegeben. Ebenso
wird von den Anpassungsmitteln 50 ein Trainingsindikator TI
an die Transfermittel 54 abgegeben, der kennzeichnet, mit
wie vielen Wörtern
die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte
Sprachkoeffizienten-Information SKI bereits trainiert wurde. Dies
bietet den Vorteil, daß anhand
des Trainingsindikators TI unmittelbar ersichtlich ist, ob die Spracherkennungseinrichtung
bereits gut an einen Benutzer angepaßt wurde und daher voraussichtlich
eine gute Erkennungsrate für
diesen Benutzer aufweisen wird.
-
Gemäß einem
zweiten Anwendungsbeispiel wird angenommen, daß der Benutzer der durch den Computer 1 gebildeten
Spracherkennungseinrichtung auch einen anderen Computer besitzt,
der eine andere Spracherkennungseinrichtung bildet. Der Benutzer
möchte
verständlicherweise
bei der anderen Spracherkennungseinrichtung eine gleich gute Erkennungsrate
erzielen, wie er sie bei der durch den Computer 1 gebildeten
Spracherkennungseinrichtung bereits erzielt, deren Sprachkoeffizienten-Information
SKI er seit mehreren Monaten trainiert hat.
-
Hierfür betätigt der
Benutzer eine Taste der Tastatur 5, woraufhin eine Transferinformation
TRI von der Tastatur 5 an die Transfermittel 54 angegeben
wird. Die Transfermittel 54 werden dann zum Auslesen der
in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten
Sprachkoeffizienten-Information SKI verwendet. Weiterhin werden
die Transfermittel 54 zum Speichern der ausgelesenen Sprachkoeffizienten-Information
SKI und des Traniningsindikators TI der Sprachkoeffizienten-Information
SKI auf einer in ein Diskettenlaufwerk des Computers 1 eingelegten
Diskette 55 verwendet.
-
Dies
bietet den Vorteil, daß eine
in den Sprachkoeffizienten-Speichermittel 38 gespeicherte und
bereits von dem Benutzer trainierte Sprachkoeffizienten-Information
SKI aus dem Computer 1 exportiert werden kann. Weiterhin
kann die Sprachkoeffizienten-Information
SKI in den zweiten Computer des Benutzers importiert werden. Hierdurch
kann ein Benutzer eine von ihm trainierte Sprachkoeffizienten-Information
SKI bei beliebig vielen anderen Computern, die eine der in 1 dargestellten
Spracherkennungseinrich tung entsprechende Spracherkennungseinrichtung
bilden, weiter verwenden und so auch bei diesen Computern eine gute
Erkennungsrate der Spracherkennungseinrichtung erhalten.
-
Vorteilhafterweise
wird beim Exportieren der Sprachkoeffizienten-Information SKI der
Trainingsindikator TI der Sprachkoeffizienten-Information SKI mit
exportiert, womit bei einem Importieren der Sprachkoeffizienten-Information
SKI von den Transfermitteln 54 vorerst prüfbar ist,
ob die zu importierende Sprachkoeffizienten-Information SKI bereits
besser trainiert ist als die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte
Sprachkoeffizienten-Information SKI. Die Transfermittel 54 importieren
die Sprachkoeffizienten-Information SKI nur dann, wenn die Prüfung ergibt,
daß die
zu importierende Sprachkoeffizienten-Information SKI bereits besser
trainiert ist als die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte
Sprachkoeffizienten-Information SKI.
-
Gemäß einem
dritten Anwendungsbeispiel wird angenommen, daß der Computer 1 einen
mit dem Internet verbundenen Internet-Server bildet und mit einem
vierten Anschluß 56 mit
dem Internet verbunden ist. Weiterhin sei angenommen, daß der Benutzer
eines weiteren Computers, der eine Diktiereinrichtung bildet, die
in Hompage-Speichermitteln 57 des
Computers 1 gespeicherte Textinformation einer Homepage
des Internet-Servers abgefragt hat und diese Textinformation über den
vierten Anschluß 56 an
den weiteren Computer abgegeben wurde. Diese Textinformation der
Hompage enthält
Link-Informationen, mit denen weitere in den Hompage-Speichermitteln 57 gespeicherte
Textinformationen abgefragt werden können, wie dies allgemein üblich ist.
Die in 1 dargestellte Spracherkennungseinrichtung des
Internet-Servers ermöglicht
dem Benutzer des weiteren Computers ein Aktivieren einer in der
Homepage dargestellten Link-Information
durch eine mit dem weiteren Computer eingegebene Sprachinformation.
-
Gemäß dem dritten
Anwendungsbeispiel wird weiterhin angenommen, daß der Benutzer die in der Hompage
angegebene Link-Information „Hotels" aktivieren möchte. Hierfür betätigt der
Benutzer eine Record-Taste eines Diktiermikrofons des weiteren Computers
und spricht die Sprachinformation „Hotels" in das Mikrofon des Diktiermikrofons.
Eine diese Sprachinformation enthaltende Audioinformation AI wird
dem Computer 1 über
den vierten Anschluß 56 zugeführt und
die Audioinformation AI wird in den Audio-Speichermitteln 37 gespeichert.
Bei der hierdurch aktivierten Spracherkennungs-Betriebsart der Spracherkennungseinrichtung
des Computers 1 wird das Wort „Hotels" von den Spracherkennungsmitteln 42 als
erkannte Textinformation RTI erkannt und die dieser Link- Information zugeordnete
Textinformation wird von den Hompage-Speichermitteln 57 über den vierten
Anschluß 56 an
den weiteren Computer des Benutzers abgegeben.
-
Bei
dem Computer 1 wird nun vorteilhafterweise vor der Aktivierung
der Spracherkennungs-Betriebsart die von dem weiteren Computer exportierte und über das
Internet an den vierten Anschluß 56 abgegebene
Sprachkoeffizienten-Information SKI mit den Transfermitteln 54 importiert.
Hierdurch wird der durch den Computer 1 gebildete Internet-Server
an den jeweiligen Benutzer angepaßt, weshalb eine besonders
hohe Erkennungsrate erzielt wird.
-
Es
kann erwähnt
werden, daß die
Sprachkoeffizienten-Information SKI eines Benutzers gemeinsam mit
jeder an den Internet-Server übertragenen Audioinformation
AI übertragen
werden kann. Besonders vorteilhaft ist es jedoch, die Sprachkoeffizienten-Information SKI eines
Benutzers nur bei einem ersten Abfragen der Hompage des Internet-Servers an den Internet-Server
zu übertragen
und die Sprachkoeffizienten-Information SKI in dem Internet-Server
für diesen
Benutzer zu speichern. Bei jedem weiteren Empfang einer Audioinformation
AI von dem weiteren Computer dieses Benutzers kann der Internet-Server die bereits
gespeicherte Sprachkoeffizienten-Information SKI für die Spracherkennung
verwenden.
-
Es
kann erwähnt
werden, daß die
Anpassungs-Betriebsart zum Anpassen der Sprachkoeffizienten-Information
SKI auch automatisch nach dem Abspeichern einer korrigierten Textinformation
CTI oder durch den Benutzer mit einer Taste der Tastatur 5 des
Computers 1 aktiviert werden kann.
-
Es
kann erwähnt
werden, daß es
auch andere als gemäß dem Ausführungsbeispiel
beschriebene Möglichkeiten
der Ermittlung eines Übereinstimmungsindikatorens
eines Textteils oder eines Summen-Übereinstimmungsindikatorens
von Textteilen eines Pfades gibt. Weiterhin ist die Festlegung,
daß der
Mindestwert MW unterschritten ist, wenn drei aufeinanderfolgende
Strafpunkte vergeben werden, nur als Beispiel zu verstehen. Ebenso
könnte
eine eine bestimmte Anzahl an Strafpunkten in einer bestimmten Anzahl
an Wörtern
eines Textteils überschreitende
Anzahl an Strafpunkten als ein Unterschreiten des Mindestwertes
MW festgelegt werden.
-
Es
kann erwähnt
werden, daß es
auch vorteilhaft sein kann, aus einem prinzipiell zur Anpassung
der Sprachkoeffizienten-Information SKI geeigneten Textteil, dessen
Ermittlung anhand des ersten Anwendungsbeispiels erläutert wurde,
nur bestimmte Teile zur Anpassung der Sprachkoeffizienten-Information
SKI zu verwenden. Hierbei können beispielsweise
nur Wörter,
denen von den Textvergleichsmitteln 52 ein Strafpunkt zugeordnet
wurde, und diesen Wörtern
benachbarte Wörter,
die in der Anpassungstabelle 53 durch ein graues Feld gekennzeichnet sind,
verwendet werden.
-
Dies
bietet den Vorteil, daß bei
dem Spracherkennungsvorgang falsch erkannte und von dem Benutzer
korrigierte (ersetzte) Wörter
(„order", „Harry") sowie zu diesen
Wörtern
benachbarte Wörter
zur Anpassung verwendet werden. Teile der korrigierten Textinformation
CTI von prinzipiell zur Anpassung geeigneten Textteilen, die vollkommen
mit der erkannten Textinformation RTI übereinstimmen, werden hierbei
nicht zur Anpassung verwendet, da diese Teile eventuell von dem
Benutzer gar nicht korrigiert wurden.
-
Es
kann erwähnt
werden, daß Eingabemittel einer
in einer Hand haltbaren Eingabeeinrichtung auch zum Abgeben einer
Steuerinformation an einen Computer ausgebildet sein können, um
den Computer aus einer Power-Save-Betriebsart in eine Akiv-Betriebsart aufzuwecken.
-
Es
kann erwähnt
werden, daß eine
mit einem Fuß betätigbare
Eingabeeinrichtung auch ganz allgemein zur Aktivierung von Betriebszuständen in
dem Computer verwendbar ist. Hierbei könnte der Computer einen Fernsehempfänger bilden
und mit dem Fußschalter
könnte
beispielsweise ein Fernsehkanal ausgewählt werden, in dem eine Fernsehsendung empfangen
wird, die mit dem Monitor wiedergegeben wird.
-
Es
kann erwähnt
werden, daß an
eine mit einem Fuß betätigbare
Eingabeeinrichtung auch ein Mikrofon oder ein Lautsprecher an den
USB-Anschlußmitteln
der Eingabeeinrichtung angeschlossen werden kann, wenn das Mikrofon
oder der Lautsprecher ebenfalls USB-Anschlußmittel aufweist. In diesem
Fall ist es nicht notwendig, daß die
mit einem Fuß betätigbare
Eingabeeinrichtung Audio-Verarbeitungsmittel aufweist, da Audio-Verarbeitungsmittel zum
Abgeben eines analogen Audiosignals dann in dem Mikrofon und dem
Lautsprecher vorgesehen sind.
-
Es
kann erwähnt
werden, daß eine
digitale Datenbusverbindung auch durch eine Radio-Frequency-Funkverbindung,
wie beispielsweise entsprechend der Bluetooth-Spezifikation (Bluetooth Special Interest
Group, May 1998), gebildet sein kann. Dies bietet den Vorteil, daß keine
Kabelverbindung zwischen der Eingabeeinrichtung und einem Computer mehr
notwendig ist.
-
Es
kann erwähnt
werden, daß an
den zweiten Anschluß 33 des
Fußschalters 3 auch
ein Lautsprecher angeschlossen werden kann.