DE10040214A1 - Intelligente Korrektur diktierter Sprache - Google Patents
Intelligente Korrektur diktierter SpracheInfo
- Publication number
- DE10040214A1 DE10040214A1 DE10040214A DE10040214A DE10040214A1 DE 10040214 A1 DE10040214 A1 DE 10040214A1 DE 10040214 A DE10040214 A DE 10040214A DE 10040214 A DE10040214 A DE 10040214A DE 10040214 A1 DE10040214 A1 DE 10040214A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- replacement
- dictated
- replacement word
- digital information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 10
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003371 toe Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Es wird ein Verfahren und System zur Verwendung in einem Computer-Spracherkennungssystem, das ein Sprachmodell in einer Sprachanwendung während einer Korrektursitzung aktualisiert, beschrieben. Das Verfahren umfasst eine Reihe von Schritten, unter anderem den automatischen Vergleich des diktierten Textes mit dem Ersetzungstext, die Feststellung, ob der Ersetzungstext in einer Alternativliste steht, falls der Vergleich eine hinreichende Übereinstimmung innerhalb einer statischen Vorgabe ergibt, die darauf schließen lässt, dass der Ersetzungstext eine Korrektur eines Erkennungsfehlers und keine Editierung darstellt, und die Aktualisierung des Sprachmodells ohne Interaktion des Benutzers, falls der Ersetzungstext in der Alternativwörterliste aufgeführt ist. Wenn der Ersetzungstext nicht in der Alternativwörterliste steht, wird die digitale Information des diktierten Wortes mit der digitalen Information des Ersetzungstextes verglichen, und das Sprachmodell wird aktualisiert, wenn der digitale Vergleich eine hinreichende Übereinstimmung innerhalb einer statischen Vorgabe ergibt, so dass anzunehmen ist, dass der Ersetzungstext die Korrektur eines Erkennungsfehlers ist und keine Editierung.
Description
Die vorliegende Erfindung betrifft Sprachdiktiersysteme im
allgemeinen, und speziell ein Verfahren zum Aktualisieren von
Sprachmodellen in Spracherkennungsmodulen von
Sprachanwendungen in Sitzungen, in denen
Spracherkennungsfehler korrigiert werden.
Die Spracherkennung ist ein Prozess, durch den ein
akustisches Signal, das von einem Wandlerelement wie z. B.
einem Mikrofon empfangen wird, von einem Computer in eine
Folge von Textwörtern umgewandelt wird. Diese erkannten
Wörter können dann in verschiedenen Computersoftware-
Anwendungen zum Zweck der Dokumentbearbeitung oder
Dateneingabe sowie für Befehle und Steueranweisungen
verwendet werden. Verbesserungen bei Sprachdiktiersystemen
sind ein wichtiges Mittel zur Steigerung der Produktivität
eines Benutzers. Eine Möglichkeit der Verbesserung besteht
darin, dass man dem Benutzer Mittel zur Verfügung stellt, mit
denen er diktierten Text direkt, d. h. ohne Interaktion mit
Korrekturdialogen, ändern kann. Sofern das System Änderungen
nicht überwacht und entscheidet, was Korrekturen sind, die
zur Verarbeitung als Korrektur an das Sprachmodul gesendet
werden müssen, und was Editierungen sind, die vom System
ignoriert werden sollen, hat der Benutzer keinen Vorteil von
der kontinuierlichen Verbesserung der Erkennungsleistung, die
sich ergibt, wenn das Modul Korrekturinformationen erhält.
In einem Spracherkennungssystem umfasst ein Verfahren zur
Aktualisierung eines Sprachmodells während einer
Korrektursitzung folgende Schritte: Diktieren eines
diktierten Wortes, Bereitstellung eines Ersetzungswortes und
automatischer Vergleich des diktierten Wortes mit dem
Ersetzungswort unter Zuhilfenahme eines geeigneten
Vergleichsmittels, z. B. eines Algorithmus zum Vergleich der
Phonetik, Grammatik, Rechtschreibung oder des Kontexts aus
vorausgehenden und nachfolgenden Wörtern. Wenn beim Vergleich
innerhalb einer statistischen Vorgabe eine hinreichende
Ähnlichkeit festgestellt wird, so dass anzunehmen ist, dass
das Ersetzungswort die Korrektur eines Erkennungsfehlers und
nicht eine Editierung ist, umfasst das Verfahren außerdem den
Schritt der Erkennung, ob das Ersetzungswort in einer
Alternativwörterliste enthalten ist. Das Alternativwort kann
bereits vorhanden sein oder durch ein geeignetes Verfahren
generiert werden, z. B. durch die Verwendung eines
Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik
und/oder Rechtschreibung identifiziert. Das Verfahren umfasst
ferner die Aktualisierung des Sprachmodells ohne Interaktion
des Benutzers, falls das Ersetzungswort in der
Alternativwörterliste aufgeführt ist. Wenn das Ersetzungswort
nicht in der Alternativwörterliste steht, wird die digitale
Information des diktierten Wortes mit der digitalen
Information des Ersetzungswortes verglichen, und das
Sprachmodell wird aktualisiert, wenn der digitale Vergleich
eine hinreichende Übereinstimmung innerhalb eines
vorgegebenen statistischen Bereichs ergibt, so dass
anzunehmen ist, dass das Ersetzungswort die Korrektur eines
Erkennungsfehlers ist und keine Editierung.
Das Verfahren kann außerdem vor dem digitalen Vergleich
folgende Schritte umfassen: Umwandeln der Audiodaten des
diktierten Wortes in digitale Information des diktierten
Wortes, Umwandeln des Textes des Ersetzungswortes in digitale
Information des Ersetzungswortes und Verwendung der digitalen
Information des diktierten Wortes und des Ersetzungswortes im
digitalen Vergleichsschritt.
In dem Verfahren kann das Ersetzungswort durch jedes
geeignete Verfahren generiert werden, z. B. durch
Überschreiben des diktierten Wortes, durch Ausschneiden des
diktierten Wortes und Einfügen des Ersetzungswortes oder
durch Löschen des diktierten Wortes und Ersetzen durch das
Ersetzungswort. Das diktierte Wort kann aus einem einzigen
Wort oder aus mehreren Wörtern bestehen; in der Regel handelt
es sich aber um ein einzelnes Wort. Entsprechend kann auch
das diktierte Wort aus einem einzigen Wort oder aus mehreren
Wörtern bestehen, in der Regel aber aus einem einzelnen Wort.
In einem zweiten Aspekt umfasst die Erfindung ein System zur
Aktualisierung eines Sprachmodells in einer Korrektursitzung,
wobei das System ein Mittel umfasst, das ein diktiertes Wort
automatisch mit Hilfe eines geeigneten Vergleichsmittels mit
einem Ersetzungswort vergleicht, z. B. mit Hilfe eines
Algorithmus zum Vergleichen der Phonetik, Grammatik,
Rechtschreibung und/oder der Wörter, die den Kontext bilden.
Wenn beim Vergleich innerhalb einer statistischen Vorgabe
eine hinreichende Ähnlichkeit festgestellt wird, so dass
anzunehmen ist, dass das Ersetzungswort die Korrektur eines
Erkennungsfehlers und nicht eine Editierung ist, umfasst das
System außerdem ein Mittel zum Aktualisieren des
Sprachmodells ohne Interaktion des Benutzers, sofern das
Ersetzungswort in der Alternativwörterliste enthalten ist.
Das Alternativwort kann bereits vorhanden sein oder durch ein
geeignetes Mittel generiert werden, z. B. durch die Verwendung
eines Algorithmus, der Wörter mit ähnlicher Phonetik,
Grammatik und/oder Rechtschreibung identifiziert. Wenn das
Ersetzungswort nicht in der Alternativwörterliste steht,
umfasst das System außerdem ein Mittel zum Vergleichen der
digitalen Information des diktierten Wortes mit der digitalen
Information des Ersetzungswortes, und ein Mittel zur
Aktualisierung des Sprachmodells, wenn der digitale Vergleich
eine hinreichende Übereinstimmung innerhalb einer
statistischen Vorgabe ergibt, so dass anzunehmen ist, dass
das Ersetzungswort die Korrektur eines Erkennungsfehlers und
keine Editierung ist.
In einem dritten Aspekt umfasst die Erfindung einen
maschinenlesbaren Speicher, in dem ein Computerprogramm mit
mehreren von einer Maschine ausführbaren Codeabschnitten
gespeichert ist, um die Maschine dazu zu veranlassen, eine
Folge von Schritten auszuführen. Der maschinenlesbare
Speicher veranlasst die Maschine, den Schritt auszuführen, in
dem automatisch ein diktiertes Wort mit Hilfe eines
geeigneten Vergleichsmittels mit einem Ersetzungswort
verglichen wird, z. B. mit Hilfe eines Algorithmus zum
Vergleich der Phonetik, Grammatik, Rechtschreibung und/oder
der Wörter, die den Kontext bilden. Außerdem veranlasst der
maschinenlesbare Speicher die Maschine dazu, folgende
Schritte auszuführen: Feststellen, ob das Ersetzungswort in
einer Alternativliste steht, falls der Vergleich eine
hinreichende Übereinstimmung innerhalb vorgegebener
statistischer Grenzen ergibt, die darauf schließen lässt,
dass das Ersetzungswort eine Korrektur eines
Erkennungsfehlers und keine Editierung darstellt, und
Aktualisieren des Sprachmodells ohne Interaktion des
Benutzers, falls das Ersetzungswort in der
Alternativwörterliste aufgeführt ist. Wenn das Ersetzungswort
nicht in der Alternativwörterliste steht, veranlasst der
maschinenlesbare Speicher die Maschine dazu, den Schritt des
Vergleichs der digitalen Information des diktierten Wortes
mit der digitalen Information des Ersetzungswortes
auszuführen, und falls der digitale Vergleich eine
hinreichende Übereinstimmung innerhalb vorgegebener
statistischer Grenzen ergibt, so dass anzunehmen ist, dass
das Ersetzungswort die Korrektur eines Erkennungsfehlers und
keine Editierung ist, das Sprachmodell zu aktualisieren.
In den Zeichnungen sind bevorzugte Ausführungsformen
dargestellt, wobei die Erfindung aber selbstverständlich nicht
auf die genauen Anordnungen und Instrumentalisierungen in den
Zeichnungen beschränkt ist. Die Zeichnungen haben folgenden
Inhalt:
Fig. 1 zeigt ein Computersystem zur Spracherkennung in dem das
erfindungsgemäße System verwendet werden kann.
Fig. 2 ist ein Blockdiagramm des Prinzips einer typischen
Architektur des in Fig. 1 dargestellten Computersystems.
Fig. 3 ist ein Blockdiagramm einer typischen Architektur für
ein Spracherkennungsmodul.
Fig. 4 ist ein Flussdiagramm, in dem der Ablauf der
Programmsteuerung gemäß einem Aspekt der erfindungsgemäßen
Anordnungen dargestellt ist.
In Fig. 1 ist ein typisches Computersystem 20 zur Verwendung in
Verbindung mit der vorliegenden Erfindung dargestellt. Das
System besteht vorzugsweise aus einem Computer 34 mit einer
Zentraleinheit (CPU), einer oder mehreren Speichervorrichtungen
und den zugehörigen Schaltungen. Außerdem enthält das System
ein Mikrofon 30, das über eine geeignete
Schnittstellenschaltung oder eine Soundkarte (nicht
dargestellt) mit dem Computer verbunden ist, und mindestens ein
Anzeigegerät 32, z. B. ein Videodatenterminal (VDT), das an den
Computer angeschlossen ist. Wie in Fachkreisen bekannt ist,
kann die CPU aus jedem geeigneten Mikroprozessor oder einer
anderen elektronischen Verarbeitungseinheit bestehen. Ein
Beispiel für eine solche CPU ist der Mikroprozessor des Typs
Pentium oder Pentium II von der Intel Corporation oder ein
ähnlicher Mikroprozessor. Das System kann ferner Lautsprecher
23 sowie eine Schnittstellenvorrichtung wie z. B. eine Maus 21
enthalten; diese Komponenten sind aber für die hier
beschriebene Erfindung nicht unbedingt erforderlich.
Die verschiedenen Hardware-Voraussetzungen für das hier
beschriebene Computersystem können in der Regel durch einen der
vielen im Handel erhältlichen, schnellen Multimedia-PCs von
Herstellern wie der International Business Machines Corporation
(IBM) erfüllt werden. In Fig. 2 ist eine typische Architektur
für ein Spracherkennungssystem in Computer 20 dargestellt. Wie
in Fig. 2 zu sehen ist, enthält das System typischerweise ein
Betriebssystem 24 und eine Spracherkennungsanwendung 26. In dem
dargestellten Beispiel sind auch eine Sprachtextverarbeitung 28
und eine Sprachnavigationsanwendung 22 vorhanden. Die Erfindung
ist in dieser Hinsicht jedoch nicht beschränkt, und die
Spracherkennungsanwendung 26 kann in Verbindung mit jedem
anderen Anwendungsprogramm verwendet werden, das mit einer
Sprachverarbeitungsfähigkeit ausgestattet werden soll. In Fig.
2 sind das Spracherkennungsmodul 26, die Sprachtextverarbeitung
28 und der Sprachnavigator 22 als separate Anwendungsprogramme
dargestellt. Es sei jedoch darauf hingewiesen, dass die
Erfindung in dieser Hinsicht keinen Einschränkungen unterliegt,
und dass diese verschiedenen Anwendungsprogramme im Form eines
komplexeren Anwendungsprogramms implementiert werden könnten.
So könnte zum Beispiel die Spracherkennungsanwendung 26 mit der
Sprachtextverarbeitungsanwendung oder mit einer anderen
Anwendung, die in Verbindung mit der Spracherkennungsanwendung
verwendet werden soll, kombiniert sein. Wenn keine anderen
Sprachanwendungsprogramme in Verbindung mit der
Sprachtextverarbeitungs-Anwendung und dem Spracherkennungsmodul
verwendet werden sollen, kann das System auch so abgewandelt
werden, dass es ohne die Sprachnavigationsanwendung arbeitet.
Der Hauptzweck der Sprachnavigationsanwendung besteht darin,
zur Koordination der Funktion der Spracherkennungsanwendung
beizutragen.
In einer bevorzugten Ausführungsform, die hier beschrieben
wird, ist das Betriebssystem eines der Betriebssysteme aus der
Windows-Familie. Das System unterliegt in dieser Hinsicht aber
keinerlei Einschränkungen, und die Erfindung kann auch in
Verbindung mit jedem anderen Betriebssystem wie z. B. Windows
NT, Windows 95 oder Windows 98, die alle von der Microsoft
Corporation in Redmond, Washington, hergestellt werden,
verwendet werden. Das hier beschriebene System kann von einem
Programmierer mit Hilfe handelsüblicher Entwicklungs-Tools für
das erwähnte Betriebssystem implementiert werden. Wie in Fig. 2
zu sehen ist, enthält das Computersystem 20 eine
Speichervorrichtung 27, die vorzugsweise aus einem
elektronischen Arbeitsspeicher und einem großen
Datenspeichermedium wie einem Festplattenlaufwerk besteht.
Audiosignale, die einen im Mikrofon 30 empfangenen Klang oder
einen in einer Aufzeichnung auf einem Aufnahmegerät enthaltenen
Klang darstellen, werden im Computer 20 mit Hilfe
konventioneller Computer-Audioschaltungen verarbeitet, so dass
sie dem Betriebssystem 24 in digitalisierter Form zur Verfügung
stehen. Die vom Computer empfangenen Audiosignale werden dem
Spracherkennungsmodul 26 konventionell über das Betriebssystem
24 zur Verfügung gestellt, um Spracherkennungsfunktionen
auszuführen. In konventionellen Spracherkennungssystemen werden
die Audiosignale vom Spracherkennungsmodul 26 verarbeitet, um
Wörter, die von einem Benutzer in das Mikrofon 30 gesprochen
werden, oder Wörter, die von einem Benutzer gesprochen und auf
einem Aufnahmegerät aufgezeichnet werden, zu identifizieren.
Audiosignale, die auf einem Aufnahmegerät aufgezeichnet worden
sind, können auf verschiedene Weise an das Spracherkennungssystem
übertragen werden. Das Aufnahmegerät ist über ein geeignetes
Kabel mit dem Computersystem verbunden. Im Fall digitaler
Aufnahmegeräte kann ein digitaler Ausgang des Aufnahmegeräts mit
einem digitalen Eingang des Computersystems verbunden sein.
Alternativ kann im Fall von analogen Aufnahmegeräten ein Kabel
vom analogen Ausgang des Aufnahmegeräts mit dem analogen Eingang
der Soundkarte des Computersystems verbunden sein. Eine Variante
des Aufnahmegeräts enthält Software, die mit dem
Spracherkennungssystem zusammenarbeitet. Diese Software gibt dem
Spracherkennungssystem die Möglichkeit, diktierte Aufzeichnungen
auf Aufnahmegeräten als Computerdateien zu betrachten, ähnlich
wie Dateien auf einem Magnetplattenlaufwerk betrachtet werden
können. So kann das Aufnahmegerät beispielsweise, wenn es richtig
an das Computersystem angeschlossen ist, für die
Spracherkennungsanwendung als Massenspeicher erscheinen wie ein
Magnetplattenlaufwerk. In diesem Fall kann der Benutzer eine
Dialogbox öffnen, während er mit der Spracherkennungsanwendung
arbeitet, und die diktierte Aufzeichnung auswählen, die an das
Spracherkennungssystem übertragen werden soll. Die diktierte
Aufzeichnung wird dann vom Diktiergerät als Computerdatei an das
Computersystem und an das Spracherkennungssystem übertragen.
Eine andere Art von Aufnahmegeräten besitzt Software-Tools, die
die diktierte Aufzeichnung auf das Computersystem kopieren. In
diesem Fall ist das Aufnahmegerät auf die oben beschriebene
Weise mit dem Computersystem verbunden. Die Software-Tools des
Aufnahmegeräts können dazu verwendet werden, die diktierte
Aufzeichnung vom Aufnahmegerät an das Computersystem zu
übertragen und dabei die diktierte Aufzeichnung als
Computerdatei zu speichern. Dann kann der Benutzer über eine
Dialogbox in der Spracherkennungsanwendung die gewünschte
diktierte Aufzeichnung auswählen, die als Computerdatei von der
Festplatte des Computersystems erscheint.
Unabhängig davon, wie die diktierte Aufzeichnung übertragen
wird, ist daran zu denken, dass entweder eine digitale
Aufzeichnung oder eine analoge Aufzeichnung übertragen werden
kann. Im Fall einer analogen Aufzeichnung kann das
Computersystem die diktierte Aufzeichnung, wenn diese vom
Aufnahmegerät abgespielt wird, digital aufzeichnen. Die
resultierende Computerdatei, die die diktierte Aufzeichnung
enthält, kann dann dem Sprachverarbeitungssystem zur Verfügung
gestellt werden.
Fig. 3 ist ein Blockdiagramm der typischen Komponenten, aus
denen die Spracherkennungsanwendung 26 besteht. Wie in Fig. 3
zu sehen ist, empfängt das Spracherkennungsmodul 26 ein
digitalisiertes Sprachsignal vom Betriebssystem. Das Signal
wird dann in Block 34 in einen sinnvollen Datensatz
umgewandelt, indem das Signal mit einer festgelegten Rate
abgetastet wird, typischerweise alle 10-20 msec. Im
Darstellungsblock wird eine neue Darstellung des Audiosignals
erzeugt, die dann in nachfolgenden Schritten des
Spracherkennungsprozesses benutzt werden kann, um die
Wahrscheinlichkeit zu ermitteln, mit der dieser gerade
analysierte Wellenformteil einem bestimmten phonetischen
Ereignis zugeordnet werden kann. Dieser Prozess soll wichtige
vom Sprecher unabhängige Faktoren der vom Betriebssystem
empfangenen Sprachsignale wahrnehmbar verstärken. Im
Modellierungs- und Klassifizierungsblock 36 verarbeiten
Algorithmen die Sprachsignale weiter, um vom Sprecher
unabhängige akustische Modelle an diejenigen des aktuellen
Sprechers anzupassen. Schließlich werden in Suchblock 38
Suchalgorithmen verwendet, um die Suchmaschine zu den Wörtern
zu führen, die mit der größten Wahrscheinlichkeit dem
Sprachsignal entsprechen. Der Suchprozess in Suchblock 38
erfolgt mit Hilfe von akustischen Modellen 40, lexikalischen
Modellen 42 und Sprachmodellen 44. Die Trainingsdaten 46
arbeiten mit lexikalischen Modellen 42 zusammen.
Ein Verfahren zur automatischen Aktualisierung von
Sprachmodellen in einer Spracherkennungsanwendung in einer
erfindungsgemäßen Anordnung ist in Flussdiagramm 50 in Fig. 4
dargestellt. Von Startblock 52 aus führt ein Sprecher eine
Spracherkennungssitzung mit einer Spracherkennungsanwendung
gemäß dem Schritt in Block 54 aus.
Gemäß einer bevorzugten Ausführungsform der Erfindung überwacht
das System, ob ein diktiertes Wort durch ein Ersetzungswort
ersetzt wird. Das diktierte Wort kann selbstverständlich auch
eine Folge von diktierten Wörtern sein, und das Ersetzungswort
kann eine Folge von Ersetzungswörtern sein. In den meisten
Fällen besteht jedoch das diktierte Wort und das Ersetzungswort
aus einem einzigen Wort.
Es gibt viele Situationen, in denen das System feststellt, dass
ein diktiertes Wort durch ein Ersetzungswort ersetzt worden
ist. Wenn beispielsweise ein neues Wort eingegeben oder auf
andere Weise in ein Dokument eingefügt wird, wird geprüft, ob
der Benutzer Text in unmittelbarer Nachbarschaft des
eingefügten neuen Wortes gelöscht hat. Ist dies der Fall, so
geht das System davon aus, dass ein Erkennungsfehler gemacht
worden ist, und dass das neue Wort ein Ersetzungswort ist.
Entsprechend zieht das System, wenn die Rücktaste oder die
Löschtaste benutzt worden ist, um Zeichen in unmittelbarer
Nachbarschaft des neuen Textes zu löschen, ebenfalls den
Schluss, dass ein Erkennungsfehler gemacht wurde, und dass der
neue Text als Ersetzungswort betrachtet wird. Wenn hingegen
neuer Text eingefügt wurde, ohne dass diktierter Text
überschrieben wurde, kann das System davon ausgehen, dass der
neue Text einfach hinzugefügt wurde, und dass kein
Erkennungsfehler gemacht wurde. In einem solchen Fall ist der
neue Text nicht als Ersetzungswort charakterisiert.
In dem Schritt in Block 56 prüft das System zuerst, ob ein
diktiertes Wort durch ein Ersetzungswort ersetzt worden ist.
Eine solche Ersetzung kann erfolgen, indem das ganze diktierte
Wort oder ein Teil davon überschrieben wird, indem das ganze
diktierte Wort oder ein Teil davon ausgeschnitten und ein
Ersetzungswort eingefügt wird, oder indem das ganze diktierte
Wort oder ein Teil davon gelöscht und durch ein Ersetzungswort
ersetzt wird. Selbstverständlich ist die Erfindung aber nicht
auf diese speziellen Ersetzungsverfahren beschränkt, und diese
Ersetzung kann mit jedem geeigneten Ersetzungsverfahren, das in
Fachkreisen bekannt ist, erfolgen. Das diktierte Wort kann aus
einem einzigen Wort oder einer Folge von Wörtern bestehen.
Entsprechend kann auch das Ersetzungswort aus einem einzigen
Wort oder einer Folge von Wörtern bestehen.
Wurde in Block 56 festgestellt, dass keine Ersetzung
vorgenommen wurde, so verzweigt das System zu Schritt 74, wo
geprüft wird, ob eine zusätzliche Eingabe für die Bewertung zur
Verfügung steht. Wenn dies der Fall ist, verzweigt das System
zurück zu dem Schritt in Block 54. Andernfalls verzweigt das
System zu dem Schritt in Block 76, wo der erfindungsgemäße
Algorithmus stoppt und auf ein Signal zur Rückkehr zum
Startschritt in Block 52 wartet.
Wenn in dem Schritt in Block 56 festgestellt wird, dass ein
diktiertes Wort durch ein Ersetzungswort ersetzt worden ist,
verzweigt das Verfahren zu dem Schritt in Block 58, wo das
diktierte Wort mit dem Ersetzungswort verglichen wird.
Anschließend wird in Block 60 geprüft, ob das Ersetzungswort in
einer Alternativwörterliste steht.
Die Alternativwörterliste kann bereits vorhanden sein oder
durch ein geeignetes Verfahren generiert werden, z. B. durch die
Verwendung eines Algorithmus, der Wörter mit ähnlicher
Phonetik, Grammatik und/oder Rechtschreibung wie das diktierte
Wort identifiziert. Die Alternativwörterliste besteht
typischerweise aus Wörtern, die ähnlich klingen können wie die
vom Spracherkennungsmodul identifizierten Wörter. Im
wesentlichen handelt es sich bei den in der
Alternativwörterliste aufgeführten Wörtern um weniger
bevorzugte Wortidentifikationsmöglichkeiten, die vom
Spracherkennungsmodul in Betracht gezogen wurden, als es
versuchte, ein bestimmtes Wort oder eine Wortgruppe, die vom
Sprecher gesprochen wurde, zu identifizieren. In manchen Fällen
ist ein vom Spracherkennungsmodul ausgewähltes Wort falsch, und
eines der Wörter in der Alternativwörterliste ist das vom
Benutzer gesprochene Wort.
Wenn das Ersetzungswort in der Alternativwörterliste steht,
geht das System davon aus, dass ein Erkennungsfehler gemacht
wurde, und fährt mit dem Schritt in Block 72 fort, wo ein
Sprachmodell mit einer Korrektur aktualisiert wird. Wie in
Fachkreisen bekannt ist, besteht das Sprachmodell
selbstverständlich aus statistischen Informationen über
Wortmuster. Entsprechend handelt es sich bei der Korrektur des
Sprachmodells nicht um eine akustische Korrektur, sondern um
eine statistische. Nach der Aktualisierung des Sprachmodells
fährt das System mit dem Schritt in Block 74 fort wie oben
beschrieben.
Wenn beispielsweise ein Benutzer eines Spracherkennungssystems
das Wort "beten" diktiert, das System dieses Wort aber als
"bieten" erkennt, wurde ein Erkennungsfehler gemacht. Der
Benutzer kann den Fehler korrigieren, indem er einfach die
Rücktaste oder die Löschtaste benutzt, um das "i" aus dem Wort
"bieten" zu löschen. Das System erkennt diese Änderung,
klassifiziert das Wort "bieten" als diktiertes Wort und das
Wort "beten" als Ersetzungswort und vergleicht das diktierte
Wort mit dem Ersetzungswort (Block 58).
Das System entscheidet dann, ob das Ersetzungswort in einer
Alternativwörterliste steht (Block 60). Wenn das Ersetzungswort
in einer Alternativwörterliste steht, wird das Sprachmodell mit
der Korrektur aktualisiert (Block 72), so dass das System
lernt, wie das Diktat des Wortes "beten" richtig zu erkennen
ist.
In manchen Fällen steht das Ersetzungswort nicht in einer
Alternativwörterliste. In diesen Situationen entscheidet das
Verfahren in Block 62, ob zwischen dem diktierten Wort und dem
Ersetzungswort eine gute Übereinstimmung innerhalb einer
statistischen Vorgabe besteht. Diese Entscheidung kann mittels
eines geeigneten Vergleichsprozesses getroffen werden, z. B.
durch Verwendung eines Algorithmus zum Vergleich von Phonetik,
Grammatik, Rechtschreibung und/oder Kontext des diktierten
Wortes und des Ersetzungswortes. Bei bestimmten Wörtern, z. B.
bei dem Wort "zehn", kann der Kontext im Vergleichsschritt
besonders nützlich sein. Wenn ein Benutzer beispielsweise
diktiert "zehn geteilt durch fünf", erhöhen die Kontextwörter
"geteilt" und "fünf" die statistische Wahrscheinlichkeit, dass
der Benutzer das Wort "zehn" und nicht "Zehen" diktiert hat,
sehr stark.
Wenn es zwischen dem diktierten Wort und dem Ersetzungswort
keine gute Übereinstimmung, bestimmt durch eine vorgegebene
statistische Größe, gibt, verzweigt das Verfahren zu dem oben
beschriebenen Schritt in Block 74. Gibt es eine gute
Übereinstimmung, so muss das System die Audiodaten der
diktierten Sprache mit dem Ersetzungswort vergleichen, um
festzustellen, ob es sich bei der Korrektur um eine Editierung
oder um einen Spracherkennungsfehler handelt. Ein direkter
Vergleich ist nicht möglich, da die Audiodaten des diktierten
Wortes als Wellenform vorliegen, während das Ersetzungswort aus
einer Folge von Zeichen besteht. Sowohl die Audiodaten des
diktierten Wortes als auch die Zeichen des Ersetzungswortes
müssen in Informationen umgewandelt werden, die direkt
verglichen werden können.
Deshalb fährt das Verfahren, wenn in Block 62 eine gute
Übereinstimmung festgestellt wurde, mit dem Schritt in Block 64
fort. In diesem Schritt werden die Audiodaten des diktierten
Wortes in digitale Daten des diktierten Wortes umgewandelt.
Dann verzweigt die Erfindung zu dem Schritt in Block 66, wo die
Zeichen des Ersetzungswortes in digitale Daten des
Ersetzungswortes umgewandelt werden. Verfahren zur Umwandlung
von Sprache in Text und/oder von Text in Sprache sind in
Fachkreisen gut bekannt. Verfahren zur Umwandlung von Sprache
in Text umfassen typischerweise einen zweistufigen Prozess, in
dem die Sprache zuerst in vom Computer generierte digitale
Daten und diese dann in Text umgewandelt werden. Entsprechend
wird bei der Umwandlung von Text in Sprache der Text
typischerweise zuerst in vom Computer generierte digitale
Informationen umgewandelt, und dann erzeugt das System
Audiodaten, die mit den vom Computer generierten digitalen
Informationen konsistent sind. In der Erfindung kann jedes
beliebige Text-Sprache-Umwandlungsverfahren verwendet werden,
das geeignet ist, ein Ersetzungswort in digitale Daten des
Ersetzungswortes umzuwandeln. Außerdem kann jedes beliebige
Sprache-Text-Umwandlungsverfahren verwendet werden, das
geeignet ist, ein diktiertes Wort in digitale Daten des
diktierten Wortes umzuwandeln.
Anschließend werden in dem Schritt in Block 68 die digitalen
Daten des diktierten Wortes mit den digitalen Daten des
Ersetzungswortes verglichen. In dem Schritt in Block 70 fährt
das Verfahren, wenn eine gute Übereinstimmung innerhalb einer
vorgegebenen statistischen Größe vorliegt, mit dem oben
beschriebenen Block 72 fort, wo das Sprachmodell mit der
Korrektur aktualisiert wird. Dann folgt Block 74, wo das System
prüft, ob weitere Informationen zur Bewertung zur Verfügung
stehen. Wurde keine gute Übereinstimmung innerhalb einer
vorgegebenen statistischen Größe festgestellt, fährt das
Verfahren mit dem oben beschriebenen Block 74 fort.
Wenn der Benutzer beispielsweise das Wort "beten" diktiert, das
System dieses Wort fälschlicherweise als "bieten" identifiziert
und der Benutzer den Fehler korrigiert, indem er das "i" aus
dem Wort "bieten" entfernt, so verwendet das System ein
Vergleichsverfahren wie oben beschrieben, um das diktierte Wort
"bieten" mit dem Ersetzungswort "beten" zu vergleichen. Das
System kann dann feststellen, ob das Ersetzungswort "beten" in
einer Alternativwörterliste aufgeführt ist. Wenn "beten" nicht
in der Alternativwörterliste steht, wird festgestellt, ob
zwischen "beten" und "bieten" eine gute Übereinstimmung
innerhalb einer statistischen Vorgabe vorliegt (Schritt 62).
Liegt eine gute Übereinstimmung vor, so wandelt das System die
Audiodaten des vom Benutzer diktierten Wortes in digitale Daten
des diktierten Wortes (Schritt 64) und das Wort "beten" in
digitale Daten des Ersetzungswortes (Schritt 66) um. Dann folgt
ein digitaler Vergleich in Block 68. Wenn bei dem Vergleich
festgestellt wird, dass eine gute Übereinstimmung innerhalb
einer vorgegebenen Vorgabe vorliegt, wird das Sprachmodell
aktualisiert, so dass das System lernt, die Aussprache des
Wortes "beten" durch den Benutzer zu erkennen (Block 72).
Nachdem ein Benutzer ein einzelnes Wort oder mehrere Wörter
diktiert hat, werden die Audiosignale dieses Diktats
automatisch vom System gespeichert. Die Audiosignale können
gespeichert bleiben, bis der Benutzer die Löschung der
gespeicherten Audiosignale anfordert. Das System kann so
konfiguriert werden, dass es einen Benutzer automatisch fragt,
ob gespeicherte Audiosignale gelöscht werden sollen. Die
Speicherung der Audiosignale, bis der Benutzer ihre Löschung
anfordert, ermöglicht es dem Benutzer, das Diktat zu einem
späteren Zeitpunkt zu editieren, da die Audiosignale der vom
Benutzer diktierten Sprache für die Umwandlung in digitale
Daten diktierter Wörter zur Verfügung stehen, die dann mit den
digitalen Informationen von Ersetzungswörtern verglichen werden
können.
Selbstverständlich dienen die hier beschriebenen Beispiele und
Ausführungsformen nur Illustrationszwecken, und der Fachmann
kann sich verschiedene Abwandlungen oder Änderungen verstellen,
die ebenfalls unter den Schutzbereich dieser Patentanmeldung
fallen. Die Erfindung kann andere spezifische Formen annehmen,
ohne dass die eine Abweichung vom Wesen oder wesentlichen
Attributen der Erfindung darstellt.
Claims (21)
1. In einem Spracherkennungssystem ein Verfahren zum
Aktualisieren eines Sprachmodells während einer
Korrektursitzung, wobei das Verfahren folgende Schritte
umfasst:
automatischer Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Aktualisierung des Sprachmodells ohne Interaktion des Benutzers.
automatischer Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Aktualisierung des Sprachmodells ohne Interaktion des Benutzers.
2. In einem Spracherkennungssystem ein Verfahren zum
Aktualisieren eines Sprachmodells während einer
Korrektursitzung, wobei das Verfahren folgende Schritte
umfasst:
automatischer Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Vergleich der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes und Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.
automatischer Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Vergleich der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes und Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.
3. Das Verfahren nach Anspruch 2, das außerdem vor dem
digitalen Vergleichsschritt folgende Schritte umfasst:
Umwandlung der Audiosignale des diktierten Wortes in digitale Informationen des diktierten Wortes;
Umwandlung des Ersetzungswortes in digitale Informationen des Ersetzungswortes; und
Verwendung der digitalen Informationen des diktierten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsschritt.
Umwandlung der Audiosignale des diktierten Wortes in digitale Informationen des diktierten Wortes;
Umwandlung des Ersetzungswortes in digitale Informationen des Ersetzungswortes; und
Verwendung der digitalen Informationen des diktierten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsschritt.
4. Das Verfahren nach Anspruch 1, wobei das Ersetzungswort
entweder durch Überschreiben des diktierten Wortes, durch
Ausschneiden des diktierten Wortes und Einfügen des
Ersetzungswortes oder durch Löschen des diktierten Wortes
und Ersetzen durch das Ersetzungswort generiert wird.
5. Das Verfahren nach Anspruch 2, wobei das Ersetzungswort
entweder durch Überschreiben des diktierten Wortes, durch
Ausschneiden des diktierten Wortes und Einfügen des
Ersetzungswortes oder durch Löschen des diktierten Wortes
und Ersetzen durch das Ersetzungswort generiert wird.
6. Das Verfahren nach Anspruch 1, wobei zumindest entweder
das diktierte Wort oder das Ersetzungswort aus mehreren
Wörtern besteht.
7. Das Verfahren nach Anspruch 2, wobei zumindest entweder
das diktierte Wort oder das Ersetzungswort aus mehreren
Wörtern besteht.
8. Ein System zur Aktualisierung eines Sprachmodells während
einer Korrektursitzung, umfassend:
ein Mittel zum automatischen Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, ein Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, ein Mittel zur Aktualisierung des Sprachmodells ohne Interaktion des Benutzers.
ein Mittel zum automatischen Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, ein Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, ein Mittel zur Aktualisierung des Sprachmodells ohne Interaktion des Benutzers.
9. Ein System zur Aktualisierung eines Sprachmodells während
einer Korrektursitzung, umfassend:
ein Mittel zum automatischen Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, ein Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort nicht in der Alternativwörterliste steht, ein Mittel zum Vergleich der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes und ein Mittel Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.
ein Mittel zum automatischen Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, ein Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort nicht in der Alternativwörterliste steht, ein Mittel zum Vergleich der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes und ein Mittel Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.
10. Das System nach Anspruch 9, außerdem umfassend:
ein Mittel zur Umwandlung der Audiosignale des diktierten Wortes in digitale Informationen des diktierten Wortes;
ein Mittel zur Umwandlung des Ersetzungswortes in digitale Informationen des Ersetzungswortes; und
ein Mittel zur Verwendung der digitalen Informationen des diktierten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsmittel.
ein Mittel zur Umwandlung der Audiosignale des diktierten Wortes in digitale Informationen des diktierten Wortes;
ein Mittel zur Umwandlung des Ersetzungswortes in digitale Informationen des Ersetzungswortes; und
ein Mittel zur Verwendung der digitalen Informationen des diktierten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsmittel.
11. Das System nach Anspruch 8, wobei das Ersetzungswort
entweder durch ein Mittel zum Überschreiben des diktierten
Wortes, ein Mittel zum Ausschneiden des diktierten Wortes
und Einfügen des Ersetzungswortes oder ein Mittel zum
Löschen des diktierten Wortes und Ersetzen durch das
Ersetzungswort generiert wird.
12. Das System nach Anspruch 9, wobei das Ersetzungswort
entweder durch ein Mittel zum Überschreiben des diktierten
Wortes, ein Mittel zum Ausschneiden des diktierten Wortes
und Einfügen des Ersetzungswortes oder ein Mittel zum
Löschen des diktierten Wortes und Ersetzen durch das
Ersetzungswort generiert wird.
13. Das System nach Anspruch 8, wobei zumindest entweder das
diktierte Wort oder das Ersetzungswort aus mehreren
Wörtern besteht.
14. Das System nach Anspruch 9, wobei zumindest entweder das
diktierte Wort oder das Ersetzungswort aus mehreren
Wörtern besteht.
15. Ein maschinenlesbarer Speicher, in dem ein
Computerprogramm mit mehreren Codeabschnitten, die von
einer Maschine ausgeführt werden können, gespeichert ist,
um die Maschine dazu zu veranlassen, folgende Schritte
auszuführen:
automatischer Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Aktualisierung des Sprachmodels ohne Interaktion des Benutzers.
automatischer Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Aktualisierung des Sprachmodels ohne Interaktion des Benutzers.
16. Ein maschinenlesbarer Speicher, in dem ein
Computerprogramm mit mehreren Codeabschnitten, die von
einer Maschine ausgeführt werden können, gespeichert ist,
um die Maschine dazu zu veranlassen, folgende Schritte
auszuführen:
automatischer Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Vergleich der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes und Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.
automatischer Vergleich eines diktierten Wortes mit einem Ersetzungswort;
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist; und
wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Vergleich der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes und Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.
17. Der maschinenlesbare Speicher nach Anspruch 16, der
außerdem vor dem akustischen Vergleichsschritt folgende
Schritte umfasst:
Umwandlung der Audiosignale des diktierten Wortes in digitale Informationen des diktierten Wortes;
Umwandlung des Ersetzungswortes in digitale Informationen des Ersetzungswortes; und Verwendung der digitalen Information des diktierten Wortes und der digitalen Information des Ersetzungswortes in dem digitalen Vergleichsschritt.
Umwandlung der Audiosignale des diktierten Wortes in digitale Informationen des diktierten Wortes;
Umwandlung des Ersetzungswortes in digitale Informationen des Ersetzungswortes; und Verwendung der digitalen Information des diktierten Wortes und der digitalen Information des Ersetzungswortes in dem digitalen Vergleichsschritt.
18. Der maschinenlesbare Speicher nach Anspruch 15, wobei das
Ersetzungswort entweder durch Überschreiben des diktierten
Wortes, durch Ausschneiden des diktierten Wortes und
Einfügen des Ersetzungswortes oder durch Löschen des
diktierten Wortes und Ersetzen durch das Ersetzungswort
generiert wird.
19. Der maschinenlesbare Speicher nach Anspruch 16, wobei das
Ersetzungswort entweder durch Überschreiben des diktierten
Wortes, durch Ausschneiden des diktierten Wortes und
Einfügen des Ersetzungswortes oder durch Löschen des
diktierten Wortes und Ersetzen durch das Ersetzungswort
generiert wird.
20. Der maschinenlesbare Speicher nach Anspruch 15, wobei
zumindest entweder das diktierte Wort oder das
Ersetzungswort aus mehreren Wörtern besteht.
21. Der maschinenlesbare Speicher nach Anspruch 16, wobei
zumindest entweder der diktierte Originaltext oder der
Ersetzungstext aus mehreren Wörtern besteht.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/406,661 US6418410B1 (en) | 1999-09-27 | 1999-09-27 | Smart correction of dictated speech |
US09/406,661 | 1999-09-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10040214A1 true DE10040214A1 (de) | 2001-04-19 |
DE10040214B4 DE10040214B4 (de) | 2006-03-30 |
Family
ID=23608946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10040214A Expired - Fee Related DE10040214B4 (de) | 1999-09-27 | 2000-08-17 | Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem |
Country Status (2)
Country | Link |
---|---|
US (1) | US6418410B1 (de) |
DE (1) | DE10040214B4 (de) |
Families Citing this family (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1317750B1 (de) * | 2000-09-08 | 2007-06-06 | Koninklijke Philips Electronics N.V. | Spracherkennungsverfahren mit ersetzungsbefehl |
US20020123894A1 (en) * | 2001-03-01 | 2002-09-05 | International Business Machines Corporation | Processing speech recognition errors in an embedded speech recognition system |
US6934682B2 (en) * | 2001-03-01 | 2005-08-23 | International Business Machines Corporation | Processing speech recognition errors in an embedded speech recognition system |
JP4241376B2 (ja) * | 2001-09-17 | 2009-03-18 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 |
US20030120493A1 (en) * | 2001-12-21 | 2003-06-26 | Gupta Sunil K. | Method and system for updating and customizing recognition vocabulary |
WO2004003688A2 (en) * | 2002-06-26 | 2004-01-08 | Kahn M D J D Jonathan | A method for comparing a transcribed text file with a previously created file |
US7260534B2 (en) * | 2002-07-16 | 2007-08-21 | International Business Machines Corporation | Graphical user interface for determining speech recognition accuracy |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
ATE417346T1 (de) * | 2003-03-26 | 2008-12-15 | Koninkl Philips Electronics Nv | Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen |
GB2433002A (en) * | 2003-09-25 | 2007-06-06 | Canon Europa Nv | Processing of Text Data involving an Ambiguous Keyboard and Method thereof. |
GB0322516D0 (en) * | 2003-09-25 | 2003-10-29 | Canon Europa Nv | Cellular mobile communication device |
US8019602B2 (en) | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US7310602B2 (en) * | 2004-09-27 | 2007-12-18 | Kabushiki Kaisha Equos Research | Navigation apparatus |
US7565282B2 (en) * | 2005-04-14 | 2009-07-21 | Dictaphone Corporation | System and method for adaptive automatic error correction |
US8473295B2 (en) * | 2005-08-05 | 2013-06-25 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
US7983914B2 (en) * | 2005-08-10 | 2011-07-19 | Nuance Communications, Inc. | Method and system for improved speech recognition by degrading utterance pronunciations |
US20070094022A1 (en) * | 2005-10-20 | 2007-04-26 | Hahn Koo | Method and device for recognizing human intent |
US7640158B2 (en) * | 2005-11-08 | 2009-12-29 | Multimodal Technologies, Inc. | Automatic detection and application of editing patterns in draft documents |
US20070136069A1 (en) * | 2005-12-13 | 2007-06-14 | General Motors Corporation | Method and system for customizing speech recognition in a mobile vehicle communication system |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US8407052B2 (en) * | 2006-04-17 | 2013-03-26 | Vovision, Llc | Methods and systems for correcting transcribed audio files |
WO2009073768A1 (en) | 2007-12-04 | 2009-06-11 | Vovision, Llc | Correcting transcribed audio files with an email-client interface |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
US7627562B2 (en) * | 2006-06-13 | 2009-12-01 | Microsoft Corporation | Obfuscating document stylometry |
US8521510B2 (en) * | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US20080221899A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile messaging environment speech processing facility |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8996379B2 (en) | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20080288252A1 (en) * | 2007-03-07 | 2008-11-20 | Cerra Joseph P | Speech recognition of speech recorded by a mobile communication facility |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US9111540B2 (en) * | 2009-06-09 | 2015-08-18 | Microsoft Technology Licensing, Llc | Local and remote aggregation of feedback data for speech recognition |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US10460288B2 (en) | 2011-02-18 | 2019-10-29 | Nuance Communications, Inc. | Methods and apparatus for identifying unspecified diagnoses in clinical documentation |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US9904768B2 (en) | 2011-02-18 | 2018-02-27 | Nuance Communications, Inc. | Methods and apparatus for presenting alternative hypotheses for medical facts |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9064492B2 (en) | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
US10504622B2 (en) | 2013-03-01 | 2019-12-10 | Nuance Communications, Inc. | Virtual medical assistant methods and apparatus |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US11183300B2 (en) | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US10496743B2 (en) | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
US9218811B2 (en) | 2013-06-28 | 2015-12-22 | Google Technology Holdings LLC | Electronic device and method for managing voice entered text using gesturing |
US20160004502A1 (en) * | 2013-07-16 | 2016-01-07 | Cloudcar, Inc. | System and method for correcting speech input |
US10754925B2 (en) | 2014-06-04 | 2020-08-25 | Nuance Communications, Inc. | NLU training with user corrections to engine annotations |
US10319004B2 (en) | 2014-06-04 | 2019-06-11 | Nuance Communications, Inc. | User and engine code handling in medical coding system |
US10373711B2 (en) | 2014-06-04 | 2019-08-06 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
US10366424B2 (en) | 2014-06-04 | 2019-07-30 | Nuance Communications, Inc. | Medical coding system with integrated codebook interface |
US10331763B2 (en) | 2014-06-04 | 2019-06-25 | Nuance Communications, Inc. | NLU training with merged engine and user annotations |
US20170018268A1 (en) * | 2015-07-14 | 2017-01-19 | Nuance Communications, Inc. | Systems and methods for updating a language model based on user input |
US10366687B2 (en) | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
US11152084B2 (en) | 2016-01-13 | 2021-10-19 | Nuance Communications, Inc. | Medical report coding with acronym/abbreviation disambiguation |
WO2018057639A1 (en) | 2016-09-20 | 2018-03-29 | Nuance Communications, Inc. | Method and system for sequencing medical billing codes |
US10229682B2 (en) * | 2017-02-01 | 2019-03-12 | International Business Machines Corporation | Cognitive intervention for voice recognition failure |
US11520610B2 (en) * | 2017-05-18 | 2022-12-06 | Peloton Interactive Inc. | Crowdsourced on-boarding of digital assistant operations |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
US11551006B2 (en) * | 2019-09-09 | 2023-01-10 | International Business Machines Corporation | Removal of personality signatures |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
DE4331710A1 (de) * | 1993-09-17 | 1995-03-23 | Sel Alcatel Ag | Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten |
US5884258A (en) * | 1996-10-31 | 1999-03-16 | Microsoft Corporation | Method and system for editing phrases during continuous speech recognition |
US5909667A (en) * | 1997-03-05 | 1999-06-01 | International Business Machines Corporation | Method and apparatus for fast voice selection of error words in dictated text |
-
1999
- 1999-09-27 US US09/406,661 patent/US6418410B1/en not_active Expired - Lifetime
-
2000
- 2000-08-17 DE DE10040214A patent/DE10040214B4/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6418410B1 (en) | 2002-07-09 |
DE10040214B4 (de) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10040214B4 (de) | Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem | |
DE60010827T2 (de) | Hintergrundsystem für Audiodatenbeseitigung | |
DE60033106T2 (de) | Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung | |
DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE69632517T2 (de) | Erkennung kontinuierlicher Sprache | |
DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
DE69829802T2 (de) | Spracherkennungsapparat zum Übertragen von Sprachdaten auf einem Datenträger in Textdaten | |
DE3910467C2 (de) | Verfahren und Vorrichtung zur Erzeugung von Berichten | |
DE69817844T2 (de) | Verfahren und vorrichtung zur spracherkennungscomputereingabe | |
DE60215272T2 (de) | Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen | |
DE60222093T2 (de) | Verfahren, modul, vorrichtung und server zur spracherkennung | |
DE69634239T2 (de) | Erkennung kontinuierlich gesprochener Texte und Befehle | |
DE60128816T2 (de) | Spracherkennungsverfahren mit ersetzungsbefehl | |
DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
DE60318505T2 (de) | Sprachbefehlinterpreter mit Funktion zur Verfolgung des Dialogfokuses und Verfahren zur Interpretation von Sprachbefehlen | |
DE60207742T2 (de) | Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
EP1892700A1 (de) | Verfahren zur Spracherkennung und Sprachwiedergabe | |
DE602005000308T2 (de) | Vorrichtung für sprachgesteuerte Anwendungen | |
DE69738116T2 (de) | Lokalisierung eines Musters in einem Signal | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
WO2001018792A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8321 | Willingness to grant licences paragraph 23 withdrawn | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |