DE60209103T2

DE60209103T2 - Texteditierung von erkannter sprache bei gleichzeitiger wiedergabe

Info

Publication number: DE60209103T2
Application number: DE60209103T
Authority: DE
Inventors: Dieter Hoi
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2001-03-29
Filing date: 2002-03-19
Publication date: 2006-09-14
Anticipated expiration: 2022-03-20
Also published as: JP4463861B2; EP1374224B1; US6999933B2; CN1215458C; JP2008217032A; DE60209103D1; ATE317583T1; CN1460246A; US20020143534A1; WO2002080144A1; JP2004529381A; JP4173371B2; EP1374224A1

Description

Die Erfindung bezieht sich auf eine Korrektureinrichtung zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung zu einer Sprachinformation erkannten Textinformation.
Die Erfindung bezieht sich weiterhin auf ein Korrekturverfahren zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung zu einer Sprachinformation erkannten Textinformation.
Die Erfindung bezieht sich weiterhin auf eine Spracherkennungseinrichtung zum Erkennen einer Textinformation zu einer empfangenen Sprachinformation.
Die Erfindung bezieht sich auch auf ein Computerprogrammprodukt, das durch eine Korrektursoftware einer Textverarbeitungssoftware gebildet ist, die von einem Computer abgearbeitet wird.
Ein solche Korrektureinrichtung und ein solches Korrekturverfahren sind aus dem Dokument US-A-6,173,259 bekannt und durch einen eine Textverarbeitungssoftware abarbeitenden Computer eines Korrektors eines Transkriptionsservices gebildet. Ein Korrektor ist ein Mitarbeiter des Transkriptionsservices, der fehlerhafte Wörter in einer mit einem Spracherkennungsprogramm automatisch erkannten Textinformation manuell korrigiert.
Ein Autor eines Diktats kann die Sprachinformation seines Diktats über ein Computernetz an einen Server des bekannten Transkriptionsservices übermitteln. Der Server verteilt empfangene Sprachinformationen von Diktaten an mehrere Computer, die je eine Spracherkennungssoftware abarbeiten und hierbei eine Spracherkennungseinrichtung bilden.
Die bekannte Spracherkennungseinrichtung erkennt zu der ihr übermittelten Sprachinformation des Diktats des Autors eine Textinformation, wobei zusätzlich eine Linkinformation ermittelt wird. Die Linkinformation kennzeichnet zu jedem Wort der erkannten Textinformation einen Teil der Sprachinformation, zu dem das Wort von der Spracherkennungseinrichtung erkannt wurde. Die Sprachinformation des Diktats, die er kannte Textinformation und die Linkinformation werden von der Spracherkennungseinrichtung an den Computer des Korrektors zur Korrektur der fehlerhaften Wörter in der erkannten Textinformation übermittelt.
Die bekannte Korrektureinrichtung enthält Synchronwiedergabemittel, mit denen eine Synchron-Wiedergabebetriebsart möglich ist. Bei in der Korrektureinrichtung aktivierter Synchron-Wiedergabebetriebsart wird die Sprachinformation des Diktats wiedergeben, wobei jeweils synchron zu jedem akustisch wiedergegeben Wort der Sprachinformation das zu diesem Wort von der Spracherkennungseinrichtung erkannte Wort der erkannten Textinformation mit einem Audio-Cursor markiert wird. Der Audio-Cursor markiert somit die Position des gerade akustisch wiedergegebenen Wortes in der erkannten Textinformation.
Wenn der Korrektor während der synchronen Wiedergabe ein fehlerhaftes Wort in der Textinformation erkennt, dann unterbricht beziehungsweise deaktiviert er die Synchron-Wiedergabebetriebsart, positioniert mittels der Tastatur des Computers einen Text-Cursor zu dem fehlerhaften Wort und editiert es. Anschließen aktiviert er neuerlich die Synchron-Wiedergabebetriebsart, worauf die Wiedergabe der Sprachinformation ab dem korrigierten Wort fortgesetzt wird.
Ein Korrektor wird von dem Betreiber des Transkriptionsservices danach bezahlt, wie viele Wörter die von ihm korrigierten Textinformationen aufweisen. Ein Qualitätsbeauftragter des Transkriptionsservices nimmt Stichproben der von dem Korrektor korrigierten Textinformationen, wobei von dem Korrektor übersehene fehlerhafte Wörter ebenfalls das Gehalt des Korrektors beeinflussen. Ein Korrektor hat daher ein großes Interesse an einer Textverarbeitungssoftware, bei der von ihm bei aktivierter Synchron-Wiedergabebetriebsart erkannte fehlerhafte Wörter mit möglichst geringem manuellen Aufwand möglichst zeitsparend korrigiert werden können. Korrektoren versuchen daher möglichst alle zur Korrektur eines fehlerhaften Wortes nötigen Editierinformationen mit der Tastatur des Computers ohne Verwendung der Maus einzugeben, da ein Umgreifen auf die Maus zeitaufwendig ist.
Bei der bekannten Korrektureinrichtung und dem bekannten Korrekturverfahren hat sich als Nachteil erwiesen, dass zur Korrektur eines bei aktivierter Synchron-Wiedergabebetriebsart von dem Korrektor erkannten fehlerhaften Wortes relativ viele manuelle Tätigkeiten des Korrektors notwendig sind, weshalb diese Korrekturen für den Korrektor zeitaufwendig sind.
Ein Beispiel wird in "Improved Correction of Speech Recognition Errors through Audio Playback", IBM Tech. Discl. Bulletin, Bs. 36, Nr. 06A, Juni 1993, S. 153–154 offenbart.
Die Erfindung hat sich zur Aufgabe gestellt, eine Korrektureinrichtung der in dem ersten Absatz angegebenen Art, ein Korrekturverfahren der in dem zweiten Absatz angegebenen Art, eine Spracherkennungseinrichtung der in dem dritten Absatz angegebenen Art sowie ein Computerprogrammprodukt der in dem vierten Absatz angegebenen Art zu schaffen, bei denen vorstehend angeführte Nachteile vermieden sind.
Zur Lösung vorstehend angegebener Aufgabe sind bei einer solchen Korrektureinrichtung erfindungsgemäße Merkmale vorgesehen, so dass die Korrektureinrichtung durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
Korrektureinrichtung zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung zu einer Sprachinformation erkannten Textinformation mit Empfangsmitteln zum Empfangen der Sprachinformation, der zugehörigen erkannten Textinformation und einer Linkinformation, die zu jedem Wort der erkannten Textinformation den Teil der Sprachinformation kennzeichnet, zu dem das Wort von der Spracherkennungseinrichtung erkannt wurde, und mit Editiermitteln zum Positionieren eines Text-Cursors bei einem fehlerhaften Wort der erkannten Textinformation und zum Editieren des fehlerhaften Wortes entsprechend einer von einem Benutzer eingegebenen Editierinformation und mit Synchronwiedergabemitteln zum Ermöglichen einer Synchron-Wiedergabebetriebsart, bei der während der akustischen Wiedergabe der Sprachinformation das gerade wiedergegebene und durch die Linkinformation gekennzeichnete Wort der erkannten Textinformation synchron markiert wird, wobei das gerade markierte Wort die Position eines Audio-Cursors kennzeichnet und die Editiermittel zum Positionieren des Text-Cursors und zum Editieren des fehlerhaften Wortes bei in der Korrektureinrichtung aktivierter Synchron-Wiedergabebetriebsart ausgebildet sind.
Zur Lösung vorstehend angegebener Aufgabe sind bei einem solchen Korrekturverfahren erfindungsgemäße Merkmale vorgesehen, so dass das Korrekturverfahren durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
Korrekturverfahren zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung zu einer Sprachinformation erkannten Textinformation, wobei folgende Verfahrensschritte abgearbeitet werden:

– Empfangen der Sprachinformation, der zugehörigen erkannten Textinformation und einer Linkinformation, die zu jedem Wort der erkannten Textinformation den Teil der Sprachinformation kennzeichnet, zu dem das Wort von der Spracherkennungseinrichtung erkannt wurde;
– Ermöglichen einer Synchron-Wiedergabebetriebsart, bei der während der akustischen Wiedergabe der Sprachinformation das zu der gerade wiedergegebenen Sprachinformation durch die Linkinformation gekennzeichnete Wort der erkannten Textinformation synchron markiert wird, wobei das gerade markierte Wort die Position eines Audio-Cursors kennzeichnet;
– Editieren des fehlerhaften Wortes mit einem Text-Cursor entsprechend einer von einem Benutzer eingegebenen Editierinformation, wobei das Editieren des fehlerhaften Wortes bei in der Korrektureinrichtung aktivierter Synchron-Wiedergabebetriebsart möglich ist.

Zur Lösung vorstehend angegebener Aufgabe sind bei einer solchen Spracherkennungseinrichtung erfindungsgemäße Merkmale vorgesehen, so dass die Spracherkennungseinrichtung durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
Spracherkennungseinrichtung zum Erkennen einer Textinformation zu einer empfangenen Sprachinformation mit Empfangsmitteln zum Empfangen der Sprachinformation und mit Spracherkennungsmitteln zum Erkennen einer der empfangenen Sprachinformation zuzuordnenden erkannten Textinformation und Linkinformation, wobei die Linkinformation zu jedem Wort der erkannten Textinformation einen Teil der Sprachinformation kennzeichnet, zu dem das Wort von den Spracherkennungsmitteln erkannt wurde, und mit einer Korrektureinrichtung gemäß Anspruch 1, um in der erkannten Textinformation enthaltene fehlerhafte Wörter zu korrigieren.
Zur Lösung vorstehend angegebener Aufgabe sind bei einem solchen Computerprogrammprodukt erfindungsgemäße Merkmale vorgesehen, so dass das Computerprogrammprodukt durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
Computerprogramm, das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer die Schritte des vorstehenden Korrekturverfahrens abgearbeitet werden, wenn das Produkt auf dem Computer läuft.
Erfindungsgemäß kann der Benutzer – bei in der Korrektureinrichtung aktivierter Synchron-Wiedergabebetriebsart, also während der fortgesetzten akustischen Wie dergabe der Sprachinformation – eine Editierinformation eingeben, um vorerst den "Text-Cursor auf die Position des fehlerhaften Wortes in der erkannten Textinformation zu positionieren und anschließend den Fehler zu korrigieren. Da während des Editierens des fehlerhaften Wortes die Synchron-Wiedergabebetriebsart fortgesetzt wird kann ein geübter Korrektor auch während des Editierens weiterhin nach fehlerhaften Wörtern in der erkannten Textinformation suchen und somit viel Zeit sparen.
Besonders vorteilhaft ist hierbei, dass das manuelle Deaktivieren der Synchron-Wiedergabebetriebsart und nach dem Editieren das manuelle Aktivieren der Synchron-Wiedergabebetriebsart entfällt, wodurch zusätzlich Zeit gespart wird.
Da ein Benutzer der Korrektureinrichtung bei aktivierter Synchron-Wiedergabebetriebsart üblicherweise das von den Synchronwiedergabemitteln mit dem Audio-Cursor gerade markierte Wort auf seine Richtigkeit hin kontrolliert, erkennt er ein fehlerhaftes Wort in der erkannten Textinformation jeweils in der näheren Umgebung der aktuellen Position des Audio-Cursors. Zu diesem Zeitpunkt befindet sich der Text-Cursor üblicherweise an einer gänzlich anderen Position, nämlich an der Position in der Textinformation, an der das letzte fehlerhafte Wort korrigiert wurde.
Gemäß den Maßnahmen des Anspruchs 2 und des Anspruchs 9 kann der Vorteil erhalten werden, dass der Benutzer – beispielsweise durch das Betätigung einer Taste der Tastatur – den Text-Cursor mit dem Audio-Cursor synchronisieren kann, wodurch der Text-Cursor auf die Position des während der synchronen Wiedergabe zuletzt markierten Wortes positioniert wird. Da sich das zu korrigierende fehlerhafte Wort üblicherweise in der unmittelbaren Umgebung des erfindungsgemäß positionierten Text-Cursors befindet, ist die anschließende Korrektur des fehlerhaften Wortes mit sehr geringem manuellem und zeitlichem Aufwand verbunden.
Erfindungsgemäß kann der Text-Cursor bei aktivierter Synchron-Wiedergabebetriebsart auch ständig automatisch mit dem Audio-Cursor synchronisiert sein. Hierdurch könnte vorteilhafterweise auf die Betätigung einer Taste der Tastatur zur Positionierung des Text-Cursors gänzlich verzichtet werden. Je nach Anwendungsfall kann es vorteilhaft sein, den Audio-Cursor mit dem Text-Cursor zu synchronisieren, also den Audio-Cursor auf die Position des Text-Cursors zu positionieren.
Gemäß den Maßnahmen der Ansprüche 3, 4 und 10 hat sich als Vorteil erwiesen, dass der Benutzer beim Erkennen eines fehlerhaften Wortes beispielsweise nur die „Pfeil-Rechts"-Taste zu betätigen braucht, um den in der erkannten Textinformation vor dem Audio-Cursor positionierten Text-Cursor mit dem Audio-Cursor zu synchronisieren. Durch das Betätigen der „Pfeil-Links"-Taste würde bei diesem Beispiel der Audio-Cursor mit dem Text-Cursor synchronisiert und somit auf die Position des Text-Cursors positioniert werden. Diese dynamische Belegung der „Pfeil-Links"-Taste und der „Pfeil-Rechts"-Taste ist besonders benutzerfreundlich.
Gemäß den Maßnahmen der Ansprüche 5 und 11 hat sich als Vorteil erwiesen, dass der Text-Cursor automatisch auf eine um N Wörter vor dem Audio-Cursor liegende Position in der erkannten Textinformation positioniert wird, da infolge der Reaktionszeit des Benutzers das fehlerhafte Wort üblicherweise N Wörter vor dem Audio-Cursor in der erkannten Textinformation enthalten ist.
Gemäß den Maßnahmen der Ansprüche 6 und 12 hat sich als Vorteil erwiesen, dass der Benutzer die Anzahl N an seine übliche Reaktionszeit anpassen kann.
Gemäß den Maßnahmen des Anspruchs 7 hat sich als Vorteil erwiesen, dass die Cursor bei aktivierter Synchron-Wiedergabebetriebsart automatisch synchronisiert sind, bis der Benutzer diese zum Editieren eines fehlerhaften Wortes entkoppelt. Hierdurch wird vorteilhafterweise eine besonders einfache Handhabung beim Korrigieren eines fehlerhaften Wortes erhalten.
Die Erfindung wird im Folgenden anhand eines in den Figuren dargestellten Ausführungsbeispiels beschrieben, auf das die Erfindung aber nicht beschränkt ist.
1 zeigt ein Spracherkennungseinrichtung mit einer Korrektureinrichtung zum Korrigieren von fehlerhaften Wörtern in einem von der Spracherkennungseinrichtung erkannten Text.
2 zeigt ein Verfahren zum Verarbeiten von Diktaten, wobei auch ein Verfahren zum Korrigieren von fehlerhaften Wörtern in einer von der Spracherkennungseinrichtung erkannten Text abgearbeitet wird.
1 zeigt eine Spracherkennungseinrichtung 1, die durch einen Computer gebildet ist, mit dem eine Spracherkennungssoftware und eine Textverarbeitungssoftware abgearbeitet werden. An die Spracherkennungseinrichtung 1 sind ein Mikrofon 2, eine Tastatur 3, ein Fußschalter 4, ein Lautsprecher 5 und ein Bildschirm 6 angeschlossen.
Ein Benutzer der Spracherkennungseinrichtung 1 kann ein Diktat in das Mikrofon 1 sprechen, woraufhin ein die Sprachinformation des Diktats enthaltendes Sprachsignal SS an die Spracherkennungseinrichtung 1 abgegeben wird. Die Spracherkennungseinrichtung 1 enthält einen A/D-Wandler 7, mit dem das Sprachsignal SS digitalisiert wird, worauf von dem A/D-Wandler 7 digitale Sprachdaten SD an Spracherkennungsmittel 8 abgegeben werden.
Die Spracherkennungsmittel 8 sind zum Erkennen einer den empfangenen Sprachdaten SD zuzuordnenden Textinformation ausgebildet, die in weiterer Folge als erkannte Textinformation ETI bezeichnet wird. Die Spracherkennungsmittel 8 sind weiterhin zum Ermitteln einer Linkinformation LI ausgebildet, die zu jedem Wort der erkannten Textinformation ETI den Teil der Sprachdaten SD kennzeichnet, zu dem das Wort von den Spracherkennungsmitteln 8 erkannt wurde. Solche Spracherkennungsmittel 8 sind beispielsweise aus dem Dokument US-A-5,031,113 bekannt.
Die Spracherkennungseinrichtung 1 weist weiterhin Speichermittel 9 auf, mit denen die von den Spracherkennungsmitteln 8 abgegebenen Sprachdaten SD gemeinsam mit der erkannten Textinformation ETI und der Linkinformation LI des Diktats gespeichert werden. Ein solches vorstehend beschriebenes Spracherkennungsverfahren zum Erkennen der der Sprachinformation eines Diktats zuzuordnenden erkannten Textinformation ETI ist seit langem bekannt, weshalb hierauf nicht näher eingegangen wird.
Die Spracherkennungseinrichtung 1 weist weiterhin eine Korrektureinrichtung 10 zum Korrigieren von fehlerhaften Wörtern der erkannten Textinformation ETI auf. Die Korrektureinrichtung 10 ist durch den die Textverarbeitungssoftware abarbeitenden Computer gebildet ist, welche Textverarbeitungssoftware eine spezielle Korrektursoftware enthält. Die Korrektureinrichtung 10 enthält Editiermittel 11 und Synchronwiedergabemittel 12.
Die Editiermittel 11 sind zum Positionieren eines Text-Cursors TC zu einem fehlerhaften Wort der erkannten Textinformation ETI und zum Editieren des fehlerhaften Wortes entsprechend einer von einem Benutzer eingegebenen Editierinformation EI ausgebildet. Die Editierinformation EI wird hierbei von dem Benutzer mit den Tasten der Tastatur 3 eingegeben, wie dies allgemein bekannt ist.
Die Synchronwiedergabemittel 12 ermöglichen eine Synchron-Wiedergabebetriebsart der Spracherkennungseinrichtung 1, bei der während der akustischen Wiedergabe der Sprachinformation des Diktats das zu der gerade wiedergegebenen Sprachinformation durch die Linkinformation LI gekennzeichnete Wort der erkannten Textinformation ETI synchron markiert wird. Diese ebenfalls aus dem Dokument US-A- 5,031,113 bekannte Synchron-Wiedergabebetriebsart ist bei Benutzern von Spracherkennungseinrichtungen sehr beliebt, da sie ein effektives Korrigieren fehlerhafter Wörter ermöglicht.
Bei in der Spracherkennungseinrichtung 1 aktivierter Synchron-Wiedergabebetriebsart wird mit einem von Wort zu Wort der erkannten Textinformation ETI wechselnden Audio-Cursor AC jeweils genau das Wort markiert, das akustisch wiedergegeben wird. Cursor können beispielsweise durch Unterstreichung oder Invertierung des an der Position des Cursors dargestellten Zeichens dargestellt werden, wobei eine Vielzahl anderer Möglichkeiten der Darstellung eines Cursors bekannt sind.
Wie in der mit dem Monitor 6 dargestellten Textinformation TI ersichtlich, sind bei aktivierter Synchron-Wiedergabebetriebsart sowohl der Text-Cursor TC als auch der Audio-Cursor AC sichtbar, wobei der Text-Cursor TC meistens nur ein Zeichen und der Audio-Cursor AC immer ein ganzes Wort markiert. Der Text-Cursor TC bleibt bei aktivierter Synchron-Wiedergabebetriebsart statisch auf der Position in der dargestellten Textinformation TI positioniert, bei der mit den Editiermitteln 11 zuletzt ein fehlerhaftes Wort korrigiert wurde, wohingegen der Audio-Cursor AC von Wort zu Wort wechselt.
Bei aktivierter Synchron-Wiedergabebetriebsart können die in den Speichermitteln 9 gespeicherten Audiodaten AD des Diktats von den Synchronwiedergabemitteln 12 ausgelesen und kontinuierlich an einen D/A-Wandler 13 abgegeben werden. Der D/A-Wandler 13 kann daraufhin das die Sprachinformation SI des Diktats enthaltende Sprachsignal SS an den Lautsprecher 5 zur akustischen Wiedergabe des Diktats abgeben.
Zur Aktivierung der Synchron-Wiedergabebetriebsart kann ein Benutzer der Spracherkennungseinrichtung 1 seinen Fuß auf einen der beiden Schalter des Fußschalters 4 stellen, woraufhin eine Steuerinformation SI an die Synchronwiedergabemittel 12 abgegeben wird. Danach lesen die Synchronwiedergabemittel 12 zusätzlich zu den Sprachdaten SD des Diktats auch die zu dem Diktat in den Speichermitteln 9 gespeicherte Linkinformation LI aus.
Die Synchronwiedergabemittel 12 sind bei aktivierter Synchron-Wiedergabebetriebsart zum Erzeugen und Abgeben einer Audio-Cursor-Information ACI an die Editiermittel 11 ausgebildet. Die Audio-Cursor-Information ACI kennzeichnet jeweils das gerade akustisch wiedergegebene Wort und somit die Position, bei der der Audio-Cursor AC in der dargestellten Textinformation TI dargestellt werden soll.
Die Editiermittel 11 sind unmittelbar nach dem Aktivieren der Synchron-Wiedergabebetriebsart zum Auslesen der erkannten Textinformation ETI aus den Speichermitteln 9 und zum temporären Speichern als darzustellende Textinformation TI ausgebildet. Diese temporär gespeicherte darzustellende Textinformation TI entspricht vorerst der erkannten Textinformation ETI und wird durch Korrekturen fehlerhafter Wörter durch den Benutzer verändert, um letztendlich eine fehlerfreie Textinformation TI zu erhalten.
Die in den Editiermitteln 11 temporär gespeicherte Textinformation TI wird von den Editiermitteln 11 an Bildverarbeitungsmittel 14 abgegeben. Die Bildverarbeitungsmittel 14 verarbeiten die darzustellende Textinformation TI und geben eine die darzustellende Textinformation TI enthaltende, mit dem Monitor 6 darstellbare Darstellungsinformation DI an den Monitor 6 ab. Weiterhin geben die Editiermittel 11 eine Text-Cursor-Information TCI an die Bildverarbeitungsmittel 14 ab, die die Position des Text-Cursors TC in der dargestellten Textinformation TI kennzeichnet. Bei aktivierter Synchron-Wiedergabebetriebsart geben die Editiermittel 11 zusätzlich auch die Audio-Cursor-Information ACI zur Darstellung des Audio-Cursors AC an die Bildverarbeitungsmittel 14 ab.
Die Editiermittel 11 der Korrekturmittel 10 enthalten jetzt auch Cursorsynchronisiermittel 15 zum Synchronisieren des Text-Cursors TC mit dem Audio-Cursor AC oder des Audio-Cursors AC mit dem Text-Cursor TC. Hierdurch wird das Positionieren des Text-Cursors TC zur Korrektur eines von dem Benutzer erkannten fehlerhaften Wortes wesentlich erleichtert, worauf anhand eines Anwendungsbeispiels der Spracherkennungseinrichtung 1 nachfolgend näher eingegangen werden soll.
Die Editiermittel 11 sind weiterhin zum Positionieren des Text-Cursors TC und zum Editieren eines von dem Benutzer erkannten fehlerhaften Wortes bei in der Korrektureinrichtung 10 aktivierter Synchron-Wiedergabebetriebsart ausgebildet. Hierdurch kann ein beim Korrigieren geübter Benutzer ein fehlerhaftes Wort korrigieren ohne die Synchron-Wiedergabebetriebsart vorher zu deaktivieren und nach der Korrektur neuerlich zu aktivieren, wodurch der Benutzer vorteilhafterweise viel Zeit sparen kann. Hierauf soll ebenfalls anhand des nun folgenden Anwendungsbeispiels der Spracherkennungseinrichtung 1 näher eingegangen werden.
Das folgende Anwendungsbeispiel der Spracherkennungseinrichtung 1 wird jetzt anhand eines Flussdiagramms 16 in 2 erläutert. Gemäß dem Anwendungsbeispiel wird angenommen, dass ein Arzt seine neue Spracherkennungseinrichtung ausprobiert und ein Diktat „THIS IS A TEXT THAT ... ERRORS WITHIN THIS TEXT HAVE TO THE CORRECTED WITH A TEXT EDITOR" in das Mikrofon 2 diktiert, woraufhin bei einem Block 17 die digitalen Sprachdaten SD des Diktats an die Spracherkennungsmittel 8 abgegeben werden. Bei einem Block 18 erkennen die Spracherkennungsmittel 8 die zugehörige erkannte Textinformation ETI und Linkinformation LI und speichern diese bei einem Block 19 in den Speichermitteln 9 ab. Da der Arzt einzelne Wörter des Diktats nicht klar ausgesprochen hat erkennen die Spracherkennungsmittel 8 anstatt des Wortes „IS" das Wort „MISS" und anstatt des Wortes „TEXT" das Wort „PEST".
Zu einem späteren Zeitpunkt – bei einem Block 20 – aktiviert die Sekretärin des Arztes die Synchron-Wiedergabebetriebsart der Spracherkennungseinrichtung 1, um fehlerhafte Wörter der erkannten Textinformation zu korrigieren. Die Editiermittel 11 lesen daraufhin die erkannte Textinformation ETI und die Synchronwiedergabemittel 12 die Sprachdaten SD und die Linkinformation LI des Diktats aus den Speichermitteln 9 aus. Die Textinformation TI wird anschließend mit dem Monitor 6 dargestellt und die akustische Wiedergabe des Diktats beginnt, woraufhin der Audio-Cursor AC beginnend mit dem Wort „THIS" ein Wort des Diktats nach dem anderen markiert.
Die Sekretärin erkennt unmittelbar das Wort „MISS" als fehlerhaftes Wort und korrigiert es durch Eingabe einer entsprechenden Eingabeinformation EI mit der Tastatur 3. Der Text-Cursor TC bleibt nach der Korrektur des Wortes „MISS" in das Wort „IS" an der Position des Zeichens „I" positioniert, wohingegen der Audio-Cursor AC weiterhin Wort für Wort der Textinformation TI markiert. Zu dem Zeitpunkt, zu dem der Audio-Cursor AC das Wort „PEST" markiert, erkennt die Sekretärin – bei einem Block 21 – dieses Wort als fehlerhaftes Wort und betätigt – bei einem Block 22 – die Tastenkombination „ALT + Pfeil-Rechts" der Tastatur. Hierdurch wird eine Synchronisierinformation SIY an die Editiermittel 11 abgegeben und der Text-Cursor TC mit dem Audio-Cursor AC synchronisiert. Hierdurch wird der Text-Cursor TC auf den ersten Buchstaben „P" des fehlerhaften Wortes „PEST" positioniert und die Sekretärin kann – bei einem Block 23 – sofort mit dem Korrigieren des fehlerhaften Wortes beginnen.
Der Vorteil hiervon ist, dass die Sekretärin nicht durch eine Vielzahl von Tastenbetätigungen der „Pfeil"-Tasten den Text-Cursor TC auf die Position des fehlerhaften Wortes positionieren musste, was sehr zeitaufwendig gewesen wäre. Ebenfalls konnte die Sekretärin zur Positionierung des Text-Cursors TC auf das Umgreifen auf eine in der 1 nicht dargestellte Computermaus verzichten, was ebenfalls zeitaufwendig gewesen wäre.
Während der Korrektur des fehlerhaften Wortes „PEST" bleibt die Synchron-Wiedergabebetriebsart aktiviert, da die Sekretärin bereits erfahren genug ist während der Korrektur dieses Wortes der fortgesetzten synchronen Wiedergabe der letzten Wörter des Diktats zu folgen. Erst am Ende des Diktats – bei einem Block 24 – deaktiviert die Sekretärin durch Betätigung eines zweiten Schalters des Fußschalters 4 die Synchron-Wiedergabebetriebsart. Die Blöcke 19 bis 24 des Flussdiagramms 16 beschreiben hierbei das Korrekturverfahren.
Da die Sekretärin die Korrektur der fehlerhaften Wörter „MISS" und „PEST" auch bei aktivierter Synchron-Wiedergabebetriebsart durchführen konnte, blieb ihr mehrfaches Betätigen des Fußschalters erspart und sie konnte ihre Arbeit wesentlich schneller beenden, was sehr vorteilhaft ist.
Es kann erwähnt werden, dass durch das Betätigen der Tastenkombination „ALT + Pfeil-Rechts" jeweils der Cursor, der relativ zu dem anderen Cursor dem Anfang der Textinformation TI näher positioniert ist, zu diesem anderen Cursor hin synchronisiert wird. Weiterhin wird durch Betätigen der „ALT + Pfeil-Links"-Taste der Cursor, der relativ zu dem anderen Cursor dem Ende der Textinformation TI näher positioniert ist, zu diesem anderen Cursor hin synchronisiert.
Diese dynamische Belegung der Funktionen der Tastenkombinationen hat sich als besonders benutzerfreundlich erwiesen. Selbstverständlich kann bei der Tastenkombination anstatt der „ALT"-Taste beispielsweise auch die „STRG"-Taste oder die „ALT GR"-Taste verwendet werden. Weiterhin kann bei aktivierter Synchron-Wiedergabebetriebsart auf die Tastenkombination überhaupt verzichtet und nur die „Pfeil-Links"-Taste und die „Pfeil-Rechts"-Taste dynamisch belegt verwendet werden.
Es kann erwähnt werden, dass die Cursor beispielsweise auch durch Betätigung des Fußschalters oder einer Computer-Maus synchronisiert werden könnten. Ebenfalls wäre es möglich, den Text-Cursor TC ständig automatisch mit dem Audio-Cursor AC zu synchronisieren, wodurch bei Eingabe einer Editierinformation EI jeweils die aktuelle Position des Audio-Cursors AC auch gleich die Position des Text-Cursors TC wäre.
Es kann erwähnt werden, dass es je nach Anwendungsfall auch vorteilhaft sein kann, den Audio-Cursor AC mit dem Text-Cursor TC zu synchronisieren, wodurch der Audio-Cursor AC auf die Position des Text-Cursors TC positioniert werden würde. Die synchrone Wiedergabe des Diktats würde dann ab der Position des Text-Cursors fortgesetzt werden, wodurch ein Wiederholen eines Teils der Wiedergabe des Diktats einfach möglich ist.
Es kann erwähnt werden, dass die beiden Cursor nach dem Synchronisieren nicht unbedingt auf die gleiche Position positioniert sein müssen. So könnte beispielsweise einer der beiden Cursor um die Anzahl von N = 3 Wörtern vor dem anderen Cursor positioniert werden. Hierdurch kann der Benutzer seine Reaktionszeit beim Erkennen eines fehlerhaften Wortes ausgleichen, wodurch der Text-Cursor TC nach dem Synchronisieren jeweils um 3 Wörter vor dem Audio-Cursor AC positioniert wäre. Reaktionsschnelle Benutzer könnten N = 1 und langsamere N = 10 wählen, wodurch der Text-Cursor TC nach dem Synchronisieren praktisch immer bereits auf dem fehlerhaften Wort positioniert wäre, was sehr vorteilhaft ist.
Weiterhin könnte der bei der Synchron-Wiedergabebetriebsart mit dem Audio-Cursor AC mit einem Versatz von N Wörtern gekoppelte Text-Cursor TC laufend dargestellt werden, wodurch ein normalerweise langsamerer Benutzer nach dem Erkennen eines fehlerhaften Wortes noch so lange mit der Eingabe der Editierinformation EI warten könnte, bis der Text-Cursor TC genau gerade auf dem fehlerhaften Wort positioniert ist. Hierdurch wäre ebenfalls ein sehr effizientes Korrigieren fehlerhafter Wörter möglich.
Es kann erwähnt werden, dass eine erfindungsgemäße Korrektureinrichtung insbesondere für Benutzer vorteilhaft ist, die einen Hauptteil ihrer Arbeitszeit erkannte Textinformationen ETI korrigieren und daher darin sehr geübt sind. Solche Benutzer sind als sogenannte Korrektoren unter anderem bei Transkriptionsservices angestellt, wie es beispielsweise in dem Dokument US-A-6,173,259 beschrieben ist.
Es kann erwähnt werden, dass die erfindungsgemäße Korrektureinrichtung meistens Teil einer Textverarbeitungssoftware sein wird, aber nicht sein muss.

2

Start: Start
20: Aktiviere
24: Deaktiviere
End: Ende

Claims

Korrektureinrichtung (10) zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung (1) zu einer Sprachinformation (SD) erkannten Textinformation (ETI) mit Empfangsmitteln zum Empfangen der Sprachinformation (SD), der zugehörigen erkannten Textinformation (ETI) und einer Linkinformation (LI), die zu jedem Wort der erkannten Textinformation (ETI) den Teil der Sprachinformation (SD) kennzeichnet, zu dem das Wort von der Spracherkennungseinrichtung (1) erkannt wurde, und mit Editiermitteln (11) zum Positionieren eines Text-Cursors (TC) bei einem fehlerhaften Wort der erkannten Textinformation (ETI) und zum Editieren des fehlerhaften Wortes entsprechend einer von einem Benutzer eingegebenen Editierinformation (EI) und mit Synchronwiedergabemitteln (12) zum Ermöglichen einer Synchron-Wiedergabebetriebsart, bei der während der akustischen Wiedergabe der Sprachinformation (SD) das gerade wiedergegebene und durch die Linkinformation (LI) gekennzeichnete Wort der erkannten Textinformation (ETI) synchron markiert wird, wobei das gerade markierte Wort die Position eines Audio-Cursors (AC) kennzeichnet und die Editiermittel (11) zum Positionieren des Text-Cursors (TC) und zum Editieren des fehlerhaften Wortes bei in der Korrektureinrichtung (10) aktivierter Synchron-Wiedergabebetriebsart ausgebildet sind.
Korrektureinrichtung (10) nach Anspruch 1, wobei Cursorsynchronisiermittel (15) zum Synchronisieren des Text-Cursors (TC) mit dem Audio-Cursor (AC) oder des Audio-Cursors (AC) mit dem Text-Cursor (TC) enthalten sind.
Korrektureinrichtung (10) nach Anspruch 1, wobei die Cursorsynchronisiermittel (15) eine Tastatur (3) enthalten und wobei durch manuelles Betätigen zumindest einer Taste die Cursor (AC, TC) synchronisierbar sind.
Korrektureinrichtung (10) nach Anspruch 3, wobei die zumindest eine Taste die „Pfeil-Rechts"-Taste oder die „Pfeil-Links"-Taste enthält und wobei beim Betätigen der „Pfeil-Rechts"-Taste der Cursor (AC, TC), der relativ zu dem anderen Cursor (TC, AC) dem Anfang der erkannten Textinformation (ETI) näher positioniert dargestellt ist, mit diesem anderen Cursor (TC, AC) synchronisierbar ist und wobei der Cursor (AC, TC), der relativ zu dem anderen Cursor (TC, AC) dem Ende der erkannten Textinformation (ETI) näher positioniert dargestellt ist, mit diesem anderen Cursor (TC, AC) synchronisierbar ist.
Korrektureinrichtung (10) nach Anspruch 1, wobei die Cursorsynchronisiermittel (15) bei aktivierter Synchron-Wiedergabebetriebsart den Text-Cursor (TC) in der erkannten Textinformation (ETI) um eine voreingestellte Anzahl von N Wörtern vor dem Audio-Cursor (AC) positionieren.
Korrektureinrichtung (10) nach Anspruch 5, wobei die voreingestellte Anzahl von N Wörtern entsprechend einer Benutzerinformation (EI) einstellbar ist.
Korrektureinrichtung (10) nach Anspruch 2, wobei die Cursorsynchronisiermittel (15) bei aktivierter Synchron-Wiedergabebetriebsart die Cursor (AC, TC) ständig automatisch synchronisieren und wobei durch manuelles Betätigen zumindest einer Taste der Text-Cursor (TC) von dem Audio-Cursor (AC) zum Editieren eines fehlerhaften Wortes entkoppelbar ist, bis durch ein weiteres Betätigen zumindest einer Taste der Text-Cursor (7C) wieder mit dem Audio-Cursor (AC) synchronisiert wird.
Korrekturverfahren (16) zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung (1) zu einer Sprachinformation (SD) erkannten Textinformation (ETI), wobei folgende Verfahrensschritte abgearbeitet werden: – Empfangen der Sprachinformation (SD), der zugehörigen erkannten Textinformation (ETI) und einer Linkinformation (LI), die zu jedem Wort der erkannten Textinformation (ETI) den Teil der Sprachinformation (SD) kennzeichnet, zu dem das Wort von der Spracherkennungseinrichtung (1) erkannt wurde; – Ermöglichen einer Synchron-Wiedergabebetriebsart, bei der während der akustischen Wiedergabe der Sprachinformation (SD) das zu der gerade wiedergegebenen Sprachinformation (SD) durch die Linkinformation (LI) gekennzeichnete Wort der erkannten Textinformation (ETI) synchron markiert wird, wobei das gerade markierte Wort die Position eines Audio-Cursors (AC) kennzeichnet; – Editieren des fehlerhaften Wortes mit einem Text-Cursor (TC) entsprechend einer von einem Benutzer eingegebenen Editierinformation (EI), wobei das Editieren des fehlerhaften Wortes bei in der Korrektureinrichtung (10) aktivierter Synchron-Wiedergabebetriebsart möglich ist.
Korrekturverfahren (16) nach Anspruch 8, wobei abhängig von der eingegebenen Editierinformation (EI) der Text-Cursor (TC) mit dem Audio-Cursor (AC) oder der Audio-Cursor (AC) mit dem Text-Cursor (TC) synchronisiert wird.
Korrekturverfahren (16) nach Anspruch 8, wobei durch manuelles Betätigen zumindest einer Taste die Cursor (AC, TC) synchronisiert werden.
Korrekturverfahren (16) nach Anspruch 8, wobei der Text-Cursor (TC) um eine voreingestellte Anzahl von N Wörtern vor dem Audio-Cursor (AC) in der erkannten Textinformation (ETI) positioniert wird.
Korrekturverfahren (16) nach Anspruch 11, wobei die voreingestellte Anzahl von N Wörtern entsprechend einer Benutzerinformation (EI) eingestellt wird.
Spracherkennungseinrichtung (1) zum Erkennen einer Textinformation (ETI) zu einer empfangenen Sprachinformation (SD) mit Empfangsmitteln zum Empfangen der Sprachinformation (SD) und mit Spracherkennungsmitteln (8) zum Erkennen einer der empfangenen Sprachinformation (SD) zuzuordnenden erkannten Textinformation (ETI) und Linkinformation (LI), wobei die Linkinformation (LI) zu jedem Wort der erkannten Textinformation (ETI) einen Teil der Sprachinformation (SD) kennzeichnet, zu dem das Wort von den Spracherkennungsmitteln (8) erkannt wurde, und mit einer Korrektureinrichtung (10) nach Anspruch 1, um in der erkannten Textinformation (ETI) enthaltene fehlerhafte Wörter zu korrigieren.
Computerprogrammprodukt, das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst, ausgebildet, mit dem Computer die Schritte des Korrekturverfahrens (16) nach Anspruch 8 abzuarbeiten, wenn das Produkt auf dem Computer läuft.
Computerprogrammprodukt nach Anspruch 14, wobei es auf einem computerlesbaren Medium gespeichert ist.