DE60202453T2 - Synchronisierung eines audio- und eines text-cursors während der editierung - Google Patents
Synchronisierung eines audio- und eines text-cursors während der editierung Download PDFInfo
- Publication number
- DE60202453T2 DE60202453T2 DE60202453T DE60202453T DE60202453T2 DE 60202453 T2 DE60202453 T2 DE 60202453T2 DE 60202453 T DE60202453 T DE 60202453T DE 60202453 T DE60202453 T DE 60202453T DE 60202453 T2 DE60202453 T2 DE 60202453T2
- Authority
- DE
- Germany
- Prior art keywords
- cursor
- information
- word
- eti
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001360 synchronised effect Effects 0.000 claims abstract description 63
- 238000012937 correction Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000003825 pressing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 6
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 241000607479 Yersinia pestis Species 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000035484 reaction time Effects 0.000 description 2
- 101100460719 Mus musculus Noto gene Proteins 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Description
- Die Erfindung bezieht sich auf eine Korrektureinrichtung zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung aus einer Sprachinformation erkannten Textinformation.
- Die Erfindung bezieht sich weiterhin auf ein Korrekturverfahren zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung aus einer Sprachinformation erkannten Textinformation.
- Die Erfindung bezieht sich weiterhin auf eine Spracherkennungseinrichtung zum Erkennen einer Textinformation aus einer empfangenen Sprachinformation.
- Die Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt, das eine Korrektursoftware einer Textverarbeitungssoftware umfasst, die von einem Computer abgearbeitet wird.
- Eine solche Korrektureinrichtung und ein solches Korrekturverfahren sind aus dem Dokument US-A-6.173.259 bekannt und werden durch einen eine Textverarbeitungssoftware abarbeitenden Computer eines Korrektors eines Transkriptionsservices gebildet. Ein Korrektor ist ein Mitarbeiter des Transkriptionsservices, der fehlerhafte Wörter in einer mit einem Spracherkennungsprogramm automatisch erkannten Textinformation manuell korrigiert.
- Ein Autor eines Diktats kann die Sprachinformation seines Diktats über ein Computernetz an einen Server des bekannten Transkriptionsservices übermitteln. Der Server verteilt empfangene Sprachinformationen von Diktaten an mehrere Computern, die je eine Spracherkennungssoftware abarbeiten und hierbei eine Spracherkennungseinrichtung bilden.
- Die bekannte Spracherkennungseinrichtung erkennt aus der ihr übermittelten Sprachinformation des Diktats des Autors eine Textinformation, wobei zusätzlich eine Linkinformation ermittelt wird. Die Linkinformation kennzeichnet zu jedem Wort der erkannten Textinformation einen Teil der Sprachinformation, zu dem das Wort von der Spracherkennungseinrichtung erkannt wurde. Die Sprachinformation des Diktats, die er kannte Textinformation und die Linkinformation werden von der Spracherkennungseinrichtung zur Korrektur der fehlerhaften Wörter in der erkannten Textinformation an den Computer des Korrektors übermittelt.
- Die bekannte Korrektureinrichtung enthält Synchronwiedergabemittel, mit denen eine Synchronwiedergabebetriebsart möglich ist. Bei in der Korrektureinrichtung aktivierter Synchronwiedergabebetriebsart wird die Sprachinformation des Diktats wiedergegeben, wobei jeweils synchron zu jedem akustisch wiedergegebenen Wort der Sprachinformation das aus dem wiedergegebenen Wort von der Spracherkennungseinrichtung erkannte Wort mit einem Audio-Cursor markiert wird. Der Audio-Cursor markiert somit die Position des gerade akustisch wiedergegebenen Wortes in der erkannten Textinformation.
- Wenn der Korrektor während der synchronen Wiedergabe ein fehlerhaftes Wort in der Textinformation erkennt, dann unterbricht beziehungsweise deaktiviert er die Synchronwiedergabebetriebsart, positioniert mittels der Tastatur des Computers einen Text-Cursor bei dem fehlerhaften Wort und editiert es. Anschließend reaktiviert er die Synchronwiedergabebetriebsart, woraufhin die Wiedergabe der Sprachinformation ab dem korrigierten Wort fortgesetzt wird.
- Ein Korrektor wird von dem Betreiber des Transkriptionsservices danach bezahlt, wie viele Wörter die von ihm korrigierten Textinformationen aufweisen. Ein Qualitätsbeauftragter des Transkriptionsservices nimmt Stichproben der von dem Korrektor korrigierten Textinformationen, wobei von dem Korrektor übersehene fehlerhafte Wörter ebenfalls das Gehalt des Korrektors beeinflussen. Ein Korrektor hat daher ein großes Interesse an einer Textverarbeitungssoftware, bei der von ihm bei aktivierter Synchronwiedergabebetriebsart erkannte fehlerhafte Wörter mit möglichst geringem manuellen Aufwand möglichst zeitsparend korrigiert werden können. Korrektoren versuchen daher möglichst alle zur Korrektur eines fehlerhaften Wortes nötigen Editierinformationen mit der Tastatur des Computers ohne Verwendung der Maus einzugeben, da ein Umgreifen auf die Maus zeitaufwendig ist.
- Bei der bekannten Korrektureinrichtung und dem bekannten Korrekturverfahren hat sich als Nachteil erwiesen, dass das Korrigieren eines bei aktivierter Synchronwiedergabebetriebsart durch den Korrektor als fehlerhaft erkannten Wortes relativ viele Handlungen von dem Korrektor erfordert, wodurch diese Korrekturen den Korrektor viel Zeit kosten. In „Improved correction of Speech Recognition Errors through audio playback", IBM TDB, Bd. 36, Nr. 06A, Juni 1993, S. 153–154 wird ein Beispiel beschrieben.
- Die Erfindung hat sich zur Aufgabe gestellt, eine Korrektureinrichtung gemäß der im ersten Absatz angegebenen Art, ein Korrekturverfahren gemäß der im zweiten Absatz angegebenen Art, eine Spracherkennungseinrichtung gemäß der im dritten Absatz angegebenen Art sowie ein Computerprogrammprodukt gemäß der im vierten Absatz angegebenen Art zu schaffen, bei denen die vorstehend angeführten Nachteile vermieden sind.
- Zur Lösung der vorstehend angegebenen Aufgabe sind bei einer solchen Korrektureinrichtung erfindungsgemäße Merkmale vorgesehen, sodass die Korrektureinrichtung durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
- Korrektureinrichtung zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung aus einer Sprachinformation erkannten Textinformation mit Empfangsmitteln zum Empfangen der Sprachinformation, der zugehörigen erkannten Textinformation und einer Linkinformation, die zu jedem Wort der erkannten Textinformation den Teil der Sprachinformation kennzeichnet, zu dem das Wort von der Spracherkennungseinrichtung erkannt wurde, und mit Editiermitteln zum Positionieren eines Text-Cursors bei einem fehlerhaften Wort der erkannten Textinformation und zum Editieren des fehlerhaften Wortes entsprechend einer von einem Benutzer eingegebenen Editierinformation und mit Synchronwiedergabemitteln zum Ermöglichen einer Synchronwiedergabebetriebsart, bei der während der akustischen Wiedergabe der Sprachinformation das gerade wiedergegebenen und durch die Linkinformation gekennzeichnete Wort der erkannten Textinformation synchron markiert wird, wobei das gerade markierte Wort die Position eines Audio-Cursors kennzeichnet, und mit Cursorsynchronisiermitteln zum Synchronisieren des Text-Cursors mit dem Audio-Cursor oder des Audio-Cursors mit dem Text-Cursor.
- Zur Lösung der vorstehend angegebenen Aufgabe sind bei einem solchen Korrekturverfahren erfindungsgemäße Merkmale vorgesehen, sodass das Korrekturverfahren durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
- Korrekturverfahren zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung aus einer Sprachinformation erkannten Textinformation, wobei folgende Verfahrensschritte abgearbeitet werden:
- • Empfangen der Sprachinformation, der zugehörigen erkannten Textinformation und einer Linkinformation, die zu jedem Wort der erkannten Textinformation den Teil der Sprachinformation kennzeichnet, zu dem das Wort von der Spracherkennungseinrichtung erkannt wurde;
- • Editieren des fehlerhaften Wortes mit einem Text-Cursor entsprechend einer von einem Benutzer eingegebenen Editierinformation;
- • Ermöglichen einer Synchronwiedergabebetriebsart, bei der während der akustischen Wiedergabe der Sprachinformation das zu der gerade wiedergegebenen Sprachinformation durch die Linkinformation gekennzeichnete Wort der erkannten Textinformation synchron markiert wird, wobei das gerade markierte Wort die Position eines Audio-Cursors kennzeichnet;
- • Synchronisieren des Text-Cursors mit dem Audio-Cursor oder des Audio-Cursors mit dem Text-Cursor.
- Zur Lösung der vorstehend angegebenen Aufgabe sind bei einer solchen Spracherkennungseinrichtung erfindungsgemäße Merkmale vorgesehen, sodass die Spracherkennungseinrichtung durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
- Spracherkennungseinrichtung zum Erkennen einer Textinformation aus einer empfangenen Sprachinformation mit Empfangsmitteln zum Empfangen der Sprachinformation und mit Spracherkennungsmitteln zum Erkennen einer der empfangenen Sprachinformation zuzuordnenden erkannten Textinformation und Linkinformation, wobei die Linkinformation zu jedem Wort der erkannten Textinformation einen Teil der Sprachinformation kennzeichnet, zu dem das Wort von den Spracherkennungsmitteln erkannt wurde, und mit einer vorstehend beschriebenen Korrektureinrichtung, um in der erkannten Textinformation enthaltene fehlerhafte Wörter zu korrigieren.
- Zur Lösung der vorstehend angegebenen Aufgabe sind bei einem solchen Computerprogrammprodukt erfindungsgemäße Merkmale vorgesehen, sodass das Computerprogrammprodukt durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
- Computerprogrammprodukt, das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer die Schritte des vorstehend beschriebenen Korrekturverfahrens abgearbeitet werden, wenn das Produkt auf dem Computer läuft.
- Da ein Benutzer der Korrektureinrichtung bei aktivierter Synchronwiedergabebetriebsart üblicherweise das von den Synchronwiedergabemitteln mit dem Audio-Cursor gerade markierte Wort auf seine Richtigkeit hin kontrolliert, erkennt er ein fehlerhaftes Wort in der erkannten Textinformation jeweils in der näheren Umgebung der aktuel len Position des Audio-Cursors. Zu diesem Zeitpunkt befindet sich der Text-Cursor üblicherweise an einer gänzlich anderen Position, nämlich an der Position in der Textinformation, an der das letzte fehlerhafte Wort korrigiert wurde.
- Erfindungsgemäß kann der Benutzer, beispielsweise durch Betätigung einer Taste der Tastatur, den Text-Cursor mit dem Audio-Cursor synchronisieren, wodurch der Text-Cursor auf die Position des während der synchronen Wiedergabe zuletzt markierten Wortes positioniert wird. Da sich das zu korrigierende fehlerhafte Wort üblicherweise in der Nähe des erfindungsgemäß positionierten Text-Cursors befindet, ist die anschließende Korrektur des fehlerhaften Wortes mit sehr geringem manuellem und zeitlichem Aufwand verbunden.
- Erfindungsgemäß kann der Text-Cursor bei aktivierter Synchronwiedergabebetriebsart auch ständig automatisch mit dem Audio-Cursor synchronisiert sein. Hierdurch könnte vorteilhafterweise auf die Betätigung einer Taste der Tastatur zur Positionierung des Text-Cursors gänzlich verzichtet werden. Je nach Anwendungsfall kann es vorteilhaft sein, den Audio-Cursor mit dem Text-Cursor zu synchronisieren, also den Audio-Cursor bei der Position des Text-Cursors zu positionieren.
- Gemäß den Maßnahmen des Anspruchs 2 und des Anspruchs 9 ist der Vorteil erhalten worden, dass die Synchronwiedergabebetriebsart zum Editieren eines fehlerhaften Wortes nicht unterbrochen oder deaktiviert werden muss. Hierdurch kann ein geübter Korrektor vorteilhafterweise viel Zeit sparen.
- Gemäß den Maßnahmen des Anspruchs 3, des Anspruchs 4 und des Anspruchs 10 hat es sich als Vorteil erwiesen, wenn der Benutzer beim Erkennen eines fehlerhaften Wortes beispielsweise nur die „Pfeil-Rechts"-Taste zu betätigen braucht, um den in der erkannten Textinformation vor dem Audio-Cursor positionierten Text-Cursor mit dem Audio-Cursor zu synchronisieren. Durch das Betätigen der „Pfeil-Links"-Taste würde bei diesem Beispiel der Audio-Cursor mit dem Text-Cursor synchronisiert und somit bei der Position des Text-Cursors positioniert werden. Diese dynamische Belegung der „Pfeil-Links"-Taste und der „Pfeil-Rechts"-Taste ist besonders benutzerfreundlich.
- Gemäß den Maßnahmen des Anspruchs 5 und des Anspruchs 11 hat es sich als Vorteil erwiesen, dass der Text-Cursor automatisch um N Wörter vor der Position des Audio-Cursors in der erkannten Textinformation positioniert wird, da durch die Reaktionszeit des Benutzers das fehlerhafte Wort üblicherweise N Wörter vor dem Audio-Cursor in der erkannten Textinformation gefunden wird.
- Gemäß den Maßnahmen des Anspruchs 6 und des Anspruchs 12 hat es sich als Vorteil erwiesen, dass der Benutzer die Anzahl N seiner üblichen Reaktionszeit entsprechend anpassen kann.
- Gemäß den Maßnahmen des Anspruchs 7 hat es sich als Vorteil erwiesen, dass die Cursors bei aktivierter Synchronwiedergabebetriebsart automatisch synchronisiert sind, bis der Benutzer sie zum Editieren eines fehlerhaften Wortes entkoppelt. Hierdurch wird vorteilhafterweise eine besonders einfache Handhabung beim Korrigieren eines fehlerhaften Wortes erhalten.
- Die Erfindung wird im Folgenden anhand eines in der Zeichnung dargestellten Ausführungsbeispiels beschrieben, auf das die Erfindung aber nicht beschränkt ist.
-
1 zeigt eine Spracherkennungseinrichtung mit einer Korrektureinrichtung zum Korrigieren von fehlerhaften Wörtern in einem von der Spracherkennungseinrichtung erkannten Text. -
2 zeigt ein Verfahren zum Verarbeiten von Diktaten, wobei auch ein Verfahren zum Korrigieren von fehlerhaften Wörtern in einem von der Spracherkennungseinrichtung erkannten Text abgearbeitet wird. -
1 zeigt eine Spracherkennungseinrichtung1 , die einen Computer umfasst, mit dem eine Spracherkennungssoftware und eine Textverarbeitungssoftware abgearbeitet werden. An die Spracherkennungseinrichtung1 sind ein Mikrofon2 , eine Tastatur3 , ein Fußschalter4 , ein Lautsprecher5 und ein Bildschirm6 angeschlossen. - Ein Benutzer der Spracherkennungseinrichtung
1 kann ein Diktat in das Mikrofon1 sprechen, woraufhin ein die Sprachinformation des Diktats enthaltendes Sprachsignal SS an die Spracherkennungseinrichtung1 abgegeben wird. Die Spracherkennungseinrichtung1 enthält einen A/D-Wandler7 , mit dem das Sprachsignal SS digitalisiert wird, woraufhin von dem A/D-Wandler7 digitale Sprachdaten SD an Spracherkennungsmittel8 abgegeben werden. - Die Spracherkennungsmittel
8 sind zum Erkennen einer den empfangenen Sprachdaten SD zuzuordnenden Textinformation ausgebildet, die im Folgenden als erkannte Textinformation ETI bezeichnet wird. Die Spracherkennungsmittel8 sind weiterhin zum Ermitteln einer Linkinformation LI ausgebildet, die zu jedem Wort der erkannten Textinformation ETI den Teil der Sprachdaten SD kennzeichnet, zu dem das Wort von den Spracherkennungsmitteln8 erkannt wurde. Solche Spracherkennungsmittel8 sind beispielsweise aus dem Dokument US-A-5.031.113 bekannt. - Die Spracherkennungseinrichtung
1 weist weiterhin Speichermittel9 auf, mit denen die von den Spracherkennungsmitteln8 abgegebenen Sprachdaten SD gemeinsam mit der erkannten Textinformation ETI und der Linkinformation LI des Diktats gespeichert werden. Ein solches vorstehend beschriebenes Spracherkennungsverfahren zum Erkennen der der Sprachinformation eines Diktats zuzuordnenden erkannten Textinformation ETI ist seit langem bekannt, weshalb hierauf nicht näher eingegangen wird. - Die Spracherkennungseinrichtung
1 weist jetzt weiterhin eine Korrektureinrichtung10 zum Korrigieren von fehlerhaften Wörtern der erkannten Textinformation ETI auf. Die Korrektureinrichtung10 umfasst den die Textverarbeitungssoftware abarbeitenden Computer, welche Textverarbeitungssoftware eine spezielle Korrektursoftware enthält. Die Korrektureinrichtung10 enthält Editiermittel11 und Synchronwiedergabemittel12 . - Die Editiermittel
11 sind zum Positionieren eines Text-Cursors TC zu einem fehlerhaften Wort der erkannten Textinformation ETI und zum Editieren des fehlerhaften Wortes entsprechend einer von einem Benutzer eingegebenen Editierinformation EI ausgebildet. Die Editierinformation EI wird hierbei von dem Benutzer mit den Tasten der Tastatur3 eingegeben, wie dies allgemein bekannt ist. - Die Synchronwiedergabemittel
12 ermöglichen eine Synchronwiedergabebetriebsart der Spracherkennungseinrichtung1 , bei der während der akustischen Wiedergabe der Sprachinformation des Diktats das zu der gerade wiedergegebenen Sprachinformation durch die Linkinformation LI gekennzeichnete Wort der erkannten Textinformation ETI synchron markiert wird. Diese ebenfalls aus dem Dokument US-A-5.031.113 bekannte Synchronwiedergabebetriebsart ist bei Benutzern von Spracherkennungseinrichtungen sehr beliebt, da sie ein effektives Korrigieren fehlerhafter Wörter ermöglicht. - Bei in der Spracherkennungseinrichtung
1 aktivierter Synchronwiedergabebetriebsart wird mit einem von Wort zu Wort der erkannten Textinformation ETI wechselnden Audio-Cursor AC gerade jeweils das Wort markiert, das akustisch wiedergegeben wird. Cursors können beispielsweise durch Unterstreichung oder Invertierung des an der Position des Cursors dargestellten Zeichens dargestellt werden, wobei eine Vielzahl anderer Möglichkeiten der Darstellung eines Cursors bekannt sind. - Wie in der mit dem Monitor
6 dargestellten Textinformation TI ersichtlich, sind bei aktivierter Synchronwiedergabebetriebsart sowohl der Text-Cursor TC als auch der Audio-Cursor AC sichtbar, wobei der Text-Cursor TC meistens nur ein Zeichen und der Audio-Cursor AC immer ein ganzes Wort markiert. Der Text-Cursor TC bleibt bei aktivierter Synchronwiedergabebetriebsart statisch auf der Position in der dargestellten Textinformation TI positioniert, bei der mit den Editiermitteln11 zuletzt ein fehlerhaftes Wort korrigiert wurde, wohingegen der Audio-Cursor AC von Wort zu Wort wechselt. - Bei aktivierter Synchronwiedergabebetriebsart sind von den Synchronwiedergabemitteln
12 die in den Speichermitteln9 gespeicherten Audiodaten AD des Diktats auslesbar und kontinuierlich an einen D/A-Wandler13 abgebbar. Der D/A-Wandler13 kann daraufhin das die Sprachinformation SI des Diktats enthaltende Sprachsignal SS zur akustischen Wiedergabe des Diktats an den Lautsprecher5 abgeben. - Zur Aktivierung der Synchronwiedergabebetriebsart kann ein Benutzer der Spracherkennungseinrichtung
1 seinen Fuß auf einen der beiden Schalter des Fußschalters4 stellen, woraufhin eine Steuerinformation SI an die Synchronwiedergabemittel12 abgegeben wird. Daraufhin lesen die Synchronwiedergabemittel12 zusätzlich zu den Sprachdaten SD des Diktats auch die zu dem Diktat in den Speichermitteln9 gespeicherte Linkinformation LI aus. - Die Synchronwiedergabemittel
12 sind bei aktivierter Synchronwiedergabebetriebsart zum Erzeugen und Abgeben einer Audio-Cursor-Information ACI an die Editiermittel11 ausgebildet. Die Audio-Cursor-Information ACI kennzeichnet jeweils das gerade akustisch wiedergegebene Wort und somit die Position, bei der der Audio-Cursor AC in der dargestellten Textinformation TI dargestellt werden soll. - Die Editiermittel
11 sind unmittelbar nach dem Aktivieren der Synchronwiedergabebetriebsart zum Auslesen der erkannten Textinformation ETI aus den Speichermitteln9 und zum temporären Speichern als darzustellende Textinformation TI ausgebildet. Diese temporär gespeicherte darzustellende Textinformation TI entspricht vorerst der erkannten Textinformation ETI und wird durch Korrekturen fehlerhafter Wörter durch den Benutzer verändert, um letztendlich eine fehlerfreie Textinformation zu erhalten. - Die in den Editiermitteln
11 temporär gespeicherte Textinformation TI wird von den Editiermitteln11 an Bildverarbeitungsmittel14 abgegeben. Die Bildverarbeitungsmittel14 verarbeiten die darzustellende Textinformation TI und geben eine die darzustellende Textinformation TI enthaltende, mit dem Monitor6 darstellbare Darstellungsinformation D1 an den Monitor6 ab. Weiterhin geben die Editiermittel11 eine Text-Cursor-Information TCI an die Bildverarbeitungsmittel14 ab, die die Position des Text-Cursors TC in der dargestellten Textinformation TI kennzeichnet. Bei aktivierter Synchronwiedergabebetriebsart geben die Editiermittel11 auch die Audio-Cursor-Information ACI zur Darstellung des Audio-Cursors AC an die Bildverarbeitungsmittel14 ab. - Die Editiermittel
11 der Korrekturmittel10 enthalten jetzt weiterhin Cursorsynchronisiermittel15 zum Synchronisieren des Text-Cursors TC mit dem Audio-Cursor AC oder des Audio-Cursors AC mit dem Text-Cursor TC. Hierdurch ist das Positionieren des Text-Cursors TC zur Korrektur eines von dem Benutzer erkannten fehlerhaften Wortes wesentlich erleichtert worden, worauf anhand eines Anwendungsbeispiels der Spracherkennungseinrichtung1 nachfolgend näher eingegangen wird. - Die Editiermittel
11 sind jetzt weiterhin zum Positionieren des Text-Cursors TC und zum Editieren eines von dem Benutzer erkannten fehlerhaften Wortes bei in der Korrektureinrichtung10 aktivierter Synchronwiedergabebetriebsart ausgebildet. Hierdurch kann ein im Korrigieren geübter Benutzer ein fehlerhaftes Wort korrigieren, ohne die Synchronwiedergabebetriebsart vorher zu deaktivieren und nach der Korrektur zu reaktivieren, sodass der Benutzer vorteilhafterweise viel Zeit sparen kann. Hierauf wird ebenfalls anhand des nun folgenden Anwendungsbeispiels der Spracherkennungseinrichtung1 näher eingegangen. - Das folgende Anwendungsbeispiel der Spracherkennungseinrichtung
1 wird jetzt anhand eines Flussdiagramms16 in2 erläutert. Gemäß dem Anwendungsbeispiel ist angenommen worden, dass ein Arzt seine neue Spracherkennungseinrichtung ausprobiert und ein Diktat „THIS IS A TEXT THAT ... ERRORS WITHIN THIS TEXT HAVE TO THE CORRECTED WITH A TEXT EDITOR" in das Mikrofon2 diktiert, woraufhin bei einem Block17 die digitalen Sprachdaten SD des Diktats an die Spracherkennungsmittel8 abgegeben werden. Bei einem Block18 erkennen die Spracherkennungsmittel8 die zugehörige erkannte Textinformation ETI und Linkinformation LI und speichern diese bei einem Block19 in den Speichermitteln9 ab. Da der Arzt einzelne Wörter des Diktats nicht klar ausgesprochen hat, erkennen die Spracherkennungsmittel8 anstatt des Wortes „IS" das Wort „MISS" und anstatt des Wortes „TEXT" das Wort „PEST". - Zu einem späteren Zeitpunkt – bei einem Block
20 – aktiviert die Sekretärin des Arztes die Synchronwiedergabebetriebsart der Spracherkennungseinrichtung1 , um fehlerhafte Wörter der erkannten Textinformation zu korrigieren. Die Editiermittel11 lesen hieraufhin die erkannte Textinformation ETI und die Synchronwiedergabemittel12 die Sprachdaten SD und die Linkinformation LI des Diktats aus den Speichermitteln9 aus. Die Textinformation TI wird anschließend mit dem Monitor6 dargestellt und die akustische Wiedergabe des Diktats beginnt, woraufhin der Audio-Cursor AC beginnend mit dem Wort „THIS" ein Wort des Diktats nach dem anderen markiert. - Die Sekretärin erkennt unmittelbar das Wort „MISS" als fehlerhaftes Wort und korrigiert es durch Eingabe einer entsprechenden Eingabeinformation EI mit der Tastatur
3 . Der Text-Cursor TC bleibt nach der Korrektur des Wortes „MISS" in dem Wort „IS" bei der Position des Zeichens „I" positioniert, wohingegen der Audio-Cursor AC weiterhin die Textinformation TI Wort für Wort markiert. Zu dem Zeitpunkt, zu dem der Audio-Cursor AC das Wort „PEST" markiert, erkennt die Sekretärin – bei einem Block21 – dieses Wort als fehlerhaftes Wort und betätigt – bei einem Block22 – die Tastenkombination „ALT + Pfeil-Rechts" der Tastatur. Hierdurch wird eine Synchronisierinformation SYI an die Editiermittel11 abgegeben und der Text-Cursor TC mit dem Audio-Cursor AC synchronisiert. Hierdurch wird der Text-Cursor TC auf den ersten Buchstaben „P" des fehlerhaften Wortes „PEST" positioniert und die Sekretärin kann – bei einem Block23 – sofort mit dem Korrigieren des fehlerhaften Wortes beginnen. - Der Vorteil hierbei ist, dass die Sekretärin nicht durch eine Vielzahl von Tastenbetätigungen der „Pfeil"-Tasten den Text-Cursor TC bei der Position des fehlerhaften Wortes positionieren musste, was sehr zeitaufwendig gewesen wäre. Ebenso brauchte die Sekretärin zur Positionierung des Text-Cursors TC nicht nach einer in der
1 nicht dargestellten Computermaus zu greifen, was ebenfalls zeitaufwendig gewesen wäre. - Während der Korrektur des fehlerhaften Wortes „PEST" bleibt die Synchronwiedergabebetriebsart aktiviert, da die Sekretärin bereits erfahren genug ist, während der Korrektur dieses Wortes der fortgesetzten synchronen Wiedergabe der letzten Wörter des Diktats zu folgen. Erst am Ende des Diktats – bei einem Block
24 – deaktiviert die Sekretärin durch Betätigung eines zweiten Schalters des Fußschalters4 die Synchronwiedergabebetriebsart. Die Blöcke19 bis24 des Flussdiagramms16 beschreiben hierbei das Korrekturverfahren. - Da die Sekretärin die Korrektur der fehlerhaften Wörter „MISS" und „PEST" auch bei aktivierter Synchronwiedergabebetriebsart durchführen konnte, blieb ihr mehrfaches Betätigen des Fußschalters erspart und konnte sie ihre Arbeit wesentlich schneller beenden, was sehr vorteilhaft ist.
- Es kann erwähnt werden, dass durch das Betätigen der Tastenkombination „ALT + Pfeil-Rechts" jeweils der Cursor, der in Relation zu dem anderen Cursor näher am Anfang der Textinformation TI positioniert ist, mit diesem anderen Cursor synchronisiert wird. Weiterhin wird durch Betätigen der „ALT + Pfeil-Links"-Taste der Cursor, der in Relation zu dem anderen Cursor näher am Ende der Textinformation TI positioniert ist, mit diesem anderen Cursor hin synchronisiert.
- Diese dynamische Belegung der Funktionen der Tastenkombinationen hat sich als besonders benutzerfreundlich erwiesen. Selbstverständlich kann bei der Tastenkombination anstatt der „ALT"-Taste beispielsweise auch die „STRG"-Taste oder die „ALT Gr"-Taste verwendet werden. Weiterhin kann bei aktivierter Synchronwiedergabebetriebsart auf die Tastenkombination überhaupt verzichtet und nur die „Pfeil-Links"-Taste und die „Pfeil-Rechts"-Taste dynamisch belegt verwendet werden.
- Es kann erwähnt werden, dass die Cursors auch durch Betätigung des Fußschalters oder einer Computer-Maus synchronisiert werden könnten. Ebenso wäre es möglich, den Text-Cursor TC ständig automatisch mit dem Audio-Cursor AC zu synchronisieren, sodass bei Eingabe einer Editierinformation EI die aktuelle Position des Audio-Cursors AC auch gleich die Position des Text-Cursors TC wäre.
- Es kann erwähnt werden, dass es je nach Anwendungsfall auch vorteilhaft sein kann, den Audio-Cursor AC mit dem Text-Cursor TC zu synchronisieren, wodurch der Audio-Cursor AC bei der Position des Text-Cursors TC positioniert werden würde. Die synchrone Wiedergabe des Diktats würde dann ab der Position des Text-Cursors fortgesetzt werden, sodass ein Wiederholen eines Teils der Wiedergabe des Diktats in einfacher Weise möglich ist.
- Es kann erwähnt werden, dass die beiden Cursors nach dem Synchronisieren nicht unbedingt die gleiche Position haben müssen. So könnte beispielsweise einer der beiden Cursors um eine Anzahl von N = 3 Wörtern vor dem anderen Cursor positioniert werden. Hierdurch kann der Benutzer seine Reaktionszeit beim Erkennen eines fehlerhaften Wortes ausgleichen, sodass der Text-Cursor TC nach dem Synchronisieren jeweils um 3 Wörter vor dem Audio-Cursor AC positioniert wäre. Reaktionsschnelle Benutzer könnten N = 1 und langsamere N = 10 wählen, wodurch der Text-Cursor TC nach dem Synchronisieren praktisch immer bereits auf dem fehlerhaften Wort positioniert wäre, was sehr vorteilhaft ist.
- Weiterhin könnte der bei der Synchronwiedergabebetriebsart mit dem Audio-Cursor AC mit einem Versatz von N Wörtern gekoppelte Text-Cursor TC laufend dargestellt werden, wodurch ein normalerweise langsamerer Benutzer nach dem Erkennen eines fehlerhaften Wortes noch so lange mit der Eingabe der Editierinformation EI warten könnte, bis der Text-Cursor TC genau gerade auf dem fehlerhaften Wort positioniert ist. Hierdurch wäre ebenfalls ein sehr effizientes Korrigieren fehlerhafter Wörter möglich.
- Es kann erwähnt werden, dass eine erfindungsgemäße Korrektureinrichtung insbesondere für Benutzer vorteilhaft ist, die einen Hauptteil ihrer Arbeitszeit erkannte Textinformationen ETI korrigieren und daher darin sehr geübt sind. Solche Benutzer sind als sogenannte Korrektoren unter anderem bei Transkriptionsservices angestellt, wie es beispielsweise in dem Dokument US-A-6.173.259 beschrieben ist.
- Es kann erwähnt werden, dass die erfindungsgemäße Korrektureinrichtung meistens Teil einer Textverarbeitungssoftware sein wird, aber nicht sein muss.
- Es kann erwähnt werden, dass die Synchronwiedergabebetriebsart durch Eingabe der Synchronisierinformation SYI automatisch unterbrochen werden könnte und nach Eingabe der Editierinformation EI fortgesetzt werden könnte. Diese Variante ist insbesondere für ungeübte Benutzer der Korrektureinrichtung vorteilhaft, das sie dadurch nicht parallel zur Ausführung von Korrekturen nach weiteren fehlerhaften Wörtern in der erkannten Textinformation ETI suchen müssen.
- Es kann erwähnt werden, dass der Computer
1 eventuell nicht imstande ist, das Diktat bei der synchronen Wiedergabe wiederzugeben, falls der Computer1 nicht die nötige Hardware hierfür aufweist. In einem solchen Fall kann eine digitale Diktateinrichtung, die die Sprachdaten des Diktats speichert, den Audioteil des Diktats bei der synchronen Wiedergabe akustisch wiedergeben und zusätzlich eine Positionsinformation für den Computer verschaffen. Diese Positionsinformation markiert die tatsächliche Wiedergabeposition der Audiowiedergabe, und der Computer kann auf Basis der Positionsinformation das entsprechende erkannte Wort markieren. - Inschrift der Zeichnung
-
2 -
- Start
-
20 Aktivieren -
24 Deaktivieren - Ende
Claims (15)
- Korrektureinrichtung (
10 ) zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung (1 ) aus einer Sprachinformation (SD) erkannten Textinformation (ETI) mit Empfangsmitteln zum Empfangen der Sprachinformation (SD), der zugehörigen erkannten Textinformation (ETI) und einer Linkinformation (LI), die zu jedem Wort der erkannten Textinformation (ETI) den Teil der Sprachinformation (SD) kennzeichnet, zu dem das Wort von der Spracherkennungseinrichtung (1 ) erkannt wurde, und mit Editiermitteln (11 ) zum Positionieren eines Text-Cursors (TC) bei einem fehlerhaften Wort der erkannten Textinformation (ETI) und zum Editieren des fehlerhaften Wortes entsprechend einer von einem Benutzer eingegebenen Editierinformation (EI) und mit Synchronwiedergabemitteln zum Ermöglichen einer Synchronwiedergabebetriebsart, bei der während der akustischen Wiedergabe der Sprachinformation (SD) das gerade wiedergegebene und durch die Linkinformation (LI) gekennzeichnete Wort der erkannten Textinformation (ETI) synchron markiert wird, wobei das gerade markierte Wort die Position eines Audio-Cursors (AC) kennzeichnet, und mit Cursorsynchronisiermitteln (15 ) zum Synchronisieren des Text-Cursors mit dem Audio-Cursor (AC) oder des Audio-Cursors (AC) mit dem Text-Cursor (TC). - Korrektureinrichtung (
10 ) nach Anspruch 1, wobei die Cursorsynchronisiermittel (15 ) zum Synchronisieren der Cursors (AC, TC) bei in der Korrektureinrichtung (10 ) aktivierter Synchronwiedergabebetriebsart ausgebildet sind. - Korrektureinrichtung (
10 ) nach Anspruch 1, wobei die Cursorsynchronisiermittel (15 ) eine Tastatur (3 ) enthalten und die Cursors (AC, TC) durch manuelles Betätigen zumindest einer Taste synchronisierbar sind. - Korrektureinrichtung (
10 ) nach Anspruch 3, wobei die zumindest eine Taste die „Pfeil-Rechts"-Taste oder die „Pfeil-Links"-Taste enthält und wobei beim Betätigen der „Pfeil-Rechts"-Taste der Cursor (AC, TC), der in Relation zu dem anderen Cursor (TC, AC) näher am Anfang der erkannten Textinformation (ETI) dargestellt ist, mit diesem anderen Cursor (TC, AC) synchronisierbar ist und wobei der Cursor (AC, TC), der in Relation zu dem anderen Cursor (TC, AC) näher am Ende der erkannten Textinformation (ETI) dargestellt ist, mit diesem anderen Cursor synchronisierbar ist. - Korrektureinrichtung (
10 ) nach Anspruch 1, wobei die Cursorsynchronisiermittel (15 ), bei aktivierter Synchronwiedergabebetriebsart, den Text-Cursor (TC) in der erkannten Textinformation (ETI) um eine voreingestellte Anzahl von N Wörtern vor dem Audio-Cursor (AC) positionieren. - Korrektureinrichtung (
10 ) nach Anspruch 5, wobei die voreingestellte Anzahl von N Wörtern entsprechend einer Benutzerinformation (EI) einstellbar ist. - Korrektureinrichtung (
10 ) nach Anspruch 2, wobei die Cursorsynchronisiermittel (15 ) bei aktivierter Synchronwiedergabebetriebsart die Cursors (AC, TC) ständig automatisch synchronisieren und wobei durch manuelles Betätigen zumindest einer Taste der Text-Cursor (TC) von dem Audio-Cursor (AC) zum Editieren eines fehlerhaften Wortes entkoppelt werden kann, bis durch ein weiteres Betätigen zumindest einer Taste der Text-Cursor (TC) wieder mit dem Audio-Cursor (AC) synchronisiert wird. - Korrekturverfahren (
16 ) zum Korrigieren von fehlerhaften Wörtern in einer mit einer Spracherkennungseinrichtung (1 ) aus einer Sprachinformation (SD) erkannten Textinformation (ETI), wobei folgende Verfahrensschritte abgearbeitet werden: • Empfangen der Sprachinformation (SD), der zugehörigen erkannten Textinformation (ETI) und einer Linkinformation (LI), die zu jedem Wort der erkannten Textinformation (ETI) den Teil der Sprachinformation (SD) kennzeichnet, zu dem das Wort von der Spracherkennungseinrichtung (1 ) erkannt wurde; • Ermöglichen einer Synchronwiedergabebetriebsart, bei der während der akustischen Wiedergabe der Sprachinformation (SD) das zu der gerade wiedergegebenen Sprachinformation (SD) durch die Linkinformation (LI) gekennzeichnete Wort der erkannten Textinformation (ETI) synchron markiert wird, wobei das gerade markierte Wort die Position eines Audio-Cursors (AC) kennzeichnet; • Editieren des fehlerhaften Wortes mit einem Text-Cursor (TC) entsprechend einer von einem Benutzer eingegebenen Editierinformation (EI); wobei das Editieren des fehlerhaften Wortes bei in der Korrektureinrichtung (10 ) aktivierter Synchronwiedergabebetriebsart möglich ist. - Korrekturverfahren (
16 ) nach Anspruch 8, wobei der Text-Cursor (TC) mit dem Audio-Cursor (AC) oder der Audio-Cursor (AC) mit dem Text-Cursor (TC) in Abhängigkeit von der eingegebenen Editierinformation (EI) synchronisiert wird. - Korrekturverfahren (
16 ) nach Anspruch 8, wobei durch manuelles Betätigen zumindest einer Taste die Cursors (AC, TC) synchronisiert werden. - Korrekturverfahren (
16 ) nach Anspruch 8, wobei der Text-Cursor (TC) um eine voreingestellte Anzahl von N Wörtern vor den Audio-Cursor (AC) in der erkannten Textinformation (ETI) positioniert wird. - Korrekturverfahren (
16 ) nach Anspruch 11, wobei die voreingestellte Anzahl von N Wörtern entsprechend einer Benutzerinformation (EI) eingestellt wird. - Spracherkennungseinrichtung (
1 ) zum Erkennen einer Textinformation (ETI) bei einer empfangenen Sprachinformation (SD) mit Empfangsmitteln zum Empfangen von Sprachinformation (SD) und mit Spracherkennungsmitteln (8 ) zum Erkennen einer der empfangenen Sprachinformation (SD) zuzuordnenden erkannten Textinformation (ETI) und Linkinformation (LI), wobei die Linkinformation (LI) zu jedem Wort der erkannten Textinformation (ETI) einen Teil der Sprachinformation (SD) kennzeichnet, zu dem das Wort von den Spracherkennungsmitteln (8 ) erkannt wurde, und mit einer Korrektureinrichtung (10 ) nach Anspruch 1, um in der erkannten Textinformation (ETI) enthaltene fehlerhafte Wörter zu korrigieren. - Computerprogrammprodukt, das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer die Schritte des Korrekturverfahrens (
16 ) nach Anspruch 8 abgearbeitet werden, wenn das Produkt auf dem Computer läuft. - Computerprogrammprodukt nach Anspruch 14, wobei es auf einem computerlesbaren Medium gespeichert ist.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01890104 | 2001-03-29 | ||
EP01890104 | 2001-03-29 | ||
PCT/IB2002/001062 WO2002080143A1 (en) | 2001-03-29 | 2002-03-25 | Synchronise an audio cursor and a text cursor during editing |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60202453D1 DE60202453D1 (de) | 2005-02-03 |
DE60202453T2 true DE60202453T2 (de) | 2006-01-19 |
Family
ID=8185105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60202453T Expired - Lifetime DE60202453T2 (de) | 2001-03-29 | 2002-03-25 | Synchronisierung eines audio- und eines text-cursors während der editierung |
Country Status (7)
Country | Link |
---|---|
US (3) | US8117034B2 (de) |
EP (1) | EP1374225B1 (de) |
JP (1) | JP5093966B2 (de) |
CN (1) | CN1225721C (de) |
AT (1) | ATE286294T1 (de) |
DE (1) | DE60202453T2 (de) |
WO (1) | WO2002080143A1 (de) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
DE60202453T2 (de) | 2001-03-29 | 2006-01-19 | Koninklijke Philips Electronics N.V. | Synchronisierung eines audio- und eines text-cursors während der editierung |
US7231351B1 (en) * | 2002-05-10 | 2007-06-12 | Nexidia, Inc. | Transcript alignment |
US7380203B2 (en) * | 2002-05-14 | 2008-05-27 | Microsoft Corporation | Natural input recognition tool |
AU2003274592A1 (en) | 2002-11-28 | 2004-06-18 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
US7444285B2 (en) * | 2002-12-06 | 2008-10-28 | 3M Innovative Properties Company | Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services |
US7774694B2 (en) * | 2002-12-06 | 2010-08-10 | 3M Innovation Properties Company | Method and system for server-based sequential insertion processing of speech recognition results |
US20050096910A1 (en) * | 2002-12-06 | 2005-05-05 | Watson Kirk L. | Formed document templates and related methods and systems for automated sequential insertion of speech recognition results |
KR100668297B1 (ko) * | 2002-12-31 | 2007-01-12 | 삼성전자주식회사 | 음성인식방법 및 장치 |
US7263483B2 (en) * | 2003-04-28 | 2007-08-28 | Dictaphone Corporation | USB dictation device |
US7346506B2 (en) | 2003-10-08 | 2008-03-18 | Agfa Inc. | System and method for synchronized text display and audio playback |
US20050144015A1 (en) * | 2003-12-08 | 2005-06-30 | International Business Machines Corporation | Automatic identification of optimal audio segments for speech applications |
US7629989B2 (en) * | 2004-04-02 | 2009-12-08 | K-Nfb Reading Technology, Inc. | Reducing processing latency in optical character recognition for portable reading machine |
US8504369B1 (en) | 2004-06-02 | 2013-08-06 | Nuance Communications, Inc. | Multi-cursor transcription editing |
US7836412B1 (en) | 2004-12-03 | 2010-11-16 | Escription, Inc. | Transcription editing |
JP2007133033A (ja) | 2005-11-08 | 2007-05-31 | Nec Corp | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム |
US8521510B2 (en) * | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
US8959433B2 (en) * | 2007-08-19 | 2015-02-17 | Multimodal Technologies, Llc | Document editing using anchors |
US8954328B2 (en) * | 2009-01-15 | 2015-02-10 | K-Nfb Reading Technology, Inc. | Systems and methods for document narration with multiple characters having multiple moods |
US20100299131A1 (en) * | 2009-05-21 | 2010-11-25 | Nexidia Inc. | Transcript alignment |
US20100332225A1 (en) * | 2009-06-29 | 2010-12-30 | Nexidia Inc. | Transcript alignment |
US9292161B2 (en) * | 2010-03-24 | 2016-03-22 | Microsoft Technology Licensing, Llc | Pointer tool with touch-enabled precise placement |
US8392186B2 (en) | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
CN101887346A (zh) * | 2010-06-22 | 2010-11-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息输入控制方法、装置及通信终端 |
CN102314874A (zh) * | 2010-06-29 | 2012-01-11 | 鸿富锦精密工业(深圳)有限公司 | 文本到语音转换***与方法 |
US9904768B2 (en) | 2011-02-18 | 2018-02-27 | Nuance Communications, Inc. | Methods and apparatus for presenting alternative hypotheses for medical facts |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US10460288B2 (en) | 2011-02-18 | 2019-10-29 | Nuance Communications, Inc. | Methods and apparatus for identifying unspecified diagnoses in clinical documentation |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
WO2012161359A1 (ko) * | 2011-05-24 | 2012-11-29 | 엘지전자 주식회사 | 사용자 인터페이스 방법 및 장치 |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
US20130035936A1 (en) * | 2011-08-02 | 2013-02-07 | Nexidia Inc. | Language transcription |
US9317196B2 (en) | 2011-08-10 | 2016-04-19 | Microsoft Technology Licensing, Llc | Automatic zooming for text selection/cursor placement |
US9318110B2 (en) * | 2011-09-09 | 2016-04-19 | Roe Mobile Development Llc | Audio transcription generator and editor |
KR101921203B1 (ko) * | 2012-03-02 | 2018-11-22 | 삼성전자 주식회사 | 녹음 기능이 연동된 메모 기능 운용 방법 및 장치 |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9805118B2 (en) | 2012-06-29 | 2017-10-31 | Change Healthcare Llc | Transcription method, apparatus and computer program product |
US9064492B2 (en) | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
KR20140008835A (ko) | 2012-07-12 | 2014-01-22 | 삼성전자주식회사 | 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치 |
JP2014142501A (ja) * | 2013-01-24 | 2014-08-07 | Toshiba Corp | テキスト再生装置、方法、及びプログラム |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US10496743B2 (en) | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
CN103885596B (zh) * | 2014-03-24 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9940929B2 (en) * | 2015-12-09 | 2018-04-10 | Lenovo (Singapore) Pte. Ltd. | Extending the period of voice recognition |
CN106098060B (zh) * | 2016-05-19 | 2020-01-31 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
CN106448675B (zh) * | 2016-10-21 | 2020-05-01 | 科大讯飞股份有限公司 | 识别文本修正方法及*** |
US10529330B2 (en) * | 2017-11-24 | 2020-01-07 | Sorizava Co., Ltd. | Speech recognition apparatus and system |
CN108366182B (zh) * | 2018-02-13 | 2020-07-07 | 京东方科技集团股份有限公司 | 文字语音同步播报的校准方法及装置、计算机存储介质 |
CN110265031A (zh) * | 2019-07-25 | 2019-09-20 | 秒针信息技术有限公司 | 一种语音处理方法及装置 |
CN111079760B (zh) * | 2019-08-02 | 2023-11-28 | 广东小天才科技有限公司 | 一种文字识别方法及电子设备 |
CN110534112B (zh) * | 2019-08-23 | 2021-09-10 | 王晓佳 | 基于位置与时间的分布式语音识别纠错方法 |
KR102153668B1 (ko) | 2019-10-29 | 2020-09-09 | 주식회사 퍼즐에이아이 | 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법 |
CN113936699B (zh) * | 2020-06-29 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备及存储介质 |
US11947894B2 (en) | 2021-04-28 | 2024-04-02 | International Business Machines Corporation | Contextual real-time content highlighting on shared screens |
Family Cites Families (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3676856A (en) * | 1970-08-11 | 1972-07-11 | Ron Manly | Automatic editing system and method |
US3648249A (en) | 1970-12-08 | 1972-03-07 | Ibm | Audio-responsive visual display system incorporating audio and digital information segmentation and coordination |
JPS6184771A (ja) | 1984-10-03 | 1986-04-30 | Hitachi Ltd | 音声入力装置 |
US4637797A (en) | 1985-01-11 | 1987-01-20 | Access Learning Technology Corporation | Software training system |
US4701130A (en) | 1985-01-11 | 1987-10-20 | Access Learning Technology Corporation | Software training system |
JPS62212870A (ja) | 1986-03-14 | 1987-09-18 | Fujitsu Ltd | 文章読み上げ校正装置 |
AT390685B (de) | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
US5146439A (en) | 1989-01-04 | 1992-09-08 | Pitney Bowes Inc. | Records management system having dictation/transcription capability |
JPH05108608A (ja) | 1991-10-18 | 1993-04-30 | Olympus Optical Co Ltd | 情報信号処理装置 |
US5553289A (en) * | 1991-12-26 | 1996-09-03 | International Business Machines Corporation | System for automatically assigning attributes to objects of multimedia distribution when the objects being within a predetermined relationship |
US5519808A (en) | 1993-03-10 | 1996-05-21 | Lanier Worldwide, Inc. | Transcription interface for a word processing station |
US5369704A (en) | 1993-03-24 | 1994-11-29 | Engate Incorporated | Down-line transcription system for manipulating real-time testimony |
US5602982A (en) | 1994-09-23 | 1997-02-11 | Kelly Properties, Inc. | Universal automated training and testing software system |
US5664227A (en) * | 1994-10-14 | 1997-09-02 | Carnegie Mellon University | System and method for skimming digital audio/video data |
US5812882A (en) | 1994-10-18 | 1998-09-22 | Lanier Worldwide, Inc. | Digital dictation system having a central station that includes component cards for interfacing to dictation stations and transcription stations and for processing and storing digitized dictation segments |
US5616876A (en) * | 1995-04-19 | 1997-04-01 | Microsoft Corporation | System and methods for selecting music on the basis of subjective content |
US5857212A (en) | 1995-07-06 | 1999-01-05 | Sun Microsystems, Inc. | System and method for horizontal alignment of tokens in a structural representation program editor |
US5960447A (en) * | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
JP3416007B2 (ja) * | 1995-12-06 | 2003-06-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | オーディオビジュアル・マテリアルをスクリーニングする装置及び方法 |
US5911485A (en) | 1995-12-11 | 1999-06-15 | Unwired Planet, Inc. | Predictive data entry method for a keypad |
US5898830A (en) | 1996-10-17 | 1999-04-27 | Network Engineering Software | Firewall providing enhanced network security and user transparency |
US5983176A (en) * | 1996-05-24 | 1999-11-09 | Magnifi, Inc. | Evaluation of media content in media files |
US5748888A (en) | 1996-05-29 | 1998-05-05 | Compaq Computer Corporation | Method and apparatus for providing secure and private keyboard communications in computer systems |
EP0811906B1 (de) * | 1996-06-07 | 2003-08-27 | Hewlett-Packard Company, A Delaware Corporation | Sprachsegmentierung |
US5664896A (en) | 1996-08-29 | 1997-09-09 | Blumberg; Marvin R. | Speed typing apparatus and method |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5875448A (en) | 1996-10-08 | 1999-02-23 | Boys; Donald R. | Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator |
EP0840287A3 (de) * | 1996-10-31 | 1999-04-07 | Microsoft Corporation | Verfahren und System zur Auswahl erkannter Wörter bei der Korrektur erkannter Sprache |
US6173259B1 (en) | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US5875429A (en) | 1997-05-20 | 1999-02-23 | Applied Voice Recognition, Inc. | Method and apparatus for editing documents through voice recognition |
US5974413A (en) | 1997-07-03 | 1999-10-26 | Activeword Systems, Inc. | Semantic user interface |
US6141011A (en) | 1997-08-04 | 2000-10-31 | Starfish Software, Inc. | User interface methodology supporting light data entry for microprocessor device having limited user input |
US6076059A (en) | 1997-08-29 | 2000-06-13 | Digital Equipment Corporation | Method for aligning text with audio signals |
ATE221222T1 (de) | 1997-09-25 | 2002-08-15 | Tegic Communications Inc | System zur unterdrückung der vieldeutigkeit in einer verringerten tastatur |
US6363380B1 (en) * | 1998-01-13 | 2002-03-26 | U.S. Philips Corporation | Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser |
US6195637B1 (en) * | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
US6064965A (en) * | 1998-09-02 | 2000-05-16 | International Business Machines Corporation | Combined audio playback in speech recognition proofreader |
US6457031B1 (en) * | 1998-09-02 | 2002-09-24 | International Business Machines Corp. | Method of marking previously dictated text for deferred correction in a speech recognition proofreader |
US6338038B1 (en) * | 1998-09-02 | 2002-01-08 | International Business Machines Corp. | Variable speed audio playback in speech recognition proofreader |
US6374225B1 (en) | 1998-10-09 | 2002-04-16 | Enounce, Incorporated | Method and apparatus to prepare listener-interest-filtered works |
US6122614A (en) | 1998-11-20 | 2000-09-19 | Custom Speech Usa, Inc. | System and method for automating transcription services |
US6363342B2 (en) | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6802041B1 (en) | 1999-01-20 | 2004-10-05 | Perfectnotes Corporation | Multimedia word processor |
US20030004724A1 (en) | 1999-02-05 | 2003-01-02 | Jonathan Kahn | Speech recognition program mapping tool to align an audio file to verbatim text |
US6434523B1 (en) | 1999-04-23 | 2002-08-13 | Nuance Communications | Creating and editing grammars for speech recognition graphically |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
US6370503B1 (en) | 1999-06-30 | 2002-04-09 | International Business Machines Corp. | Method and apparatus for improving speech recognition accuracy |
JP2001043062A (ja) | 1999-07-27 | 2001-02-16 | Nec Corp | パーソナルコンピュータ、その音量調整方法及び記録媒体 |
US6865258B1 (en) | 1999-08-13 | 2005-03-08 | Intervoice Limited Partnership | Method and system for enhanced transcription |
US6542091B1 (en) | 1999-10-01 | 2003-04-01 | Wayne Allen Rasanen | Method for encoding key assignments for a data input device |
JP2003518266A (ja) * | 1999-12-20 | 2003-06-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識システムのテキスト編集用音声再生 |
US7082615B1 (en) | 2000-03-31 | 2006-07-25 | Intel Corporation | Protecting software environment in isolated execution |
WO2001084535A2 (en) | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
WO2001095631A2 (en) | 2000-06-09 | 2001-12-13 | British Broadcasting Corporation | Generation subtitles or captions for moving pictures |
US7624356B1 (en) | 2000-06-21 | 2009-11-24 | Microsoft Corporation | Task-sensitive methods and systems for displaying command sets |
US6950994B2 (en) | 2000-08-31 | 2005-09-27 | Yahoo! Inc. | Data list transmutation and input mapping |
US6993246B1 (en) * | 2000-09-15 | 2006-01-31 | Hewlett-Packard Development Company, L.P. | Method and system for correlating data streams |
US6975985B2 (en) | 2000-11-29 | 2005-12-13 | International Business Machines Corporation | Method and system for the automatic amendment of speech recognition vocabularies |
CA2328566A1 (en) | 2000-12-15 | 2002-06-15 | Ibm Canada Limited - Ibm Canada Limitee | System and method for providing language-specific extensions to the compare facility in an edit system |
US7735021B2 (en) | 2001-02-16 | 2010-06-08 | Microsoft Corporation | Shortcut system for use in a mobile electronic device and method thereof |
EP1374224B1 (de) * | 2001-03-29 | 2006-02-08 | Koninklijke Philips Electronics N.V. | Texteditierung von erkannter sprache bei gleichzeitiger wiedergabe |
DE60202453T2 (de) | 2001-03-29 | 2006-01-19 | Koninklijke Philips Electronics N.V. | Synchronisierung eines audio- und eines text-cursors während der editierung |
US20030007018A1 (en) | 2001-07-09 | 2003-01-09 | Giovanni Seni | Handwriting user interface for personal digital assistants and the like |
US7152213B2 (en) | 2001-10-04 | 2006-12-19 | Infogation Corporation | System and method for dynamic key assignment in enhanced user interface |
JP4145796B2 (ja) * | 2001-10-31 | 2008-09-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム |
US7196691B1 (en) | 2001-11-14 | 2007-03-27 | Bruce Martin Zweig | Multi-key macros to speed data input |
US7236931B2 (en) | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7292975B2 (en) | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US6986106B2 (en) | 2002-05-13 | 2006-01-10 | Microsoft Corporation | Correction widget |
KR20050027093A (ko) | 2002-05-24 | 2005-03-17 | 에스엠티엠 테크놀러지스 엘엘씨 | 숙련 기반 테스트 및 트레이닝을 위한 방법 및 시스템 |
US7260529B1 (en) | 2002-06-25 | 2007-08-21 | Lengen Nicholas D | Command insertion system and method for voice recognition applications |
US7137076B2 (en) | 2002-07-30 | 2006-11-14 | Microsoft Corporation | Correcting recognition results associated with user input |
US6763320B2 (en) | 2002-08-15 | 2004-07-13 | International Business Machines Corporation | Data input device for individuals with limited hand function |
US7340768B2 (en) * | 2002-09-23 | 2008-03-04 | Wimetrics Corporation | System and method for wireless local area network monitoring and intrusion detection |
US7206938B2 (en) | 2002-09-24 | 2007-04-17 | Imagic Software, Inc. | Key sequence rhythm recognition system and method |
US20080034218A1 (en) | 2002-09-24 | 2008-02-07 | Bender Steven L | Key sequence rhythm guidance recognition system and method |
US7016844B2 (en) | 2002-09-26 | 2006-03-21 | Core Mobility, Inc. | System and method for online transcription services |
US7515903B1 (en) | 2002-10-28 | 2009-04-07 | At&T Mobility Ii Llc | Speech to message processing |
US7580838B2 (en) | 2002-11-22 | 2009-08-25 | Scansoft, Inc. | Automatic insertion of non-verbalized punctuation |
US7107397B2 (en) | 2003-05-29 | 2006-09-12 | International Business Machines Corporation | Magnetic tape data storage system buffer management |
GB2405728A (en) | 2003-09-03 | 2005-03-09 | Business Integrity Ltd | Punctuation of automated documents |
CN100492324C (zh) | 2004-03-05 | 2009-05-27 | 安全***有限公司 | 控制分区访问的分区访问控制***和方法 |
US7382359B2 (en) | 2004-06-07 | 2008-06-03 | Research In Motion Limited | Smart multi-tap text input |
US7508324B2 (en) | 2004-08-06 | 2009-03-24 | Daniel Suraqui | Finger activated reduced keyboard and a method for performing text input |
US20060176283A1 (en) | 2004-08-06 | 2006-08-10 | Daniel Suraqui | Finger activated reduced keyboard and a method for performing text input |
KR100713128B1 (ko) | 2004-11-08 | 2007-05-02 | 주식회사 비젯 | 바이러스 방역 장치 및 시스템 |
EP1864455A2 (de) | 2005-03-29 | 2007-12-12 | Glowpoint, Inc. | Videoanrufgenehmigung |
FI20050561A0 (fi) | 2005-05-26 | 2005-05-26 | Nokia Corp | Pakettidatan käsittely viestintäjärjestelmässä |
US20070143857A1 (en) | 2005-12-19 | 2007-06-21 | Hazim Ansari | Method and System for Enabling Computer Systems to Be Responsive to Environmental Changes |
US9904809B2 (en) | 2006-02-27 | 2018-02-27 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Method and system for multi-level security initialization and configuration |
-
2002
- 2002-03-25 DE DE60202453T patent/DE60202453T2/de not_active Expired - Lifetime
- 2002-03-25 JP JP2002578284A patent/JP5093966B2/ja not_active Expired - Fee Related
- 2002-03-25 WO PCT/IB2002/001062 patent/WO2002080143A1/en active IP Right Grant
- 2002-03-25 AT AT02713150T patent/ATE286294T1/de not_active IP Right Cessation
- 2002-03-25 EP EP02713150A patent/EP1374225B1/de not_active Expired - Lifetime
- 2002-03-25 CN CNB028008294A patent/CN1225721C/zh not_active Expired - Fee Related
- 2002-03-26 US US10/106,981 patent/US8117034B2/en not_active Expired - Fee Related
-
2012
- 2012-02-13 US US13/371,523 patent/US8380509B2/en not_active Expired - Lifetime
-
2013
- 2013-01-17 US US13/743,575 patent/US8706495B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1374225A1 (de) | 2004-01-02 |
US8706495B2 (en) | 2014-04-22 |
US20130166304A1 (en) | 2013-06-27 |
US8380509B2 (en) | 2013-02-19 |
CN1225721C (zh) | 2005-11-02 |
DE60202453D1 (de) | 2005-02-03 |
US8117034B2 (en) | 2012-02-14 |
CN1460245A (zh) | 2003-12-03 |
JP2004530205A (ja) | 2004-09-30 |
JP5093966B2 (ja) | 2012-12-12 |
US20120158405A1 (en) | 2012-06-21 |
US20020143544A1 (en) | 2002-10-03 |
ATE286294T1 (de) | 2005-01-15 |
WO2002080143A1 (en) | 2002-10-10 |
EP1374225B1 (de) | 2004-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60202453T2 (de) | Synchronisierung eines audio- und eines text-cursors während der editierung | |
DE60209103T2 (de) | Texteditierung von erkannter sprache bei gleichzeitiger wiedergabe | |
DE10040214B4 (de) | Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem | |
AT390685B (de) | System zur textverarbeitung | |
DE60213195T2 (de) | Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens | |
DE60211197T2 (de) | Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte | |
DE69828141T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60033106T2 (de) | Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung | |
DE60031113T2 (de) | Automatisiertes übertragungssystem und -verfahren mit zwei instanzen zur sprachumwandlung und rechnergestützter korrektur | |
DE60215272T2 (de) | Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen | |
DE112013006728B4 (de) | Spracherkennungssystem und Spracherkennungsgerät | |
DE69630928T2 (de) | Vorrichtung und Verfahren zum Anzeigen einer Übersetzung | |
DE60020773T2 (de) | Graphische Benutzeroberfläche und Verfahren zur Änderung von Aussprachen in Sprachsynthese und -Erkennungssystemen | |
DE69819690T2 (de) | Spracherkennungsvorrichtung unter verwendung eines befehlslexikons | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE112013000760B4 (de) | Automatisches korrigieren von Sprechfehlern in Echtzeit | |
US20120185249A1 (en) | Method and system for speech based document history tracking | |
DE202015006043U1 (de) | Signalfolge und Datenträger mit einem Computerprogramm zur Wiedergabe eines Musikstücks | |
DE60020504T2 (de) | Anpassung eines spracherkenners an korrigierte texte | |
DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
DE102020110614B4 (de) | Roboter-lehrvorrichtung | |
DE602004010804T2 (de) | Sprachantwortsystem, Sprachantwortverfahren, Sprach-Server, Sprachdateiverarbeitungsverfahren, Programm und Aufzeichnungsmedium | |
EP0814457B1 (de) | Verfahren zur automatischen Erkennung eines gesprochenen Textes | |
EP1240775B1 (de) | Kommunikationssystem und verfahren zum bereitstellen eines internet-zugangs über ein telefon | |
WO2020126217A1 (de) | Verfahren, anordnung und verwendung zum erzeugen einer antwortausgabe in reaktion auf eine spracheingabeinformation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: NUANCE COMMUNICATIONS AUSTRIA GMBH, WIEN, AT |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN |