DE102014105666A1

DE102014105666A1 - Übersetzungsprüfung

Info

Publication number: DE102014105666A1
Application number: DE102014105666.3A
Authority: DE
Inventors: c/o IBM France Boigny-sur-B Chenon Christophe
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-04-24
Filing date: 2014-04-22
Publication date: 2014-10-30
Also published as: GB2513348A; CN104123275B; GB201307349D0; CN104123275A; US20140324411A1; US9852128B2

Abstract

Diese Erfindung betrifft ein Werkzeug, ein System und ein Verfahren zum Prüfen eines Übersetzungsspeichers im Vergleich mit einem Terminologiewörterbuch, wobei das Terminologiewörterbuch Ausgangstermini und entsprechende Zieltermini aufweist, der Übersetzungsspeicher Ausgangssegmente und entsprechende Zielsegmente aufweist und das Verfahren aufweist: Erkennen von genau oder fast gleichen Vorkommen des Ausgangsterminus in Ausgangssegmenten für jeden Ausgangsterminus, wobei eine enge Übereinstimmung nach Grammatikregeln erkannt wird; Berechnen eines numerischen Übereinstimmungswertes zwischen einem entsprechenden Zielterminus und einem entsprechenden Vorkommen des entsprechenden Zielterminus in einem entsprechenden Zielsegment für jedes erkannte Vorkommen des Ausgangsterminus in einem Ausgangssegment; und Berichten jedes erkannten Vorkommens des Ausgangsterminus in einem Ausgangssegment, des entsprechenden Vorkommens im Zielsegment; des entsprechenden Zielterminus und des berechneten Übereinstimmungswertes.

Description

GEBIET DER ERFINDUNG
Diese Erfindung betrifft ein Werkzeug und ein Verfahren zum Prüfen von Übersetzungen.
HINTERGRUND
Das Werkzeug und das Verfahren zielen auf den Bereich der computergestützten Übersetzungswerkzeuge zum Messen von Qualitätsmetriken vorhandener Übersetzungen im Vergleich mit einem zweisprachigen Wörterbuch. Computergestützte Übersetzungswerkzeuge sind für professionelle Übersetzungsdienstleister nützlich: um sie bei der Beurteilung zu unterstützen, ob eine Übersetzung einem zweisprachigen Referenzwörterbuch entspricht; um die Menge Arbeit zu messen, die erforderlich ist, damit eine Übersetzung den gewünschten Standards entspricht; und/oder um zu wissen, auf welche Bereiche der Schwerpunkt zu legen ist, um einen bestimmten Korpus von Übersetzungen zu verbessern.
Viele computergestützte Übersetzungswerkzeuge nutzen geschaffene Ressourcen wie Terminologiewörterbücher und Übersetzungsspeicher. Im Allgemeinen beinhaltet ein erster Schritt bei der Übersetzung eines großen Textkorpus das Einrichten eines zweisprachigen Terminologiewörterbuchs und ein zweiter Schritt ist die Übersetzung des Textkorpus in einen Übersetzungsspeicher. Ein Terminologiewörterbuch definiert die wichtigsten Termini und Begriffe, die im Textkorpus vorkommen. Ein Übersetzungsspeicher ist eine große Datenbank, in der alle Entsprechungen zwischen Ausgangs- und Zielsegmenten für eine Übersetzung gespeichert sind. Ein Übersetzungsspeicher erleichtert die Wiederverwendung und das Prüfen auf Einheitlichkeit innerhalb eines großen Arbeitskorpus.
An verschiedenen Punkten des Übersetzungsprozesses ist es nützlich, die relative Diskrepanz zwischen einem bestimmten Übersetzungsspeicher und einem Terminologiewörterbuch zu messen. Dies kann nach der Übersetzung erfolgen zum Zweck: 1) des Messens des Ausmaßes, in dem der Übersetzungsprozess die im Terminologiewörterbuch dargelegten Leitlinien beachtet; 2) des Beurteilens, ob das Terminologiewörterbuch für das Strukturieren der Übersetzung geeignet erscheint; oder 3) des Einschätzens der Menge Arbeit, die zu leisten ist, um eine Übersetzung so zu verbessern, dass ihre Qualität vorbestimmten Kriterien entspricht.
SDL Trados Studio ist ein bekanntes Übersetzungsprüfprodukt, das eine Berechnung der Analogie zwischen übersetzten Termini und übersetzten Segmenten aufweist. SDL und Trados sind Marken von SDL PLC.
SynchroTerm ist ein bekanntes Übersetzungsprüfprodukt, bei dem die Suche auf der Grundlage eines Terminus erfolgt. Ausgangs- und Zielsprache können gleichzeitig durchsucht werden. Es sind morphologischen Fähigkeiten enthalten, so dass die Suche in zehn Sprachen durchgeführt werden kann. SynchroTerm und Terminotix sind Marken von Terminotix Inc.
ApSIC Xbench ist ein bekanntes Übersetzungsprüfprodukt, bei dem die Suche auf der Grundlage eines Terminus erfolgt. ApSIC und Xbench sind Marken von ApSIC SL.
Alle oben genannten Werkzeuge verwenden einen Übersetzungsspeicher und Terminologiewörterbücher.
KURZDARSTELLUNG DER ERFINDUNG
Unter einem ersten Aspekt der Erfindung wird ein Verfahren zum Prüfen eines Übersetzungsspeichers im Vergleich mit einem Terminologiewörterbuch bereitgestellt, wobei das Terminologiewörterbuch Ausgangstermini und entsprechende Zieltermini aufweist, der Übersetzungsspeicher Ausgangssegmente und entsprechende Zielsegmente aufweist und das Verfahren aufweist: Erkennen von genau oder fast gleichen Vorkommen des Ausgangsterminus in Ausgangssegmenten für jeden Ausgangsterminus, wobei eine enge Übereinstimmung nach Grammatikregeln erkannt wird; Berechnen eines numerischen Übereinstimmungswertes zwischen einem entsprechenden Zielterminus und einem entsprechenden Vorkommen des entsprechenden Zielterminus in einem entsprechenden Zielsegment für jedes erkannte Vorkommen des Ausgangsterminus in einem Ausgangssegment; und Berichten jedes erkannten Vorkommens des Ausgangsterminus in einem Ausgangssegment und des berechneten Übereinstimmungswertes des entsprechenden Vorkommens in einem Zielsegment und des entsprechenden Zielterminus.
Die Ausführungsformen stellen eine einfache und verallgemeinerte Antwort auf eine flexible Erkennung der Terminologieform dar. Die meisten Termini können im Zieltext (und im Ausgangstext) als flexible Formen erscheinen (z. B. ein Terminus im Singular und ein Terminus im Plural, die beide denselben Stammterminus aufweisen). Das Fehlen genauer Übereinstimmungen zwischen dem bereitgestellten Wörterbuch und dem Zieltext bedeutet nicht, dass die Übersetzung ungenau ist. So zählen und messen die Ausführungsformen Entsprechungen zwischen den Termini und ermöglichen es, dass flexible Formen in einer Ausgangssprache flexiblen Formen in der Zielsprache zugeordnet werden.
Das Erkennen von Termini, die nach Grammatikregeln (z. B. Grammatikregeln für Suffixvariationen von Wörtern) übereinstimmen oder fast übereinstimmen, ist weniger rechenintensiv als das Berechnen der Übereinstimmungswerte von Zeichenketten. Dadurch können die Ausführungsformen jeden Terminus im Terminologiewörterbuch in einem sehr viel kürzeren Zeitrahmen daraufhin überprüfen, ob er in einem Übersetzungsspeicher enthalten ist, als beim Suchen nach einem Übereinstimmungswert. Sobald die Vorkommen aufgefunden sind, kann eine prozessorintensivere Berechnung an einer kleineren Teilmenge von Daten durchgeführt werden. Diese zweistufige Prüfung ermöglicht eine schnelle Verarbeitung und in Echtzeit.
Die Lösung erfordert es, dass das bereitgestellte Terminologiewörterbuch als Ganzes verarbeitet wird, um Gesamtmesswerte und Statistiken bereitzustellen.
Vorteilhaft wird jeder Übereinstimmungswert kategorisiert als: genau, einige Überstimmung; und keine Übereinstimmung.
Noch vorteilhafter wird ein erkannter Ausgangsterminus als „verwendet” kategorisiert, wenn er dem Zielterminus ohne Übersetzung entspricht.
Sogar noch vorteilhafter weist das Verfahren ferner das Erstellen eines Berichts unter Verwendung einer Formatvorlage auf, um eine einfachere Navigation und ein einfacheres Verständnis für den Benutzer bereitzustellen. Eine solche Formatvorlage stellt ein visuelles Werkzeug bereit, um eine rasche Erkennung problematischer Bereiche zu ermöglichen. Beispielsweise können Daten als Daten in Extendable Markup Language (XML) aufgezeichnet und anschließend unter Verwendung der Extendable Style Sheet Language (XSL) in einer visuell sinnvollen Weise wiedergegeben werden, um einen Nebeneinander-Vergleich von Ausgangs- und Zielsegmenten bereitzustellen, der einen markierten entsprechenden Wörterbuchterminus mit einem übereinstimmenden oder teilweise übereinstimmenden Terminus enthält.
Höchst vorteilhaft dienen Markierungsfarben dazu, zwischen verschiedenen Übereinstimmungskategorien zu unterscheiden.
Vorzugsweise weist das Verfahren ferner Berechnen einer Gesamtübereinstimmung zwischen dem Übersetzungsspeicher und dem Übersetzungswörterbuch unter Verwendung der einzelnen Übereinstimmungswerte auf.
Damit erkennt ein Benutzer, wie viel Arbeit für die Überarbeitung einer Übersetzung geleistet werden muss, und diese kann in Personenstunden bemessen werden.
Vorzugsweise stellt das Verfahren ferner ein visuelles Werkzeug bereit, das ein schnelles Erkennen von Problembereichen ermöglicht.
Um ein Definieren von Morphologieregeln für mögliche Ausgangssprachen zu vermeiden und dennoch die Anzahl der manuell zu klassifizierenden Anwärterübereinstimmungen zu minimieren, stützen sich die Ausführungsformen auf einen Satz von Annahmen und Verfahren zum Erkennen unscharfer Übereinstimmungen (Fuzzy Match-Verfahren), um einen Dienst auf der Grundlage eines breiten morphologischen Wissens bereitzustellen. Die Ausgangssprache ist eine einzige Sprache mit einfachen Grammatikregeln. Beispielsweise ist die englische Sprache relativ einfach und gut formalisiert, insbesondere beruht die Grammatik zu einem großen Teil auf Suffixen und es ist daher einfach, kanonische Einträge des Ausgangstextes zu erkennen. Jedoch sind die Ausführungsformen sprachagnostisch und stützen sich auf einen Satz von Musterzuordnungsregeln, nach denen meistens der Stamm eines Terminologieeintrags extrahiert und mit dem Wort verglichen wird. Die Ausführungsformen wurden so konzipiert, dass sie als Eingabe zweisprachige Terminologiewörterbücher und zweisprachige Übersetzungsspeicher in bestimmten Formaten verwenden, aber es sind Terminologiewörterbücher und Übersetzungsspeicher mit zwei oder mehr Zielsprachen geplant. Zwar wird vorzugsweise eine Ausgangssprache mit einer einfachen Grammatik auf der Grundlage von Suffixen verwendet, aber es gibt keine Einschränkung für die Zielsprache.
Im Fall eines ähnlichen Gebrauchs müssen Terminologen mit Hilfe eines vollständigen Berichts über die terminologische Einheitlichkeit schnell die terminologische Richtigkeit eines übersetzten Textes beurteilen. Dies kann zu hohen Kosten manuell Terminus für Terminus erfolgen. Es ist ein sehr langsamer und fehlerträchtiger Prozess.
Die Ausführungsformen erkennen alle Vorkommen jedes ausgangssprachlichen Terminus aus dem Terminologiewörterbuch in dem Satz von Übersetzungsspeichern und stellen für jedes Vorkommen fest, ob er richtig übersetzt ist. Der Status jedes Segments wird nach der Richtigkeit der verwendeten Terminologie von den Ausführungsformen festgestellt. Als Ergebnis werden alle Vorkommen, die geändert werden müssen, erkannt und dem Benutzer in einer HTML-Datei angezeigt. Außerdem werden die Segmente mit nicht übereinstimmender Terminologie nummeriert und der notwendige Aufwand, um die Übersetzung wörterbuchkonform zu gestalten, kann eingeschätzt werden.
Die Ausführungsformen funktionieren auf der Maschinenebene des Computers, da sie für beliebige Übersetzungsanwendungen auf Anwendungsebene transparent sind. Das Anwenden der Ausführungsformen anstelle bekannter Überprüfungswerkzeuge führt zu einer Steigerung der Geschwindigkeit oder Zuverlässigkeit des Computers aufgrund einer rechentechnisch effizienten Operation der Überprüfung.
Unter einem zweiten Aspekt der Erfindung wird ein System zum Prüfen eines Übersetzungsspeichers im Vergleich mit einem Terminologiewörterbuch bereitgestellt, wobei das Terminologiewörterbuch Ausgangstermini und entsprechende Zieltermini aufweist, der Übersetzungsspeicher Ausgangssegmente und entsprechende Zielsegmente aufweist und das System aufweist: eine Maschine für die Übereinstimmungserkennung nach Regeln zum Erkennen von genau oder fast gleichen Vorkommen des Ausgangsterminus in Ausgangssegmenten für jeden Ausgangsterminus, wobei eine enge Übereinstimmung nach Grammatikregeln ermittelt wird; eine Maschine zum Erkennen unscharfer Übereinstimmungen zum Berechnen eines numerischen Übereinstimmungswertes zwischen einem entsprechenden Zielterminus und einem entsprechenden Vorkommen des entsprechenden Zielterminus in einem entsprechenden Zielsegment für jedes erkannte Vorkommen eines Ausgangsterminus in einem Ausgangssegment; und eine Berichtserstellungseinheit zum Berichten jedes erkannten Vorkommens eines Ausgangsterminus in einem Ausgangssegment; des entsprechenden Vorkommens des entsprechenden Zielterminus in einem Zielsegment und des berechneten Übereinstimmungswertes.
Unter einem dritten Aspekt der Erfindung wird ein Computerprogrammprodukt zum Prüfen eines Übersetzungsspeichers im Vergleich mit einem Terminologiewörterbuch einer Ausgangs- und Zielsprache bereitgestellt, wobei das Computerprogrammprodukt ein computerlesbares Speichermedium mit darauf verkörpertem computerlesbaren Programmcode aufweist und der computerlesbare Programmcode so konfiguriert ist, dass er alle Schritte der Verfahren ausführt.
Das Computerprogrammprodukt weist eine Reihe computerlesbarer Anweisungen auf, die entweder auf einem materiellen Medium wie z. B. einem computerlesbaren Medium, z. B. einer optischen Speicherplatte, einer magnetischen Speicherplatte, einem Festkörperlaufwerk, fest vorhanden sind oder über ein Modem oder eine andere Schnittstelleneinheit entweder über ein materielles Medium, einschließlich optischer oder analoger Datenübertragungsleitungen, ohne darauf beschränkt zu sein, oder immateriell mit Hilfe von drahtlosen Techniken, einschließlich Mikrowellen-, Infrarot- oder andere Übertragungstechniken, ohne darauf beschränkt zu sein, auf ein Computersystem übertragbar sind. Die Reihe computerlesbarer Anweisungen verkörpert die gesamte oder einen Teil der hier zuvor beschriebenen Funktionalität.
Der Fachmann erkennt, dass solche computerlesbaren Anweisungen in einer Reihe von Programmiersprachen zum Einsatz mit vielen Computerarchitekturen oder Betriebssystemen geschrieben sein können. Ferner können solche Anweisungen mit Hilfe jeder beliebigen gegenwärtigen oder zukünftigen Speichertechnik gespeichert werden, einschließlich Halbleiter-, magnetischer oder optischer Speichertechniken, ohne darauf beschränkt zu sein, oder mit Hilfe jeder beliebigen gegenwärtigen oder zukünftigen Datenübertragungstechnik übertragen werden, einschließlich optischer, Infrarot- oder Mikrowellentechniken, ohne darauf beschränkt zu sein. Es wird in Betracht gezogen, dass ein solches Computerprogrammprodukt als wechselbares Medium mit begleitender gedruckter oder elektronischer Dokumentation vertrieben werden kann, z. B. eingeschweißte Software, im Computersystem vorinstalliert, z. B. in einem System-ROM-Speicher oder auf einer festen Speicherplatte, oder von einem Server oder einer elektronischen Informationstafel über ein Netzwerk, z. B. das Internet oder World Wide Web, vertrieben werden kann.
Unter einem vierten Aspekt der Erfindung wird ein Computerprogramm bereitgestellt, das auf einem computerlesbaren Medium gespeichert und in den internen Speicher eines digitalen Computers ladbar ist und Teile von Softwarecode zum Durchführen aller Schritte der Verfahrensansprüche aufweist, wenn das Programm auf einem Computer ausgeführt wird.
Unter einem fünften Aspekt der Erfindung wird ein Datenträger der bevorzugten Ausführungsform bereitgestellt, der funktionale Computerdatenstrukturen aufweist, um das Computersystem zu befähigen, alle Schritte der Verfahrensansprüche auszuführen, wenn er in das Computersystem geladen und danach von diesem ausgeführt wird. Ein geeigneter Datenträger könnte ein Festkörperspeicher, ein Laufwerk für eine magnetische Speicherplatte oder ein Laufwerk für eine optische Speicherplatte sein. Kanäle für die Übertragung von Daten können genauso Speichermedien aller Beschreibungen sowie Signalträgermedien aufweisen, z. B. drahtgebundene oder drahtlose Signalträgermedien.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Bevorzugte Ausführungsformen der vorliegenden Erfindung werden nun nur anhand eines Beispiels unter Bezugnahme auf die folgenden Zeichnungen beschrieben, wobei:
1 ein Einsatzschaubild der bevorzugten Ausführungsform ist;
2A bis 2G Schaubilder von Komponenten der bevorzugten Ausführungsform sind;
3 ein Ablaufplan eines Prozesses der bevorzugten Ausführungsform ist; und
4 ein Einsatzschaubild einer Ausführungsform mit Client-Server-Datenverarbeitung ist.
DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Auf 1 Bezug nehmend, wird der Einsatz einer bevorzugten Ausführungsform in einem Datenverarbeitungssystem 10 beschrieben. Das Datenverarbeitungssystem 10 ist mit zahlreichen anderen universellen oder speziellen Datenverarbeitungssystem-Umgebungen oder 0-Konfigurationen funktionsfähig. Beispiele für bekannte Datenverarbeitungssysteme, -umgebungen und/oder -konfigurationen, die für die Nutzung mit dem Datenverarbeitungssystem 10 geeignet sein können, sind unter anderem, ohne darauf beschränkt zu sein, Personal-Computer-Systeme, Server-Computer-Systeme, schlanke Clients, leistungsintensive Clients, Hand- oder Laptop-Einheiten, Mehrprozessorsysteme, Systeme auf der Grundlage von Mikroprozessoren, Beistellgeräte, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputersysteme, Großrechnersysteme und verteilte Cloud-Computing-Umgebungen, die jedes beliebige der oben genannten Systeme oder Einheiten enthalten.
Das Datenverarbeitungssystem 10 kann im allgemeinen Kontext von durch Computersysteme ausführbaren Anweisungen beschrieben werden, z. B. Programmmodule, die durch einen Computerprozessor ausgeführt werden. Im Allgemeinen können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik und Datenstrukturen enthalten, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Das Datenverarbeitungssystem 10 kann in verteilten Cloud-Computing-Umgebungen verkörpert sein, wo die Aufgaben von entfernt angeordneten Verarbeitungseinheiten durchgeführt werden, die über ein Datenübertragungsnetzwerk verbunden sind. In einer verteilten Cloud-Computing-Umgebungen können sich Programmmodule sowohl auf lokalen als auch auf entfernt angeordneten Computersystem-Speichermedien befinden, darunter Arbeitsspeicher-Speichermedien.
Das Datenverarbeitungssystem 10 weist auf: einen universellen Datenverarbeitungsserver 12 und ein oder mehrere Eingabeeinheiten 14 und Ausgabeeinheiten 16, die direkt an den Datenverarbeitungsserver 12 angeschlossen sind. Das Datenverarbeitungssystem 10 ist mit einem Netzwerk 20 verbunden. Das Datenverarbeitungssystem 10 kommuniziert mit einem Benutzer 18 über Eingabeeinheiten 14 und Ausgabeeinheiten 16. Die Eingabeeinheiten 14 sind unter anderem eines oder mehrere von: einer Tastatur, einem Scanner, einer Maus, einem Trackball oder einer anderen Zeigeeinheit. Die Ausgabeeinheiten 16 sind unter anderem eines oder mehrere von einer Anzeige oder einem Drucker. Das Datenverarbeitungssystem 10 kommuniziert über ein Netzwerk 20 mit Netzwerkeinheiten (nicht dargestellt). Das Netzwerk 20 kann ein lokales Netzwerk (LAN), ein Weitverkehrsnetzwerk (WAN) und/oder das Internet sein.
Der Datenverarbeitungsserver 12 weist auf: eine Zentraleinheit (CPU) 22; einen Netzwerkadapter 24; einen Einheitenadapter 26; einen Bus 28 und einen Speicher 30.
Die CPU 22 lädt Maschinenanweisungen aus dem Speicher 30 und führt als Reaktion auf die Anweisungen Maschinenoperationen aus. Solche Maschinenoperationen beinhalten: Erhöhen oder Vermindern eines Wertes in einem Register (nicht dargestellt); Übertragen eines Wertes aus dem Speicher 30 in ein Register oder umgekehrt; Übernehmen von Anweisungen von einem anderen Ort im Speicher, wenn eine Bedingung wahr oder falsch ist (auch als bedingte Verzweigungsanweisung bekannt); und Addieren oder Subtrahieren der Werte in zwei verschiedenen Registern und Ablegen des Ergebnisses in ein anderes Register. Eine typische CPU kann viele verschiedene Maschinenoperationen durchführen. Ein Satz von Maschinenanweisungen wird als Maschinencode-Programm bezeichnet, die Maschinenanweisungen sind in einer Maschinencode-Sprache geschrieben, die als maschinenorientierte Programmiersprache bezeichnet wird. Ein Computerprogramm, das in einer höheren Programmiersprache geschrieben ist, muss in ein Maschinencode-Programm kompiliert werden, bevor es ausgeführt werden kann. Alternativ kann ein Maschinencode-Programm, z. B. eine virtuelle Maschine oder ein Interpreter, eine höhere Programmiersprache in Bezug auf Maschinenoperationen interpretieren.
Der Netzwerkadapter 24 ist mit dem Bus 28 und dem Netzwerk 20 verbunden, um einen Datenaustausch zwischen dem Datenverarbeitungsserver 12 und den Netzwerkeinheiten zu ermöglichen.
Der Einheitenadapter 26 ist mit dem Bus 28, den Eingabeeinheiten 14 und den Ausgabeeinheiten 16 verbunden, um einen Datenaustausch zwischen dem Datenverarbeitungsserver 12 und den Eingabeeinheiten 14 und den Ausgabeeinheiten 16 zu ermöglichen.
Der Bus 28 verbindet die hauptsächlichen Systemkomponenten, darunter den Speicher 30, mit der CPU 22. Der Bus 28 stellt einen oder mehrere von beliebigen mehreren Arten von Busstrukturen, darunter einen Speicherbus oder eine Speichersteuereinheit, einen Peripheriebus, eine AGP-Schnittstelle (Accelerated Graphics Port) und einen Prozessor oder lokalen Bus dar, der eine beliebige aus einer Vielfalt von Busarchitekturen nutzt. Als Beispiel, nicht als Einschränkung, enthalten solche Architekturen einen Industry Standard Architecture(ISA-)-Bus, einen Micro Channel Architecture(MCA-)-Bus, einen Enhanced ISA(EISA-)-Bus, einen Video Electronics Standards Association(VESA-)-Bus und einen Peripheral Component Interconnects(PCI-)-Bus.
Der Speicher 30 enthält für das Computersystem lesbare Medien in Form eines flüchtigen Speichers 32 und eines nicht flüchtigen oder dauerhaften Speichers 34. Beispiele für den flüchtigen Speicher 32 sind ein Schreib-Lese-Speicher (RAM) 36 und ein Zwischenspeicher 38. Im Allgemeinen wird ein flüchtiger Speicher verwendet, weil er schneller ist, und im Allgemeinen wird ein nicht flüchtiger Speicher verwendet, weil er die Daten längere Zeit speichert. Das Datenverarbeitungssystem 10 kann ferner weitere wechselbare und/oder nicht wechselbare, flüchtige und/oder nicht flüchtige Computersystem-Speichermedien beinhalten. Nur als Beispiel kann der dauerhafte Speicher 34 bereitgestellt werden, um ein nicht wechselbares, nicht flüchtiges magnetisches Medium auszulesen und zu beschreiben (nicht dargestellt und typischerweise eine magnetische Festplatte oder ein Festkörperlaufwerk). Wenngleich nicht dargestellt, können weitere Speichermedien bereitgestellt werden, darunter: ein externer Anschluss für einen wechselbaren, nicht flüchtigen Festkörperspeicher; und ein Laufwerk für optische Speicherplatte zum Auslesen oder Beschreiben einer wechselbaren, nicht flüchtigen optischen Speicherplatte, z. B. einer Compact-Disk (CD), einer Digital Video Disk (DVD) oder Blu-ray-Disk. Bei solchen Beispielen kann jedes über eine oder mehrere Datenmedien-Schnittstellen mit dem Bus 28 verbunden sein. Wie unten weiter dargestellt und beschrieben, kann der Speicher 30 mindestens ein Programmprodukt mit einem (z. B. mindestens einem) Satz von Programmmodulen beinhalten, die so konfiguriert sind, dass sie die Funktionen und Ausführungsformen der Erfindung ausführen.
Programmmodule, die so konfiguriert sind, dass sie die Funktionen der bevorzugten Ausführungsform ausführen, weisen auf: eine Übersetzungsanwendung 99, ein Übersetzungsprüfmodul 100, ein Terminologiewörterbuch 102, einen oder mehrere Übersetzungsspeicher 104 und einen Prüfbericht 106. Weitere Programmmodule, die die bevorzugte Ausführungsform unterstützen, aber nicht dargestellt sind, sind unter anderem Firmware, Boot-Programm, Betriebssystem und unterstützende Anwendungen. Jedes von dem Betriebssystem, den unterstützenden Anwendungen, weiteren Programmmodulen und Programmdaten oder eine Kombination davon kann eine Implementierung einer Netzwerkumgebung beinhalten.
Das Datenverarbeitungssystem 10 kommuniziert mit mindestens einem Netzwerk 20 (z. B. einem lokalen Netzwerk (LAN), einem allgemeinen Weitverkehrsnetzwerk (WAN) und/oder einem öffentlichen Netzwerk (z. B. dem Internet) über den Netzwerkadapter 24. Der Netzwerkadapter 24 kommuniziert über den Bus 28 mit den anderen Komponenten des Datenverarbeitungsservers 12. Es sollte ersichtlich sein, dass sonstige Hardware- und/oder Software-Komponenten in Verbindung mit dem Datenverarbeitungssystem 10 verwendet werden können, auch wenn sie nicht dargestellt sind. Beispiele sind u. a., ohne darauf beschränkt zu sein: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, Arrays externer Festplattenlaufwerke, ein redundantes Array unabhängiger Speicherplatten (RAID), Bandlaufwerke und Speichersysteme für die Datenarchivierung.
Die Übersetzungsanwendung 99 ist ein eigenständiges Programm, das auf einer Anwendungsebene funktioniert, um einen oder mehrere Übersetzungsspeicher 104 aus unabhängigen Sprachressourcen anzulegen. Alternativ werden die Übersetzungsspeicher manuell von einem Humanübersetzer angelegt.
Das Übersetzungsprüfmodul 100 stellt, wenn es vom Datenverarbeitungsserver 12 ausgeführt wird, ein Übersetzungsprüfwerkzeug zum Prüfen eines oder mehrerer Übersetzungsspeicher 104 im Vergleich mit einem Terminologiewörterbuch 102 bereit, um einen Prüfbericht 106 zu erstellen. Gemäß einer bevorzugten Ausführungsform werden diese Komponenten in Bezug auf die begleitenden Zeichnungen genauer beschrieben.
Auf 2A Bezug nehmend, werden das Terminologiewörterbuch 102 und ein oder mehrere Übersetzungsspeicher 104 in das Übersetzungsprüfmodul 100 eingegeben. Der Prüfbericht 106 wird als Ausgabe des Übersetzungsprüfmoduls 100 dargestellt.
Auf 2B Bezug nehmend, umfasst das Terminologiewörterbuch 102 (im Allgemeinen als DTerm1, DTerm2...DTermN bezeichnete) Terminologiepaare von Ausgangstermini (A) und Zieltermini (Z) (speziell als DTerm1.A/DTerm1.Z; DTerm2.A/DTerm2.Z; ...; DTermN.A/DTermN.Z bezeichnet) in einer Sprache 1 und einer Sprache 2. Für manche Termini gibt es eine weitere Übersetzung. Beispielsweise weist DTerm1.A.1 (der erste Wörterbuchterminus in der ersten Sprache) „computer” und der entsprechende DTerm1.Z.1 (der erste Wörterbuchterminus in der zweiten Sprache) „ordinateur” auf. Eine weitere Übersetzung von DTerm1.A.1 („computer”) ist DTerm1.Z.2 mit „calculateur”. Im Beispiel ist die erste Sprache Englisch und die zweite Sprache Französisch. Ein normales Terminologiewörterbuch enthält Tausende von zugehörigen Termini und das Beispiel von zwei Termini ist vereinfacht dargestellt, um die Ausführungsform leichter zu beschreiben.
Auf 2C Bezug nehmend, weist der Übersetzungsspeicher 104 Ausgangssegmente eines Dokuments in einer ersten Sprache und Zielsegmente des übersetzten Dokuments in einer zweiten Sprache auf, wobei die Dokumente in entsprechende Segmentpaare aufgeteilt sind (Seg1.A/Seg1.Z; Seg2.A/Seg2.Z; ...; SegN.A/SegN.Z). Ein Ausgangssegment eines Textes in der ersten Sprache soll mit einem Zielsegment des Textes in der zweiten Sprache sinngleich sein. Ein normaler Übersetzungsspeicher weist Tausende von zugehörigen Segmenten auf und das Beispiel ist vereinfacht dargestellt, um die Ausführungsform leichter zu beschreiben.
Auf 2D Bezug nehmend, weist der Prüfbericht 106 eine strukturierte Liste von Segmentpaaren auf, die ein Prüfmaß für jedes Segmentpaar darstellen. Die strukturierte Liste weist drei aufeinander folgende eingeklappte Segmente (angezeigt durch ein Pluszeichen +) DTermX, DTermX + 1 und DTermX + 2 auf und in den folgenden Figuren sind ausgeklappte Segmente (angezeigt durch das Minuszeichen –) dargestellt. In diesem Beispiel hat der Bericht keine damit verbundene stilisierte Formatvorlage und ist als reiner Text dargestellt.
Auf 2E Bezug nehmend, ist derselbe beispielhafte Prüfbericht an DTermX ausgeklappt, um die Vorkommen und den Übereinstimmungswert des Wörterbuchterminus im Terminologiespeicher zu zeigen. Der fett gedruckte und unterstrichene Text markiert das DTermX-Paar als im Ziel- und Ausgangssegment des Übersetzungsspeichers vorhanden. DTermX + 1 und DTermX + 2 sind eingeklappt dargestellt. Im Beispiel werden fünf Vorkommen von DTermX aufgefunden, bei denen DTermX das englische Wort „build” ist. Das erste Vorkommen hat eine entsprechende genaue Überstimmung im Zielsegment (Übereinstimmungswert = 100%) für den entsprechenden Zielterminus „development”. Das zweite Vorkommen hat eine entsprechende genaue Überstimmung im Zielsegment (Übereinstimmungswert = 100%) für einen zweiten entsprechenden Zielterminus „génération”. Das dritte, vierte und fünfte Vorkommen ist eingeklappt dargestellt.
Auf 2F Bezug nehmend, ist derselbe beispielhafte Prüfbericht an DTermX + 1 ausgeklappt, um die Vorkommen des Ausgangsterminus „computer-aided translation” im Übersetzungsspeicher zu zeigen. Der fett gedruckte und unterstrichene Text markiert das Paar des Ausgangsterminus DTermX + 1 als in den Ziel- und Ausgangssegmenten des Übersetzungsspeichers aufgefunden. Das Beispiel stellt den Fall heraus, in dem ein entsprechender Zielterminus in einem Zielsegment nicht genau übereinstimmt, sondern ein Wort aufweist (in diesem Fall „généralement”), das Elemente des Zielterminus trennt. In diesem Fall beträgt der Überstimmungswert 80% für die nicht ganz genaue Übereinstimmung. DTermX und DTermX + 2 sind eingeklappt dargestellt.
Auf 2G Bezug nehmend, weist das Übersetzungsprüfmodul 100 auf: ein Übersetzungsprüfverfahren 200; eine Maschine für die Übereinstimmungserkennung nach Regeln 110; eine Maschine zum Erkennen unscharfer Übereinstimmungen 112; Ergebnisdaten 114; und eine Berichtserstellungseinheit 116.
Das Übersetzungsprüfverfahren 200 steuert die Verarbeitung und Operation der Teilkomponenten des Übersetzungsprüfmoduls 100 und wird im Folgenden genauer beschrieben.
Die Maschine für die Übereinstimmungserkennung nach Regeln 110 dient dazu, Ausgangstermini in den Ausgangssegmenten des Übersetzungsspeichers zu finden. Aufgefundene Ausgangstermini haben entsprechende Zieltermini in einem Terminologiewörterbuch. Ausgangssegmente haben entsprechende Zielsegmente in einem Übersetzungsspeicher.
Die Maschine zum Erkennen unscharfer Übereinstimmungen 112 dient dazu, einen entsprechenden Zielterminus (der einem übereinstimmenden Ausgangsterminus entspricht) auf der Grundlage von Ähnlichkeiten der Zeichenkette einem entsprechenden Zielsegment im Übersetzungsspeicher zuzuordnen (d. h. ein Zielsegment, das einem Ausgangssegment mit einem Vorkommen des Ausgangsterminus entspricht).
Die Ergebnisdaten 114 dienen zum Speichern der Prüfergebnisse, bevor sie als ein Bericht erstellt werden.
Die Berichtserstellungseinheit 116 dient zum Erstellen eines Prüfberichts 106 aus den Ergebnisdaten 114.
Auf 3 Bezug nehmend, weist das Übersetzungsprüfverfahren 200 logische Prozessschritte 202 bis 216 auf.
Schritt 202 dient zum Definieren einer Schleife, so dass jeder Übersetzungsspeicher durch die Schritte 204 bis 216 überprüft werden kann. Für die Leistungsfähigkeit der Ausführungsform ist nur ein Übersetzungsspeicher notwendig, jedoch können zwei oder mehr Übersetzungsspeicher vorteilhaft als Stapel geprüft werden.
Schritt 204 dient zum Definieren einer Schleife für alle Segmente in einem Übersetzungswörterbuch, so dass jedes Segment auf Doppelung kontrolliert wird. Schritt 204 dient auch zum Aufzeichnen und Entfernen aller doppelten Segmente aus einem Übersetzungsspeicher. Dabei wird die Verarbeitung für die doppelten Segmente nicht wiederholt, sondern alle Vorkommen werden berichtet, darunter auch solche in doppelten Segmenten.
Schritt 206 dient dazu, zu Schritt 204 zurückzuschleifen, wenn eines oder mehrere Segmente zu verarbeiten sind, sonst Schritt 208.
Schritt 208 dient dazu, eine Testschleife für jeden Ausgangsterminus in einem Terminologiewörterbuch zu definieren. Die Maschine für die Übereinstimmungserkennung nach Regeln 110 wird aufgerufen, auf der Grundlage von Regeln Übereinstimmungen jedes Ausgangsterminus mit einem Ausgangssegment im Übersetzungsspeicher zu prüfen. Wenn eine Übereinstimmung gefunden wird, wird anschließend das Vorkommen im Segment aufgezeichnet, wobei alle unwesentlichen Segmentmarkierungen entfernt werden. Beispielsweise werden englische Termini erkannt, indem wahrscheinliche Wortstämme verglichen werden, wobei gebräuchliche englische Endungen, z. B. -s, -e, -es, -ies, -ed, -ing und andere in den Wörterbucheinträgen und Speichersegmenten entfernt werden. Sonstige Morphologieregeln können ebenfalls angewandt werden.
Schritt 210 dient dazu, eine Schleife für jedes Vorkommen eines Ausgangsterminus in einem Ausgangssegment zu definieren, wobei nach dem Aufrufen der Maschine zum Erkennen unscharfer Übereinstimmungen 112 eine unscharfe Suche im entsprechenden Zielsegment und dem entsprechenden übersetzten Wörterbuchterminus durchgeführt wird, um einen Übereinstimmungswert auszugeben. Eine Übereinstimmung wird gefunden, wenn der übersetzte Wörterbuchterminus im Zielsegment genau aufgefunden wird oder ein Übereinstimmungswert innerhalb bestimmter Schwellenwertgrenzen fällt. Sonst wird keine Übereinstimmung gefunden. Außerdem wird, wenn der Wörterbuch-Ausgangsterminus im Zielsegment gefunden wird, die Übereinstimmung als „in Ordnung” aufgezeichnet.
Die Maschine zum Erkennen unscharfer Übereinstimmungen 112 sucht nach kanonischen Formen des entsprechenden Wörterbuch-Zielterminus in den entsprechenden Zielsegmenten. Gemäß dem Übereinstimmungswert gilt der übersetzte Terminus als gefunden, zu prüfen oder nicht gefunden. Diese Bewertung verwendet einen sprachagnostischen Algorithmus zum Erkennen unscharfer Übereinstimmungen zwischen 1) Übersetzungen von Wörterbucheinträgen und 2) Segmentübersetzungen des Übersetzungsspeichers.
Bei der bevorzugten Ausführungsform werden Zeichenketten des Ausgangsterminus und des Zielterminus mittels einer Funktion verglichen, die das längste gemeinsame Teilstück feststellt. Wenn gemeinsame Teilstücke gefunden werden, wird eine weitere Prüfung auf der Grundlage von drei Parametern verwendet, um festzustellen, ob sich der erwartete Zielterminus im Zielsegment befindet. Diese drei Parameter dienen dazu, einen Schwellenwert so zu definieren, dass ein Zielterminus als in einem Zielsegment gefunden gilt, wenn:
die Gesamtzahl der Zeichen in einer gemeinsamen Teilzeichenkette gleich oder größer als eine gemeinsame Zeichenmindestzahl ist (in Prozent);
die Gesamtzahl der gemeinsamen Teilstücke gleich oder kleiner als eine Teilstückhöchstzahl ist;
die Anzahl der Zeichen eines beliebigen gemeinsamen Teilstücks gleich oder größer als eine Teilstückmindestlänge ist. Wenn eine dieser Bedingungen nicht erfüllt ist, gilt die Übersetzung des Wörterbucheintrags als in der Segmentübersetzung des Übersetzungsspeichers nicht gefunden.
Die Definition des Schwellenwertes ist in der Konfigurationsdatei eingestellt. Im Falle der europäischen Sprachen sind die Parameter wie folgt:
gemeinsame Zeichenmindestzahl = 80
Teilstückhöchstzahl = 3
Teilstückmindestlänge = 2
Zum Einstellen dieser Parameter ist keine Schulungsphase nötig. Jedoch können ihre Werte getestet und nötigenfalls geändert werden.
Schritt 212 dient dazu, zu Schritt 210 zurückzuschleifen, wenn eines oder mehrere Vorkommen des Ausgangsterminus zu verarbeiten sind. Sonst Schritt 214.
Schritt 214 dient dazu, zu Schritt 208 zurückzuschleifen, wenn mehrere Vorkommen noch zu verarbeiten sind, sonst Schritt 216.
Schritt 216 dient dazu, einen Bericht über Vorkommen eines Terminus und aufgezeichnete Übereinstimmungswerte zu erstellen. Damit endet das Übersetzungsprüfverfahren 200.
Nun werden weitere Ausführungsformen der Erfindung beschrieben.
Es wird dem Fachmann klar sein, dass die Schritte der Logikverarbeitung der bevorzugten Ausführungsform insgesamt oder teilweise entweder in einer Logikvorrichtung oder einer Vielzahl von Logikvorrichtungen verkörpert sein können, die Logikelemente aufweist, die so angeordnet sind, dass sie die Schritte der Logikverarbeitung des Verfahrens durchführen, und dass solche Logikelemente Hardware-Komponenten, Firmware-Komponenten oder eine Kombination davon aufweisen können.
Es wird dem Fachmann genauso klar sein, dass die Logikkomponenten der bevorzugten Ausführungsform insgesamt oder teilweise entweder in einer Logikvorrichtung mit Logikelementen zum Durchführen der Schritte des Verfahrens verkörpert sein können und dass solche Logikelemente Komponenten wie Logikgatter z. B. in einem programmierbaren Logik-Array oder einem anwendungsspezifischen integrierten Schaltkreis aufweisen kann. Eine solche Logikanordnung kann ferner so verkörpert sein, dass sie Elemente befähigt, beispielsweise mit Hilfe einer virtuellen Hardware-Beschreibungssprache, die in festen oder übertragbaren Trägermedien gespeichert sein kann, in einem solchen Array oder Schaltkreis vorübergehend oder dauerhaft Logikstrukturen aufzubauen.
Es ist ersichtlich, dass das Verfahren und die Komponenten der bevorzugten Ausführungsform alternativ vollständig oder teilweise in einem parallelen. Datenverarbeitungssystem verkörpert sein können, das zwei oder mehr Prozessoren zum Ausführen paralleler Software aufweist.
Bei einer alternativen Ausführungsform kann die vorliegende Erfindung in Form eines auf einem Computer implementierten Dienstes realisiert sein, das einen Computer-Programmcode aufweist, der in einer Datenverarbeitungsserver-Infrastruktur eingesetzt und ausgeführt bewirkt, dass die Datenverarbeitungsserver-Infrastruktur als Reaktion auf eine Dienstanforderung des Client alle Schritte des Verfahrens ausführt.
Auf 4 Bezug nehmend ist beispielsweise ein Client-Server-Übersetzungsprüfsystem 10' eine beispielhafte Client-Server-Ausführungsform, das einen Datenverarbeitungsserver 12' und einen Datenverarbeitungsclient 13' aufweist. Der Datenverarbeitungsserver 12' ist über das Netzwerk 20 mit dem Datenverarbeitungsclient 13' verbunden. Der Datenverarbeitungsclient 13' stellt einem Benutzer 18' eine Ausgabe über Ausgabeeinheiten 16' bereit und empfängt vom Benutzer 18' Eingaben über Eingabeeinheiten 14'. Bei dieser Client-Server-Ausführungsform befinden sich die Übersetzungsspeicher 104' im Client, während sich ein Übersetzungsprüfmodul 100' und ein Terminologiewörterbuch 102' im Datenverarbeitungsserver 12' befinden.
Bei dieser Client-Server-Ausführungsform wird die Prüfung dem Client, der den Übersetzungsspeicher bereitstellt, als Dienst bereitgestellt. Im Client 13' wird nach dem erfolgreichen Abschluss der Prüfung ein Bericht 106' erstellt.
Bei einer weiteren alternativen Ausführungsform kann die vorliegende Erfindung in Form eines auf einem Computer implementierten Verfahrens des Einsetzens eines Dienstes realisiert sein, das Schritte des Einsetzens von Computer-Programmcode aufweist, der in einer Datenverarbeitungsserver-Infrastruktur eingesetzt und ausgeführt bewirkt, dass das Computersystem als Reaktion auf eine Dienstanforderung des Client alle Schritte des Verfahrens ausführt.
Es wird dem Fachmann klar sein, dass viele Verbesserungen und Modifikationen an der vorgenannten beispielhaften Ausführungsform vorgenommen werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen.

Claims

System zum Prüfen eines Übersetzungsspeichers im Vergleich mit einem Terminologiewörterbuch, wobei das Terminologiewörterbuch Ausgangstermini und entsprechende Zieltermini aufweist, der Übersetzungsspeicher Ausgangssegmente und entsprechende Zielsegmente aufweist und das System aufweist: eine Maschine für die Übereinstimmungserkennung nach Regeln zum Erkennen von genau oder fast gleichen Vorkommen des Ausgangsterminus in Ausgangssegmenten für jeden Ausgangsterminus, wobei ein Vorkommen nach Grammatikregeln festgestellt wird; eine Maschine zum Erkennen unscharfer Übereinstimmungen zum Berechnen eines Übereinstimmungswertes zwischen einem entsprechenden Zielterminus und einem entsprechenden Vorkommen des entsprechenden Zielterminus in einem entsprechenden Zielsegment für jedes erkannte Vorkommen eines Ausgangsterminus in einem Ausgangssegment; und eine Berichtserstellungseinheit zum Berichten jedes erkannten Vorkommens eines Ausgangsterminus in einem Ausgangssegment; und des berechneten Übereinstimmungswertes des entsprechenden Zielterminus und des entsprechenden Vorkommens des entsprechenden Zielterminus in einem Zielsegment.
System nach Anspruch 1, wobei jeder Übereinstimmungswert kategorisiert wird als: genau; einige Überstimmung; und keine Übereinstimmung.
System nach Anspruch 2, wobei ein erkannter Ausgangsterminus als verwendet kategorisiert wird, wenn er im entsprechenden Zielsegment sowie im Ausgangssegment gefunden wird.
System nach Anspruch 2, wobei Markierungsfarben dazu dienen, zwischen verschiedenen Übereinstimmungskategorien zu unterscheiden.
System nach einem der Ansprüche 1 bis 4, das ferner Erstellen eines Berichts unter Verwendung einer Formatvorlage aufweist, um eine einfachere Navigation und ein einfacheres Verständnis für den Benutzer bereitzustellen.
System nach einem der Ansprüche 1 bis 5, das ferner Berechnen eines Gesamtübereinstimmungswertes zwischen einem Übersetzungsspeicher und einem Übersetzungswörterbuch unter Verwendung der einzelnen Übereinstimmungswerte aufweist.
System nach einem der Ansprüche 1 bis 6, das ferner ein visuelles Werkzeug bereitstellt, das ein schnelles Erkennen von Problembereichen ermöglicht.
System nach einem der Ansprüche 1 bis 7, wobei die Ausgangssprache eine einzige Sprache mit einfachen Grammatikregeln auf der Grundlage von Suffixen ist.
System nach Anspruch 8, wobei die Ausgangssprache Englisch ist.
Verfahren zum Prüfen eines Übersetzungsspeichers im Vergleich mit einem Terminologiewörterbuch, wobei das Terminologiewörterbuch Ausgangstermini und entsprechende Zieltermini aufweist, der Übersetzungsspeicher Ausgangssegmente und entsprechende Zielsegmente aufweist und das Verfahren aufweist: Erkennen von genau oder fast gleichen Vorkommen des Ausgangsterminus in Ausgangssegmenten für jeden Ausgangsterminus, wobei eine enge Übereinstimmung nach Grammatikregeln festgestellt wird; Berechnen eines Übereinstimmungswertes zwischen einem entsprechenden Zielterminus und einem entsprechenden Vorkommen des entsprechenden Zielterminus in einem entsprechenden Zielsegment für jedes erkannte Vorkommen eines Ausgangsterminus in einem Ausgangssegment; und Berichten jedes erkannten Vorkommens eines Ausgangsterminus in einem Ausgangssegment und des berechneten Übereinstimmungswertes des entsprechenden Zielterminus und des entsprechenden Vorkommens im Zielsegment.
Computerprogrammprodukt zum Prüfen eines Übersetzungsspeichers im Vergleich mit einem Terminologiewörterbuch einer Ausgangs- und Zielsprache, wobei das Computerprogrammprodukt ein computerlesbares Speichermedium mit darauf verkörpertem computerlesbaren Programmcode aufweist und der computerlesbare Programmcode so konfiguriert ist, dass er alle Schritte der Verfahrensansprüche ausführt.
Computerprogramm, das auf einem computerlesbaren Medium gespeichert und in den internen Speicher eines digitalen Computers ladbar ist und das Softwarecode-Teile zum Durchführen aller Schritte der Verfahrensansprüche aufweist, wenn das Programm auf einem Computer ausgeführt wird.
Auf einem Computer implementierter Dienst, der einen Computer-Programmcode aufweist, der in einer Datenverarbeitungsserver-Infrastruktur eingesetzt und ausgeführt bewirkt, dass die Datenverarbeitungsserver-Infrastruktur als Reaktion auf eine Dienstanforderung des Client alle Schritte des Verfahrens ausführt.