JP4714400B2 - スケーラブル機械翻訳システム - Google Patents

スケーラブル機械翻訳システム Download PDF

Info

Publication number
JP4714400B2
JP4714400B2 JP2002162076A JP2002162076A JP4714400B2 JP 4714400 B2 JP4714400 B2 JP 4714400B2 JP 2002162076 A JP2002162076 A JP 2002162076A JP 2002162076 A JP2002162076 A JP 2002162076A JP 4714400 B2 JP4714400 B2 JP 4714400B2
Authority
JP
Japan
Prior art keywords
logical form
node
logical
mapping
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002162076A
Other languages
English (en)
Other versions
JP2003050797A (ja
Inventor
エー.メネゼス アラル
ディー.リチャードソン スティーブン
イー.ピンカム ジェシー
ビー.ドラン ウィリアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003050797A publication Critical patent/JP2003050797A/ja
Application granted granted Critical
Publication of JP4714400B2 publication Critical patent/JP4714400B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は自動言語翻訳システムに関する。より詳細には、本発明は、第1の言語の単語および/または論理形式を第2の言語の単語および/または論理形式に関連付ける変換マッピングを2カ国語コーパスから自動的に抽出することに関する。
【0002】
【従来の技術】
機械翻訳システムは、1つの言語のテキスト入力を受け取り、それを第2の言語に翻訳し、第2の言語のテキスト出力を提供するシステムである。現在の商用可能な機械翻訳システムはハンドコード変換コンポーネントに依存している。ハンドコード変換コンポーネントは個々のドメインをカスタマイズすることが難しく、また、高価である。また、望ましいサイズにスケーリングすることも大変難しい。これらのことはコストおよびユーティリティ全体に不利益な制限となる。
【0003】
これらの欠陥に対処するために機械翻訳システムの基となる種々の例(文)が作成されてきた。そのような多数のシステムは、H.Somers,ReviewArticle:Example−Based Machine translation 14:113,157,1999に記載されている。これらの機械翻訳リサーチシステムの基となる代表例のいくつかは約200以上の文から作成された基本例を有している。それらは多数の基本をスケーリングすることが大変難しく、また、その困難性から生じるシステムパフォーマンスに直面してきた。
【0004】
Somersでは異なる文法解析を使用し、入力テキストの個々の言語に基づいた基本例からの入力を行うことが説明されている。そのような文法解析では言語および使用される文法解析の内容に応じて文法解析から得られる依存構造も異なってしまう。それ故、1つの言語から他の言語へ変換する場合の依存構造を比較することは不可能ではないにしても難しい。
【0005】
【発明が解決しようとする課題】
そのような従来システムは、また、スケーリングすることことが容易ではなかった。例えば、文を200ぐらいにその数を増やすことが難しかった。これは従来システムがノイズを有する入力データを取り扱うことが難しいという理由によるからである。その代わりに、入力データは正確な形式(フォーム)とすることが必要であるか、または、クリーンアップするか、さもなくば人間の手に適切な形式に置き換える必要があった。数を著しく増すことは当然のごとく困難があった。
【0006】
そこで、本発明の目的は、スケーリング可能な機械翻訳システムを提供することにある。
【0007】
【課題を解決するための手段】
コンピュータ実施方法では第1の言語の入力テキストを第2の言語の出力テキストに翻訳する。入力の論理形式は入力テキストに基づいて生成される。マッピングデータベースの中の複数の変換マッピングが入力の論理形式(または、少なくともその一部分)に合致(マッチする)の変換マッピングがあらかじめ定められた尺度(metric,基準)に基づいて選択される。これらの変換マッピングは互いに1つの変換論理形式にまとめられる。出力テキストはその変換論理形式に基づいて生成される。
【0008】
変換マッピングは例示的には1対の変換論理形式コンポーネント(フラグメント(fragment))で構成される。変換論理コンポーネントは原始(ソース)および目的(ターゲット)の論理形式(LF)を含み、それらはトレーニングデータの学習から得られる。ランタイム時、原始サイドのマッピングが入力と比較される。そのようにして得られた合致のマッピングの中から1つが選択される。目的側のマッピングは互いにまとめられて単一の目的LFが生成される。出力文字列が目的LFから生成される。
【0009】
あらかじめ定められた尺度はマッピングの集合によりカバーされた入力ノードを含む種々の形式の中の1つを使用することができる。尺度には、入力変換形式とマッチングする異なる変換マッピングのサイズ、変換マッピングデータベースのトレーニング中で使用されるトレーニングフェース間に、複数の変換マッピングが生成される頻度、複数の変換マッピングがトレーニングの間、完全に整列してある論理形式から生成される頻度、比較の変換マッピングがトレーニングデータの不適合の解析結果から生成される頻度。比較の複数の変換マッピングに関連し、関連する変換マッピングの信頼性を表すスコアを含む。
【0010】
本発明の機械翻訳システムは上述の方法を実施するためのマッピングコンポーネントを含む。
【0011】
本発明の機械翻訳システムは入力テキストに基づいた入力依存構造を生成する入力ジェネレータを含むことができる。システムは、少なくとも10,000の並列に整列したトレーニング文に基づいて形成された変換マッピング依存構造を有する変換マッピングデータベースをも含む。変換マッピングデータベースは、50,000、100,000、180,000の、もしくは200,000を超えるトレーニング文に基づいて形成することができる。
【0012】
加えて、他の形態としては本発明では、トレーニングの間に整列された整列論理形式から得られる変換マッピングをフィルタリングすることにより変換マッピングデータベースをトレーニングしてもよい。
【0013】
【発明の実施の形態】
概要
以下に、図1に示す汎用コンピュータ120を簡単に説明する。ただし、コンピュータ120は、好適なコンピューティング環境の一例にすぎず、本発明の用途および機能の範囲に関して制限を示唆することを意図するものではない。また、コンピュータ120は、そこに例示されたモジュールのいずれか1つまたは組合せに関連する依存性または要件を有するものと解釈されるべきではない。
【0014】
コンピュータにより実行されるプログラムモジュールの如きコンピュータ実行可能命令の一般的状況において、本発明を説明することができる。一般に、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を具現化するルーチン、プログラム、オブジェクト、モジュール、データ構造などを含む。本発明は、通信ネットワークを介してリンクされる遠隔処理デバイスによってタスクを実行する分散コンピューティング環境においても実施することもできる。分散コンピューティング環境では、記憶格納デバイスを含む局所および遠隔のコンピュータ記憶媒体にプログラムモジュールを配置することができる。プログラムおよびモジュールによって実行されるタスクを、図面を用いて以下に説明する。当業者であれば、コンピュータ可読媒体の任意の形式で書き込むことができるプロセッサ実行可能命令として以下の説明および図面を具現化することが可能である。
【0015】
図1を参照すると、コンピュータ120のモジュールは、処理装置140と、システムメモリ150と、システムメモリを含む様々なシステムモジュールまたはコンポーネントを処理装置140に結合するシステムバス141とを含むことができるが、それらに限定されない。システムバス141は、様々なバスアーキテクチャのいずれかを用いたメモリバスまたはメモリコントローラ、周辺バスおよびローカルバスを含むいくつかの種類のバス構造のいずれかでありうる。当該アーキテクチャとしては、限定するのではなく例示を目的として、工業規格アーキテクチャ(Industry Standard Architecture(ISA)バス、ユニバーサルシリアルバス(Universal Serial Bus(USB)、マイクロチャネルアーキテクチャ(Micro Channel Architecture(MCA)バス、エンハンスド(Enhanced)ISA(EISA)バス、ベザ(Video Electronics Standards Association(VESA)ローカルバス、およびMezzanineバスとしても知られる周辺モジュール相互接続(Peripheral Module Interconnect)(PCI)バスなどが挙げられる。コンピュータ120は、典型的には、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ120によってアクセスできる任意の利用可能媒体とすることができ、揮発性媒体および不揮発性媒体、ならびに取外し可能媒体および取外し不能媒体を含む。限定するのではなく例示を目的とすれば、コンピュータ可読媒体は、コンピュータ記憶媒体や通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールコンポーネントまたは他のデータの如き情報を記憶するための任意の方法または技術を用いて実装される揮発性媒体および不揮発性媒体、ならびに取外し可能媒体および取外し不能媒体を含む。コンピュータ記憶媒体としては、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタルビデオディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは所望の情報を記憶するのに使用することができるとともに、コンピュータ120によってアクセス可能な他の媒体が挙げられるが、それに限定されるものではない。
【0016】
通信媒体は、典型的にはコンピュータ可読命令、データ構造、プログラムモジュール、あるいは搬送波または他の変換メカニズムの如き変調データ信号に含まれる他のデータを具体化し、任意の情報配信媒体を含む。「変調データ信号」という言葉は、その1つ以上の特性が、信号内の情報をコード化するように設定または変更された信号を意味する。通信媒体としては、限定するのではなく例示を目的として、有線ネットワークまたは直接有線接続の如き有線媒体、ならびに音響、FR、赤外線および他の無線媒体の如き無線媒体が挙げられる。上記媒体の任意の媒体の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
【0017】
システムメモリ150は、揮発性メモリ、および/または読取り専用メモリ(ROM)151やランダムアクセスメモリ(RAM)152の如き不揮発性メモリの形式のコンピュータ記憶媒体を含む。起動時の如き、コンピュータ120内の要素間で情報を変換するのに役立つ基本ルーチンを含む基本入出力システム153(BIOS)は、典型的にROM151に記憶される。RAM152は、典型的には、すぐにアクセス可能な、かつ/または現在処理装置140によって動作中のデータおよび/またはプログラムモジュールを含む。図1は、限定するのではなく例示を目的として、オペレーティングシステム154と、アプリケーションプログラム155と、他のプログラムモジュール156と、プログラムデータとを示す図である。
【0018】
コンピュータ120は、他の取外し可能/取外し不能の揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。図1は、例示のみを目的として、取外し不能の不揮発性磁気媒体に対して読書きを行うハードディスクドライブ161と、取外し可能な不揮発性磁気ディスク172に対して読書きを行う磁気ドライブディスク171と、CD−ROMまたは他の光媒体の如き取外し可能な不揮発性光ディスク176に対して読書きを行う光ディスクドライブ175とを示す図である。例示的な動作環境で使用できる他の取外し可能/取外し不能の揮発性/不揮発性コンピュータ記憶媒体としては、磁気テープカセット、フラッシュメモリカード、デジタルビデオディスク、ディジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが挙げられるが、それらに限定されるものではない。ハードディスクドライブ161は、典型的には、インターフェース160の如き取外し不能メモリインターフェースを介してシステムバス141に接続され、磁気ディスクドライブ171および光ディスクドライブ175は、典型的には、インターフェース170の如き取外し可能メモリインターフェースによってシステムバス141に接続される。
【0019】
上述し、図1に示したドライブおよびそれらの関連する記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ120用の他のデータの記憶を行う。図1では、例えば、オペレーティングシステム164、アプリケーションプログラム165、他のプログラムモジュール166およびプログラムデータ167を記憶するものとして、ハードディスクドライブ161が示されている。これらのモジュールは、オペレーティングシステム154、アプリケーションプログラム155、他のプログラムモジュール156およびプログラムデータ157と同じであっても異なっていてもよいことに留意されたい。ここでは、オペレーティングシステム164、アプリケーションプログラム165、他のプログラムモジュール166およびプログラムデータ167に異なる番号を付して、少なくともそれらは異なる個体であることを示している。
【0020】
ユーザは、キーボード182、マイクロフォン183、ならびにマウス、トラックボールまたはタッチパッドのようなポインティングデバイス181の如き入力デバイスを介して、コンピュータ120にコマンドおよび情報を入力することができる。他の入力デバイス(不図示)としては、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどを挙げることができる。これらおよび他の入力デバイスは、システムバスに結合されるユーザ入力インターフェース180を介して処理装置140にしばしば接続されるが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)の如き他のインターフェースおよびバス構造によって接続されてもよい。モニタ184または他の種類のディスプレイデバイスも、ビデオインターフェース185の如きインターフェースを介してシステムバス141に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース188を介して接続することができるスピーカ187やプリンタ186の如き他の周辺出力デバイスを含むこともできる。
【0021】
コンピュータ120は、リモートコンピュータ194の如き1つ以上のリモートコンピュータに対する論理接続を用いて、ネットワーク化された環境で動作することができる。リモートコンピュータ194は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス(peer device)または他の共通ネットワークノードであってもよく、典型的には、コンピュータ120に対して上述した要素の多くまたはすべてを含む。図1に描かれている論理接続は、ローカルエリアネットワーク(LAN)191および広域ネットワーク(WAN)193を含むが、他のネットワークを含んでいてもよい。当該ネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいて一般化されている。
【0022】
LANネットワーキング環境に使用するときは、ネットワークインターフェースまたはアダプタ190を介してコンピュータ120をLAN191に接続する。WANネットワーキング環境で使用するときは、コンピュータ120は、典型的には、モデム192またはインターネットの如きWAN193上での通信を確立するための他の手段を含む。モデム192は内部にあっても外部にあってもよく、それをユーザ入力インターフェース180または他の適切なメカニズムを介してシステムバス141に接続することができる。ネットワーク化された環境において、コンピュータ120に対して描かれたプログラムモジュールを遠隔メモリ記憶装置に記憶することができる。図1は、限定するのではなく例示を目的として、リモートコンピュータ194上に存在する遠隔アプリケーションプログラム195を示す図である。示されているネットワーク接続は例示的なものであって、コンピュータ間の通信リンクを確立する他の手段も使用できることが理解されるであろう。
【0023】
本発明は、多くの他の汎用または特殊用途のコンピューティングシステム、環境または構成に対しても動作可能である。本発明に好適に使用できるよく知られたコンピューティングシステム、環境および/または構成の例としては、(スクリーンのない)正規電話パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサを使用したシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス(programmable consumer electronics)、ネットワークPC、ミニコンピュータ、主コンピュータ、上記システムまたはデバイスのいずれかを含む分散コンピューティング環境などが挙げられるが、それらに限定されるものではない。
【0024】
機械翻訳システムの概要
本発明を詳細に説明する前に、論理形式について簡単に説明するのが有益であると思われる。論理形式およびシステム、ならびにそれらを生成するための方法についての十分かつ詳細な説明は、1999年10月12日に発行され、「METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES」という名称の米国特許第5、966、686号(Heidorn他)に見いだすことができる。しかし、簡単にいうと、論理形式は、入力テキストに対する形態学的解析を行って、文法的関係で補われた従来の句構造解析をプロデュースすることによって生成される。テキスト入力における内容単語間のラベル付き依存性を記述するデータ構造である論理形式を導くために、構文解析にさらなる処理が施される。論理形式は、特定の構文変換(例えば能動/受動)を正規化するとともに、センテンス内照応形および長距離依存性を解決することができる。ここに示されるように、図4(A)の例では、論理形式の要素を直感的に理解するのに役立つグラフとして論理形式252を表すことができる。しかしながら、当業者ならわかるであろうが、論理形式は、コンピュータ可読媒体上に記憶されると、グラフを表すように簡単に理解することができなくなる。
【0025】
具体的には、論理関係は、LogicalSubject、LogicalObject、IndirectObject;
LogicalNominative、LogicalComplement、LogicalAgent;
CoAgent、Beneficiary;
Modifier、Attribute、SentenceModifier;
PrepositionalRelationship;
Synonym、Equivalence、Apposition;
Hypernym、Classifier、SubClass;
Means、Purpose;
Operator、Modal、Aspect、DegreeModifier、Intensifier;
Focus、Topic;
Duration、Time;
Location、Property、Material、Manner、Measure、Color、Size;
Characteristic、Part;
Coordinate;
User、Possessor;
Source、Goal、Cause、Result;
およびDomainの如き方向性関連型によって接続される2つの単語から構成される。
【0026】
論理形式は、センテンスまたはその一部の如き単一のテキスト入力を表す接続論理関係のデータ構造である。論理形式は、1つの論理関係から構成され、構造的関係(すなわち構文的関係および意味的関係)を描写し、特に入力列における重要単語間の関係を補い、かつ/または調節する。
【0027】
例示的な一実施形態では、構文解析から論理形式を構築する特定のコードが、機械翻訳システムがそれに対して動作する様々な原始言語および目的言語の間で共有される。2つの言語の表面的に異なる構造はしばしば同様または同一の論理形式表現に分解するため、共有されたアーキテクチャは、異なる言語からの論理形式区分を整列させるタスクを著しく単純化する。異なる言語における論理形式の例を図4(A)〜図4(C)に関して以下により詳細に説明する。
【0028】
図2および図3は、本発明の一実施形態による機械翻訳システム200のアーキテクチャの構成図である。システム200は、解析コンポーネント204および206と、統計的単語関連学習コンポーネント208と、論理形式整列コンポーネント210と、字句知識ベース構築コンポーネント212と、2カ国語辞書214と、辞書併合コンポーネント216と、変換マッピングデータベース218と、更新2カ国語辞書220とを含む。トレーニングおよび翻訳実行時に、システム200は、解析コンポーネント222、マッチングコンポーネント224、変換コンポーネント226および/または生成コンポーネント228を利用する。
【0029】
例示的な一実施形態では、2カ国語コーパスを使用してシステムをトレーニングする。2カ国語コーパスは、整列翻訳センテンス(例えば、英語の如き1つの原始または目的言語におけるセンテンスが、スペイン語の如き他方の原始または目的言語における人間による翻訳と一対一で対応するセンテンス)を含む。トレーニング時に、原始センテンス230(翻訳対象センテンス)として、かつ目的センテンス232(原始センテンスの翻訳)として、センテンスを整列2カ国語コーパスからシステム200に提供する。解析204および206は、整列2カ国語コーパスからのセンテンスを解析して、原始論理形式234および目的論理形式236を生成する。
【0030】
解析時に、センテンスにおける単語が正規化された単語形式(見出し語)に変換され、それを統計的単語関連学習コンポーネント208に提供することができる。単一単語関連および複数単語関連を、信頼できる各々の集合が得られるまで、学習コンポーネント208によって繰り返し仮定および評価する。統計的単語関連学習コンポーネント208は、学習された単一単語翻訳対238、ならびに複数単語対240を出力する。
【0031】
複数単語対240は、付加的な入力を2カ国語辞書214に追加して更新2カ国語辞書220を形成するのに使用される辞書併合コンポーネント216に提供される。新たな入力は、複数単語対240を表す。
【0032】
単一および複数単語対238は、原始論理形式234および目的論理形式236とともに、論理整列コンポーネント210に提供される。簡潔に述べると、コンポーネント210は、最初に原始および目的論理形式230および236におけるノード間の仮の対応を確立する。これは、統計的単語関連学習コンポーネント208からの単一および複数単語翻訳対238、240で補足することのできる2カ国語辞典(例えば2カ国語辞書)からの翻訳対を用いて行われる。可能な対応を確立した後に、整列コンポーネント210は、字句および構造的考察にしたがって論理形式ノードを整列させ、単語および/または論理形式変換マッピング242を作成する。この態様を以下により詳細に説明する。
【0033】
基本的には、整列コンポーネント210は、2カ国語辞書情報214、ならびに単一および複数単語対238、240を用いて、論理形式間にリンクを張る。変換マッピングは、それらが原始および目標論理形式234および236に出現する頻度に基づいて随意にフィルタリングされ、字句知識ベース構築コンポーネント212に提供される。
【0034】
一実施形態では、フィルタリングは随意であるが、変換マッピングがトレーニングデータ内に少なくとも二度見いだせない場合は、任意の他の所望の頻度をフィルタとして使用することが可能であっても、その変換マッピングを使用して変換マッピングデータベース218を構築することはない。出現頻度以外にも他のフィルタリング技術を使用できることに留意されたい。例えば、変換マッピングが入力センテンスの完全な解析により形成されているかどうか、また変換マッピングを作成するのに使用される論理形式が完全に整列されているかどうかに基づいて変換マッピングをフィルタリングすることが可能である。
【0035】
コンポーネント212は、基本的には一言語における単語および/または論理形式を第2の言語における単語および/または論理形式にリンクさせる変換マッピングを含む変換マッピングデータベース218を構築する。このようにして変換マッピングデータベース218が作成されると、次にシステム200がランタイム翻訳に向けて構成される。
【0036】
翻訳実行時に、翻訳対象の原始センテンス250が解析コンポーネント222に提供される。解析コンポーネント222は、原始センテンス入力に基づいて、原始センテンス250および原始論理形式252を受け取る。例を挙げるとわかりやすい。本例では、原始センテンス250は、「Haga click enel boton de opcion」というスペイン語のセンテンスで、それが英語に翻訳されて、「Click the option button(オプションボタンをクリックする)」または逐語的に「Make clickin the button of option(オプションのボタンでクリックを行う)」となる。
【0037】
図4(A)は、解析コンポーネント222により原始センテンス250に対して生成された原始論理形式252を示す図である。原始論理形式252は、マッチングコンポーネント224に提供される。マッチングコンポーネント224は、リンクされた論理形式254を取得するために、原始論理形式252と、変換マッピングデータベース218内の論理形式とをマッチさせることを目的とする。複数の変換マッピングが、原始論理形式252の部分とマッチしうる。マッチングコンポーネント224は、マッチさせる見出し語、品詞、および他の特徴情報を有するデータベース218におけるマッチング変換マッピングの最良の集合を検索する。所定の尺度に基づいて、最良のマッチの集合が見いだされる。例えば、例示的に、より大きな(より具体的な)論理形式を有する変換マッピングのほうが、より小さな(より一般的な)論理形式を有する変換マッピングよりも好まれるかもしれない。大きさが等しい論理形式を有するマッピングの中では、マッチングコンポーネント224は、例示的に、より高頻度のマッピングを好むかもしれない。いずれの場合も互いに矛盾することがなければ、マッピングは、原始論理形式252の重複部分ともマッチしうる。ひとまとめになったマッピングの集合は、代替的な集合に比べて入力センテンスのより広範囲な部分を網羅するのであれば、例示的に、そのほうが好まれるかもしれない。入力論理形式とデータベース218に見られる論理形式とをマッチさせるのに使用される他の尺度を、表4に関して以下により詳細に説明する。
【0038】
マッチング変換マッピングの集合が確認された後に、マッチングコンポーネント224は、変換マッピングによって受け取られた対応する目的単語または論理形式区分のコピーに対して原始論理形式252内のノード上にリンクを作成して、リンクされた論理形式254を生成する。図4(B)は、本例についてのリンクされた論理形式254の例を示す図である。複数単語のマッピングについてのリンクは、対応する区分のルートノード(例えばHacerとClick)をリンクさせ、次いでその複数単語のマッピングに関与する他の原始ノード(例えばUstedとClic)にアスタリスクをリンクさせることによって表現される。例示的に、当該マッピングの対応する個々の原始ノードと目的ノードの間のサブリンク(図4(B)には示されていない)を作成して変換時に使用することもできる。
【0039】
変換コンポーネント226は、マッチングコンポーネント224から論理形式254を受け取り、目的翻訳の基礎を形成することになる目的論理形式256を作成する。これは、原始論理形式252のノード上のリンクによって指示される目的論理形式区分が統合される、リンクされた論理形式254のトップダウン横断を実行することによって行われる。複合的な複数単語マッピングに対する論理形式区分を統合したら、マッチングコンポーネント224によって設定された個々のノード間のサブリンクを使用して、修飾成句のための正確な結合点の判断などを行う。必要な場合は、デフォルトの結合点を利用する。
【0040】
適用しうる変換マッピングが見つからない場合は、原始論理形式252内のノードおよびそれらの関係を単に目的論理形式256にコピーする。これらのノードに対する変換マッピングデータベース218の中にまだデフォルトの単一単語翻訳を見いだし、それらを目的論理形式256に挿入することができる。しかし、それらは見つからない場合は、例示的に、整列時に使用した更新2カ国語辞書220から翻訳を取得することが可能である。
【0041】
図4(C)は、本例についての目的論理形式256を示す図である。「click」から「button」までの論理形式区分と「button」から「option」までの論理形式区分をリンクされた論理形式254から繋ぎ合わせて、目的論理形式256を取得したことがわかる。
【0042】
生成コンポーネント228は、例示的に、目的論理形式256から目的列(または出力目的センテンス)にマッピングする規則ベースのアプリケーション独立生成コンポーネントである。生成コンポーネント228は、例示的に、入力論理形式の原始言語に関する情報を有さず、専ら変換コンポーネント226によってそこに送られる情報のみを扱う。生成コンポーネント228は、また例示的に、この情報を(目的言語についての)単一言語辞書と併用して目的センテンス258を生成する。したがって、各言語に対しては1つの包括的な生成コンポーネント228だけで十分である。
【0043】
したがって、このシステムは、異なる言語間で論理形式がマッチしうるように、様々な言語からの情報を解析して、共有される共通の論理形式にすることがわかる。該システムは、変換マッピングデータベースを構築するのに単純なフィルタリング技術を利用して、ノイジーなデータ入力を処理することもできる。したがって、極めて多くのセンテンス対を用いて、このシステムを自動的にトレーニングすることが可能である。例示的な一実施形態では、該センテンス対の数が10、000を超える。他の例示的な実施形態では、センテンス対の数が50、000から100、000を上回り、さらに180、000、200、000、350、000を超え、あるいは500、000または600、000を超える場合すらある。また、センテンス対の数は、言語に応じて変動しうるため、これらの数に限定される必要はない。
【0044】
論理形式の整列
図5は、2つの異なる言語からの少なくともセンテンスフラグメントの論理形式を関連付けるメソッド300を示す図であって、該論理形式は、親/子構造で構成されたノードを含む方法を示す図である。メソッド300は、論理形式のノードを関連付けて、ブロック302で指示される仮の対応を形成し、該仮の対応、および/またはブロック304で指示される構造的考察の少なくとも1つを除去することによって論理形式のノードを整列させる。
【0045】
図2に関して既に示したように、整列コンポーネント210は、仮の対応、典型的には論理形式間の字句対応を形成するために、2カ国語辞書214を利用する。2カ国語辞書214は、複数源からのデータを併合することによって作成することが可能で、逆の目的対原始辞書入力を使用してカバレージを向上させることもできる。ここで用いられる2カ国語辞書214は、単語間の対応を提供することができる任意の他の種類の資源をも表す。統計技術を用いて獲得した翻訳対応で2カ国語辞書214を補足することも可能である。
【0046】
図2では、コンポーネント208によって該統計技術を実施している。コンポーネント208からの出力は整列コンポーネント210によって使用できるが、それは、整列コンポーネント210の動作には必要とされない。ただし、補足のため、コンポーネント208の一実施形態をここに手短に説明する。
【0047】
コンポーネント208は、その内容単語に解析される平行2カ国語トレーニングコーパスを受け取る。単語関連性は、2カ国語コーパス内に整列されたセンテンスに出現する言語L1の単語から構成される内容単語の各対を、他方の単語が出現する言語L2のセンテンスに対して評価する。一方の単語が、そのセンテンス内のすべての単語のなかで他方の単語との関連性が最も強い場合に、一対の単語が一対の整列センテンスにおいて「リンクされている」と見なされる。処理および評価がなされたトレーニングデータのなかの各対の整列センテンスにおいてリンクされた単語の最大の接続集合を識別することによって、トレーニングデータにおける複合語の出現を仮定する。これら最大の接続集合のひとつが、いずれかの言語または両方の言語において複数の単語を含む限り、その言語における単語の部分集合を複合語と仮定する。本来の入力テキストを書き換え、仮定の複合語を単一の融合トークンに置き換える。次いで、(融合トークンに置き換えられた)複合語、および入力テキスト内の残留するあらゆる個別単語について、関連性スコアを再度計算する。このとき、トレーニングコーパスにおける特定対の整列センテンスのなかに同等の強さを有する、またはより強い他の関連性が存在しない場合にのみ、関連性スコアの計算に共出現を考慮することを除いて、関連性スコアを再び計算する。
【0048】
関連性スコアの最終的な計算の後に、関連性スコアがしきい値を上回る単語対またはトークン対として翻訳対を識別することが可能になる。
【0049】
同様に、コンポーネント208は、ここではそのすべての単語が大文字で始まるタイトルまたは他の特殊な語句を意味する「カプトイド」の翻訳の識別にも役立てられる。(カプトイドの翻訳を見いだすことには、フランス語やスペイン語では、当該アイテムの第1の単語のみ大文字で始まることが慣例で定められているため、カプトイド翻訳の範囲を決定するのが困難であるという問題がある)。その実施形態では、(英語の如き)原始言語において最初に複合語を識別する。これは、第1の単語が大文字で始まり、連続的な文字列における次のトークンが小文字で始まらないテキストの列を見いだすことによって実施することが可能である。次に、大文字で始まる単語を見いだし、対応する複合語の可能な開始点としてこれにフラグ付けを行うことにより、目的テキストにおいて複合語を仮定する。次いで、目的テキストを左から右に向かって走査し、原始テキスト内の識別された複合語における単語に最も強く関連する後続の単語にフラグ付けを行う一方、最も強く関連する単語以外の連続的な単語を、最も強く関連する単語がそれらの後に続く限り、所定の数(例えば2つ)の範囲内で見いだす。
【0050】
その左から右方向への走査は、原始テキスト内の識別された複合語における単語に最も強く関連する単語以外の連続的な単語であって、該所定の数(例えば2つ)を超える数の単語が見いだされるまで、または最も強く関連する単語が目的テキスト内に存在しなくなるまで、または句読点に到達するまで継続することが可能である。
【0051】
コンポーネント208について説明を行ってきたが、コンポーネント208はオプションであることに留意されたい。
【0052】
再び図5のメソッド300を参照すると、一般に、論理形式間に形成される仮の対応の数を最大にする目的で、ステップ302における仮の対応を形成するステップを精力的に遂行する。ステップ304で仮の対応をさらに解析し、不正確であると判断されたものを除去するため、ステップ302では仮の対応の精度が最も重要な基準にはならない。
【0053】
2カ国語辞書214は、仮の対応を形成するために使用される直接的な翻訳を表す。しかし、付加的な仮の対応を形成するために、派生的な形態を利用することも可能である。例えば、ステップ302において仮の対応を形成するのに、形態的ベースおよび派生物の翻訳、ならびに翻訳のベースおよび派生形式を用いることも可能である。同様に、ノードの1つが他方のノードより多くの字句要素または単語を含む論理形式のノード間に仮の対応を形成することも可能である。例えば、一般にそうであるように、ノードの1つが一方の言語の単一単語を含むことができ、他方のノードが他方の言語の少なくとも2つの単語を含む。英語やスペイン語などの密接に関連した言語は、ファジィ論理に使用して関連性を確認することができる単語類似性(同族性)をも有する。次いで、これらの関連性を使用して、仮の対応を形成することができる。
【0054】
この時点で、整列される論理形式の例について考察するのが有益であると思われる。図6を参照すると、「En Informacion del hipervinculo,haga clic en la direccion del hipervinculo」というセンテンスに対して論理形式320が生成され、その英語訳である「Under Hyperlink Information,click the hyperlink address(ハイパーリンク情報において、ハイパーリンクアドレスをクリックする)」に対して論理形式322が生成された。
【0055】
図6は、さらにステップ302で識別された仮の対応323の各々を示す図である。本例では、ステップ302における仮の対応の精力的な遂行の例として、「Hipervinculo」の出現の各々は、英語の論理形式322における「Hyperlink_Information」および「Hyperlink」との異なる2つの仮の対応を含む。
【0056】
次に、ステップ304を参照すると、論理形式の整列が行われる。この処理では、ステップ302で形成された1つ以上の仮の対応を除去することができ、かつ/または上記処理は論理形式の構造的考察に応じて実施することができる。一実施形態では、ステップ304は、規則の集合に応じて、論理形式のノードを整列させることを含む。さらなる実施形態では、該規則の集合の各々の規則を選択した順序で論理形式に適用する。特に、それらの規則を整理して、最も明瞭な整列(最良の整列)を最初に作成し、次いで、必要ならば、後続のノード整列を明瞭化する。それらの規則を適用する順序は、論理形式の構造、すなわちトップダウン処理またはボトムアップ処理に基づくものではなく、論理形式に出現する場合は必ず最も言語学的に有意義な整列から始まることに留意することが重要である。そのように、規則のこの集合は、論理形式の構造に基づいて直線的に適用されるのではなく、各々の論理形式のノードに対して非直線的に適用されるものと見なすことができる。概して、それらの規則は、任意の言語に普遍的に適用できるように、言語中立的であることを目的とする。
【0057】
図8は、メソッド328のような規則の集合の論理形式への適用を包括的に示す図である。ステップ330において、論理形式の各々のノードは、「整列ノード」ではなく「不整列ノード」と見なされる。ステップ332において、該規則の集合を構造に関係なく不整列ノードに適用して、整列ノードを形成する。したがって、不整列ノードと整列ノードを区別するのが望ましい。1つの技術は、すべてのノードを最初に不整列ノードの集合に割り当て、それらが整列したらノードを除去することを含む。集合体の使用は、それらがコンピュータ可読媒体の異なる位置にアクティブに形成されていても、単にノードに関連するブールのタグを用いてバーチャルに形成されていても、不整列ノードと整列ノードを区別する便利な方法を提供するものである。
【0058】
ステップ332において、不整列ノードの各々に規則の集合を適用する。図9は、規則の集合を適用するのに実施することのできるステップ332の態様を概略的に示す図である。上述した一実施形態では、それらの規則は指定された順序で適用される。ここで、「N」は、どの規則が適用されているかを示すのに使用されるカウンタである。第一弾において、ステップ334は、不整列ノードの各々に第1の規則を適用する。不規則ノードのいずれかに規則を適用できない場合は、ステップ336および338において指示されるように、該集合からの他の規則(ちなみに一実施形態では、言語学的に有意義な整列であることを示す後続の規則)を適用する。
【0059】
ステップ340において該規則の集合のすべての規則をすべてのノードに適用したら、整列手順が終了する。状況によっては、すべてのノードが整列されないことに留意されたい。
【0060】
論理形式のノードの集合に規則を適用することができれば、それらのノードは、整列して不整列ノードから除去されるものと見なされ、規則の適用が続行される。しかし、一実施形態では、一旦いくつかの規則を適用してより言語学的に有意義な整列を取得したら、再びそれらの規則から始めるのが有利である。したがって、既に適用された規則を再度適用するのが望ましいといえる。このように、一実施形態では、ステップ342において指示されているように、例えば第1の規則から始まって該規則の集合の各々の規則が再度適用される。
【0061】
論理形式のノードを整列させるための例示的な規則の集合を以下に示す。ここに提示するノードの集合は、ノードの言語学的に有意義な最も強い整列から最も弱い整列に基づいて整理される。当業者なら理解するであろうが、ここに提示される規則の少なくともいくつかを再編成しても、論理形式の整列の質を著しく変えることはできない。
【0062】
1.1つの論理形式におけるノードまたはノードの集合と、他方の論理形式におけるノードまたはノードの集合との間に双方向に一意の翻訳が存在する場合は、それら2つのノードまたはノードの集合を互いに整列させる。第1のノードの集合におけるすべてのノードが第2のノードの集合におけるすべてのノードとの仮の対応を有し、他の対応をもたず、さらに第2のノードの集合におけるすべてのノードが第1のノードの集合におけるすべてのノードとの仮の対応を有し、他の対応をもたないように、一方の論理形式のノードまたはノードの集合が、他方の論理形式におけるノードまたはノードの集合との仮の対応を有する場合に、双方向に一意の翻訳が存在する。
【0063】
2.仮の対応を有する1つのノードが各論理形式からのノードである一対の親ノードを、それぞれの親ノードの各子ノードが他方の親ノードの子に対して既に整列されている場合に互いに整列させる。
【0064】
3.1つのノードが各論理形式からのノードである一対の子ノードを、それらの間に仮の対応が存在し、かつそれぞれの子ノードの親ノードが他方の子の対応する親ノードに対して既に整列されている場合に互いに整列させる。
【0065】
4.1つのノードが各論理形式からのノードである一対のノードを、想定される該ノードのそれぞれの親ノードが互いに整列され、それぞれの子ノードも互いに整列されている場合に互いに整列させる。
【0066】
5.動詞であるノード、および一方の論理形式からの動詞でない関連子ノードを、該関連子ノードが該第2の動詞ノードに対して整列され、該第2の動詞ノードが整列した親ノードを有していないか、または該第1の動詞ノードおよび該第2の動詞ノードが互いに整列された子ノードを有する場合に、他方の論理形式の動詞である第2のノードに対して整列させる。
【0067】
6.同じ品詞を含む1つのノードが各論理形式からのノードである一対のノードを、不整列の兄弟ノードが存在せず、それぞれの親ノードが整列され、想定されるノードの集合とそれぞれの親ノードとの言語学的関係が同じである場合に互いに整列させる。
【0068】
7.同じ品詞を含む1つのノードが各論理形式からのノードである一対のノードを、それぞれの子ノードが互いに整列され、想定されるノードの集合とそれぞれの子ノードとの言語学的関係が同じである場合に互いに整列させる。
【0069】
8.1つの論理形式の不整列ノードが、存在すればすべて整列されたそれぞれの親ノードと、存在すればすべて整列されたそれぞれの子ノードとを含む隣接ノードを有し、該隣接ノードの1つが、複合語を含む他方の論理形式のノードに対して整列された非複合語である場合に、該複合語を含むノードに対して不整列ノードを整列させる。この場合の隣接ノードは、隣接する親ノードおよび子ノードを含むものの、親ノードおよび子ノードの存在を必要とするわけではないが、それらが存在する場合にはそれらを整列させなければならないということに留意されたい。
【0070】
9.代名詞を含む1つのノードが各論理形式からのノードである一対のノードを、それぞれの親ノードが互いに整列され、想定されるノードがいずれも不整列の兄弟を有さない場合に互いに整列させる。
【0071】
10.名詞を含む1つのノードが各論理形式からのノードである一対のノードを、名詞を含むそれぞれの親ノードが互いに整列され、想定されるノードがいずれも不整列の兄弟ノードを有さず、想定されるノードの各々とそれぞれの親ノードとの言語学的関係が修飾関係または前置詞的関係を含む場合に互いに整列させる。
【0072】
11.一方の論理形式の第1の動詞ノードを、該第1の動詞ノードが仮の対応を有さず、該第2の動詞ノードに対して既に整列されている単一の関連子動詞ノードを有する場合に、他方の論理形式の第2の動詞ノードに対して整列させる。
【0073】
12.一方の論理形式の第1の動詞ノードおよび単一の各親ノードを、該第1の動詞ノードが仮の対応を有さず、第2の動詞ノードに対して既に整列されている単一の親動詞ノードを有し、該単一の親動詞ノードが第1の動詞ノード以外に不整列の動詞子ノードを有さず、該第2の動詞ノードが不整列の動詞子ノードを有さない場合に、他方の論理形式の第2の動詞ノードに対して整列させる。
【0074】
13.一方の論理形式の代名詞を含む第1のノードを、該第1のノードの親ノードが該第2のノードに対して整列され、該第2のノードが不整列子ノードを有さない場合に、他方の論理形式の第2のノードに対して整列させる。
【0075】
14.一方の論理形式の第1の動詞ノードおよび単一の各親ノードを、該第1の動詞ノードが仮の対応を有さず、該親動詞ノードが該第2の動詞ノードに対して整列され、該第1の動詞と該親動詞ノードの関係が様相関係を含む場合に、他方の論理形式の第2の動詞ノードに対して整列させる。
【0076】
上記の規則のいくつかの包括的分類法は、一つの規則(規則1)は主にステップ302で確立された対応に基づいており、例示された実施形態では、不明瞭さがないため、最強の有意義な整列であると見なされる。規則2、3、11、12および14の如き他の規則は、仮の対応の組合せまたは欠如、ならびに想定されるノードおよび既に整列されたノードの構造に基づくものである。残りの規則は、想定されるノードと既に整列されたノードの関係のみに依存する。利用可能な他の包括的分類法は、規則が動詞、名詞および代名詞に関わることを含む。
【0077】
再び図6の論理形式および仮の対応を参照すると、図7に示すノードを整列させるために、図5のメソッド300にしたがって上記の規則を適用することが可能である。本例では、「Hipervinculo」の2つのインスタンスが2つの不明瞭な仮の対応を有し、「Informacion」から「Hyperlink_Information」への対応が一意的であるのに対して、その逆はそうでない。単一言語の辞典または辞書も2カ国語の辞典または辞書もこの領域に対してカスタマイズされていないことにも留意されたい。例えば、「Hyperlink_Information」に対しては辞典のなかにエントリが存在しない。この単位は、大文字で始まる単語のシーケンスをリンクする一般規則によってアセンブルされている。この要素に対して確立された仮の字句対応は、その個々のコンポーネントに対して見いだされる翻訳に基づく。
【0078】
上述の整列規則を適用し、規則によって作成した整列マッピングを破線344として図7に示し、それらを以下のように所得する。
【0079】
再び規則について繰り返すと、規則1は3つの場所において適用され、「direccion」と「address」の間、「usted」と「you」の間、ならびに「clic」と「click」の間の整列マッピングを作成する。これらは、該方法がそこから外方向に働いて構造の残りを整列させるアンカを提供する初期の「最良の」整列である。
【0080】
規則2はどのノードにも適用せず、次に規則3が適用して、「address」の子である「direccion」対「hyperink」の子である「hipervinculo」のインスタンスを整列させる。したがって、該方法では、既に作成された整列(「direccion」対「address」)および論理形式の構造を利用して、字句レベルで存在する不明瞭さを解決した。
【0081】
(これまで適用されなかった)規則1を適用して、「Informacion」と「hipervinculo」対「Hyperlink_Information」との間に多対一のマッピングを作成する。規則3の先の適用によって不明瞭な選択肢が片付けられたため、この規則における一意条件がここで満たされることになる。
【0082】
「clic」が既に動詞に対して整列されているため、規則4は適用せず、図5を適用して、「hacer」をその目的語の「clic」とともにロールアップする。これにより、「hacer」と「clic」対「click」の多対一の整列が生成される。
【0083】
再び図9を参照すると、それらの規則がどのノードにも適用できなくなったときに論理形式の整列が完了する。この時点で、コンポーネント212によって変換マッピングを取得することが可能になる。
【0084】
図10は、図7における整列論理形式の例から取得しうるいくつかの変換マッピング(次のセクションで説明する対立変換マッピングの例として含まれる変換マッピング353以外の変換マッピング)を示す図である。一般に、変換マッピング、または単に「マッピング」は、第1の言語の単語または論理形式と、第2の言語の対応する単語または論理形式との関連付けを示す。第1の言語の単語または論理形式と第2の言語の対応する単語または論理形式とをリンクする明確なポインタとして、それらのマッピングを任意のコンピュータ可読媒体上に記憶することができる。同様に、それらのマッピングを、個別のデータベースのなかではなく、単語または論理正式とともに記憶することができる。当業者なら理解するであろうが、第1の言語の単語または論理形式と第2の言語の単語または論理形式とを関連付けるのに他の技術を利用することができ、この情報を記録するために使用する具体的な技術に関係なくマッピングを構成するのはこの関連付けである。
【0085】
整列手順を通じて作成されるマッピングは、付加的なコンテキストを備えたさらなるマッピングがその上に作成される基本構造でありうる。特に、そして本発明の他の態様として、情報が複数のマッピングを含む場合には、その情報をコンピュータ可読媒体上に記憶して、テキストを第1の言語から第2の言語に翻訳することが可能である。各マッピングは、第1の言語の単語または論理形式と第2の言語の単語または論理形式との関連付けを示す。しかし、さらに、第1の言語の論理形式に対応するマッピングの少なくともいくつかでは、いくつかの共通要素とともコンテキストが変化する。同様に、第1の言語の論理形式に対応する第2の言語の論理形式の少なくともいくつかでは、いくつかの共通要素とともにコンテキストが変化しうる。すなわち、整列手順により取得されたコアマッピングの少なくともいくつかを使用して、ローカルコンテキストの種類および量が変化する他の競合マッピングを作成する。
【0086】
図10を参照すると、マッピング350、352および354は、論理形式の要素がどのように変化しうるかを示す。マッピング350は、さらなるマッピングがその上に作成される基本またはコアマッピングを含む。マッピング352はコアマッピング350を拡大して、付加的な言語学的要素、ここでは単語「click」の直接目的語を含め、付加的な要素が特定の見出し語は示さないが品詞を示す準指定ノード(「*」)を含むように、コアマッピング350からマッピング354が拡大される。マッピング350と352と354、ならびにマッピング356と358を比較することによって、第1の言語の論理形式が共通要素(品詞および/または見出し語)を有し、第2の言語の論理形式も共通要素を有することがわかる。
【0087】
コンテキストが重複する論理形式を示すマッピングを記憶することによって、翻訳実行時に、言語間の翻訳を行うための流暢さおよびマッピングの総合的な応用性が維持される。特に、それらの言語の単語およびより小さい論理形式を関連付けるマッピングを有することにより、トレーニングデータ内に翻訳対象となるテキストが見いだされなかったとしても、第1の言語から第2の言語への翻訳が可能である。しかし、トレーニングデータ内により大きなコンテキストが存在するのであれば、より大きなコンテキストのマッピングが適用しうる場合は、第1の言語と第2の言語の間のより流暢な翻訳が取得できるように、これもマッピングに反映させる。
【0088】
一般に、コアマッピングを拡大して付加的なコンテキストを含めるための境界を提示するのに言語学的構造が用いられる。例えば、形容詞のためのマッピングを拡大して、それが修飾する名詞を含めることが可能である。同様に、動詞のためのマッピングを拡大して、コンテキストとして目的語を含めることが可能である。他の例では、名詞の連語のためのマッピングが、個別的かつ全体的に提供される。図10にさらに示されるように、マッピングのいくつかは、品詞を指示するものの具体的な見出し語が提示されない準指定ノード(「*」)を含むことができる。これらの種類のマッピングは、第1の言語から第2の言語に翻訳するためのマッピングの全体的な応用性を高めるばかりでなく、取得される翻訳の流暢さを向上させるコンテキストを含む。
【0089】
概して、作成されうるマッピングは、いくつかの方法で指定することができる任意の数のワイルドカードまたは準指定ノードを有することができる。例えば、それらは、品詞を特定してもしなくてもよく、また特定の構文上または意味上の特徴を指定することができる。例えば、あるパターンが、「ProperName」または「Location」表示された特徴を備えたワイルドカードノードであって、そのノードが同じ特徴を有する入力ノードにマッチするときはそのパターンのみを適用することを示すノードを有していてもよい。これらのワールドカードは、システムが具体的なデータから一般化したマッピングを仮定することを可能にする。
【0090】
ランタイム時の変換マッピングのマッチング
第1の言語と第2の言語の単語または論理形式の間のマッピングに関係する情報に加えて、ランタイム翻訳時に付加的な情報を記憶または使用することも可能である。該付加的な情報を使用して、マッピングの適切な集合を選択するとともに、どのマッピングを使用するかに関する対立、すなわち原始論理形式250に対して生成される原始論理形式252(またはその一部)が、変換マッピングデータベース218における変換マッピングの複数の原始側にマッチするときの対立(図2を参照)を解決することが可能である。
【0091】
例えば、原始論理形式が、データベース218における複数の変換マッピングの原始側にマッチする場合は、これらのマッチング変換マッピングの部分集合が、該部分集合におけるすべての変換マッピングが互いに適合するように(すなわち対立しないように)、また該部分集合における変換マッピングがどの程度入力センテンスを集合的に網羅するかということに応じる尺度、ならびに個々の変換マッピングに関連する他の尺度に基づいて選択される。いくつかの当該尺度を表1に示す。
【0092】
表1
1.マッチさせる変換マッピングの大きさ。
2.トレーニングデータ内に変換マッピングが見いだされた頻度。
3.完全に整列した論理形式から変換マッピングを生成した頻度。
4.部分的に整列した論理形式から変換マッピングを生成した頻度。
5.一定の解析により得られた論理形式から変換マッピングを生成した頻度。
6.整列コンポーネントによって変換マッピングに割り当てられた整列スコア。
【0093】
マッチング変換マッピングの部分集合が選択されると、該部分集合における変換マッピングは、そこから出力テキストが生成される変換論理形式に統合される。
【0094】
マッチング変換マッピングは、それらが適合する限り、重複変換マッピングを含みうることに留意されたい。例えば、「Click the office address(オフィスアドレスをクリックする)と翻訳することができるスペイン語のセンテンス、「Haga clic en el direccion de la oficina」に対して以下の論理形式を生成することが可能である。
Figure 0004714400
各々の変換マッピングがこの論理形式を含むため、この論理形式を変換マッピング350、352および354のすべてにマッチさせることが可能である。これらの変換マッピングは重複するが、(どれも同じものとして翻訳できるため)対立することはない。したがって、マッチング変換マッピングの部分集合にすべてを含めることができ、そこから変換論理形式を生成することが可能である。しかし、それらのなかから選択することが望まれる場合には、最も大きいという理由により、変換マッピング352を選ぶのが最良の選択であるといえる。様々な理由によって他のものを選択することも可能である。
【0095】
対立の例としては、変換マッピング352と対立する変換マッピング353としてのマッチング変換マッピングが示される。したがって、例えば、その論理形式は、変換マッピング350、352、353および354のすべてにマッチすることになる。
Figure 0004714400
しかし、変換マッピング352および353は、(異なって翻訳されるため)対立するため、どちらもマッチング変換マッピングの選択された部分集合の一部になりえない。したがって、所定の尺度に基づいて1つの変換マッピングが選択される。例えば、部分集合350、352および354を部分集合350、353および354と比較して、集合的に、どれが入力論理形式におけるノードを最も多く網羅しているかを確認することができる。また、変換マッピング352および353は、どちらも(原始側の)大きさが同じである。したがって、マッチング変換マッピングの部分集合を選択する上で、それらを区別するのに他の情報を利用することが可能である。
【0096】
対立する変換マッピングの他の例として、トレーニング中に処理されるいくつかのセンテンスが、スペイン語の「hacer clic en <something>に対して整列された句の「click <something>」を含んでいたとする。他のセンテンスにおいて、「elegir <something>」(逐語的には「select something」)に対して整列されたセンテンス「click <something>」を想定する。
【0097】
これにより、以下のようなマッピングが生成される(これらの例は英語をスペイン語に対してマッピングしたものであるが、先の例はスペイン語を英語に対してマッピングしたものであることに留意されたい):
Figure 0004714400
適切なコンテキストにおいて、「click」の「select」への翻訳は、正当な変化であるといえる。しかし、場合によっては、それは、ある問題をもたらす。例えば、両変換の原始側が同一であるとして、ランタイム時に、入力論理形式がその原始側にマッチすれば、我々は、2つの異なる目的側の間で選択を行わなければならず、すなわちその入力を「hacer clic...」と翻訳すべきか、または「elegir..」と翻訳すべきかを判断しなければならない。(変換の原始側を差別化することによって顕在化するであろう)さらなるコンテキストが存在しないなかで、様々な頻度および評価尺度に基づいてそれらの選択を行う。
【0098】
他の種類の対立についても述べる必要がある。ランタイム時に、所定の入力センテンスについて、入力センテンスの異なる部分にマッチする複数のマッチング変換マッピングが存在しうる。それらのうちのいくつかを互いに繋ぎ合わせて、入力全体を網羅する変換LFを生成できるように、選択部分集合としてそれらを選択することが可能である。しかし、繋ぎ合わせたこれらの組合せは、互いに重複するものもあれば、そうでないものもある。重複するもののうち、互いに「適合する」ものしか使用できない。上述したように、「重複」により、入力センテンスの少なくとも1つのノードが両方のマッピングにマッチする場合における2つのマッピングを意味する。適合により、組合せが重複しなければそれらは常に適合し、組合せが重複するノードに対応する目的側が同じであれば、重複する組合せが適合することを意味する。
【0099】
例えば、入力センテンスが「cambiar configuration de seguridad」(「change the security setting(セキュリティ設定を変更する)と翻訳される」で、それが以下のような変換マッピングにマッチし、
Figure 0004714400
さらに、以下のような他のマッピングをマッチさせる場合は、
Figure 0004714400
それら2つの組合せは(「configuration」に対して)重複するが、それらはともに「configuration」を「setting」に翻訳するため適合する。したがって、それらを組み合わせて、以下の変換LF(または目的LF)を生成することができる。
Figure 0004714400
しかし、以下の第3のマッピングが存在したと仮定すると、
Figure 0004714400
「configuration」において先の2つのマッピングと重複するこのマッピングは、「configuration」を「setting」ではなく、「value」に翻訳するため適合しない。したがって、このマッピングを先の2つのマッピングと併合することができないため、この変換マッピングか先の2つのマッピングのいずれかを選択しなければならず、同時にその両方を選択することはできない。
【0100】
表1は、マッチング変換マッピングの部分集合をさらに限定する(対立するマッチング変換マッピングのなかから選択するか、または適合するマッチング変換マッピングの部分集合を絞り込む)のに使用できる情報の例を示す。当該情報としては、マッチング変換マッピングの部分集合によって(集合的に)網羅される入力センテンスの範囲、ならびにマッピングそのものにおいてマッチさせる論理形式から確認できるマッピングの大きさを挙げることができる。論理形式の大きさは、指定ノードの数、ならびにそれらのノードの言語学的関係の数の両方を含む。したがって、例示を目的とし、マッピング350の原始側からの論理形式の大きさは2に等しく、目的側の論理形式の大きさは1に等しい。他の例では、マッピング354の原始側の論理形式の大きさは4に等しく、マッピング354の目的側の論理形式の大きさは2に等しい。
【0101】
変換マッピングの部分集合を選択するための情報としては、変換マッピングにおける論理形式がトレーニングデータに見いだされる頻度の如き、個々の変換マッピングに関連する情報も挙げることができる。望まれる場合は、トレーニングデータは、他のトレーニングデータより信頼性が高いものと考えられる「信用」トレーニングデータを含むことができる。信用トレーニングデータに見いだされるマッピングの頻度をさらに保持し、あるいはすべてのトレーニングデータに見いだされるマッピングの頻度を記憶することが可能である。
【0102】
原始論理形式と変換マッピングをマッチさせるときにマッチング変換マッピングの部分集合を選択する上で役立つ他の情報としては、そこから論理形式が取得されたトレーニングデータ内の論理形式の完全整列の範囲が挙げられる。すなわち、その整列手順は、より大きな論理形式のノードを完全または完璧に整列させることができるか、あるいはいくつかのノードが不整列の状態を維持しうる。図7の例では、すべてのノードを整列させたが、上述したように、常にそうであるとは限らない。完全に整列した論理形式に関連するそれらのマッピングは、より信頼性が高いものと考えられる。勿論、対立を解決するための情報、または部分集合を定めるための情報は、完全に整列した論理形式ならびに部分的に整列した論理形式の両方からマッピングが生成された頻度をも示しうる。
【0103】
同様に、付加的な情報としては、対応するトレーニングデータの完全解析から、変換マッピングにおける論理形式が発生した頻度を上げることができる。特に、完全または一定解析からマッピングが発生した頻度、あるいは対照的に、部分解析のみからマッピングが発生した頻度を、その後、翻訳時にマッチさせながら対立を解決するのに使用するために記憶することが可能である。
【0104】
他の形式の情報としては、マッピングを抽出するのに使用される整列手順によって変換マッピングに割り当てられるスコアまたは値を上げることができる。例えば、スコアは、整列ノードがどの程度「強い」(言語学的に有意義)であるか(または、整列コンポーネントが変換マッピングにおいてどの程度の確度を有するか)に応じうる。したがって、スコアは、いつ(何回目に)、そしてどの規則が整列を形成したかに応じうる。整列スコアを計算するのに使用する特定の相関関係または尺度は決定的なものではなく、任意の当該尺度を用いて、ランタイム翻訳時に利用することのできる整列スコアに関連する情報を生成することが可能である。
【0105】
論理形式の解析、整列および使用に関して本発明を説明したが、本明細書に記載されている発明の概念の少なくとも一部は他の依存構造にも応用可能であることを理解されたい。
【0106】
特定の実施形態を参照しながら本発明を説明したが、本発明の主旨および範囲を逸脱することなく、形式および詳細において変更が可能であることを当業者なら理解するであろう。
【図面の簡単な説明】
【図1】本発明を利用することができる例示的な環境の構成図である。
【図2】本発明の一実施形態による機械翻訳アーキテクチャの構成図である。
【図3】本発明の一実施形態による機械翻訳アーキテクチャの構成図である。
【図4】(A)は原始言語(本例ではスペイン語)でのテキスト入力について生成される論理形式の例を示す図である。(B)は原始言語でのテキスト入力についてのリンクされた論理形式を示す図である。(C)は原始言語入力の目的言語出力(本例では英語)への翻訳を表す目的論理形式を示す図である。
【図5】ノードを整列させるメソッドを示す流れ図である。
【図6】論理形式間で形成された仮の対応の例を示す図である。
【図7】図6の論理形式間に形成された整列ノードの例を示す図である。
【図8】図5のメソッドに対する規則の集合の応用を示す流れ図である。
【図9】規則の順序付き集合の応用を示す流れ図である。
【図10】図7の例に関連する変換マッピングの集合を示す図である。
【符号の説明】
120 コンピュータ
140 処理装置
141 システムバス
150 システムメモリ
151 読取り専用メモリ(ROM)
152 ランダムアクセスメモリ(RAM)
153 基本入出力システム(BIOS)
154 オペレーティングシステム
155、165、195 アプリケーションプログラム
156、166 プログラムモジュール
157、167 プログラムデータ
160、170 インターフェース
161 ハードディスクドライブ
171 磁気ディスクドライブ
172 不揮発性磁気ディスク
175 光ディスクドライブ
176 不揮発性光ディスク
180 ユーザ入力インターフェース
182 キーボード
183 マイクロフォン
184 モニタ
185 ビデオインターフェース
186 プリンタ
187 スピーカ
190 アダプタ
191 LAN
192 モデム
193 WAN
194 リモートコンピュータ
200 システム
204、206 解析コンポーネント
208 統計的単語関連学習コンポーネント
210 論理形式整列コンポーネント
212 字句知識ベース構築コンポーネント
214 2カ国語辞書
216 辞書併合コンポーネント
220 更新2カ国語辞書
224 マッチングコンポーネント
226 変換コンポーネント
228 生成コンポーネント
230、250 原始センテンス
232、258 目的センテンス
234、252 原始論理形式
236、256 目的論理形式
238 単一単語翻訳対
240 複数単語対
242 変換マッピング
254 リンクされた論理形式
320 論理形式
322 英語の論理形式
323 仮の対応
350、352、354、356、358 マッピング

Claims (1)

  1. コンピュータに、第1の言語の入力テキストを第2の言語の出力テキストに翻訳させるためのプログラムであって、
    入力テキストに基づいてソース論理形式を生成するステップと、
    少なくとも前記ソース論理形式の一部分とマッチングする、変換マッピングデータベースにおける1またはそれ以上の変換マッピングの中から1対を、あらかじめ定められた尺度を使用して選択するステップであって、前記変換マッピングの各々の対は、単語およびそれらの論理関係を含む1対の論理形式コンポーネントを含み、該1対の論理形式コンポーネントは、前記第1の言語の前記論理形式コンポーネントから翻訳される第2の言語の論理形式コンポーネントであるターゲット論理形式コンポーネントと1対化された、前記第1の言語の論理形式コンポーネントであるソース論理形式コンポーネントを含む、ステップと、
    前記選択するステップで選択されたの変換マッピングに基づいて、前記ソース論理形式のノードと前記変換マッピングデータベース中の前記第2言語の論理形式のノードとの間のリンクを示すリンク論理形式を生成するステップと、
    前記リンク論理形式中の、前記ソース論理形式のノード上のリンクによって指示される、前記第2言語の論理形式の部分を統合して、ターゲット論理形式を生成するステップと
    前記ターゲット論理形式に基づいて出力テキストを生成するステップ
    を前記コンピュータに実行させることを特徴とするプログラム
JP2002162076A 2001-06-01 2002-06-03 スケーラブル機械翻訳システム Expired - Fee Related JP4714400B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US29533801P 2001-06-01 2001-06-01
US60/295,338 2001-06-01
US09/899,755 2001-07-05
US09/899,755 US7050964B2 (en) 2001-06-01 2001-07-05 Scaleable machine translation system

Publications (2)

Publication Number Publication Date
JP2003050797A JP2003050797A (ja) 2003-02-21
JP4714400B2 true JP4714400B2 (ja) 2011-06-29

Family

ID=26969062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002162076A Expired - Fee Related JP4714400B2 (ja) 2001-06-01 2002-06-03 スケーラブル機械翻訳システム

Country Status (3)

Country Link
US (2) US7050964B2 (ja)
EP (1) EP1262880A3 (ja)
JP (1) JP4714400B2 (ja)

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
US7191115B2 (en) 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
AU2002316581A1 (en) 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
EP1306775A1 (en) * 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
EP1349079A1 (en) * 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US7209875B2 (en) * 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7584092B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7593843B2 (en) * 2004-03-30 2009-09-22 Microsoft Corporation Statistical language model for logical form using transfer mappings
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
CA2475001A1 (en) * 2004-07-08 2006-01-08 Bob B. Ha Rolling hammer drill
WO2006042321A2 (en) 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US7200550B2 (en) * 2004-11-04 2007-04-03 Microsoft Corporation Projecting dependencies to generate target language dependency structure
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7552046B2 (en) * 2004-11-15 2009-06-23 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
JP4404211B2 (ja) * 2005-03-14 2010-01-27 富士ゼロックス株式会社 マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
JP4992715B2 (ja) * 2005-08-04 2012-08-08 日本電気株式会社 データ処理装置、データ処理方法、データ処理プログラム
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8099341B2 (en) * 2006-01-31 2012-01-17 OREM Financial Services Inc. System and method for recreating tax documents
US20060271451A1 (en) * 2006-03-30 2006-11-30 George Varughese System and method for providing data to tax preparation software
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8209162B2 (en) * 2006-05-01 2012-06-26 Microsoft Corporation Machine translation split between front end and back end processors
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
JP5235344B2 (ja) * 2007-07-03 2013-07-10 株式会社東芝 機械翻訳を行う装置、方法およびプログラム
US8046211B2 (en) 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
AU2008333773B2 (en) * 2007-12-05 2013-09-26 Facebook, Inc. Community translation on a social network
US8849665B2 (en) * 2008-01-30 2014-09-30 At&T Intellectual Property I, L.P. System and method of providing machine translation from a source language to a target language
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8464204B1 (en) 2008-10-06 2013-06-11 The Mathworks, Inc. Verification of computer-executable code generated from a model
US8856726B2 (en) 2009-09-14 2014-10-07 The Mathworks, Inc. Verification of computer-executable code generated from a slice of a model
US8869103B2 (en) 2008-10-06 2014-10-21 The Mathworks, Inc. Using intermediate representations to verify computer-executable code generated from a model
US8190601B2 (en) 2009-05-22 2012-05-29 Microsoft Corporation Identifying task groups for organizing search results
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
WO2012037726A1 (en) * 2010-09-21 2012-03-29 Google Inc. Generating search query suggestions
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
CN102737014A (zh) * 2011-04-04 2012-10-17 陈本东 一种多语言用户在线交流方法以及***和用户界面
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US9164985B1 (en) * 2011-11-29 2015-10-20 Google Inc. Techniques for detecting poor machine translations of key terms
CN102722480B (zh) * 2011-12-30 2017-09-19 新奥特(北京)视频技术有限公司 一种比赛***中的多语言转换方法
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9519639B2 (en) * 2012-06-08 2016-12-13 Facebook, Inc. Community translation of user-generated content
CN103577394B (zh) * 2012-07-31 2016-08-24 阿里巴巴集团控股有限公司 一种基于双数组搜索树的机器翻译方法和装置
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10417350B1 (en) 2017-08-28 2019-09-17 Amazon Technologies, Inc. Artificial intelligence system for automated adaptation of text-based classification models for multiple languages
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10902217B1 (en) * 2018-07-16 2021-01-26 Michael Dudley Johnson Methods and systems for scalable machine translation
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US11501067B1 (en) * 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4823306A (en) 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
NL8900587A (nl) 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
JP3266246B2 (ja) 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
EP0473864A1 (en) * 1990-09-04 1992-03-11 International Business Machines Corporation Method and apparatus for paraphrasing information contained in logical forms
US5325298A (en) 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5278980A (en) 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5377103A (en) 1992-05-15 1994-12-27 International Business Machines Corporation Constrained natural language interface for a computer that employs a browse function
US5592661A (en) 1992-07-16 1997-01-07 International Business Machines Corporation Detection of independent changes via change identifiers in a versioned database management system
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
GB9320404D0 (en) 1993-10-04 1993-11-24 Dixon Robert Method & apparatus for data storage & retrieval
US5873056A (en) 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5724594A (en) 1994-02-10 1998-03-03 Microsoft Corporation Method and system for automatically identifying morphological information from a machine-readable dictionary
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
JP2923552B2 (ja) 1995-02-13 1999-07-26 富士通株式会社 組織活動データベースの構築方法,それに使用する分析シートの入力方法及び組織活動管理システム
AU6849196A (en) 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
JP3083742B2 (ja) 1995-10-03 2000-09-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 表計算方法
US5995922A (en) 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5884247A (en) * 1996-10-31 1999-03-16 Dialect Corporation Method and apparatus for automated language translation
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6098033A (en) 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
US7734459B2 (en) 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora

Also Published As

Publication number Publication date
JP2003050797A (ja) 2003-02-21
US7050964B2 (en) 2006-05-23
US20030023422A1 (en) 2003-01-30
US7206735B2 (en) 2007-04-17
EP1262880A3 (en) 2004-01-14
US20060085180A1 (en) 2006-04-20
EP1262880A2 (en) 2002-12-04

Similar Documents

Publication Publication Date Title
JP4714400B2 (ja) スケーラブル機械翻訳システム
JP5538820B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
EP1308851B1 (en) Method of calculating translation relationships among words of different languages
AU2004201089B2 (en) Syntax tree ordering for generating a sentence
JP4554273B2 (ja) 機械トランスレータをトレーニングする方法およびそのシステム
US7356457B2 (en) Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
JP5113750B2 (ja) 定義の抽出
US20070011132A1 (en) Named entity translation
JP2003308320A (ja) 文実現システム
JP2006164293A (ja) 自動自然言語翻訳
Dang Investigations into the role of lexical semantics in word sense disambiguation
JP2001503540A (ja) アノテートされたテキストの自動翻訳
KR950013129B1 (ko) 기계번역장치 및 방법
Vasuki et al. English to Tamil machine translation system using parallel corpus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050603

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070525

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070824

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070829

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071025

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20071025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071025

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071214

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080414

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080424

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080627

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100614

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7431

Effective date: 20101006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110328

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees