JP2007532995A

JP2007532995A - 疑似インターリングア及び交雑アプローチを用いた英語からヒンディ語及びその他のインド諸語への複数言語機械翻訳システム

Info

Publication number: JP2007532995A
Application number: JP2007506908A
Authority: JP
Inventors: シンハ，アール・マヘシュ，ケイ; ジャイン，アジャイ
Original assignee: Indian Institutes of Technology
Current assignee: Indian Institutes of Technology
Priority date: 2004-04-06
Filing date: 2004-04-06
Publication date: 2007-11-15
Also published as: AU2004318192A1; CA2562366A1; EP1754169A2; EP1754169A4; US20080040095A1; WO2005096708A3; WO2005096708A2

Abstract

本発明は、ソース言語をターゲット言語に翻訳する方法及びシステムであって、ソース文書から抽出されたテキストの性質を識別するステップと、前記抽出されたテキストのテキスト・フォーマット及び構造情報をフィルタリングし記憶するステップと、前記抽出されたテキストの性質に基づき、適切なテキスト翻訳エンジンを選択するステップと、前記テキスト翻訳エンジンを用いて、前記抽出されたテキストを解析し、フォーマットされていない翻訳済テキストに翻訳するステップと、前記記憶されたテキスト・フォーマット及び構造情報を用い、前記フォーマットされていないテキストを処理して、ターゲット言語の構造化された翻訳済テキスト文書を取得するステップと、を含む方法及びシステムに関する。

Description

本発明は、翻訳システムの分野に関し、更に詳しくは、疑似インターリングア及びハイブリッド・アプローチを用いた英語からヒンディ語及びその他のインド諸語への複数言語翻訳システム及び方法に関する。

書かれた又は話された形式の言語は、コミュニケーションのための最も頻繁に用いられる有効な手段である。唯一の欠点は、人間の異なる集団によって採用された言語が異なっていることである。この困難を克服するために、人々は、これまで様々な手段を用いてきた。過去においては、複数言語辞書や人間である通訳者が試みられてきた。よりよいコンピュータが進歩するにつれ、自動化された翻訳システムが誕生し、改善のために常に研究がなされている。

機械翻訳へのアプローチとしては、基本的に以下の４つがある。

直接翻訳アプローチ：このアプローチを用いると、システムは、すべての詳細が、ある特定の１対の言語のために特別に設計される。ここでは、ソース言語テキストの語句及びシンタックスは、曖昧性、適切なターゲット言語表現の正確な識別及びターゲット言語の語順の特定を解決するのに厳密に必要である以上には解析される必要はない、ということが基本的に仮定されている。直接翻訳は、逐語訳から始まる一連の段階を含む。それぞれの段階では、単語群に対する翻訳を語順変更などによって代替することにより、前の段階からの出力を精密化する。１９５０年代及び１９６０年代の機械翻訳システムの大半は、このアプローチに基づいていた。直接翻訳アプローチは、非常に初歩的なものであり、複数の段階を構築するのに多くの手動での作業を必要とし、特定の分野（domains）における一方向の特定の対の類似する言語に関し、非常に限定的な成功しか達成できなかった。

異言語間（interlingual、インターリングア）アプローチ：このアプローチでは、ソース言語からターゲット言語への翻訳は、２つの異なる独立した段階で実行される。第１の段階では、ソース言語のテキストが完全に解析され異言語間表現に変換される。次に、第２の段階では、この異言語間表現がターゲット言語のテキストを合成するのに用いられる。この語間アプローチでは、「意味」は言語とは独立であり、従って、いったん意味が抽出され表現されてしまえば、ターゲット・テキストの生成はソース言語とは独立である、と基本的に仮定されている。異言語間システムは、複数あり、異言語間言語の概念化、意味論的な側面、統語論的な側面で異なっている。

異言語間アプローチでは最初にソース言語を、ソース・テキストの構成要素を完全に明確化した知識表現である中間的な言語に翻訳するため、そして、そのような完全な知識表現は実際には不可能であるから、異言語間アプローチは、限定的な成功しかおさめることができなかった。

転送（transfer）アプローチ：このアプローチでは、ソース言語は、ターゲット言語により、統語論的に解析され、変換される。転送は、また、ソース言語からターゲット言語への意味論的及び語句（semantic and lexical）レベルのものである。ソース言語のテキストは、最初に、ソース言語の「転送」表現に変換され、次に、ターゲット言語の「転送」表現に変換され、最後に、これらから、最終的なターゲット言語のテキスト形式が合成される。システムの精度は、システムにおいて用いられる転送表現の中に組み込まれた統語論的かつ意味論的かつ語句的な解析及び合成に依存する。異言語間アプローチでは、ソース言語テキストのすべての曖昧性が完全に解消していることが必然的に要求され、それによって、他の言語への翻訳が可能になる。それに対して、転送アプローチでは、考察されている言語に内在的な曖昧性だけが問題となる。このようなシステムは、規則ベース（rule-based）又は知識ベース（knowledge-based）のＭＴシステムとも称される。

転送アプローチでは、統語論的かつ意味論的かつ語句的な転送のための規則を作成し確認することが必要になるが、これは、誤りを生じやすいのと同時に、スケーラビリティの点でそれ自体が限界を有する。

例（example）ベース／コーパス（corpus）ベース／統計ベース／翻訳メモリ・ベースなどのアプローチ：機械翻訳戦略への第４世代（１９９０年以降）のアプローチは、先に翻訳された文の例を用いることである。ソース言語の文は、前もって記憶されている例の文と比較され、最も近接する例を選択することによって、翻訳が得られる。例ベースと翻訳メモリとは、２言語コーパス（bilingual corpora）から作成される。明確化は、例によって、距離計算と構成シンボルと翻訳メモリからの厳密な一致との少なくとも１つを通じて達成される。

翻訳メモリは、限定された分野でほとんどが用いられる。統計ベースのシステムは、受け入れられる品質を得るためには、巨大な良質な２言語コーパスを必要とする。例ベースのＭＴにおける距離計算では、多数の言語的で実践的かつ統計的情報の統合と、構成部分の重み付けをするためにシステムの適切な訓練とを必要となる。例ベースは、正確な翻訳を達成するためには、非常に大型になる可能性がある。

米国特許第６，２７８，９６７号は、「分野特有であり、文法規則ベースであり、及び／又は、発話解析の一部に基づく自然言語翻訳生成のための自動化システム」を提案している。この米国特許では、翻訳すべきテキストが属する分野を識別するのにキーワードを用いる。しかし、このアプローチには欠点がある。というのは、キーワードのデータベースが十分に網羅的ではなく、文書におけるそのデータベースには現れない正しい分野又はキーワードを指示できない可能性があるからである。更に、この米国特許では、正確な翻訳を選択するために語句項目やそれ以外の構成要素の重み付けに到達するには多くの訓練を必要とし、翻訳された出力の所望の精度が達成できない可能性がある。

米国特許第５，４２６，５８３号は、「自動化された異言語間翻訳システム」に関するものであり、２つの転送段階と共に２つの中間言語を用いている。この米国特許の方法は、上述した異言語間アプローチのすべての欠点を有する。更に、このアプローチでは、翻訳を実行する段階の数が増加すると、情報の損失が生じ、従って、翻訳された出力の精度が低下する。

欧州特許第０，５６８，３１９Ａ２は、「機械翻訳システム」に関するものであり、ここでは、多数の知識ベースを用いてソース言語テキストから導かれた情報リポジトリを作成している。これらの情報リポジトリは、ターゲット言語のための情報リポジトリを生成するのに用いられ、また、ターゲット言語生成モジュールによっても用いられる。この生成モジュールは、制約チェッカとツリー・ビルダとを用いて、候補となる翻訳の集合を作成する。この欧州特許の方法の欠点は、ソース言語に関する完全ですべて必要な情報リポジトリを導きそれほどに実用的ではない複数の解釈を組み入れたターゲット言語における対応を確立する能力に大きく依存している点である。更に、制約チェッカとツリー・ビルダとの成功は、現実の状況においては想定することができない関連する語句情報の豊富さによって制約を受ける。

本発明の主たる目的は、従来技術に関して上述した欠点を解消し、疑似異言語及びハイブリッド・アプローチを用いて、主に英語からインド諸語へのより正確で高速な機械翻訳を実行するシステム及び方法を提供することである。

本発明の第２の目的は、ソース言語から共通の語族に属する複数の言語への翻訳を効率化するようなアプローチを提供することである。

本発明の更なる目的は、このシステムの方法をすべてのインド諸語に応用可能とすることである。

本発明の更なる目的は、パフォーマンス及び複数分野に及ぶという点でスケーラブルである機械翻訳システムを提供することである。

これらの及びそれ以外の目的は、相互に通信し速度及び精度に関して従来よりも優れたパフォーマンスをもってで英語で書かれているテキストをヒンディ語及びそれ以外のインド諸語に翻訳する多数のモジュールから構成されるシステムを提供することによって達成される。

本発明では、疑似異言語（pseudo-interlingua）という概念が導入されるが、これは、ソース言語が複数のターゲット言語の語族に共通する性質を用いる中間言語に翻訳されるというものである。疑似異言語アプローチでは、ソース言語の明確化は、複数のターゲット言語の語族に対して必要であると考えられる程度に限定される。更に、中間言語は、複数のターゲット言語の語族に対して調整することが可能であり、それにより、翻訳されたテキストの精度や受け入れ可能性が改善される。

本発明では、抽象化された例ベースという概念が導入されるが、これは、生の例がより簡潔で抽象的な形式に変換されたものである。抽象化された例には、「定数」部分と「変数」部分とがある。例えば、「デリーにようこそ」という生の例は、「＜都市＞にようこそ」（「あなたはその年に歓迎される」という意味である）と抽象化されるし、「大統領にようこそ」は。「＜人＞にようこそ」（「わたしたちはその人を歓迎する」の意味である）と抽象化される。このようにすることで、例ベースのサイズは、相当に縮小され、精度と効率的なサーチの改善につながる。

本発明では、例ベースの対話型開発という概念が導入される。この対話型開発では、例ベースの開発にとってその品質と範囲とが必ずしも保証されない２言語間のパラレルなコーパスに依存するのではなく、例ベースがユーザの相互作用によって徐々に成長するのである。システムの翻訳された出力がユーザにとって満足のいくものでない場合には、入力された文が、例ベースに追加される。時間の経過により、追加される例の数は増加し、カバーする範囲を拡大することになる。

本発明では、ハイブリダイゼーション（hybridization）という概念が導入されるのであるが、これは、規則ベース及び例ベースのアプローチが、共に、賢明な態様で用いられるということである。翻訳システムを開発する際には、まず、規則ベースが翻訳に用いられ、翻訳が満足できるものでない場合には、入力された文が、例として、例ベースに入力される。翻訳の際には、翻訳システムは、最初に、例ベースを用いて翻訳を行い、特定された一致スレショルドに達しない場合には、規則ベースが呼び出される。このような規則ベース・アプローチと例ベース・アプローチとのハイブリダイゼーションは、それぞれのアプローチの欠点を克服し、精度及び速度を向上させる。

本発明による機械翻訳では、翻訳すべきテキストの性質を識別し、その性質を用いて、適切な主たる翻訳エンジンが呼び出される。翻訳エンジンが異なると、その文法形式と例ベースとが異なる。識別された主たる翻訳エンジンの中のモジュールが、階層的で分野に特有の複数言語語句データベースを用いて、入力された文におけるそれぞれの単語の語句解析を実行し、そのプロセスの中で、頭字語と未知の単語とを識別する。階層的で分野に特有の複数言語語句データベースは、分野（ドメイン）と下位分野（サブドメイン）とをリンクする非循環有向グラフ（directed acyclic graph）として構成される。

頻繁に発生する成句を記憶する例ベースと規則ベースとを用いて、英語のテキストが疑似異言語に従って中間形式に翻訳されが、この中間形式では、語順は、ターゲット言語の語族（ヒンディ語又は任意のそれ以外のインド諸語）の語順と同じである。この中間形式が、パニニアン（Paninian）フレームワークを用いてサンスクリットの「カラク」（KARAK）理論からほとんどが導かれるターゲットに特有の多数の知識ベースを用いたテキスト生成器によって、ヒンディ語又はそれ以外のインド諸語に変換される。未知の語句は、ターゲット言語の文字（スクリプト）に字訳され、発話の推測される部分に従って、適切に変換される。自動化された事後編集が実行され、ターゲット言語における形式と文体とにおいて、より高い精度が達成される。

本発明とその作用効果とをより完全に理解するために、以下では、本発明を図面を参照して説明する。

図１は、本発明を組み入れた典型的なデバイスを図解するブロック図である。デバイス（１．１）は、システム・バス（１．２）の助けによって相互接続された様々なサブシステムから構成されている。それぞれのデバイス（１．１）は、このデバイスをＬＡＮ、ＷＡＮ又はインターネット（１．１４）などの様々なネットワークに接続するのに用いられるネットワーク用のインターフェース（１．８）を組み入れている。

本発明で用いられる様々な手段において符号化された命令は、記憶装置（１．５）に記憶され、プログラムが実行されるときには、内部通信バス（１．２）を介してメモリ（１．４）に転送される。メモリ（１．４）は、プロセッサ（１．３）によって実行される現在の命令を、その結果と共に保持する。プロセッサ（１．３）は、メモリ（１．４）からフェッチすることによって、ソース言語のソース文書をターゲット言語に翻訳する命令を実行する。プロセッサ（１．３）は、ＰＣやワークステーションの場合にはマイクロプロセッサであり、また、専用の半導体チップなどでありうる。キーボード（１．１０）と、マウス（１．１１）と、入力インターフェース（１．９）を介してこのコンピュータ・システムに接続された光学的文字認識（１．１２）や音声認識システム（１．１３）などのそれ以外の入力装置とを用いて、ユーザに、例ベースのエントリなどの入力を提供し、翻訳された文書等に対して事後編集を実行する。

プロセッサ（１．３）は、ソース言語に特有の知識ベースを用いて、翻訳すべきテキストと抽出してその性質を識別する抽出手段を実行する。次に、テキスト・フォーマット及びフィルタリング手段が、テキストのテキスト・フォーマット及び構造情報をフィルタリングして記憶する。そして、テキスト翻訳エンジン呼び出し手段が、実行されるテキストの性質に基づいて識別された適切なテキスト翻訳エンジンにおいて命令を符号化し、抽出されたテキストを解析してフォーマットされていない翻訳済テキストに翻訳する。フォーマットされていない翻訳済テキストは、構造化された形式にフォーマットされ、テキスト・フォーマット手段によってターゲット言語の翻訳されたテキストが得られる。ターゲット言語での構造化された翻訳済テキストは、ビデオ・ディスプレイ（１．７）を介してユーザに向けて表示され、プリンタ（１．１５）を用いて印刷され、及び／又は、出力インターフェース（１．６）を介して計算装置に接続された音声シンセサイザ（１．１６）によって音声に変換され、必要であれば、事後編集が実行される。

この技術分野の当業者であれば理解するように、ここで記載されている手段は、コンピュータ・システム上で動作する命令である。これらの手段は、計算システムのハードウェアの中に埋め込まれた形式で存在することが可能であるし、あるいは、様々なコンピュータ可読媒体に記憶される。コンピュータ可読媒体は、特定の情報処理システムにおいて実際に用いる際には復号される符号化された形式を有する。この出願におけるコンピュータ・プログラム手段又はコンピュータ・プログラムは、情報処理能力を有するシステムに、直接に、又は、ａ）別の言語、符号又は記号と、ｂ）異なる物質形式での再生のどちらか一方又は両方を実行した後で特定の機能を実行させることが意図された命令セットの任意の言語、符号又は記号での任意の表現を意味する。

図１に示されている例は、アーキテクチャ上の制限が適用されることを意味せず、前記手段が組み入れられるデバイスの構成は、実装によって変動する。本発明は、ハードウェア、ソフトウェア、又は、ハードウェアとソフトウェアとの組合せとして実現することができる。任意の種類のコンピュータ・システムや、ここで記載されている手段を実行するように適用されるそれ以外の装置を、本発明を実現するために用いることができる。ハードウェアとソフトウェアとの典型的な組合せは、ロードされ実行されるとコンピュータ・システムを制御してここに記載された手段を実行するコンピュータ・プログラムがインストールされた汎用のコンピュータ・システムである。

本発明によると、翻訳システムは、相互に通信する多数のモジュールを含む。図２は、本発明のシステム全体のブロック図を示している。モジュール（２．１）は、ファックス、電子メール、光学スキャナ、ウェブページ、文字認識、音声認識などを含む複数のソースからのテキストを含むソース・ファイルからテキストを入力する。モジュール（２．２）は、テキスト入力から様々なテキスト領域を抽出し、次に、別のモジュール（２．３）がテキスト領域の性質を識別する。テキスト領域は、知識ベース（２．１１）を用いて、完全な文を複数有する連続的なテキストや部分的な文、アドレス、テキスト・ヘディング、ニュース・ヘディング、数学的表現、表、原稿化されたスピーチのテキスト、英語及びヒンディ語などの複数の言語によるテキスト、括弧が付された項目、引用記号の中の項目、脚注などの基準に基づいている。知識ベース（２．１１）は、主に、文書構造に関するヒューリスティックから構成されている。

様々なテキスト翻訳エンジンが、本発明によって、識別されたテキスト領域の性質に基づいて提供される。従って、テキストの性質がモジュール（２．３）によって識別されたあとで、適切な翻訳エンジンが呼び出される（２．４）。異なる翻訳エンジン（２．６ａ，２．６ｂ，・・・，２．６ｚ）は、その文法形式と例ベースとが異なっている。例えば、「DDA Flats」は、アドレス分野では異なって翻訳される。同様に、「eleven die in flash flood」というニュース・ヘディングは、ヒンディ語では、過去時制に翻訳される。

ターゲット言語テキスト生成器（後で、図５との関係で説明される）から得られる翻訳された出力（２．７）は、モジュール（２．３）によって抽出された文書フォーマット及び構造化情報（２．５）を用いて、出力文書（２．８）として作文され再構成される。翻訳された出力の文体及び精度の更なる改善は、自動化された事後編集モジュール（２．９）によってなされる。そのような改善の例は、英語のテキストの中では単数形として用いられるが、ターゲット言語においては敬意をこめて複数として表現される人間を指すのに用いられる名詞／代名詞の処理である。これは、すべてのインド諸語における特別な問題である。例えば、英語の単語である「you」は、指されている人間に対して敬意又は尊敬をもっているかどうかに基づいて、ヒンディ語では、「tum」又は「aap」と翻訳される。この訂正モジュールは、多数のヒューリスティック（実践、学習）を具体化することにより、出力テキストのより受け入れ可能で自然な形式を生じることができる。テキスト生成プロセスの最後で依然として曖昧性が解決されないで残っている場合には、人間による事後編集インピーダンス（２．１０）が提供され、本発明のユーザ自身が所望の訂正を行う。

図３は、本発明の翻訳方法を説明する流れ図を示している。このプロセスは、入力されたテキスト文書からテキスト領域を抽出し、それぞれのテキストｒ行きの性質を識別し、その性質に基づいてそれぞれのテキスト領域のための適切な翻訳エンジンを呼び出すことによって始動される（３．１）。次のステップは、識別されたテキスト領域において得られた完全な又は部分的な文を生じる文単位デリミタを識別することである（３．２）。翻訳エンジンは、完全な又は部分的な文におけるそれぞれの単語の語句的及び形態的解析を実行し、また、このプロセスにおいて、存在している頭字語、略語、未知の語などを識別する（３．３）。解析された語句はオンラインの語句（lexicon、辞書）の中に記憶され、それ以降のサーチのためのサーチ時間が短縮される。オンライン語句リストは、開始時には、最も頻繁に発生する分野に特有の単語、頭字語、名称などから始まり、翻訳プロセスが進行するにつれて、拡張される。

次に、抽象化された例ベースを用いて、解析された入力文と、英語の単語、成句、分などを含む例ベースの左側のそれぞれのエントリとの一致がはかられる（３．４）。対応する右側のエントリは、疑似他言語の翻訳されたエントリを含む。一致が見出されると、入力文の一致した部分はダミー記号と置き換えられ、例ベースから得られたこの記号と対応する中間形式がその記号に対する別の表に入力される（３．６）。一致が見つからない場合には（３．７）、入力分は規則ベースを用いて中間形式に変換される。入力文の全体が例ベースと一致する場合には、規則ベース・モジュールは、単にダミー記号を見つけて、記憶されている中間形式をその出力としてダミー記号と交換する。

このようにして得られた中間形式は、テキスト生成器を用いてターゲット言語のテキストに変換され（３．８）、その後で、自動化された事後編集（３．９）が提供され、テキスト出力の精度を改善し、また、文体を改善する。人の手動による事後編集インピーダンス（３．９）も提供され、自動化された事後編集が終了した後でも依然として残っている曖昧性をユーザがすべて除去することを可能にしている。

図４は、本発明による主たる翻訳エンジンを実現するモジュールのブロック図を示している。モジュール（４．１）は、テキストの性質に基づいて適切な翻訳エンジンを呼び出し識別されたテキスト領域において得られるように完全な文又は部分的な文を生じる文デリミタを識別するモジュール（２．４）からその入力を受け取る。このモジュールは、また、翻訳システムから得られるようにターゲット言語のテキストをフォーマットするのに用いられる入力フォーマット情報を記録する。

モジュール（４．２）は、頭字語と道の単語（４．１２）を検出し更にそれぞれの入力された単語に対して語句及び形態解析を実行して抽象化された例データベース（４．３）におけるサーチを容易にするアルゴリズムを実現する。その性質を有する語句と、頭字語と、仮定されたタグを有する未知の単語は、オンライン語句及び成句モジュール（４．９）に記憶されて、それぞれの以後のサーチのためのサーチ時間を短縮する。以後の語句サーチについては、このモジュールが最初にサーチされ、語句がオンラインで見つからない場合には、語句は後で語句データベースの中でサーチされる。

モジュール（４．３）は、ソース言語からターゲット言語への翻訳の例を記憶する抽象化された例ベースである。これらの例は、ターゲット言語における最も一般的に遭遇する成句、単語群、完全な又は部分的な文などである。これらの例は、例が実際に発生した生の形式で記憶することができるし、又は、個々の単語又は単語群がその性質と共にそのカテゴリによって代替されている抽象的な形式でも記憶することができる。抽象的な例ベースは、データベースをコンパクトにする。というのは、多数の実際の例が、ターゲット言語の中の単一のエントリと一致する可能性があるからである。例は、例ベース（４．３）に記憶されている生の形式のエントリと抽象的な形式のエントリとの差を明確にするのに用いることができる。例えば、「Ram goes to Delhi」という文は、ソース言語すなわち英語で用いられているのであるから、生の形式を有する。しかし、この文の基本構造は、＜ＮＰ１＞＜動詞２−移動−タイプ＞to｛都市｝という形式に抽象化することができる。換言すると、文の中の定数は、それをより広くジェネリックにする変数と交換できる。この抽象化された形式は、例ベースにそしてそれ以後でも記憶することができる。「Fred goes to London」のような同じ構造を用いる任意の他の文は、この抽象化された形式を用いて翻訳することができる。抽象化された例ベースにおけるサンプル・エントリの別の例として、「inspite of <NP1>being<PP2>｛場所｝$ADV$=><NP1><PP2>K5｛BE verb5｝｛inspite of｝」がある。これは、「inspite of me being there」又は「inspite of a lot of people being at the premises of the court」又は「inspite of John and Mary being here」など多数の文の一部分と一致する。従って、このアプローチは、データベースの記憶空間の要求を縮小しその効率を高めるのに役立つ。

例ベースの例は、２つの部分から構成されている。すなわち、左側（ソース言語の部分）は英語の単語と変数（これは、変数と関連する性質を、満足する英語の単語又は単語群とだけによって交代することができる）とを含む。右側は、ターゲットとなるインド諸語の語順に従った対応する中間形式表現を含む。

入力された文は、最初に、例ベースの左側と一致され、入力された文と対応する例の文の最大の一致部分を見出す。あるスレショルドの最小距離値よりも上の一致が見いだせる場合には、一致する例の右側にある中間形式は、モジュール（４．１０）によって、別のダミー変数名に対して記憶される。同時に、例ベースと一致する文の部分は、例ベースから得られた成分の性質と共に、前記別のダミー変数名によって代替される。

例ベースは、図７に示されているように本発明の翻訳システムを用いて、及び／又は、２言語コーパスを用いて、対話的に作成することができる。例ベースは、ターゲット言語における対応する翻訳と共にソース言語における新たな例を組み入れることによって更に拡張して、翻訳の質を向上させることができる。統計的な情報を用い、ソース言語における成句の発生の頻度に基づいてデータベースを更に効率的に拡張することができる。このように、最も頻繁に発生する成句をトラッキングし、例ベースに追加することができる。翻訳の質は、単語又は単語群の意味が異なる可能性がある文脈（コンテキスト）情報を捕捉するにつれて、改善される。異なる文脈は、例ベースの中の別の例に至り、更には、最小の明確化で又は何も明確化をすることなく翻訳を得ることにつながる。

パターン指示された（pattern directed）規則ベースのコンバータ・モジュール（４．４）は、ソース言語の入力文を入力文の文法パターンに基づいて中間形式に変換する。文法パターンが入力文の文法パターンと一致すると、規則が呼び出される。この一致は、再帰的に実行することができ、複数の一致は複数の翻訳を生じる。それぞれの一致に対しては、対応する中間形式が存在する。この中間形式は、語句データベースから得られたすべての情報を含み、ターゲットであるインドの言語による語順を有する。この中間形式が、インド諸語のための疑似異言語である。

これら２つのモジュール（４．３及び４．４）が、両者で、このシステムの翻訳エンジンの核心を形成し、例ベースの方法と規則ベースの方法とのハイブリダイザーションを保証する。本発明によるハイブリダイザーションは、両方の方法から最良の結果を得ようとするものである。ソース言語のテキストが翻訳されると、本発明のシステムは、最初に例ベースを用い、次に規則ベースを用いて、もし存在する場合には残りの一致しない部分の翻訳を行う。他方で、システム開発の時点では、例ベースは、ユーザと対話的な態様で拡張可能である。入力文は、最初にパターン指示された規則ベースを用いて翻訳され、次に、この翻訳が満足できるものではないことが判明したら、この文は、抽象的な形式を有する例ベースに追加される。このようにして、例ベースは時間の経過と共に成長し、飽和状態へ向かい始める。この様子は、図７に図解されている。

パターン指示された規則ベース又は例ベースの出力は、中間形式（４．５）である。

モジュール（４．３及び４．４）が遭遇するすべての名詞は、代名詞参照曖昧性を解消するために用いられる名詞の履歴リストに記憶される。

階層的で分野（ドメイン）に特有な他言語語句データベース（４．８）は、分野と下位分野とをリンクする非循環的有向グラフ（ＤＡＧ）として構成される。これは、図５において、例を通じて図解されている。図５に示されているデータベースの構造は、単に例示目的のものであり、必要な場合には、新たな分野及び下位分野を追加することによって拡張することができる。この他言語語句データベースの構造は、入力文における単語の意味の曖昧性を減少させるのに役立つ。

テキスト生成器モジュール（４．６及び４．７）は、それぞれが特定のターゲット言語のために提供されているのであるが、規則ベース・モジュール（４．５）によって生成されまた例ベース（４．１０）から得られた中間形式を有し、それを、構造化されていないターゲット言語のテキスト出力に変換する。

図５は、本発明において用いられるＤＡＧの形式の分野（ドメイン）階層の例を示している。ＤＡＧのトップ・ノードは、どの特定の特別の下位分野にも属さない単語と成句とを含む「一般的な」分野（５．１）である。階層の次のレベルの下位の分野は、一般科学（５．２）、社会科学（５．３）、歴史（５．４）、地理（５．５）、政治学（５．６）、保健及び医学（５．７）、宗教（５．８）などである。このレベルの分野は、より細分化された下位分野を有しており、例えば、一般科学（５．２）分野は、物理学（５．９）、化学（５．１０）、生物学（５．１１）という３つの下位分野を有することができる。下位分野である生物学（５．１１）は、更に一段と細分化された下位分野である動物学（５．１３）と植物学（５．１４）とを有することができる。１又は複数の親分野は、細分化された複数の下位分野を共有する場合がある。例えば、下位分野である動物学（５．１３）と植物学（５．１４）とは、生物学（５．１１）と保健及び医学（５．７）との親分野に共有される。ここで説明している分野の階層は、単に例示目的のためのものであり、本発明によって用いられる階層的な他言語データベースを制限しない。より多くの分野や下位分野を含むようにスケールアップして階層を拡張するのは容易である。

翻訳されるテキストの分野が識別されると、システムは、識別された分野における語句エントリを探す。例えば、識別された分野が植物学（５．１４）である場合には、システムは、この分野をサーチして、一致する語句エントリを探す。この分野の中でエントリが見つからない場合には、階層の中の生物学（５．１１）と保健及び医学（５．７）という親分野が平行してサーチされる。しかし、依然としてエントリが見つからない場合には、階層の最上部にある「一般」分野（５．１）までの全体がサーチされる。このようにして編成された語句データベースは、このシステムの特定の目的である入力テキストの中の単語の意味を明確化するのに役立つ。例えば、ユーザが保健及び医学分野（５．７）からのテキストを翻訳しているときには、「treatment」のような単語には、「behaviour」の意味が付与される（ヒンディ語では「vyavahaar」である）。

図６は、ヒンディ語及びそれ以外のターゲットとなるインド諸言語のための本発明によるテキスト生成モジュールによって用いられる入力のブロック図である。テキスト生成モジュールは、その入力として、文に対する中間コード（６．２）と文の一部／成句の中間コード（６．２）とをとる。テキスト生成器は、動詞のカテゴリ化及び予測規則（６．７）、意味論的及び存在論的（６．６）、形態組成情報（６．５）、サンスクリットの「カラク（Karak）」理論から導かれた多数の規則（６．９）等を用いて、より受け入れ可能な「parsag」記号（事後位置）に至るターゲットとなるインド語のテキストを合成する。代名詞参照明確化は、名詞の履歴リスト（６．３）と明確化規則（６．８）とを用いて達成される。未知の語句は、ターゲット言語（６．１１）のスクリプトに字訳され、ターゲット言語の発話の推測される部分に従って適切に変換される。例えば、英語の動詞である「abort」が語句データベースの中に存在せず、入力文が入力文の中で「aborted」という単語と遭遇すると仮定してみる。このモジュールは、未知の語句が動詞の過去形であると推測する場合には、「aborted」の意味を、ヒンディ語の「ebaurt kar」と見なす（「ebaurt」は、単語「abort」の字訳された形式であり、その形式を得るために「kar」が付加されている）。構成の規則に従うこの部分に対する最終的な字訳された形式は、「ebaurt kiyaa」となり、これは、インドでは、日常的な使用において受け入れ可能な形式である。テキスト生成モジュールの出力は、ターゲット言語（６．１０）の翻訳済のテキストである。

図７は、本発明において用いられる例ベースの対話的な作成方法を図解するブロック図である。入力ソース言語のテキスト（７．１）は、最良一致発見モジュール（７．４）によって抽象化された例ベース（７．２）のエントリとの一致がはかられる。最良一致発見モジュールは、入力ソース言語のテキストと開発の時点でシステムと共に利用可能な抽象化された例ベースのそれぞれのエントリとの距離を計算する。この距離計算は、ソース及び例テキストの個々の構成記号／単語と関連する属性／性質の統合された（重み付けされた和）距離に基づく。この距離は、予め設定されたスレショルド（実験の間にシステムによって修得されたパラメータ）と比較され、計算された距離がスレショルドの値よりも小さい場合にだけ、翻訳が生じる（７．５）。例ベースの効率的なサーチのためには、例ベースは論理的な態様で細分化され、サーチは、区分又は区分階層に限定される。システムの開発者が翻訳された出力を満足できるものと考えないときには、又は、スレショルドの設定により翻訳が得られないときには、システム開発者は、正しい翻訳を追加的な例として例ベース（７．３）に入力する。このようにして、このシステムの例ベースは、開発の段階の間にユーザとのより多くの対話に露出されることによって成長し、例ベースの成長曲線は、変化を生じ始める。システムの開発者は、実際に使用するためにシステムを提供するには、飽和の適切なレベルを決定することになる。

本発明を実現することができる計算システムのブロック図である。本発明の全体的なシステムの概略である。本発明による翻訳方向を説明する流れ図である。本発明の主たる翻訳エンジンを具体化するモジュールのブロック図である。本発明において用いられる非循環有向グラフの形式の分野（ドメイン）階層の例である。本発明においてヒンディ語及びターゲットとなるそれ以外のインド諸語のためのテキスト生成モジュールによって用いられる入力のブロック図である。例ベースの作成の対話的方法のブロック図である。

Claims

ソース言語をターゲット言語に翻訳する方法であって、
ソース文書から抽出されたテキストの性質を識別するステップと、
前記抽出されたテキストのテキスト・フォーマット及び構造情報をフィルタリングし記憶するステップと、
前記抽出されたテキストの性質に基づき、適切なテキスト翻訳エンジンを選択するステップと、
前記テキスト翻訳エンジンを用いて、前記抽出されたテキストを解析し、フォーマットされていない翻訳済テキストに翻訳するステップと、
前記記憶されたテキスト・フォーマット及び構造情報を用い、前記フォーマットされていないテキストを処理して、前記ターゲット言語の構造化された翻訳済テキスト文書を取得するステップと、
を含むことを特徴とする方法。
請求項１記載の方法において、前記構造化された翻訳済テキスト文書に事後編集を実行して翻訳の精度と文体とを改善するステップを更に含むことを特徴とする方法。
請求項２記載の方法において、前記事後編集のステップは、前記構造化された翻訳済テキスト文書に対して自動的に実行され、存在しうるターゲット言語に特有の曖昧性と誤りとを除去することを特徴とする方法。
請求項２記載の方法において、前記事後編集のステップは、前記構造化された翻訳済テキスト文書に対して手動で実行され、存在しうるターゲット言語に特有の曖昧性と誤りとを除去することを特徴とする方法。
請求項１記載の方法において、前記抽出されたテキストの性質は、ソース言語に特有の知識ベースによって識別されることを特徴とする方法。
請求項１記載の方法において、前記テキストの性質には、完全な文による連続テキストと、部分的な文による連続テキストと、アドレスと、テキスト・ヘディングと、ニュース・ヘディングと、数学的表現と、表と、文章化されたスピーチ・テキストと、複数言語によるテキストと、脚注と、引用符号の中のテキストと、括弧が付された項目と、これらに類似のものとが含まれることを特徴とする方法。
請求項１記載の方法において、異なる性質を有するテキストの部分は、異なるテキスト翻訳エンジンを用いて翻訳されることを特徴とする方法。
請求項１記載の方法において、前記抽出されたテキストを解析するステップは、
前記抽出されたテキストの文単位デリミタを識別して前記テキストを別個の文に分解するステップと、
分野に特有の語句データベースを用いて前記文のそれぞれの単語に語句解析を実行し、分野を識別することによって前記文における頭字語と略語と未知の単語との意味を明確化して識別するステップと、
解析された単語（語句）とその特性とをオンラインの語句及び成句データベースに記憶し、未知の語句を別のデータベースに記憶して、翻訳を高速化するステップと、
を含むことを特徴とする方法。
請求項８記載の方法において、新たな分野と分野に特有の単語とを前記データベースに追加することにより翻訳精度の改善が可能であることを特徴とする方法。
請求項８記載の方法において、前記ソース言語の単語を解析して代名詞参照の曖昧性が解消されると共に、名詞の履歴リストが維持されることを特徴とする方法。
請求項１記載の方法において、前記抽出されたテキストを翻訳するステップは、
解析されたテキスト又はその一部を中間形式に変換するステップと、
前記中間形式のテキストをフォーマットされていない翻訳済テキストに翻訳するステップと、
を含むことを特徴とする方法。
請求項１１記載の方法において、前記解析されたテキストは、頻繁に用いられる成句と単語群と文とを含む抽象化された例ベースを用いて翻訳されることを特徴とする方法。
請求項１２記載の方法において、前記解析されたテキストは、前記抽象化された例ベースにおけるエントリと比較され、一致が存在する場合には疑似インターリングアにおける対応する翻訳と代替して、中間的な翻訳済テキストを取得することを特徴とする方法。
請求項１２記載の方法において、前記例ベースは、翻訳の質を改善するために、取得された翻訳済出力の精度に関するユーザのフィードバックに基づいて新たなエントリを追加することによって拡張されることを特徴とする方法。
請求項１２記載の方法において、前記例ベースは、翻訳の質を改善するために、ソース言語における成句の発生頻度に関する統計情報に基づいて新たなエントリを追加することによって拡張することが可能であることを特徴とする方法。
請求項１１記載の方法において、前記抽象化された例ベースに存在しないテキスト又はテキストの一部に対しては規則ベースの翻訳がなされて中間的な翻訳済テキストが取得されることを特徴とする方法。
請求項１１記載の方法において、前記中間的なテキストは、ターゲット言語生成器を用いて、フォーマットされていないターゲット言語テキストに翻訳されることを特徴とする方法。
請求項１７記載の方法において、前記テキスト生成器は、
ターゲット言語に対する異なる語句を形態的に合成するステップと、
未知の語句を字訳するステップと、
ターゲット言語における未知の語句に対して適切な形式を生成するステップと、
意味論的かつ存在論的な関係を確立するステップと、
名詞の履歴リストと代名詞参照明確化のための関連規則とを用いるステップと、
記憶されているテキスト・フォーマット及び構造情報を用いてターゲット言語文書を作成及び再構成して構造化された翻訳済テキスト文書を取得するステップと、
の中の少なくとも１つのステップを実行し、前記中間形式のテキストをターゲット言語に翻訳することを特徴とする方法。
ソース言語をターゲット言語に翻訳するシステムであって、
ソース文書から抽出されたテキストの性質を識別する手段と、
前記抽出されたテキストのテキスト・フォーマット及び構造情報をフィルタリングし記憶する手段と、
前記抽出されたテキストの性質に基づき、適切なテキスト翻訳エンジンを選択する手段と、
前記抽出されたテキストを解析し、フォーマットされていない翻訳済テキストに翻訳する手段と、
前記記憶されたテキスト・フォーマット及び構造情報を用い、前記フォーマットされていないテキストを処理して、前記ターゲット言語の構造化された翻訳済テキスト文書を取得する手段と、
を含むことを特徴とするシステム。
請求項１９記載のシステムにおいて、前記構造化された翻訳済テキスト文書に事後編集を実行して翻訳の精度と文体とを改善する編集手段を更に含むことを特徴とするシステム。
請求項１９記載のシステムにおいて、前記抽出されたテキストの性質を識別する手段は、ソース言語に特有の知識ベースであることを特徴とするシステム。
請求項１９記載のシステムにおいて、前記抽出されたテキストを解析し翻訳する手段は、テキストの性質に特有のテキスト翻訳エンジンであることを特徴とするシステム。
請求項１９記載のシステムにおいて、前記抽出されたテキストを解析し翻訳する手段は、
前記抽出されたテキストの文単位デリミタを識別して前記テキストを別個の文に分解する手段と、
前記文のそれぞれの単語に語句解析を実行する手段と、
解析された単語（語句）とその特性とをオンラインの語句及び成句データベースに記憶し、未知の語句を別のデータベースに記憶して、翻訳を高速化する手段と、
を含むことを特徴とするシステム。
請求項２３記載のシステムにおいて、前記語句解析を実行する手段は、新たな分野と分野に特有の単語とを追加することによって拡張可能な階層的で分野に特有の他言語データベースであることを特徴とするシステム。
請求項２３記載のシステムにおいて、前記階層的で分野に特有の他言語データベースは、分野と下位分野とをリンクする非循環的有向グラフとして編成され、翻訳の際に形態的合成規則のためのパラダイム符号化を用いて動詞と名詞とを記憶することを特徴とするシステム。
請求項２３記載のシステムにおいて、代名詞参照の曖昧性を解消する名詞の履歴リストを維持する手段を更に含むことを特徴とするシステム。
請求項２３記載のシステムにおいて、前記語句を中間テキストに翻訳する手段は、頻繁に用いられる成句と単語群と文とを含む拡張可能で抽象化されたターゲット言語に特有の例ベースであることを特徴とするシステム。
請求項２３記載のシステムにおいて、前記抽象化された例ベースに存在しないテキスト又はテキストの一部を中間テキストに翻訳する規則ベースの翻訳手段を更に含むことを特徴とするシステム。
請求項２７又は請求項２８記載のシステムにおいて、前記中間テキストをターゲット言語のテキストに翻訳する手段はターゲット言語生成器であることを特徴とするシステム。
請求項２９記載のシステムにおいて、前記ターゲット言語生成器は、
ターゲット言語に対する異なる語句の形態的に合成する手段と、
未知の語句を字訳する手段と、
ターゲット言語における未知の語句に対して適切な形式を生成する手段と、
意味論的かつ存在論的な関係を確立する手段と、
名詞の履歴リストと代名詞参照明確化のための関連規則とを用いる手段と、
記憶されているテキスト・フォーマット及び構造情報を用いてターゲット言語文書を作成及び再構成して構造化された翻訳済テキスト文書を取得する手段と、
を含むことを特徴とするシステム。
請求項１９記載のシステムにおいて、ソース言語をターゲット言語に翻訳する前記計算システム・ノードは、
少なくとも１つのシステム・バスと、
前記システム・バスに接続された少なくとも１つの通信ユニットと、
前記システム・バスに接続されており命令セットを含む少なくとも１つのメモリ・ユニットと、
前記システム・バスに接続されており前記メモリにおける命令を実行してソース言語をターゲット言語に翻訳する少なくとも１つの中央処理装置と、
を含むことを特徴とするシステム。
請求項３１記載のシステムにおいて、他の同様のシステムに接続されており、前記手段を補完し補充する手段を含むことを特徴とするシステム。
コンピュータ可読な記憶媒体に記憶されておりソース言語をターゲット言語に翻訳するコンピュータ可読なプログラム・コードを含むコンピュータ・プログラム製品であって、
ソース文書から抽出されたテキストの性質を識別するように構成されたコンピュータ可読なプログラム・コード手段と、
前記抽出されたテキストのテキスト・フォーマット及び構造情報をフィルタリングし記憶するように構成されたコンピュータ可読なプログラム・コード手段と、
前記抽出されたテキストの性質に基づき、適切なテキスト翻訳エンジンを選択するように構成されたコンピュータ可読なプログラム・コード手段と、
前記抽出されたテキストを解析し、フォーマットされていない翻訳済テキストに翻訳するように構成されたコンピュータ可読なプログラム・コード手段と、
前記記憶されたテキスト・フォーマット及び構造情報を用い、前記フォーマットされていないテキストを処理して、前記ターゲット言語の構造化された翻訳済テキスト文書を取得するように構成されたコンピュータ可読なプログラム・コード手段と、
前記例ベースを対話的に拡張するようにように構成されたコンピュータ可読なプログラム・コード手段と、
抽象化された例を生の例から導くように構成されたコンピュータ可読なプログラム・コード手段と、
を含むことを特徴とするコンピュータ・プログラム製品。
請求項３３記載のコンピュータ・プログラム製品において、前記構造化された翻訳済テキスト文書に事後編集を実行して翻訳の精度と文体とを改善するように構成されたコンピュータ可読なプログラム・コード手段を更に含むことを特徴とするコンピュータ・プログラム製品。
請求項３３記載のコンピュータ・プログラム製品において、前記抽出されたテキストを解析するように構成されたコンピュータ可読なプログラム・コード手段は、
前記抽出されたテキストの文単位デリミタを識別して前記テキストを別個の文に分解するように構成されたコンピュータ可読なプログラム・コード手段と、
前記文における意味を明確化し頭字語と略語と未知の単語を識別する語句データベースを用いて、前記文のそれぞれの単語に語句解析を実行するように構成されたコンピュータ可読なプログラム・コード手段と、
解析された単語（語句）とその特性とをオンラインの語句及び成句データベースに記憶し、未知の語句を別のデータベースに記憶して、翻訳を高速化するように構成されたコンピュータ可読なプログラム・コード手段と、
一致を実行し、入力ソース・テキスト又はその一部と抽象化された例ベースとの距離を計算し、前記距離のスレショルドを設定して、翻訳された出力の受け入れ可能性を判断するように構成されたコンピュータ可読なプログラム・コード手段と、
前記翻訳エンジンと関連する規則ベースを呼び出すように構成されたコンピュータ可読なプログラム・コード手段と、
を含むことを特徴とするコンピュータ・プログラム製品。
請求項３５記載のコンピュータ・プログラム製品において、代名詞参照の曖昧性を解消する名詞の履歴リストを維持するように構成されたコンピュータ可読なプログラム・コード手段を更に含むことを特徴とするコンピュータ・プログラム製品。
請求項３５記載のコンピュータ・プログラム製品において、頻繁に用いられる成句と単語群と文との抽象化された例ベースを維持するように構成されたコンピュータ可読なプログラム・コード手段を更に含むことを特徴とするコンピュータ・プログラム製品。
請求項３５記載のコンピュータ・プログラム製品において、前記抽象化された例ベースに存在しないテキスト又はテキストの一部の規則ベースの翻訳を実行するように構成されたコンピュータ可読なプログラム・コード手段を更に含むことを特徴とするコンピュータ・プログラム製品。
請求項３７又は請求項３８記載のコンピュータ・プログラム製品において、前記中間テキストをターゲット言語のテキストに翻訳するように構成されたコンピュータ可読なプログラム・コード手段を更に含むことを特徴とするコンピュータ・プログラム製品。
請求項３９記載のコンピュータ・プログラム製品において、前記中間テキストをターゲット言語のテキストに翻訳するように構成されたコンピュータ可読なプログラム・コード手段は、
ターゲット言語に対する異なる語句の形態的合成を実行するように構成されたコンピュータ可読なプログラム・コード手段と、
未知の語句を字訳するように構成されたコンピュータ可読なプログラム・コード手段と、
ターゲット言語における未知の語句に対して適切な形式を生成するように構成されたコンピュータ可読なプログラム・コード手段と、
意味論的かつ存在論的な関係を確立するように構成されたコンピュータ可読なプログラム・コード手段と、
名詞の履歴リストと代名詞参照明確化のための関連規則とを用いるように構成されたコンピュータ可読なプログラム・コード手段と、
記憶されているテキスト・フォーマット及び構造情報を用いてターゲット言語文書を作成及び再構成して構造化された翻訳済テキスト文書を取得する手段と、
を含むことを特徴とするコンピュータ・プログラム製品。