JP2006338261A

JP2006338261A - 翻訳装置、翻訳方法及び翻訳プログラム

Info

Publication number: JP2006338261A
Application number: JP2005161357A
Authority: JP
Inventors: Kuniko Saito; 邦子齋藤; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-01
Filing date: 2005-06-01
Publication date: 2006-12-14

Abstract

【課題】複数の翻訳辞書を用いて機械翻訳する際に各辞書由来の尤度の偏りを補正して精度の高い翻訳処理を可能とすること。
【解決手段】固有表現抽出手段１１で入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成し、句対訳候補列挙手段２５で固有表現抽出済み文を構成する各々の句に対応する句対訳候補を翻訳モデル群記憶部２１から検索し、その確率値とともに対訳侯補テーブル２４に記録し、辞書別重み付け手段２６で重み付けテーブル２３を参照して句対訳候補に対応する各翻訳辞書由来の確率値に重みを付け、最適経路探索手段２７で対訳侯補テーブル２４に記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部２２から取得した当該組み合わせにおける連続する２つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する。
【選択図】図１

Description

この発明は、第１の言語で記述された入力文を第２の言語に翻訳する技術に関する。

計算機に翻訳処理を行わせる機械翻訳技術は、従来、非常に難しい技術であり、長い間研究されてきたが、近年では様々な翻訳ソフトが出現してきた。

従来の機械翻訳技術は、対訳や文法を表す辞書やルールをいくつか有し、これらを参照しながら翻訳文を生成していくものが一般的であり、ルールや辞書データの蓄積に長い年月を要することが多かった。近年では、統計的手法により大量の対訳データからルールや辞書知識を低コストで蓄積する研究、即ち統計的機械翻訳技術の研究が盛んに行われている。

この技術の特徴は、翻訳の過程を雑音のある通信路モデルに適用したことであり、例えば日英翻訳では、翻訳すべき日本語入力文は雑音の多い通信路によって英語が日本語へ変形したものだと考え、これを元の英語へ復元することが翻訳処理であり、翻訳処理系は復元器（デコーダ）であると考える。即ち、日本語Ｊから英語Ｅへの復号の過程は、英語文の事前確率Ｐ（Ｅ）と英語文が与えられた時の日本語文の条件付き確率Ｐ（Ｊ｜Ｅ）とを用いて、Ｐ（Ｅ）＊Ｐ（Ｊ｜Ｅ）を最大化する英語文を求めることである。ここで、Ｐ（Ｅ）を言語モデル、Ｐ（Ｊ｜Ｅ）を翻訳モデルと呼ぶ。

当初、翻訳モデルは単語単位で行う翻訳技術が主流であったが、近年では１つ以上の単語をつなげた句単位で翻訳モデルを設計する句翻訳に基づく統計的機械翻訳技術の研究が主流である。

この技術の利点は、ある程度まとまった単位で句の位置が前後に動く場合にも比較的強いこと、また意味的にまとまりのある単位で翻訳を行えることなどである。この句翻訳に基づく統計的機械翻訳の従来技術の１つに「ｐｈａｒａｏｈ」と呼ばれるものがある（非特許文献１参照）。本明細書では、「ｐｈａｒａｏｈ」のような句翻訳に基づく統計的機械翻訳技術に基づく翻訳装置を提案する。

ところで、人名、地名、組織名などの固有名詞は種類も多く、次々に新しい表現が発生する。そのため、未知語になり易い特徴があり、翻訳モデルに存在しないことも多い。また、これらの固有名詞を短い単位にすると、それぞれの単位については翻訳モデルに存在する可能性が高くなるが、それらの翻訳モデルを結合しても必ずしも正しい訳になるとは限らない。例えば「日本電信電話株式会社」という固有名詞の正しい訳が「ＮｉｐｐｏｎＴｅｌｅｇｒａｐｈａｎｄＴｅｌｅｐｈｏｎｅＣｏｒｐｏｒａｔｉｏｎ」であるように、逐語訳のような性質ではなく、そう訳すことに決められたものという性質のものも多い。

また、日付、金額、時間などの数値表現も各国によって独自の習慣がある場合が多く、表現の種類も無数にあるため、翻訳モデルには存在せず、未知語となることも多い。そのため、翻訳モデルから翻訳するよりはむしろ変換規則を用意する方が望ましい。なお、これらの固有名詞や数値表現をまとめて固有表現と呼ぶことにする。

翻訳対象となる入力文に固有表現が含まれている場合、上記のように固有表現は未知語になり易かったり、独自の習慣に基づく表記であるために、通常の翻訳モデルで翻訳しようとすると翻訳に失敗して文全体の意味がおかしくなることがある。

そこで、通常の句対訳辞書の他に、対訳固有表現辞書、数値表現のための変換規則、今風の語のための新語辞書、基本語句のための対訳辞書など、翻訳をする上で様々な種類の辞書や変換規則を用意し、それらを組み合わせながら句翻訳に基づく統計的機械翻訳を行う技術が求められてくる。

また、辞書の構築は大変コストのかかる作業であり、全てを人手で構築するのではなく、ある程度自動化された手段で行うことは現実の技術開発ではよくある。例えば、特許文献１に記載の技術では、大量の対訳テキストデータから固有表現対訳データを、自動的に翻訳として確率の高い順にその尤度とセットで収集できる。この尤度は、上記翻訳モデルにおける翻訳確率Ｐ（Ｅ｜Ｊ）とみなせる。また、確率値が付与されてない辞書であって、辞書中の頻度を利用して出現確率として確率を得ることは可能である。各確率値はそれぞれの辞書の中での相対的な位置を示すと考えるのが妥当であり、異なる辞書同士の確率値を比べることに論理的根拠がない。そのため複数の辞書を利用して統計翻訳を行いたい場合、それぞれの辞書が有する確率値を句翻訳デコーダの中でどのように利用すべきかが問題となる。
特開２００４−３２６５８４号公報（特願２００３−１２２３６０）「対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム」 "Pharaoh : a Beam Search Decoder for Phrase-Based Statistical Machine Translation Models"、［ｏｎｌｉｎｅ］、Computer Science and Artificial Intelligence Lab Massachusetts Institute of Technology、［平成１７年５月１９日検索］、インターネット＜ＵＲＬ：http://www.iccs.informatics.ed.ac.uk/~pkoehn/publications/pharaoh-amta2004-slides.pdf＞ "Minimum Error Rate Training in Statistical Machine Translation"、［ｏｎｌｉｎｅ］、平成１５年７月８日、ACL anthology、［平成１７年５月２５日検索］、インターネット＜ＵＲＬ：http://acl.ldc.upenn.edu/P/P03/P03-1021.pdf＞

従来、翻訳対象となる入力文に固有表現が含まれている場合、固有表現は元々翻訳モデルに存在しない未知語であることが多く、固有表現対訳辞書や独特の翻訳技術を必要とするために、文のほかの箇所と同じ体系で処理すると翻訳に失敗することが多いという課題があった。

また、固有表現に限らず、新語対訳や専門語対訳など、いわゆる基本単語や句を収めた基本対訳辞書、句対訳辞書とは別に語彙を増やすために様々な種類の辞書、規則類を併用したいという要望がある。しかし、数多くの辞書や規則類を併用しようとすると、どの情報を優先するか、明確な基準を設定することは困難であり、自動的に各辞書の確率値の重みを変更し、最適な翻訳確率を得ることが重要である。

本発明の翻訳装置では、入力文を固有表現抽出処理し、固有表現の箇所を抽出しておく。そして抽出された固有表現について、固有名詞は固有表現対訳辞書、数値表現は変換規則を参照して対訳侯補を得る。そして、文章全体の翻訳処理においては、他の辞書からも対訳侯補を得る場合があるため、それぞれの辞書毎の確率値の重みを付与する。

最適の重みをつけることで様々な辞書を併用しても翻訳として尤もらしい翻訳結果を得ることができる。なお、最適の重みをつける技術としては、誤り最小学習法を利用することができる。

本発明によれば、従来、翻訳が困難であった固有表現、数値表現、専門用語、新語などについて、様々な辞書や規則などを最適の条件で併用した翻訳処理を行うことができ、結果として文章全体の翻訳精度が向上する。

図１は本発明の翻訳装置の実施の形態の一例を示す構成図、図２は翻訳処理の流れ図、図３は辞書別の重みを計算する際の処理の流れ図であり、以下、本発明の概要について説明する。

本発明の翻訳装置は、固有表現抽出部１０、句翻訳デコーダ２０及び重み計算部３０から構成される。なお、重み計算部３０は、後述するように、通常の翻訳処理においては動作せず、辞書別の重みを計算する際にのみ用いられる。

固有表現抽出部１０は、入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済みテキストを作成する固有表現抽出手段１１を有する。

句翻訳デコーダ２０は、第１の言語における固有表現句に対応する第２の言語の対訳句をその確率値とともに多数記述した固有表現対訳辞書を少なくとも含む複数の翻訳辞書を記憶した翻訳モデル群記憶部２１と、第２の言語において連続する２つの単語の出現確率値を多数記憶した言語モデル記憶部２２と、前記複数の翻訳辞書毎の重みを記憶した重み付けテーブル２３と、所定の対訳候補テーブル２４と、固有表現抽出済み文を構成する各々の句に対応する句対訳候補を翻訳モデル群記憶部２１から検索し、当該句対訳候補及びその確率値を対訳侯補テーブル２４に記録する句対訳侯補列挙手段２５と、重み付けテーブル２３を参照して、対訳侯補テーブル２４に記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付ける辞書別重み付け手段２６と、対訳侯補テーブル２４に記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部２２から取得した当該組み合わせにおける連続する２つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する最適経路探索手段２７とを有する。

重み計算部３０は、最適経路探索手段２７による翻訳結果（但し、ここでは確率値最大のものから上位Ｎ個までの翻訳結果Ｎｂｅｓｔ）と別途入力された正解の翻訳文とを比較して翻訳精度を計算し、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し、重み付けテーブル２３を更新する重み計算・テーブル更新手段３１を有する。

本発明の翻訳処理は、図２に示すように、固有表現抽出手段１１が、入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成し（ｓ１）、句対訳侯補列挙手段２５が、該固有表現抽出済み文を構成する各々の句に対応する句対訳候補を翻訳モデル群記憶部２１に記憶された複数の翻訳辞書群から検索し、当該句対訳候補及びその確率値を対訳侯補テーブル２４に記録し（ｓ２）、辞書別重み付け手段２６が、重み付けテーブル２３を参照して、対訳侯補テーブル２４に記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付け（ｓ３）、最適経路探索手段２７が、対訳侯補テーブル２４に記録された句対訳候補による組み合わせのうち、前記重みを付けられたそれぞれの確率値と、言語モデル記憶部２２から取得した当該組み合わせにおける連続する２つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する（ｓ４）ことによって行われる。

また、辞書別の重みを計算する際は、図３に示すように、前記同様のｓ１〜ｓ４の処理の後、重み計算・テーブル更新手段３１が、翻訳結果Ｎｂｅｓｔと別途入力された正解の翻訳文とを比較して翻訳精度を計算し（ｓ７）、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し（ｓ８）、重み付けテーブルを更新し（ｓ９）、これを翻訳結果Ｎｂｅｓｔの順位が変動しなくなるまで繰り返す（ｓ５，ｓ６）。

以下、前述した各部における処理の詳細について説明する。

＜固有表現抽出手段１１＞
固有表現抽出手段１１は、前述したように、入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済みテキストを作成し、（図中、破線で示した）所定のメモリに一時記憶する。

固有表現抽出処理では、入力文に含まれている固有表現を認識する。例えば、入力文が「西日本電信電話株式会社（ＮＴＴ西日本）は３月１日、事業計画を申請した」である場合、文全体の単語分割（形態素解析）をした上で、「西日本電信電話株式会社」「ＮＴＴ西日本」が組織名＜ＯＲＧ＞であり、「３月１日」が日付＜ＤＡＴ＞であることを認識する。

ここでの固有表現抽出処理には、例えば特開２００４−４６７７５号公報、あるいは特願２００４−３７３５３２に記載の技術を利用する。なお、一般に形態素解析や固有表現抽出は、入力文を単語分割して品詞や読みなどの言語情報を付与することも含むが、本発明では、単語分割の情報のみを利用するため、以下では品詞や読みなどの言語情報は全て省略して記載する。そのため、単語分割では入力文が１単語ずつに分割された状態となり、固有表現抽出では、分割された各単語がどういう固有表現をとるかを認識し、特定の固有表現を示す範囲を明示する。

範囲の明示方法は、例えばｘｍｌマークアップなどを利用しても良い。特定の固有表現とは、例えば組織名＜ＯＲＧ＞、人名＜ＰＳＮ＞、地名＜ＬＯＣ＞、日付＜ＤＡＴ＞などである。抽出すべき固有表現に応じて任意の種類を事前に設定する。

ｘｍｌマークアップを利用して固有表現の範囲を指定した例を図４に示す。ｘｍｌマークアップとは、テキストに書かれた文字に、タグ「＜」と「＞」の間に様々な情報を埋め込むマークアップ言語のひとつである。

＜翻訳モデル群記憶部２１＞
翻訳モデル群記憶部２１には、図５に示すような第１の言語（ここでは日本語）における固有表現句に対応する第２の言語（ここでは英語）の対訳句をその確率値とともに多数記述した固有表現対訳辞書、第１の言語における一般的な単語や句に対応する第２の言語の対訳語や対訳句をその確率値とともに多数記述した基本対訳辞書、第１の言語における新しい単語や句に対応する第２の言語の対訳語や対訳句をその確率値とともに多数記述した新語辞書、日付、金額、時間などの数値表現に関する第１及び第２の言語間における変換規則をその確率値とともに記述した変換テーブルなどが予め記憶されている。

＜言語モデル記憶部２２＞
言語モデル記憶部２２には、第２の言語（ここでは英語）における任意の２つの単語についてそれらが連続して出現する確率値が予め多数記憶されている。

＜重み付けテーブル２３＞
重み付けテーブル２３には、翻訳モデル群記憶部２１に記憶された複数の翻訳辞書毎の重みが予め記憶されている。

＜句対訳侯補列挙手段２５＞
句対訳候補列挙手段２５は、固有表現抽出手段２１が作成し、メモリに一時記憶された固有表現抽出済み文を入力として、翻訳モデル群記憶部２１に記憶された複数の翻訳辞書群を参照しながら想定される句対訳全侯補を列挙する。

この時、日本語側の句の生成は、連続する１つ以上の単語の並びを順次つなげていくものとする。但し、既に固有表現として抽出されている箇所は、まずその範囲を１つの句とする。例えば、「西日本電信電話株式会社」でひとまとまりとし、これを検索キーとして固有表現対訳辞書を参照し、対訳とその時の確率値を取得する。もし該当する対訳データが存在しない場合は、固有表現としてのまとまりを解除して新たに句を生成するものとする。

また、「事業計画を申請した」の個所は、それぞれ「事業」「事業計画」「事業計画を」「事業計画を申請」「事業計画を申請した」、「計画」「計画を」…、…のように順次生成し、該生成した全ての句について基本対訳辞書、新語辞書などの順に検索し、該当する対訳があれば全て列挙する。

上記のようにして列挙される対訳及び確率値は、対訳侯補テーブル２４に記録されていく。対訳侯補テーブル２４における記録例の一例を図６に示す。なお、この際、該句の入力文における位置、即ち開始と終了の位置がわかるようにしておく。ここでは先頭から何語目から始まって何語目で終わる句なのかを記録する。例えば、「ＮＴＴ西日本」は８語目と９語目と１０語目の単語から構成される句で「８，１０」となる。

＜辞書別重み付け手段２６＞
本発明の翻訳装置では、複数の辞書や変換規則などを参照して確率値を得る。そのため個別の辞書の確率値Ｐ（Ｅ｜Ｊ）の値を単純に比較して尤度の高さを判断することはできない。そこで、辞書別重み付け手段２６により、重み付けテーブル２３を参照して、対訳侯補テーブル２４に記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付けて確率値を規格化する。

例えば基本対訳辞書、固有表現対訳辞書、新語対訳辞書、変換規則由来の確率値をそれぞれ、Ｐｋ（Ｅ｜Ｊ）、Ｐｎｅ（Ｅ｜Ｊ）、Ｐｓ（Ｅ｜Ｊ）、Ｐｈ（Ｅ｜Ｊ）とし、それぞれの重みをλｋ、λｎｅ、λｓ、λｈとすると、λｋ・Ｐｋ（Ｅ｜Ｊ）、λｎｅ・Ｐｎｅ（Ｅ｜Ｊ）、λｓ・Ｐｓ（Ｅ｜Ｊ）、λｈ・Ｐｈ（Ｅ｜Ｊ）とする。

＜最適経路探索手段２７＞
最適経路探索手段２７は、全ての対訳候補が書き込まれた対訳侯補テーブル２４を参照し、それぞれの日本語句と該日本語句の対訳に関し、確率値Ｐ（Ｅ｜Ｊ）を取得する。また言語モデル記憶部２２を参照して、対訳中の連続する２つの単語（ここでは英単語）の出現確率である確率値Ｐ（Ｅ）を取得する。最終的には全ての日本語単語が１度ずつ翻訳され、かつＰ（Ｅ｜Ｊ）＊Ｐ（Ｅ）が最大になる組み合わせを求める。但し、確率値Ｐ（Ｅ｜Ｊ）としては、前述したように、各辞書由来の確率値に重みを付けた確率値、即ち
Ｐ（Ｅ｜Ｊ）＝λｋ・Ｐｋ（Ｅ｜Ｊ）＋λｎｅ・Ｐｎｅ（Ｅ｜Ｊ）
＋λｓ・Ｐｓ（Ｅ｜Ｊ）＋λｈ・Ｐｈ（Ｅ｜Ｊ）
を用いて処理し、最終的に、例えば「ＮｉｐｐｏｎＴｅｌｅｇｒａｐｈａｎｄＴｅｌｅｐｈｏｎｅＷｅｓｔＣｏｒｐｏｒａｔｉｏｎ（ＮＴＴＷｅｓｔ）ｓｕｂｍｉｔｔｅｄｉｔｓｂｕｓｉｎｅｓｓｏｐｅｒａｔｉｏｎｐｌａｎ１Ｍａｙ．」を翻訳結果として出力する。

＜重み計算・テーブル更新手段３１＞
重み計算・テーブル更新手段３１は、予め各辞書毎の重みを計算する。この処理手段では、既に説明してきた固有表現抽出部１０及び句翻訳デコーダ２０の各部と誤り最小学習法（非特許文献２参照）を利用して、ある一定のデータセットを使って最適の重みを決定する。

誤り最小学習法は、本明細書で実施するような複数の確率モデルで構成される確率値を計算する際に、各確率モデルの最適な重みを求めるものである。ここでの複数の確率モデルとは、前述した辞書毎の翻訳モデル（確率値）Ｐｋ（Ｅ｜Ｊ）、Ｐｎｅ（Ｅ｜Ｊ）、Ｐｓ（Ｅ｜Ｊ）、Ｐｈ（Ｅ｜Ｊ）を指し、各確率モデルの重みはλｋ、λｎｅ、λｓ、λｈである。

本手法では、予め重みを求めるためのデータセットを用意する。ここでのデータセットとは、入力文（ここでは日本語文）とこれに対応する正解の翻訳文（ここでは英語文）である。各確率モデルの重みの初期値をλｋ０、λｎｅ０、λｓ０、λｈ０と設定しておき、本発明の翻訳装置、つまり固有表現抽出部１０及び句翻訳デコーダ２０の各部を用いて入力文Ｊｉを翻訳する。ここで、翻訳結果は最適経路探索手段２７で確率値最大のものから上位Ｎ個までの翻訳結果、即ちＮｂｅｓｔ翻訳結果Ｅｉ１，Ｅｉ２，……ＥｉＮを得て、（図中、破線で示した）所定のメモリに一時記憶される。

ここで、メモリに一時記憶された各翻訳結果Ｎｂｅｓｔと別途入力された正解の翻訳文とを比較し、翻訳精度を計算するが、例えば機械翻訳の精度として一般的に用いられるＢＬＥＵを用いる。ＢＬＥＵとは、翻訳結果中の単語ｎｇｒａｍが正解の翻訳文と一致する割合をｎ＝１〜４について相乗平均したもので、１に近づくほど精度が良いことを示している（単語ｎｇｒａｍとは連続するｎ個の単語列である。）。

翻訳結果ＮｂｅｓｔにおけるＢＬＥＵを計算し、ＢＬＥＵの値が大きい候補が上位に来るよう重みを初期値λｋ０、λｎｅ０、λｓ０、λｈ０から少しずつ変えて重み付けテーブル２３を更新していき、辞書別重み付け処理及び最適経路探索処理を繰り返し、翻訳結果Ｎｂｅｓｔにおける順位の変動が止まったところで終了する。その時の重みの値が最終的な値となり、この値を用いて実際の翻訳処理、つまり正解の翻訳文が無い翻訳処理を行う。

以上の構成により、複数の辞書を有する句翻訳デコーダ２０が、それぞれの辞書から由来する翻訳確率を辞書別重み付けにより妥当な確率値に変換して利用することができ、複数の辞書資源を活用してより精度の高い翻訳処理を実現できる。この重み付けは、重み計算部３０により最適の値を設定する。翻訳モデル群は、既存の基本辞書、新語辞書、別途作成した固有表現対訳辞書、数値類の変換規則など、様々な構成にすることができる。

特に本発明では、固有表現抽出部１０にて予め固有表現を抽出できるため、別途、対訳固有表現抽出装置で生成した固有表現対訳辞書を利用して、本来、未知語になり易い固有表現の翻訳を精度良く行うことができる。

なお、本発明の翻訳装置は、前述した各構成部分に対応する回路（ハードウェア）によって実現可能であるが、周知のコンピュータに、記録媒体や通信回線を介してプログラムをインストールすることによっても実現される。

本発明の翻訳装置の実施の形態の一例を示す構成図本発明の翻訳装置における翻訳処理の流れ図辞書別の重みを計算する際の処理の流れ図入力文とこれに対応する固有表現抽出済み文の一例を示す説明図固有表現対訳辞書の一例を示す説明図対訳候補テーブルの一例を示す説明図

符号の説明

１０：固有表現抽出部、１１：固有表現抽出手段、２０：句翻訳デコーダ、２１：翻訳モデル群記憶部、２２：言語モデル記憶部、２３：重み付けテーブル、２４：対訳候補テーブル、２５：句対訳候補列挙手段、２６：辞書別重み付け手段、２７：最適経路探索手段、３０：重み計算部、３１：重み計算・テーブル更新手段。

Claims

第１の言語で記述された入力文を第２の言語に翻訳する装置であって、
第１の言語における固有表現句に対応する第２の言語の対訳句をその確率値とともに多数記述した固有表現対訳辞書を少なくとも含む複数の翻訳辞書を記憶した翻訳モデル群記憶部と、
第２の言語において連続する２つの単語の出現確率値を多数記憶した言語モデル記憶部と、
前記複数の翻訳辞書毎の重みを記憶した重み付けテーブルと、
入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成する固有表現抽出手段と、
固有表現抽出済み文を構成する各々の句に対応する句対訳候補を言語モデル記憶部から検索し、当該句対訳候補及びその確率値を対訳侯補テーブルに記録する句対訳侯補列挙手段と、
重み付けテーブルを参照して、対訳侯補テーブルに記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付ける辞書別重み付け手段と、
対訳侯補テーブルに記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部から取得した当該組み合わせにおける連続する２つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する最適経路探索手段とを備えた
ことを特徴とする翻訳装置。
最適経路探索手段による翻訳結果と別途入力された正解の翻訳文とを比較して翻訳精度を計算し、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し、重み付けテーブルを更新する重み計算・テーブル更新手段を備えた
ことを特徴とする請求項１記載の翻訳装置。
コンピュータを用いて第１の言語で記述された入力文を第２の言語に翻訳する方法であって、
コンピュータは、第１の言語における固有表現句に対応する第２の言語の対訳句をその確率値とともに多数記述した固有表現対訳辞書を少なくとも含む複数の翻訳辞書を記憶した翻訳モデル群記憶部と、第２の言語において連続する２つの単語の出現確率値を多数記憶した言語モデル記憶部と、前記複数の翻訳辞書毎の重みを記憶した重み付けテーブルとを備え、
前記コンピュータが、
入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成するステップと、
固有表現抽出済み文を構成する各々の句に対応する句対訳候補を言語モデル記憶部から検索し、当該句対訳候補及びその確率値を対訳侯補テーブルに記録するステップと、
重み付けテーブルを参照して、対訳侯補テーブルに記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付けるステップと、
対訳侯補テーブルに記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部から取得した当該組み合わせにおける連続する２つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力するステップとを行う
ことを特徴とする翻訳方法。
翻訳結果と別途入力された正解の翻訳文とを比較して翻訳精度を計算し、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し、重み付けテーブルを更新するステップを含む
ことを特徴とする請求項３記載の翻訳方法。
コンピュータに第１の言語で記述された入力文を第２の言語に翻訳させるプログラムであって、
第１の言語における固有表現句に対応する第２の言語の対訳句をその確率値とともに多数記述した固有表現対訳辞書を少なくとも含む複数の翻訳辞書を記憶した翻訳モデル群記憶部と、第２の言語において連続する２つの単語の出現確率値を多数記憶した言語モデル記憶部と、前記複数の翻訳辞書毎の重みを記憶した重み付けテーブルとを備えたコンピュータに、
入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成するステップと、
固有表現抽出済み文を構成する各々の句に対応する句対訳候補を言語モデル記憶部から検索し、当該句対訳候補及びその確率値を対訳侯補テーブルに記録するステップと、
重み付けテーブルを参照して、対訳侯補テーブルに記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付けるステップと、
対訳侯補テーブルに記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部から取得した当該組み合わせにおける連続する２つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力するステップとを実行させる
ことを特徴とする翻訳プログラム。
翻訳結果と別途入力された正解の翻訳文とを比較して翻訳精度を計算し、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し、重み付けテーブルを更新するステップを含む
ことを特徴とする請求項５記載の翻訳プログラム。