JP5302784B2

JP5302784B2 - 機械翻訳方法、及びシステム

Info

Publication number: JP5302784B2
Application number: JP2009135784A
Authority: JP
Inventors: 浩彦佐川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2009-06-05
Filing date: 2009-06-05
Publication date: 2013-10-02
Anticipated expiration: 2029-06-05
Also published as: JP2010282453A

Description

本発明は，機械翻訳システムに係わり，特に，対応付けされた原言語文と目標言語文の集合である対訳コーパスから学習された統計的情報に基づいて，原言語文を目標言語文に翻訳する統計翻訳技術に関する。

原言語(翻訳対象となる入力文の言語)の文(原言語文)を目標言語(翻訳結果の言語)の文(目標言語文)に翻訳を行う機械翻訳技術としては，
・原言語の文法規則に基づいて，原言語文の構文構造を解析し，目標言語の構文構造に変換した後，目標言語文を生成する変換方式，
・原言語文を中間言語による表現に変換した後，中間言語から目標言語文を生成する中間言語方式，
・原言語と目標言語との対訳例(用例)を多数用意し，原言語文に類似する用例を模倣して翻訳を行う用例に基づく方式
等が提案されている。しかし，これらの方式では，原言語文があらかじめ用意された文法規則や変換規則，用例にマッチする場合でなければ精度の良い翻訳結果を得ることができない，という問題点があった(非特許文献１)。

このため特許文献１，非特許文献１〜３にあるような，情報理論に基づく統計モデルを利用した統計翻訳技術が，近年，機械翻訳の主流となりつつあり，非特許文献２にあるように，専門家でなくとも容易に統計翻訳を実現できるツール類も公開されている。統計翻訳技術では，対応付けされた原言語文と目標言語文の集合である対訳コーパスから翻訳モデルと言語モデルを学習する。ここで，翻訳モデルは原言語の単語あるいはフレーズから目標言語の単語あるいはフレーズへの変換を行うための統計モデル，言語モデルは目標言語における単語の並び方を決定するための統計モデルである。統計翻訳技術では，入力された原言語文にこれらのモデルを適用した結果得られる確率が最も高くなる単語列の組み合わせを翻訳結果として出力する。

上記の変換方式，中間言語方式，用例に基づく方式では，表現上の揺らぎや翻訳対象とする文の分野等に基づく情報を，あらかじめ規則や用例として明示的にシステムに登録しておく必要があったが，統計翻訳技術によると，対訳コーパスから自動的にモデルとして取り込み，柔軟な翻訳を行うことが可能となる。

特開２００８−１０２７９４号公報

田中穂積監修，"自然言語処理 -基礎と応用-"，(社)電子情報通信学会，1999年 Philipp Koehn，Hieu Hoang，Alexandra Birch，Chris Callison-Burch，Marcello Federico，Nicola Bertoldi，Brooke Cowan，Wade Shen，Christine Moran，Richard Zens，Chris Dyer，Ondrej Bojar，Alexandra Constantin，Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. Annual Meeting of the Association for Computational Linguistics (ACL)，demonstration session，Prague，Czech Republic，June 2007. 渡辺，今村，隅田，奥乃，"階層的句アラインメントを用いた統計的機械翻訳"，電子情報通信学会論文誌 D-II，Vol. J87-D-II，No.4，pp.978-986，2004年

上記の統計翻訳技術では，大規模な対訳コーパスを用意することにより，柔軟な翻訳が行えると共に，翻訳精度を向上することが可能となる。しかしながら，新たな単語を追加する場合，該当する単語を含む大量の対訳例を用意すると共に，再度翻訳モデルおよび言語モデルの学習をやり直す必要があった。これは，統計翻訳技術が文法規則や単語辞書の利用を前提としていない技術であるためである。

一般に，精度の高い統計翻訳システムを実現するためには，１００万文以上というような大規模な対訳コーパスを使用することになるため，小規模な対訳例や単語の追加であっても翻訳モデルおよび言語モデルの更新に長い時間を要することになり，翻訳システムのメンテナンスの観点からは大きな問題となる。上述した変換方式，中間言語方式および用例に基づく方式では，単語辞書に新たな単語を登録するだけでそれに対応した翻訳結果を得ることができるため，翻訳システムのメンテナンスの観点からは，統計翻訳技術より優れている。

従来の統計翻訳技術においては，特許文献１のように，対訳関係にあるフレーズを判断するための評価値を導入すると共に，フレーズのマージを階層的に行うことにより，フレーズ間の対応付けを行う技術や，非特許文献２のように，構文規則に基づいてフレーズ間の対応付けを求めると共に，フレーズをチャンクとして翻訳モデルの学習に組み入れる技術等，対訳例間の詳細な対応付けを行うことにより，翻訳精度の高いモデルを学習する技術が提案されている。しかしながら，翻訳システムのメンテナンスの観点から，新規の情報に対して柔軟に対応できる技術は，統計翻訳技術においては提案されていない。

本発明の目的は，柔軟で精度の高い統計翻訳技術の特徴を維持しつつ，新規の情報に対して拡張容易な統計翻訳技術を実現することにある。

以上の問題を解決し，精度の高い翻訳結果を得るとともに，新規の情報に対しても拡張容易な統計翻訳技術を実現するため，本発明では，まず，翻訳モデルおよび言語モデルの学習時に，対訳例中に含まれる既知の単語の箇所を変数に置き換える処理を行う。このためには，原言語の単語と目標言語の単語の対応関係を含む単語辞書を用意し，対訳コーパス中の原言語文およびそれの対訳文である目標言語文について，単語辞書に登録されている単語を検索する。原言語文に含まれる単語の対訳語が目標言語文にも含まれている場合，原言語文および目標言語文における該当する単語の箇所を変数に置き換える。ある原言語文および目標言語文について，変数への置き換えを行う箇所が複数箇所存在する場合は，それぞれの箇所について，該当する箇所のみを変数に置き換えた原言語文および目標言語文の組を生成する。対訳コーパス中の全ての文に対して同様の処理を行うことにより，単語辞書に登録されている単語の箇所を変数に置き換えた対訳コーパスを生成する。生成された対訳コーパスに対して，統計翻訳技術において翻訳モデルおよび言語モデルを学習する通常の処理を行う。この結果生成された翻訳モデルおよび言語モデルを翻訳処理に使用する。

翻訳処理を行う際には，まず，翻訳対象となる原言語の入力文から単語辞書に登録されている単語を検索し，入力文中における該当する単語の箇所を全て変数に置き換える。変数への置き換えを行った後の入力文に対して，統計翻訳技術における通常の翻訳処理を行う。次に，翻訳結果として出力された文中に含まれる変数の箇所と入力文中の変数の箇所との対応関係に基づいて，翻訳結果に含まれる変数に対応する原言語の単語を同定し，さらに，同定された原言語の単語に対応する目標言語の単語を単語辞書から取得する。そして，翻訳結果中の該当する変数を取得した目標言語の単語で置き換えることにより，最終的な翻訳結果を生成する。

また，対訳コーパス中の文に対して変数への置き換え処理を行う際には，変数に置き換えられた原言語の単語および目標言語の単語に関する情報やその共起関係に関する情報を別途記録し，翻訳の際にそれらの情報を使用することにより，変数に対応する目標言語の単語の選択を行う。

対訳コーパス中における原言語文および目標言語文において，単語辞書にあらかじめ登録されている単語の箇所を変数として置き換えた対訳コーパスを生成し，生成した対訳コーパスを用いて翻訳モデルおよび言語モデルを学習することにより，特定の単語に依存しない柔軟なモデルを生成することが可能となる。また，新規の単語が追加された場合，単語辞書に追加登録するのみで，新たな翻訳モデルおよび言語モデルの更新を行わなくても統計翻訳技術の柔軟性を損なわずに，新規の単語に対応した翻訳処理を実現することが可能となる。

第一の実施例における機械翻訳システムの構成を示す概念ブロック図である。第一の実施例における機械翻訳システムを計算機上で実現した場合の構成図である。第一の実施例に係わる、対訳コーパスに格納される内容の一例を表す図である。第一の実施例に係わる、対訳単語辞書に格納される内容の一例を表す図である。第一の実施例に係わる、コーパス内単語検索部における処理の流れを示す図である。第一の実施例に係わる、対訳コーパス中の単語を変数化する処理の様子を示す図である。第一の実施例に係わる、コーパス内変数化部における処理の流れを示す図である。第一の実施例に係わる、変数化対訳コーパスの内容の一例を示す図である。第一の実施例に係わる、入力文内単語検索部における処理の流れを示す図である。第一の実施例に係わる、入力文中の単語を変数化する処理および翻訳結果中の変数を単語に置き換える処理の様子を示す図である。第一の実施例に係わる、入力文内変数化部における処理の流れを示す図である。第一の実施例に係わる、変数置換部における処理の流れを示す図である。第二の実施例における機械翻訳システムの構成を示す概念ブロック図である。第二の実施例に係わる、共起情報を含む対訳単語辞書に格納される内容の一例を表す図である。第二の実施例に係わる、対訳コーパス中から共起情報として抽出される情報を示す図である。第三の実施例における機械翻訳システムの画面の一例を示す図である。第三の実施例に係わる、対訳単語辞書に原言語の単語および目標言語の単語を新規に登録するための画面の一例を示す図である。第三の実施例に係わる、対訳単語辞書に新規の単語が追加された様子を示す図である。第三の実施例に係わる、対訳単語辞書への新規の単語を登録した後，再度翻訳処理を実行した結果を示す図である。

以下、本発明の各実施例を図面に従い説明する。なお、本明細書において、情報処理装置におけるプログラムを、「手段」、「部」あるいは「機能」等と表現する場合がある。例えば、変数置換プログラムを「変数置換手段」、「変数置換部」、あるいは「変数置換機能」等で表現する。

第一の実施例を図１から図１２を用いて説明する。

図１は第一の実施例による機械翻訳システムの構成を示す概念ブロック図である。図１において，１０１は原言語(翻訳対象である入力文の言語)の文(原言語文)と目標言語(翻訳結果の言語)の文(目標言語文)，およびそれらの対応関係を記録した対訳コーパスである。コーパス内単語検索部１０２は，対訳コーパス中の各原言語文およびその対訳である目標言語文において，対訳単語辞書１０３中に登録されている単語の検索を行い，対訳単語辞書１０３中の原言語の単語ならびにそれに対応する目標言語の単語が，原言語文および目標言語文に含まれているかを判定する。対訳単語辞書１０３は，原言語の単語，目標言語の単語，およびそれらの対応関係を記録した単語辞書である。コーパス内変数化部１０４は，辞書内単語検索部１０２の検索結果に基づいて，対訳コーパス中の原言語文および目標言語文における該当する単語の箇所を変数に置き換えた対訳コーパスである変数化対訳コーパス１０５を生成し、これを登録する。なお、この登録は対訳コーパス１０１中、或いはそれとは別個の領域に記録しても良い。

統計モデル学習部１０６は，統計翻訳技術において使用される翻訳モデル１０７および言語モデル１０８を変数化対訳コーパス１０５から統計的な手段を用いて、学習し，生成する。ここで，翻訳モデル１０７は，原言語の単語あるいはフレーズから目標言語の単語あるいはフレーズへの変換を行う場合の統計モデル，言語モデル１０８は，目標言語における単語の並び方に関する統計モデルであり，統計翻訳技術で一般的に使用される形式のモデルを使用することができる。また，各モデルを生成する統計モデル学習部１０６で行われる処理も，統計翻訳技術で一般的に使用される方式であれば，特に制限は無い。

入力文１０９は，翻訳対象である原言語文である。入力文内単語検索部１１０は，コーパス内単語検索部１０２と同様に，対象となる入力文中から対訳単語辞書１０３に登録されている単語を検索し，文中の該当箇所を同定する処理を行う。ただし，コーパス内単語検索部１０２では原言語文および目標言語文に対して処理を行っていたが，入力文内単語検索部１１０では，入力文である原言語文に対してのみ処理を行う。入力文内変数化部１１１は，入力文内単語検索部１１０の検索結果に基づいて，入力文中の該当する単語の箇所を変数に置き換えた入力文である変数化入力文１１２を生成する。統計翻訳部１１３は，翻訳モデル１０７および言語モデル１０８に基づいて，統計的な手段により、変数化入力文１１２に対して翻訳処理を行う。統計翻訳部１１３における翻訳処理としては，統計翻訳技術で一般的に使用されている技術であれば，特に制限は無い。

統計モデル学習部１０６および統計翻訳部１１３の処理方式，翻訳モデル１０７および言語モデル１０８の形式としては，例えば，Philipp Koehn，Hieu Hoang，Alexandra Birch，Chris Callison-Burch，Marcello Federico，Nicola Bertoldi，Brooke Cowan，Wade Shen，Christine Moran，Richard Zens，Chris Dyer，Ondrej Bojar，Alexandra Constantin，Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. Annual Meeting of the Association for Computational Linguistics (ACL)，demonstration session，Prague，Czech Republic，June 2007にある技術を使用することにより，容易に実現することができる。

変数置換部１１４は，統計翻訳部１１３から出力される翻訳結果中における変数と，入力文１０９および変数化入力文１１２中における単語および変数との対応関係に基づき，翻訳結果中における変数を該当する入力文中の単語に対応する目標言語の単語で置き換えることにより，最終的な翻訳結果を生成する。

図２は本実施例による機械翻訳システムを一般的に使用される計算機上で実現した場合の構成図である。図２における２０１は，機械翻訳処理に必要な各種のプログラムを実行するための情報処理装置である。２０２は，図１における対訳コーパス１０１に登録する原言語文や目標言語文，および入力文１０９を入力するための入力装置であり，入力される文が文字列の場合はキーボード，音声の場合はマイクおよび音声認識装置を用いることができる。表示装置２０３は，翻訳結果１１５を出力するための出力装置であり，モニタやスピーカを使用することができる。なお、入力装置２０２と表示装置２０３はタッチパネル等を用いた入出力装置を用いて構成しても良い。

２０４は，機械翻訳に必要な各種のプログラムや処理の途中経過に関する情報を格納するための記憶装置である。２０５は図１におけるコーパス内単語検索部１０２に対応する処理を行うためのコーパス内単語検索プログラム，２０６は図１におけるコーパス内変数化部１０４に対応する処理を行うためのコーパス内変数化プログラム，２０７は図１における統計モデル学習部１０６に対応する処理を行うための統計モデル学習プログラム，２０８は図１における入力文内単語検索部１１０に対応する処理を行うための入力文内単語検索プログラム，２０９は図１における入力文内変数化部１１１に対応する処理を行うための入力文内変数化プログラム，２１０は図１における統計翻訳部１１３に対応する処理を行うための統計翻訳プログラム，２１１は図１における変数置換部１１４に対応する処理を行うための変数置換プログラムである。

また，図２における対訳コーパス２１２は図１における対訳コーパス１０１に，対訳単語辞書２１３は図１における対訳単語辞書１０３に，翻訳モデル２１４は図１における翻訳モデル１０７に，言語モデル２１５は図１における言語モデル１０８にそれぞれ対応する。

図３を用いて，対訳コーパス１０１に格納される内容について説明する。対訳コーパス１０１には，原言語文とその翻訳結果である目標言語文が，対応付けられた形で記録されている。図３は，原言語を日本語，目標言語を英語と想定した場合の対訳コーパスの例を示している。なお，簡単のため，以後の例においても，原言語を日本語，目標言語を英語として例を示す。図３において，３０１で示される列には，原言語文である日本語文が登録されており，３０２で示される列には，目標言語文である英語文が登録されている。そして，図３における各行に，原言語文と目標言語文が対応付けられた形で登録される。例えば，３０３で示される行には，日本語文「トイレはどこですか？」と，その翻訳結果である英語文「Where’s the restroom?」が対応付けられた文として登録されている。図３における他の行についても同様である。

図３は，文単位での対応関係のみが対訳コーパス中に登録されている場合の例であるが，統計モデル学習部１０６が単語あるいはフレーズ単位での対応関係に関する情報にも対応している場合は，単語あるいはフレーズ単位での対応関係に関する情報も対訳コーパス中に登録するようにしても良い。これを行うには，日本語文および英語文を単語単位に分割し，対応する単語あるいはフレーズの番号を埋め込むことにより実現することができる。

例えば，図３における３０３で示される行の場合，単語に分割した日本語文および英語文は以下のようになる。
日本語文：「トイレはどこですか？」
英語文：「Where ’s the restroom ?」
このような単語への分割処理は，自然言語処理の分野においてよく知られた形態素解析技術を使用することにより容易に実現することができる。さらに，ここでは，英語文中に日本語文中の単語への対応関係を記述すると想定すると，英語文は，
英語文：「Where{3} ’s{4，5} the restroom{1，2} ?{6}」
のように記述することができる。ここで，「{}」で括られた数値は，日本語文中における単語の範囲を最初の単語を1として記述したものである。

また，上記の例では，該当する「{}」で示される範囲に対して，直前の「}」までの範囲にある英語の単語あるいはフレーズが対応するものとして示されている。例えば，「the restroom」に対しては，日本語文中の１番目と２番目の単語で表されるフレーズ「トイレは」が対応していることを示している。上記は，単語あるいはフレーズの対応関係の記述方法を分かり易く説明するための一例であり，実際には，統計モデル学習部１０６で使用される技術で利用可能な記述方法を使用することができる。

図４を用いて，対訳単語辞書１０３に格納される内容について説明する。対訳単語辞書１０３では，原言語と目標言語における単語あるいはフレーズの一対一の対応関係を登録する。図４に対訳単語辞書の一例を示す。図４において，４０１で示される列には原言語である日本語の単語が，４０２で示される列には目標言語である英語の単語が記述されている。そして，図４における各行に，原言語の単語あるいはフレーズと，目標言語の単語あるいはフレーズが対応付けられた形で登録される。例えば，４０３で示される行には，日本語の単語「出口」と，英語の単語「exit」が対応付けられた単語として登録されている。図４における他の行についても同様である。

図５および図６を用いて，コーパス内単語検索部１０２の処理について説明する。なお，対訳コーパスは図３，対訳単語辞書は図４に示した例を想定して説明を行う。図５のフローチャートに，コーパス内単語検索部１０２における処理の流れを示す。図５におけるステップ５０１では，対訳コーパスに登録されている全ての文に対して処理が行われたかどうかをチェックし，全ての文に対して処理が行われていた場合は処理を終了し，そうでない場合はステップ５０２に進む。ステップ５０２では，対訳コーパス中から，処理されていない原言語文と目標言語文の組を一つ選択する。

以下では，図６における６０１で示される日本語文６０２と英語文６０３が，それぞれ選択された原言語文と目標言語文として説明を行う。ステップ５０３では，選択した原言語文と目標言語文を単語に分割し単語列とする。なお，原言語文および目標言語文が単語に分割された形で対訳コーパス中に登録されている場合には，ステップ５０３は不要である。ステップ５０４では，原言語文中の全ての単語について，ステップ５０５からステップ５０８までの処理が行われたかどうかをチェックし，全ての単語について処理が行われていればステップ５０１に戻り，そうでなければステップ５０５に進む。

ステップ５０５では，原言語文中で処理が行われていない単語を一つ選択する。原言語文の先頭の単語から処理を行うと想定した場合，ステップ５０５により，図６の６０４に示すように，まず，日本語の単語「トイレ」６０５が選択されることになる。次にステップ５０６では，選択した原言語文中の単語に対応する目標言語の単語を対訳単語辞書から検索する。対訳単語辞書が図４に示したものであるとすると，「トイレ」が登録されている４０４の箇所が選択され，「トイレ」に対応する目標言語の単語「restroom」が検索結果として得られる。ステップ５０７では，選択した原言語文中の単語に対応する目標言語の単語が見つかったかどうかをチェックし，目標言語の単語が見つからなかった場合はステップ５０４に戻り，原言語文中の次の単語についての処理に進む。そうでなければステップ５０８に進む。

ステップ５０８では，検索された目標言語の単語が目標言語文中に含まれているかどうかを確認する。図６の６０６では，目標言語の単語である「restroom」６０７が，原言語文中の単語「トイレ」に対応する目標言語の単語として検出された様子を示している。目標言語の単語が目標言語文中に含まれていない場合は，ステップ５０９においてステップ５０４に戻り，原言語文中の次の単語についての処理に進む。そうでなければ，ステップ５１０において，選択された原言語文中の単語の位置と，それに対応する目標言語の単語の目標言語文中における位置を記録し，ステップ５０４に戻る。

次に，図７のフローチャートを用いて，コーパス内変数化部１０４の処理について説明する。図７におけるステップ７０１では，対訳コーパスに登録されている全ての文に対して処理が行われたかどうかをチェックし，全ての文に対して処理が行われていた場合は処理を終了し，そうでない場合はステップ７０２に進む。ステップ７０２では，対訳コーパス中から処理されていない原言語文と目標言語文の組を一つ選択する。ステップ７０３では，選択した原言語文と目標言語文の組に対応した単語の位置情報を取得する。ここで取得する位置情報は，図５のステップ５１０において記録した原言語文と目標言語文中における単語の位置に関する情報である。

さらにステップ７０４では，取得した位置に対応する原言語文中の単語および目標言語文中の単語を変数に置き換えた文を生成する。図６の例においては，６０８に示すように，対応する単語と判断された原言語文中の単語「トイレ」および目標言語文中の単語「restroom」の箇所が，変数「Ｘ」(６０９および６１０)に置き換えられた文が生成されることになる。最後に，ステップ７０５では，新たに生成した原言語文および目標言語文を対訳コーパスに追加し，ステップ７０１に戻る。なお，図６では，変数として「Ｘ」という記号を使用しているが，原言語および目標言語の単語と区別できる記号であれば，どのような記号でも使用することができる。

以上のコーパス内単語検索部１０２およびコーパス内変数化部１０４の処理を図３に示す対訳コーパスに適用した結果の一例を図８に示す。図８において，８０１，８０３，８０５，８０６および８０８は，図３に登録されていた原言語文および目標言語文の組であり，８０２，８０４，８０７および８０９は，対訳単語辞書に登録されている単語の箇所を変数に置き換えて生成された原言語文および目標言語文である。なお，８０５で示す文には図４に示す対訳単語辞書に登録されている単語が含まれていないため，変数への置き換え処理を行った文は生成されていない。

また，図８に示す例では，変数に置き換え可能な単語の位置は一箇所の文のみが示されているが，変数への置き換えが複数箇所可能な文も多く存在する。例えば，対訳コーパスに以下のような文が登録されているとする。
日本語文：「これはショッピングセンターに行く道ですか。」
英語文：「Is this a road to the shopping mall ?」
さらに，対訳単語辞書には，「ショッピング」と「shopping」の対応，および「道」と「road」の対応が登録されているとすると，上記の文で変数に置き換え可能な箇所は日本語文中の「ショッピング」と「道」，英語文中の「shopping」と「road」の箇所となり，それぞれ２箇所ずつ存在する。このような場合，置き換え可能な単語の箇所を全て変数に置き換えた原言語文および目標言語文を生成し，変数化対訳コーパス１０５に登録することができる。

この場合，上記の文例より，
日本語文：「これはＸセンターに行くＸですか。」
英語文：「Is this a X to the X mall?」
というような２箇所を変数化した原言語文および目標言語文が生成され，変数化対訳コーパス１０５に登録されることになる。あるいは，単語の対応関係をより正確にするため置き換え可能な箇所各々について，該当する箇所のみを変数に置き換えた原言語文および目標言語文を生成し，変数化対訳コーパス１０５に登録するようにしても良い。

この場合は，上記の文例より，
日本語文：「これはＸセンターに行く道ですか。」
英語文：「Is this a X to the road mall?」
および
日本語文：「これはショッピングセンターに行くＸですか。」
英語文：「Is this a shopping to the X mall?」
というように，変数化可能な箇所を一箇所ずつ変数化した文が２種類生成され，これらが変数化対訳コーパス１０５に登録されることになる。

さらに，以上の例では，変数を表す記号として，全て「Ｘ」という記号を用いていたが，置き換えられる単語の種類、例えば品詞の違いに基づいて，異なる記号Ｙなどを用いるようにしても良い。

図９のフローチャートを用いて，入力文内単語検索部１１０の処理について説明する。入力文内単語検索部１１０では，まず，図９のステップ９０１において，入力文を単語に分割し単語列とする。入力文を単語へ分割する処理は，自然言語処理の分野においてよく知られた形態素解析技術を使用することにより，容易に実現することができる。なお，入力文が単語に分割された形で入力される場合には，ステップ９０１は不要である。ステップ９０２では，入力文中の全ての単語について，ステップ９０３からステップ９０６までの処理が行われたかどうかをチェックし，全ての単語について処理が行われていれば処理を終了し，そうでなければステップ９０３に進む。ステップ９０３では，入力文中で処理が行われていない単語を一つ選択する。

入力文が図１０の１００１に示す内容であり，入力文の先頭の単語から処理を行うと想定した場合，ステップ９０３により，図１０の１００２に示すように，単語「トイレ」１００３が選択されることになる。次にステップ９０４では，対訳単語辞書を検索し，選択した入力文中の単語が対訳単語辞書に登録されているかどうかをチェックする。入力文中の単語が対訳単語辞書に登録されていた場合は，ステップ９０５においてステップ９０６に進み，そうでなければステップ９０２に戻る。対訳単語辞書が図４に示したものであるとすると，「トイレ」が４０４の箇所に登録されているため，ステップ９０６に進むこととなる。ステップ９０６では，選択した入力文中の単語の位置を記録し，ステップ９０２に戻る。

次に，図１１のフローチャートを用いて，入力文内変数化部１１１の処理について説明する。図１１におけるステップ１１０１では，入力文に対応した単語の位置情報を取得する。ここで取得する位置情報は，図９のステップ９０６において記録した入力文中における単語の位置に関する情報である。さらにステップ１１０２では，取得した位置に対応する入力文中の単語を変数に置き換えた変数化入力文を生成する。図１０の例においては，１００４に示すように，選択された入力文中の単語「トイレ」１００３が変数「Ｘ」１００５に置き換えられた文が変数化入力文として生成されることになる。なお，図１０では，変数として「Ｘ」という記号を使用しているが，入力文中の他の単語と区別できる記号であれば，どのような記号でも使用することができる。また，置き換えられる単語の品詞などの種類に基づいて，異なる記号を用いるようにしても良い。

図１の入力文内変数化部１１１から出力される変数化入力文は，統計翻訳部１１３に入力され，翻訳処理が行われる。本実施例では，変数への置き換えを行った変数化対訳コーパスを用いて翻訳モデルおよび言語モデルの学習を行うため，１００６中の「Ｘ」１００７のように，統計翻訳部１１３の出力にも変数が含まれる。このため，変数置換部１１４では，統計翻訳部１１３の出力に含まれる変数を具体的な単語に置き換える処理を行い，その結果を最終的な翻訳結果として出力する。

図１２のフローチャートを用いて，変数置換部１１４の処理について説明する。変数置換部１１４では，まず，ステップ１２０１において，統計翻訳部１１３からの翻訳結果中の全ての変数について処理を行ったかどうかをチェックし，全ての変数について処理が完了していれば，変数置換部１１４の処理を終了する。そうでなければ，ステップ１２０２に進む。ステップ１２０２では，統計翻訳部１１３からの翻訳結果から変数を一つ選択する。

翻訳結果が図１０の１００６の場合，「Ｘ」１００７が選択されることになる。Philipp Koehn，Hieu Hoang，Alexandra Birch，Chris Callison-Burch，Marcello Federico，Nicola Bertoldi，Brooke Cowan，Wade Shen，Christine Moran，Richard Zens，Chris Dyer，Ondrej Bojar，Alexandra Constantin，Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. Annual Meeting of the Association for Computational Linguistics (ACL)，demonstration session，Prague，Czech Republic，June 2007にあるような技術によれば，翻訳結果における単語あるいはフレーズと，それらに対する入力文中の対応箇所に関する情報を翻訳結果に含めることが容易に実現できる。

そこで，ここでは，翻訳結果中の単語あるいはフレーズとそれに対応する入力文中の対応箇所が，統計翻訳部１１３から出力される翻訳結果に含まれていることを前提とする。ステップ１２０３では，ステップ１２０２において選択された翻訳結果中の変数に対応する変数化入力文中の変数を検索する。この検索処理は，翻訳結果中に変数化入力文との対応箇所が含まれているとすれば，選択された変数が含まれる翻訳結果中の箇所に対応する変数化入力文中の箇所を取得し，その中に変数が含まれるかどうかを検索することにより，容易に行うことができる。

ステップ１２０４では，選択した翻訳結果中の変数に対応する変数化入力文中の変数が無い場合は，ステップ１２０５において該当する翻訳結果中の変数を空白に置き換え，ステップ１２０１に戻る。あるいは，空白では無く，入力文中に対応する語が存在しないことを示す任意の記号を使用しても良い。また，変数化入力文中に対応する変数があった場合はステップ１２０６に進む。ステップ１２０６では，変数化入力文中の該当する変数の箇所に存在した原言語の単語を取得する。これは，入力文内変数化部１１１において，入力文中の単語を変数に置き換える際に，単語と変数の位置に関する情報を記録しておけば，容易に実現することができる。

さらにステップ１２０７では，取得した原言語の単語に対する目標言語の単語を対訳単語辞書から検索する。最後にステップ１２０８において，取得した目標言語の単語によって該当する翻訳結果中の変数を置き換え，ステップ１２０１に戻る。例えば図１０に示す例では，１００６において変数「Ｘ」１００７が選択されており，それに対応する変数化入力文中の変数「Ｘ」１００５が対応する変数として検索される。変数「Ｘ」１００５に対応する原言語の単語は「トイレ」１００３であり，「トイレ」の目標言語での単語「restroom」が図４の対訳単語辞書から検索され，１００８に示すように，変数「Ｘ」１００７が「restroom」１００９に置き換えられることになる。

第二の実施例を図１３から図１５を用いて説明する。

図１３は，第二の実施例による機械翻訳システムの構成を示す概念ブロック図である。図１３における構成要素と，図１に示す第一の実施例における構成要素との違いは，コーパス依存対訳単語辞書１３０１のみであり，他の構成要素は全く同じである。

第二の実施例においては，コーパス内変数化部１３０２において，対訳コーパス中の原言語文および目標言語文に含まれる単語を変数に置き換える際，すなわち，図７のステップ７０４の処理を行う際に，変数に置き換えた原言語の単語と目標言語の単語の組をコーパス依存対訳単語辞書１３０１中に登録する。コーパス依存対訳単語辞書１３０１に登録される内容は，図４に示す対訳単語辞書と同じ形式で記述することができる。

コーパス依存対訳単語辞書１３０１に登録された内容は，入力文を翻訳する際に，変数置換部１３０３において使用される。変数置換部１３０３に第一の実施例における処理を適用した場合，図１２のステップ１２０７において，対訳単語辞書１３０４から，原言語の単語に対応する目標言語の単語を検索することになる。一方，第二の実施例では，まず，コーパス依存対訳単語辞書１３０１から，対象となる原言語の単語に対応する目標言語の単語を検索する。対象となる原言語の単語に対応する目標言語の単語が，コーパス依存対訳単語辞書１３０１中で見つからなかった場合は，対訳単語辞書１３０４から目標言語の単語を検索する。

通常，原言語の単語に対する目標言語の単語は複数存在する場合が多い。対訳コーパス中の単語を変数に置き換える際に，置き換えの対象となる原言語の単語と目標言語の単語の対応関係をコーパス依存対訳単語辞書として記録しておき，変数を具体的な単語に置き換える際にコーパス依存対訳単語辞書を優先的に使用して，原言語の単語に対応する目標言語の単語を選択することにより，対訳コーパスの内容に依存して使用される傾向の高い目標言語の単語を適切に選択することが可能となる。

コーパス依存対訳単語辞書１３０１に登録される情報としては，変数への置き換えの対象となった原言語の単語と目標言語の単語の組だけでなく，それらの周囲に存在する単語を共起情報として記録するようにしても良い。例えば，対象となっている単語の前後Ｎ語以内(Ｎは１以上の整数であり，あらかじめ定められる値)に出現する単語を全て登録するようにすることができる。この時，前方に出現する単語，後方に出現する単語を別々に記録するようにしても良いし，区別せずに記録するようにしても良い。また，同じ原言語の単語と目標言語の単語の組に対して，前後Ｎ語以内に出現する単語を対訳コーパス中で集計し，頻度を表す数値，あるいは頻度から算出した確率値等の数値である統計情報を合わせて登録するようにしても良い。さらには，頻度や確率値があらかじめ定められた閾値より大きい単語のみや，頻度や確率値が上位Ｍ位以内(Ｍは１以上の整数であり，あらかじめ定められる値)の単語のみを登録することもできる。共起情報として登録する単語の種類としては，原言語の単語または目標言語の単語のみ，あるいは，両方の単語を登録しても良い。また，名詞や動詞等，特定種類の品詞のみを選択的に登録するようにしても良い。

図１４に，本実施例における共起情報を含むコーパス依存対訳単語辞書の一例を示す。図１４において，１４０１および１４０２の列には，図４に示す対訳単語辞書と同様に，原言語の単語および目標言語の単語がそれぞれ登録される。なお，ここでも，原言語を日本語，目標言語を英語と想定して説明を行う。図１４において１４０３には対象となる単語の前方に出現する単語に関する共起情報が，１４０４には対象となる単語の後方に出現する単語に関する共起情報が記載されている。図１４では，目標言語である英語の単語に関する共起情報のみを登録すると想定している。また，共起情報の記述フォーマットは，「単語名(Ｎ)」という記述になっているが，Ｎはここでは対訳コーパス中に現れる頻度を表すと想定している。

図１４に登録されている共起情報の登録方法を，図１５に示す対訳コーパスに基づいて説明する。ここで共起情報は，対象とする単語の前後１語の範囲に出現する単語のみに着目して求めることとする。また，対象とする単語は，日本語単語は「スキー」，それに対応する英語単語は「ski」および「skiing」である。まず，対象とする単語の前方に存在する単語としては，図１５において一重の下線で記された単語となり，これらの単語が共起情報としてコーパス依存対訳単語辞書に登録される。すなわち，「ski」については１５０２および１５０３に含まれている「rent」が，「skiing」については１５０１の「a」および１５０４の「night」が前方の共起情報として登録される。また，「rent」はコーパス中に２回出現しているため，「２」が頻度情報として登録されることになり，それ以外の単語は頻度が「１」となる。これらの結果が図１４の１４０３に示されている。対象とする単語の後方に存在する単語としては，図１５において二重の下線で記された単語となり，同様の考え方により，図１４の１４０４に示されている内容となる。

変数置換部１３０３において，原言語の単語に対応する目標言語の単語をコーパス依存対訳単語辞書１３０１から選択する際には，入力文あるいはその翻訳結果中において，対象とする変数の前後にある単語とコーパス依存対訳単語辞書１３０１中の共起情報との比較を行い，一致する単語数が多いものを選択すれば良い。また，共起情報に頻度や確率値等の数値が付加されている場合は，それらの数値を重み値として用いた一致度を定義することができる。例えば，対象とする変数の周囲に出現している単語をWxi(i=1，2，…，n)，共起情報として登録されている単語をWcj(j=1，2，…，m)，Wcjの頻度をFcjとすれば，一致度Ｅは（式１）により計算することができる。

ここでD(x，y)は，xとyが一致していれば１，不一致であれば０を返す関数である。（式１）に示した計算式は一例であり，入力文あるいは翻訳結果中の単語と共起情報中の単語が一致しているかどうかに基づいて計算を行う式であれば，特に制限は無い。

入力文が「ナイトスキーはありますか？」であり，統計翻訳部からの出力が「Is night X available?」であったとする。この場合，図１４の共起情報を元に（式１）を適用すると，原言語の単語「スキー」に対応する目標言語の単語「ski」については，変数「Ｘ」の前方および後方に出現している単語についての一致度Ｅはいずれも０となる。一方，「skiing」については，前方に出現している単語に対する評価値が１(「night」の一致)，後方に出現している単語に対しては０となる。この結果，変数「Ｘ」と置き換えられる目標言語の単語としては，一致度のより大きい「skiing」が選択され，「Is night skiing available?」が変数置換部１３０３より出力される。

なお，以上の説明は，コーパス依存対訳単語辞書にのみ，共起情報を登録した場合の説明であるが，同様の考え方で，対訳単語辞書にも共起情報を登録し，原言語の単語に対応する目標言語の単語を選択する際に使用できることは，言うまでもない。

第三の実施例を図１６から図１９を用いて説明する。

第三の実施例における機械翻訳システムで行われる処理は，第一あるいは第二の実施例のいずれによるものでも良い。第三の実施例では，入力文の入力，翻訳結果の表示および対訳単語辞書の更新をＧＵＩ(グラフィカル・ユーザ・インタフェース)等を利用し，ユーザがシステムとインタラクティブに翻訳処理を行うことを可能とする。

図１６に，第三の実施例における機械翻訳システムの画面例を示す。なお、この画面例は図２のシステム構成における表示装置２０３等の表示部の表示画面である。図１６において，１６０１は原言語の入力文を行うための入力欄である。ユーザはキーボードやマイク等の入力装置２０２を用いて，入力文を入力することができる。１６０２は，機械翻訳システムに，入力文の翻訳処理を実行することを指示するためのボタンである。ユーザがこのボタンをマウスのクリック等により操作すると，機械翻訳システムは入力文を読み込み，実施例１あるいは実施例２で説明した翻訳処理を実行する。１６０３は，新規の単語を対訳単語辞書に登録するための画面を表示するためのボタンである。新規の単語の登録方法については後述する。

１６０４の列には，それまでにユーザが入力し，翻訳処理を行った入力文の一覧が表示される。１６０５には，１６０４に表示されているそれぞれの入力文に対する翻訳結果が表示される。さらに，１６０６や１６０７は，それぞれの入力文に対する翻訳処理を再度実行することを指示するためのボタンであり，対訳単語辞書に新規の単語を登録した後等，機械翻訳システムの状態が更新された場合に使用することができる。これを実現するための，機械翻訳システムは，ユーザが入力した入力文の内容を記憶装置に格納しておく。

新規の単語登録のため、１６０３のボタンをユーザが操作すると，図１７に示すような画面が表示装置２０３に表示される。図１７において，１７０１は，原言語である日本語の単語を入力するための入力欄，１７０２は，目標言語である英語の単語を入力するための入力欄である。ユーザは，キーボードやマイク等の入力装置２０２を用いて，各単語を入力することができる。１７０３は，入力した単語を対訳単語辞書１０３や１３０４に登録することを機械翻訳システムに指示するためのボタンであり，ユーザがこのボタンをマウスのクリック等により操作すると，機械翻訳システムはユーザが入力した単語を読み込み，対訳単語辞書に追加する。

例えば，図１６において，入力文「バス乗り場はどこですか。」１６０８に対する翻訳結果は「Where can I get a X?」となっている。なお，Xは対訳単語辞書に登録されていない単語があることを示す記号であるとする。ここで，ユーザがボタン１６０３を操作し，図１７に示す表示装置２０３の画面により，日本語単語「バス」，英語単語「bus」を登録すると，図４に示す対訳単語辞書にはユーザが入力した「バス」および「bus」が図１８の１８０１のように追加される。ここで，ユーザが再翻訳ボタン１６０７により再翻訳処理を機械翻訳システムに指示すると，対訳単語辞書の内容は，登録されると即，翻訳処理に反映されることにより，図１９の１９０１に示すように，日本語単語「バス」に対応する英語単語「bus」を使用した適切な翻訳結果を表示することができる。

本発明は，機械翻訳システム，特に，対応付けされた原言語文と目標言語文の集合である対訳コーパスから学習された統計的情報に基づいて，原言語文を目標言語文に翻訳する統計翻訳技術として有用である。

１０１…対訳コーパス
１０２…コーパス内単語検索部
１０３…対訳単語辞書
１０４…コーパス内変数化部
１０５…変数化対訳コーパス
１０６…統計モデル学習部
１０７…翻訳モデル
１０８…言語モデル
１０９…入力文
１１０…入力文内単語検索部
１１１…入力文内変数化部
１１２…変数化入力文
１１３…統計翻訳部
１１４…変数置換部
１１５…翻訳結果
１３０１…コーパス依存対訳単語辞書。

Claims

処理部と記憶部とを備え、翻訳処理の対象となる原言語文を目標言語文に翻訳する機械翻訳方法であって、
前記記憶部に、
原言語の単語と目標言語の単語との対応関係を記録した対訳単語辞書と、
対応関係にある原言語文と目標言語文の複数の組からなる対訳コーパスであって、前記対訳単語辞書中で対応関係にある単語が前記対訳コーパス中で対応関係にある原語文と目標言語文の双方に含まれている場合に、該当する前記原言語文と目標言語文の組に対して、該当する前記単語の箇所を変数に置き換えた結果である変数化対訳コーパスにより学習した，原言語の単語から目標言語の単語への変換を行うための統計モデルである翻訳モデルと，
前記変数化対訳コーパス中の目標言語文から学習した，目標言語における単語の並び方に関する統計モデルである言語モデルを格納しておき，
前記処理部は、
前記入力文中に含まれる単語の内，前記対訳単語辞書に登録されている単語の箇所を変数に置き換えた変数化入力文を生成し、
前記翻訳モデルと前記言語モデルを用いて，統計的な手段により、前記変数化入力文を目標言語文に翻訳し，
前記翻訳の結果中に含まれる変数を目標言語の単語に置き換えて，最終翻訳結果として出力する、
ことを特徴とする機械翻訳方法。
請求項１記載の機械翻訳方法であって，
前記記憶部に前記対訳コーパスを格納しておき，
前記処理部は、
前記対訳単語辞書中で対応関係にある単語が、前記対訳コーパス中で対応関係にある原言語文と目標言語文の双方に含まれている場合，該当する原言語文と目標言語文の組に対して，該当する単語の箇所を変数に置き換えた結果である変数化対訳コーパスを生成し，
前記変数化対訳コーパスから前記翻訳モデルと前記言語モデルを生成する、
ことを特徴とする機械翻訳方法。
請求項１記載の機械翻訳方法であって，
前記処理部は、
前記変数化入力文を生成する際，変数に置き換え可能な箇所が複数存在する場合，該当する全ての箇所を変数に置き換えた入力文を前記変数化入力文として生成する、
ことを特徴とする機械翻訳方法。
請求項２記載の機械翻訳方法であって，
前記処理部は，
前記対訳単語辞書中で対応関係にある原言語の単語および目標言語の単語であり，且つ，前記対訳コーパス中の原言語文と目標言語文の組において一対一に対応付けが可能な単語のみを変数に置き換えることにより前記変数化対訳コーパスを生成する、
ことを特徴とする機械翻訳方法。
請求項２記載の機械翻訳方法であって、
前記処理部は、
前記変数化対訳コーパスを生成する際，
前記対訳コーパス中の原言語文と目標言語文の組において，変数に置き換え可能な箇所が複数存在する場合，変数に置き換え可能な箇所各々について，該当する一箇所のみを変数に置き換えた原言語文と目標言語文の組を生成する，
ことを特徴とする機械翻訳方法。
請求項１記載の機械翻訳方法であって，
前記処理部は、
前記変数化入力文を生成する際，
置き換えられる単語の種類毎に異なった記号を変数として使用する、
ことを特徴とする機械翻訳方法。
請求項２記載の機械翻訳方法であって，
前記処理部は、
前記変数化対訳コーパスを生成する際，
置き換えられる単語の種類毎に異なった記号を変数として使用する、
ことを特徴とする機械翻訳方法。
請求項２記載の機械翻訳方法であって，
前記記憶部は、
前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係をコーパス依存対訳単語辞書として記憶しており，
前記処理部は、
前記変数化対訳コーパスを生成する際、変数への置き換えを行った原言語の単語と目標言語の単語の組を前記コーパス依存対訳単語辞書に登録する、
ことを特徴とする機械翻訳方法。
請求項８記載の機械翻訳方法であって，
前記処理部は、
前記コーパス依存対訳単語辞書への登録を行う際，
変数に置き換えられた原言語の単語と目標言語の単語の組とともに，前記対訳コーパスにおける該当する単語の周囲に存在する単語を共起情報として記録する、
ことを特徴とする機械翻訳方法。
請求項９記載の機械翻訳方法であって，
前記コーパス依存対訳単語辞書に記録される前記共起情報に，該当する単語の周囲に存在する単語に加えて，当該単語が前記対訳コーパス中で現れる頻度や確率値等の統計情報も合わせて記録する、
ことを特徴とする機械翻訳方法。
請求項１記載の機械翻訳方法であって，
前記処理部は，
前記入力文，前記変数化入力文および前記変数化入力文が翻訳された目標言語文における単語および変数の対応関係に基づいて，前記変数化入力文が翻訳された目標言語文中における変数に対応する原言語の単語を同定し，
同定した原言語の単語に対応する目標言語の単語を前記対訳単語辞書から検索し，
前記変数化入力文が翻訳された目標言語文中における変数を、検索された当該目標言語の単語により置き換え，その結果を前記最終翻訳結果として出力する、ことを特徴とする機械翻訳方法。
処理部と記憶部とを備え、翻訳処理の対象となる原言語文を目標言語文に翻訳する機械翻訳方法であって、
前記記憶部に、
原言語の単語と目標言語の単語との対応関係を記録した対訳単語辞書と、
対応関係にある原言語文と目標言語文の複数の組からなる対訳コーパスであって、前記対訳単語辞書中で対応関係にある単語が前記対訳コーパス中で対応関係にある原語文と目標言語文の双方に含まれている場合に、該当する前記原言語文と目標言語文の組に対して、該当する前記単語の箇所を変数に置き換えた結果である変数化対訳コーパスより学習した，原言語の単語から目標言語の単語への変換を行うための統計モデルである翻訳モデルと，
前記変数化対訳コーパス中の目標言語文から学習した，目標言語における単語の並び方に関する統計モデルである言語モデルと、
前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係を記録したコーパス依存対訳単語辞書とを格納しておき，
前記処理部は、
前記入力文中に含まれる単語の内，前記対訳単語辞書に登録されている単語の箇所を変数に置き換えた変数化入力文を生成し、
前記翻訳モデルと前記言語モデルを用いて，前記変数化入力文を目標言語文に翻訳し，
前記入力文，前記変数化入力文および前記変数化入力文を翻訳した目標言語文における単語および変数の対応関係に基づいて，前記変数化入力文を翻訳した目標言語文中における変数に対応する原言語の単語を同定し，
同定した原言語の単語に対応する目標言語の単語を前記コーパス依存対訳単語辞書から取得し，取得した目標言語の単語で、前記変数化入力文を翻訳した目標言語文中における変数を置き換え，その結果を最終翻訳結果として出力し，
同定した原言語の単語に対応する目標言語の単語が前記コーパス依存対訳単語辞書から取得できなかった場合は，前記対訳単語辞書を検索することにより目標言語の単語を取得し，取得した目標言語の単語で、前記変数化入力文を翻訳した目標言語文中における変数を置き換え，その結果を最終翻訳結果として出力する、
ことを特徴とする機械翻訳方法。
請求項１２記載の機械翻訳方法であって，
前記コーパス依存対訳単語辞書には，前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係とともに，該当する単語の周囲に存在する単語を共起情報として記録しておき，
前記処理部は，
前記コーパス依存対訳単語辞書の内容を検索することにより，同定した原言語の単語に対応する目標言語の単語とその共起情報を候補として取得し，
取得した各候補に対する共起情報と，変数の周囲に存在している単語との比較を行い，
一致する単語の数が最も多い候補に対応する目標言語の単語により，前記変数化入力文が翻訳された目標言語文中に含まれる変数を置き換える、
ことを特徴とする機械翻訳方法。
請求項１３記載の機械翻訳方法であって，
前記コーパス依存対訳単語辞書には，前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係とともに，該当する単語の周囲に存在する単語と，それらの単語が対訳コーパス中で現れる頻度や確率値等の統計情報を共起情報として記録し，
前記処理部は，
前記コーパス依存対訳単語辞書の内容を検索することにより，同定した原言語の単語に対応する目標言語の単語とその共起情報を候補として取得し，
取得した各候補に対する共起情報と，変数の周囲に存在している単語との比較を行い，一致した単語に関する共起情報中の前記統計情報に基づく一致度を算出し，
前記一致度が最も大きい候補に対応する目標言語の単語により，前記変数化入力文が翻訳された目標言語文中に含まれる変数を置き換える、
ことを特徴とする機械翻訳方法。
翻訳処理の対象となる原言語文を目標言語文に翻訳する機械翻訳システムであって、
原言語文である入力文を処理する処理部と、記憶部とを備え、
前記記憶部に、
原言語の単語と目標言語の単語との対応関係を記録した対訳単語辞書と、
対応関係にある原言語文と目標言語文の複数の組からなる対訳コーパスであって、前記対訳単語辞書中で対応関係にある単語が前記対訳コーパス中で対応関係にある原語文と目標言語文の双方に含まれている場合に、該当する前記原言語文と目標言語文の組に対して、該当する前記単語の箇所を変数に置き換えた結果である変数化対訳コーパスより学習した，原言語の単語から目標言語の単語への変換を行うための統計モデルである翻訳モデルと，
前記変数化対訳コーパス中の目標言語文から学習した，目標言語における単語の並び方に関する統計モデルである言語モデルを格納し，
前記処理部は、
前記入力文中に含まれる単語の内，前記対訳単語辞書に登録されている単語の箇所を変数に置き換えた変数化入力文を生成する入力文内変数化部と、
前記翻訳モデルと前記言語モデルを用いて，前記変数化入力文を目標言語文に翻訳して出力する統計翻訳部と，
前記統計翻訳部からの出力中に含まれる変数を目標言語の単語に置き換え，その結果を最終翻訳結果として出力する変数置換部とを備える、
ことを特徴とする機械翻訳システム。
請求項１５記載の機械翻訳システムであって，
前記記憶部に、
対訳関係にある原言語文と目標言語文の複数の組からなら対訳コーパスを格納し，
前記処理部は、
前記対訳単語辞書中で対応関係にある単語が前記対訳コーパス中で対応関係にある原言語文と目標言語文の双方に含まれている場合，該当する原言語文と目標言語文の組に対して，該当する単語の箇所を変数に置き換えた結果である変数化対訳コーパスを生成するコーパス内変数化部と，
前記変数化対訳コーパスから前記翻訳モデルと前記言語モデルを生成する統計モデル学習部と，
を更に備えることを特徴とする機械翻訳システム。
請求項１６記載の機械翻訳システムであって，
前記コーパス内変数化部は，
前記対訳単語辞書中で対応関係にある原言語の単語および目標言語の単語であり，且つ，前記対訳コーパス中の原言語文と目標言語文の組において一対一に対応付けが可能な単語のみを変数に置き換えることにより前記変数化対訳コーパスを生成する、
ことを特徴とする機械翻訳システム。
請求項１５記載の機械翻訳システムであって，
前記記憶部に、
前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係を示すコーパス依存対訳単語辞書を格納し，
前記変数置換部は，
前記入力文，前記変数化入力文および前記統計翻訳部の出力における単語および変数の対応関係に基づいて，前記統計翻訳部の出力中における変数に対応する原言語の単語を同定し，
同定した原言語の単語に対応する目標言語の単語を前記コーパス依存対訳単語辞書から取得し，取得した目標言語の単語で前記統計翻訳部の出力中における変数を置き換え，前記最終翻訳結果として出力し，
同定した原言語の単語に対応する目標言語の単語が前記コーパス依存対訳単語辞書から取得できなかった場合は，前記対訳単語辞書を検索することにより目標言語の単語を取得し，取得した目標言語の単語で前記統計翻訳部の出力中における変数を置き換え，前記最終翻訳結果として出力する、
ことを特徴とする機械翻訳システム。
請求項１５記載の機械翻訳システムであって，
原言語の単語と目標言語の単語の対応関係を対訳単語辞書に新規に登録するための入力部を更に備える、
ことを特徴とする機械翻訳システム。
請求項１９記載の機械翻訳システムであって，
既に翻訳を行った入力文に対して，再度翻訳処理を実行し，その結果を表示する表示部を更に備える、
ことを特徴とする機械翻訳システム。