JP5302784B2 - 機械翻訳方法、及びシステム - Google Patents

機械翻訳方法、及びシステム Download PDF

Info

Publication number
JP5302784B2
JP5302784B2 JP2009135784A JP2009135784A JP5302784B2 JP 5302784 B2 JP5302784 B2 JP 5302784B2 JP 2009135784 A JP2009135784 A JP 2009135784A JP 2009135784 A JP2009135784 A JP 2009135784A JP 5302784 B2 JP5302784 B2 JP 5302784B2
Authority
JP
Japan
Prior art keywords
word
sentence
bilingual
variable
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009135784A
Other languages
English (en)
Other versions
JP2010282453A (ja
Inventor
浩彦 佐川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009135784A priority Critical patent/JP5302784B2/ja
Publication of JP2010282453A publication Critical patent/JP2010282453A/ja
Application granted granted Critical
Publication of JP5302784B2 publication Critical patent/JP5302784B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は,機械翻訳システムに係わり,特に,対応付けされた原言語文と目標言語文の集合である対訳コーパスから学習された統計的情報に基づいて,原言語文を目標言語文に翻訳する統計翻訳技術に関する。
原言語(翻訳対象となる入力文の言語)の文(原言語文)を目標言語(翻訳結果の言語)の文(目標言語文)に翻訳を行う機械翻訳技術としては,
・原言語の文法規則に基づいて,原言語文の構文構造を解析し,目標言語の構文構造に変換した後,目標言語文を生成する変換方式,
・原言語文を中間言語による表現に変換した後,中間言語から目標言語文を生成する中間言語方式,
・原言語と目標言語との対訳例(用例)を多数用意し,原言語文に類似する用例を模倣して翻訳を行う用例に基づく方式
等が提案されている。しかし,これらの方式では,原言語文があらかじめ用意された文法規則や変換規則,用例にマッチする場合でなければ精度の良い翻訳結果を得ることができない,という問題点があった(非特許文献1)。
このため特許文献1,非特許文献1〜3にあるような,情報理論に基づく統計モデルを利用した統計翻訳技術が,近年,機械翻訳の主流となりつつあり,非特許文献2にあるように,専門家でなくとも容易に統計翻訳を実現できるツール類も公開されている。統計翻訳技術では,対応付けされた原言語文と目標言語文の集合である対訳コーパスから翻訳モデルと言語モデルを学習する。ここで,翻訳モデルは原言語の単語あるいはフレーズから目標言語の単語あるいはフレーズへの変換を行うための統計モデル,言語モデルは目標言語における単語の並び方を決定するための統計モデルである。統計翻訳技術では,入力された原言語文にこれらのモデルを適用した結果得られる確率が最も高くなる単語列の組み合わせを翻訳結果として出力する。
上記の変換方式,中間言語方式,用例に基づく方式では,表現上の揺らぎや翻訳対象とする文の分野等に基づく情報を,あらかじめ規則や用例として明示的にシステムに登録しておく必要があったが,統計翻訳技術によると,対訳コーパスから自動的にモデルとして取り込み,柔軟な翻訳を行うことが可能となる。
特開2008−102794号公報
田中穂積監修,"自然言語処理 -基礎と応用-",(社)電子情報通信学会,1999年 Philipp Koehn,Hieu Hoang,Alexandra Birch,Chris Callison-Burch,Marcello Federico,Nicola Bertoldi,Brooke Cowan,Wade Shen,Christine Moran,Richard Zens,Chris Dyer,Ondrej Bojar,Alexandra Constantin,Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. Annual Meeting of the Association for Computational Linguistics (ACL),demonstration session,Prague,Czech Republic,June 2007. 渡辺,今村,隅田,奥乃,"階層的句アラインメントを用いた統計的機械翻訳",電子情報通信学会論文誌 D-II,Vol. J87-D-II,No.4,pp.978-986,2004年
上記の統計翻訳技術では,大規模な対訳コーパスを用意することにより,柔軟な翻訳が行えると共に,翻訳精度を向上することが可能となる。しかしながら,新たな単語を追加する場合,該当する単語を含む大量の対訳例を用意すると共に,再度翻訳モデルおよび言語モデルの学習をやり直す必要があった。これは,統計翻訳技術が文法規則や単語辞書の利用を前提としていない技術であるためである。
一般に,精度の高い統計翻訳システムを実現するためには,100万文以上というような大規模な対訳コーパスを使用することになるため,小規模な対訳例や単語の追加であっても翻訳モデルおよび言語モデルの更新に長い時間を要することになり,翻訳システムのメンテナンスの観点からは大きな問題となる。上述した変換方式,中間言語方式および用例に基づく方式では,単語辞書に新たな単語を登録するだけでそれに対応した翻訳結果を得ることができるため,翻訳システムのメンテナンスの観点からは,統計翻訳技術より優れている。
従来の統計翻訳技術においては,特許文献1のように,対訳関係にあるフレーズを判断するための評価値を導入すると共に,フレーズのマージを階層的に行うことにより,フレーズ間の対応付けを行う技術や,非特許文献2のように,構文規則に基づいてフレーズ間の対応付けを求めると共に,フレーズをチャンクとして翻訳モデルの学習に組み入れる技術等,対訳例間の詳細な対応付けを行うことにより,翻訳精度の高いモデルを学習する技術が提案されている。しかしながら,翻訳システムのメンテナンスの観点から,新規の情報に対して柔軟に対応できる技術は,統計翻訳技術においては提案されていない。
本発明の目的は,柔軟で精度の高い統計翻訳技術の特徴を維持しつつ,新規の情報に対して拡張容易な統計翻訳技術を実現することにある。
以上の問題を解決し,精度の高い翻訳結果を得るとともに,新規の情報に対しても拡張容易な統計翻訳技術を実現するため,本発明では,まず,翻訳モデルおよび言語モデルの学習時に,対訳例中に含まれる既知の単語の箇所を変数に置き換える処理を行う。このためには,原言語の単語と目標言語の単語の対応関係を含む単語辞書を用意し,対訳コーパス中の原言語文およびそれの対訳文である目標言語文について,単語辞書に登録されている単語を検索する。原言語文に含まれる単語の対訳語が目標言語文にも含まれている場合,原言語文および目標言語文における該当する単語の箇所を変数に置き換える。ある原言語文および目標言語文について,変数への置き換えを行う箇所が複数箇所存在する場合は,それぞれの箇所について,該当する箇所のみを変数に置き換えた原言語文および目標言語文の組を生成する。対訳コーパス中の全ての文に対して同様の処理を行うことにより,単語辞書に登録されている単語の箇所を変数に置き換えた対訳コーパスを生成する。生成された対訳コーパスに対して,統計翻訳技術において翻訳モデルおよび言語モデルを学習する通常の処理を行う。この結果生成された翻訳モデルおよび言語モデルを翻訳処理に使用する。
翻訳処理を行う際には,まず,翻訳対象となる原言語の入力文から単語辞書に登録されている単語を検索し,入力文中における該当する単語の箇所を全て変数に置き換える。変数への置き換えを行った後の入力文に対して,統計翻訳技術における通常の翻訳処理を行う。次に,翻訳結果として出力された文中に含まれる変数の箇所と入力文中の変数の箇所との対応関係に基づいて,翻訳結果に含まれる変数に対応する原言語の単語を同定し,さらに,同定された原言語の単語に対応する目標言語の単語を単語辞書から取得する。そして,翻訳結果中の該当する変数を取得した目標言語の単語で置き換えることにより,最終的な翻訳結果を生成する。
また,対訳コーパス中の文に対して変数への置き換え処理を行う際には,変数に置き換えられた原言語の単語および目標言語の単語に関する情報やその共起関係に関する情報を別途記録し,翻訳の際にそれらの情報を使用することにより,変数に対応する目標言語の単語の選択を行う。
対訳コーパス中における原言語文および目標言語文において,単語辞書にあらかじめ登録されている単語の箇所を変数として置き換えた対訳コーパスを生成し,生成した対訳コーパスを用いて翻訳モデルおよび言語モデルを学習することにより,特定の単語に依存しない柔軟なモデルを生成することが可能となる。また,新規の単語が追加された場合,単語辞書に追加登録するのみで,新たな翻訳モデルおよび言語モデルの更新を行わなくても統計翻訳技術の柔軟性を損なわずに,新規の単語に対応した翻訳処理を実現することが可能となる。
第一の実施例における機械翻訳システムの構成を示す概念ブロック図である。 第一の実施例における機械翻訳システムを計算機上で実現した場合の構成図である。 第一の実施例に係わる、対訳コーパスに格納される内容の一例を表す図である。 第一の実施例に係わる、対訳単語辞書に格納される内容の一例を表す図である。 第一の実施例に係わる、コーパス内単語検索部における処理の流れを示す図である。 第一の実施例に係わる、対訳コーパス中の単語を変数化する処理の様子を示す図である。 第一の実施例に係わる、コーパス内変数化部における処理の流れを示す図である。 第一の実施例に係わる、変数化対訳コーパスの内容の一例を示す図である。 第一の実施例に係わる、入力文内単語検索部における処理の流れを示す図である。 第一の実施例に係わる、入力文中の単語を変数化する処理および翻訳結果中の変数を単語に置き換える処理の様子を示す図である。 第一の実施例に係わる、入力文内変数化部における処理の流れを示す図である。 第一の実施例に係わる、変数置換部における処理の流れを示す図である。 第二の実施例における機械翻訳システムの構成を示す概念ブロック図である。 第二の実施例に係わる、共起情報を含む対訳単語辞書に格納される内容の一例を表す図である。 第二の実施例に係わる、対訳コーパス中から共起情報として抽出される情報を示す図である。 第三の実施例における機械翻訳システムの画面の一例を示す図である。 第三の実施例に係わる、対訳単語辞書に原言語の単語および目標言語の単語を新規に登録するための画面の一例を示す図である。 第三の実施例に係わる、対訳単語辞書に新規の単語が追加された様子を示す図である。 第三の実施例に係わる、対訳単語辞書への新規の単語を登録した後,再度翻訳処理を実行した結果を示す図である。
以下、本発明の各実施例を図面に従い説明する。なお、本明細書において、情報処理装置におけるプログラムを、「手段」、「部」あるいは「機能」等と表現する場合がある。例えば、変数置換プログラムを「変数置換手段」、「変数置換部」、あるいは「変数置換機能」等で表現する。
第一の実施例を図1から図12を用いて説明する。
図1は第一の実施例による機械翻訳システムの構成を示す概念ブロック図である。図1において,101は原言語(翻訳対象である入力文の言語)の文(原言語文)と目標言語(翻訳結果の言語)の文(目標言語文),およびそれらの対応関係を記録した対訳コーパスである。コーパス内単語検索部102は,対訳コーパス中の各原言語文およびその対訳である目標言語文において,対訳単語辞書103中に登録されている単語の検索を行い,対訳単語辞書103中の原言語の単語ならびにそれに対応する目標言語の単語が,原言語文および目標言語文に含まれているかを判定する。対訳単語辞書103は,原言語の単語,目標言語の単語,およびそれらの対応関係を記録した単語辞書である。コーパス内変数化部104は,辞書内単語検索部102の検索結果に基づいて,対訳コーパス中の原言語文および目標言語文における該当する単語の箇所を変数に置き換えた対訳コーパスである変数化対訳コーパス105を生成し、これを登録する。なお、この登録は対訳コーパス101中、或いはそれとは別個の領域に記録しても良い。
統計モデル学習部106は,統計翻訳技術において使用される翻訳モデル107および言語モデル108を変数化対訳コーパス105から統計的な手段を用いて、学習し,生成する。ここで,翻訳モデル107は,原言語の単語あるいはフレーズから目標言語の単語あるいはフレーズへの変換を行う場合の統計モデル,言語モデル108は,目標言語における単語の並び方に関する統計モデルであり,統計翻訳技術で一般的に使用される形式のモデルを使用することができる。また,各モデルを生成する統計モデル学習部106で行われる処理も,統計翻訳技術で一般的に使用される方式であれば,特に制限は無い。
入力文109は,翻訳対象である原言語文である。入力文内単語検索部110は,コーパス内単語検索部102と同様に,対象となる入力文中から対訳単語辞書103に登録されている単語を検索し,文中の該当箇所を同定する処理を行う。ただし,コーパス内単語検索部102では原言語文および目標言語文に対して処理を行っていたが,入力文内単語検索部110では,入力文である原言語文に対してのみ処理を行う。入力文内変数化部111は,入力文内単語検索部110の検索結果に基づいて,入力文中の該当する単語の箇所を変数に置き換えた入力文である変数化入力文112を生成する。統計翻訳部113は,翻訳モデル107および言語モデル108に基づいて,統計的な手段により、変数化入力文112に対して翻訳処理を行う。統計翻訳部113における翻訳処理としては,統計翻訳技術で一般的に使用されている技術であれば,特に制限は無い。
統計モデル学習部106および統計翻訳部113の処理方式,翻訳モデル107および言語モデル108の形式としては,例えば,Philipp Koehn,Hieu Hoang,Alexandra Birch,Chris Callison-Burch,Marcello Federico,Nicola Bertoldi,Brooke Cowan,Wade Shen,Christine Moran,Richard Zens,Chris Dyer,Ondrej Bojar,Alexandra Constantin,Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. Annual Meeting of the Association for Computational Linguistics (ACL),demonstration session,Prague,Czech Republic,June 2007にある技術を使用することにより,容易に実現することができる。
変数置換部114は,統計翻訳部113から出力される翻訳結果中における変数と,入力文109および変数化入力文112中における単語および変数との対応関係に基づき,翻訳結果中における変数を該当する入力文中の単語に対応する目標言語の単語で置き換えることにより,最終的な翻訳結果を生成する。
図2は本実施例による機械翻訳システムを一般的に使用される計算機上で実現した場合の構成図である。図2における201は,機械翻訳処理に必要な各種のプログラムを実行するための情報処理装置である。202は,図1における対訳コーパス101に登録する原言語文や目標言語文,および入力文109を入力するための入力装置であり,入力される文が文字列の場合はキーボード,音声の場合はマイクおよび音声認識装置を用いることができる。表示装置203は,翻訳結果115を出力するための出力装置であり,モニタやスピーカを使用することができる。なお、入力装置202と表示装置203はタッチパネル等を用いた入出力装置を用いて構成しても良い。
204は,機械翻訳に必要な各種のプログラムや処理の途中経過に関する情報を格納するための記憶装置である。205は図1におけるコーパス内単語検索部102に対応する処理を行うためのコーパス内単語検索プログラム,206は図1におけるコーパス内変数化部104に対応する処理を行うためのコーパス内変数化プログラム,207は図1における統計モデル学習部106に対応する処理を行うための統計モデル学習プログラム,208は図1における入力文内単語検索部110に対応する処理を行うための入力文内単語検索プログラム,209は図1における入力文内変数化部111に対応する処理を行うための入力文内変数化プログラム,210は図1における統計翻訳部113に対応する処理を行うための統計翻訳プログラム,211は図1における変数置換部114に対応する処理を行うための変数置換プログラムである。
また,図2における対訳コーパス212は図1における対訳コーパス101に,対訳単語辞書213は図1における対訳単語辞書103に,翻訳モデル214は図1における翻訳モデル107に,言語モデル215は図1における言語モデル108にそれぞれ対応する。
図3を用いて,対訳コーパス101に格納される内容について説明する。対訳コーパス101には,原言語文とその翻訳結果である目標言語文が,対応付けられた形で記録されている。図3は,原言語を日本語,目標言語を英語と想定した場合の対訳コーパスの例を示している。なお,簡単のため,以後の例においても,原言語を日本語,目標言語を英語として例を示す。図3において,301で示される列には,原言語文である日本語文が登録されており,302で示される列には,目標言語文である英語文が登録されている。そして,図3における各行に,原言語文と目標言語文が対応付けられた形で登録される。例えば,303で示される行には,日本語文「トイレはどこですか?」と,その翻訳結果である英語文「Where’s the restroom?」が対応付けられた文として登録されている。図3における他の行についても同様である。
図3は,文単位での対応関係のみが対訳コーパス中に登録されている場合の例であるが,統計モデル学習部106が単語あるいはフレーズ単位での対応関係に関する情報にも対応している場合は,単語あるいはフレーズ単位での対応関係に関する情報も対訳コーパス中に登録するようにしても良い。これを行うには,日本語文および英語文を単語単位に分割し,対応する単語あるいはフレーズの番号を埋め込むことにより実現することができる。
例えば,図3における303で示される行の場合,単語に分割した日本語文および英語文は以下のようになる。
日本語文:「トイレ は どこ です か ?」
英語文:「Where ’s the restroom ?」
このような単語への分割処理は,自然言語処理の分野においてよく知られた形態素解析技術を使用することにより容易に実現することができる。さらに,ここでは,英語文中に日本語文中の単語への対応関係を記述すると想定すると,英語文は,
英語文:「Where{3} ’s{4,5} the restroom{1,2} ?{6}」
のように記述することができる。ここで,「{}」で括られた数値は,日本語文中における単語の範囲を最初の単語を1として記述したものである。
また,上記の例では,該当する「{}」で示される範囲に対して,直前の「}」までの範囲にある英語の単語あるいはフレーズが対応するものとして示されている。例えば,「the restroom」に対しては,日本語文中の1番目と2番目の単語で表されるフレーズ「トイレ は」が対応していることを示している。上記は,単語あるいはフレーズの対応関係の記述方法を分かり易く説明するための一例であり,実際には,統計モデル学習部106で使用される技術で利用可能な記述方法を使用することができる。
図4を用いて,対訳単語辞書103に格納される内容について説明する。対訳単語辞書103では,原言語と目標言語における単語あるいはフレーズの一対一の対応関係を登録する。図4に対訳単語辞書の一例を示す。図4において,401で示される列には原言語である日本語の単語が,402で示される列には目標言語である英語の単語が記述されている。そして,図4における各行に,原言語の単語あるいはフレーズと,目標言語の単語あるいはフレーズが対応付けられた形で登録される。例えば,403で示される行には,日本語の単語「出口」と,英語の単語「exit」が対応付けられた単語として登録されている。図4における他の行についても同様である。
図5および図6を用いて,コーパス内単語検索部102の処理について説明する。なお,対訳コーパスは図3,対訳単語辞書は図4に示した例を想定して説明を行う。図5のフローチャートに,コーパス内単語検索部102における処理の流れを示す。図5におけるステップ501では,対訳コーパスに登録されている全ての文に対して処理が行われたかどうかをチェックし,全ての文に対して処理が行われていた場合は処理を終了し,そうでない場合はステップ502に進む。ステップ502では,対訳コーパス中から,処理されていない原言語文と目標言語文の組を一つ選択する。
以下では,図6における601で示される日本語文602と英語文603が,それぞれ選択された原言語文と目標言語文として説明を行う。ステップ503では,選択した原言語文と目標言語文を単語に分割し単語列とする。なお,原言語文および目標言語文が単語に分割された形で対訳コーパス中に登録されている場合には,ステップ503は不要である。ステップ504では,原言語文中の全ての単語について,ステップ505からステップ508までの処理が行われたかどうかをチェックし,全ての単語について処理が行われていればステップ501に戻り,そうでなければステップ505に進む。
ステップ505では,原言語文中で処理が行われていない単語を一つ選択する。原言語文の先頭の単語から処理を行うと想定した場合,ステップ505により,図6の604に示すように,まず,日本語の単語「トイレ」605が選択されることになる。次にステップ506では,選択した原言語文中の単語に対応する目標言語の単語を対訳単語辞書から検索する。対訳単語辞書が図4に示したものであるとすると,「トイレ」が登録されている404の箇所が選択され,「トイレ」に対応する目標言語の単語「restroom」が検索結果として得られる。ステップ507では,選択した原言語文中の単語に対応する目標言語の単語が見つかったかどうかをチェックし,目標言語の単語が見つからなかった場合はステップ504に戻り,原言語文中の次の単語についての処理に進む。そうでなければステップ508に進む。
ステップ508では,検索された目標言語の単語が目標言語文中に含まれているかどうかを確認する。図6の606では,目標言語の単語である「restroom」607が,原言語文中の単語「トイレ」に対応する目標言語の単語として検出された様子を示している。目標言語の単語が目標言語文中に含まれていない場合は,ステップ509においてステップ504に戻り,原言語文中の次の単語についての処理に進む。そうでなければ,ステップ510において,選択された原言語文中の単語の位置と,それに対応する目標言語の単語の目標言語文中における位置を記録し,ステップ504に戻る。
次に,図7のフローチャートを用いて,コーパス内変数化部104の処理について説明する。図7におけるステップ701では,対訳コーパスに登録されている全ての文に対して処理が行われたかどうかをチェックし,全ての文に対して処理が行われていた場合は処理を終了し,そうでない場合はステップ702に進む。ステップ702では,対訳コーパス中から処理されていない原言語文と目標言語文の組を一つ選択する。ステップ703では,選択した原言語文と目標言語文の組に対応した単語の位置情報を取得する。ここで取得する位置情報は,図5のステップ510において記録した原言語文と目標言語文中における単語の位置に関する情報である。
さらにステップ704では,取得した位置に対応する原言語文中の単語および目標言語文中の単語を変数に置き換えた文を生成する。図6の例においては,608に示すように,対応する単語と判断された原言語文中の単語「トイレ」および目標言語文中の単語「restroom」の箇所が,変数「X」(609および610)に置き換えられた文が生成されることになる。最後に,ステップ705では,新たに生成した原言語文および目標言語文を対訳コーパスに追加し,ステップ701に戻る。なお,図6では,変数として「X」という記号を使用しているが,原言語および目標言語の単語と区別できる記号であれば,どのような記号でも使用することができる。
以上のコーパス内単語検索部102およびコーパス内変数化部104の処理を図3に示す対訳コーパスに適用した結果の一例を図8に示す。図8において,801,803,805,806および808は,図3に登録されていた原言語文および目標言語文の組であり,802,804,807および809は,対訳単語辞書に登録されている単語の箇所を変数に置き換えて生成された原言語文および目標言語文である。なお,805で示す文には図4に示す対訳単語辞書に登録されている単語が含まれていないため,変数への置き換え処理を行った文は生成されていない。
また,図8に示す例では,変数に置き換え可能な単語の位置は一箇所の文のみが示されているが,変数への置き換えが複数箇所可能な文も多く存在する。例えば,対訳コーパスに以下のような文が登録されているとする。
日本語文:「これ は ショッピング センター に 行く 道 です か 。」
英語文:「Is this a road to the shopping mall ?」
さらに,対訳単語辞書には,「ショッピング」と「shopping」の対応,および「道」と「road」の対応が登録されているとすると,上記の文で変数に置き換え可能な箇所は日本語文中の「ショッピング」と「道」,英語文中の「shopping」と「road」の箇所となり,それぞれ2箇所ずつ存在する。このような場合,置き換え可能な単語の箇所を全て変数に置き換えた原言語文および目標言語文を生成し,変数化対訳コーパス105に登録することができる。
この場合,上記の文例より,
日本語文:「これ は X センター に 行く X です か 。」
英語文:「Is this a X to the X mall?」
というような2箇所を変数化した原言語文および目標言語文が生成され,変数化対訳コーパス105に登録されることになる。あるいは,単語の対応関係をより正確にするため置き換え可能な箇所各々について,該当する箇所のみを変数に置き換えた原言語文および目標言語文を生成し,変数化対訳コーパス105に登録するようにしても良い。
この場合は,上記の文例より,
日本語文:「これ は X センター に 行く 道 です か 。」
英語文:「Is this a X to the road mall?」
および
日本語文:「これ は ショッピング センター に 行く X です か 。」
英語文:「Is this a shopping to the X mall?」
というように,変数化可能な箇所を一箇所ずつ変数化した文が2種類生成され,これらが変数化対訳コーパス105に登録されることになる。
さらに,以上の例では,変数を表す記号として,全て「X」という記号を用いていたが,置き換えられる単語の種類、例えば品詞の違いに基づいて,異なる記号Yなどを用いるようにしても良い。
図9のフローチャートを用いて,入力文内単語検索部110の処理について説明する。入力文内単語検索部110では,まず,図9のステップ901において,入力文を単語に分割し単語列とする。入力文を単語へ分割する処理は,自然言語処理の分野においてよく知られた形態素解析技術を使用することにより,容易に実現することができる。なお,入力文が単語に分割された形で入力される場合には,ステップ901は不要である。ステップ902では,入力文中の全ての単語について,ステップ903からステップ906までの処理が行われたかどうかをチェックし,全ての単語について処理が行われていれば処理を終了し,そうでなければステップ903に進む。ステップ903では,入力文中で処理が行われていない単語を一つ選択する。
入力文が図10の1001に示す内容であり,入力文の先頭の単語から処理を行うと想定した場合,ステップ903により,図10の1002に示すように,単語「トイレ」1003が選択されることになる。次にステップ904では,対訳単語辞書を検索し,選択した入力文中の単語が対訳単語辞書に登録されているかどうかをチェックする。入力文中の単語が対訳単語辞書に登録されていた場合は,ステップ905においてステップ906に進み,そうでなければステップ902に戻る。対訳単語辞書が図4に示したものであるとすると,「トイレ」が404の箇所に登録されているため,ステップ906に進むこととなる。ステップ906では,選択した入力文中の単語の位置を記録し,ステップ902に戻る。
次に,図11のフローチャートを用いて,入力文内変数化部111の処理について説明する。図11におけるステップ1101では,入力文に対応した単語の位置情報を取得する。ここで取得する位置情報は,図9のステップ906において記録した入力文中における単語の位置に関する情報である。さらにステップ1102では,取得した位置に対応する入力文中の単語を変数に置き換えた変数化入力文を生成する。図10の例においては,1004に示すように,選択された入力文中の単語「トイレ」1003が変数「X」1005に置き換えられた文が変数化入力文として生成されることになる。なお,図10では,変数として「X」という記号を使用しているが,入力文中の他の単語と区別できる記号であれば,どのような記号でも使用することができる。また,置き換えられる単語の品詞などの種類に基づいて,異なる記号を用いるようにしても良い。
図1の入力文内変数化部111から出力される変数化入力文は,統計翻訳部113に入力され,翻訳処理が行われる。本実施例では,変数への置き換えを行った変数化対訳コーパスを用いて翻訳モデルおよび言語モデルの学習を行うため,1006中の「X」1007のように,統計翻訳部113の出力にも変数が含まれる。このため,変数置換部114では,統計翻訳部113の出力に含まれる変数を具体的な単語に置き換える処理を行い,その結果を最終的な翻訳結果として出力する。
図12のフローチャートを用いて,変数置換部114の処理について説明する。変数置換部114では,まず,ステップ1201において,統計翻訳部113からの翻訳結果中の全ての変数について処理を行ったかどうかをチェックし,全ての変数について処理が完了していれば,変数置換部114の処理を終了する。そうでなければ,ステップ1202に進む。ステップ1202では,統計翻訳部113からの翻訳結果から変数を一つ選択する。
翻訳結果が図10の1006の場合,「X」1007が選択されることになる。Philipp Koehn,Hieu Hoang,Alexandra Birch,Chris Callison-Burch,Marcello Federico,Nicola Bertoldi,Brooke Cowan,Wade Shen,Christine Moran,Richard Zens,Chris Dyer,Ondrej Bojar,Alexandra Constantin,Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. Annual Meeting of the Association for Computational Linguistics (ACL),demonstration session,Prague,Czech Republic,June 2007にあるような技術によれば,翻訳結果における単語あるいはフレーズと,それらに対する入力文中の対応箇所に関する情報を翻訳結果に含めることが容易に実現できる。
そこで,ここでは,翻訳結果中の単語あるいはフレーズとそれに対応する入力文中の対応箇所が,統計翻訳部113から出力される翻訳結果に含まれていることを前提とする。ステップ1203では,ステップ1202において選択された翻訳結果中の変数に対応する変数化入力文中の変数を検索する。この検索処理は,翻訳結果中に変数化入力文との対応箇所が含まれているとすれば,選択された変数が含まれる翻訳結果中の箇所に対応する変数化入力文中の箇所を取得し,その中に変数が含まれるかどうかを検索することにより,容易に行うことができる。
ステップ1204では,選択した翻訳結果中の変数に対応する変数化入力文中の変数が無い場合は,ステップ1205において該当する翻訳結果中の変数を空白に置き換え,ステップ1201に戻る。あるいは,空白では無く,入力文中に対応する語が存在しないことを示す任意の記号を使用しても良い。また,変数化入力文中に対応する変数があった場合はステップ1206に進む。ステップ1206では,変数化入力文中の該当する変数の箇所に存在した原言語の単語を取得する。これは,入力文内変数化部111において,入力文中の単語を変数に置き換える際に,単語と変数の位置に関する情報を記録しておけば,容易に実現することができる。
さらにステップ1207では,取得した原言語の単語に対する目標言語の単語を対訳単語辞書から検索する。最後にステップ1208において,取得した目標言語の単語によって該当する翻訳結果中の変数を置き換え,ステップ1201に戻る。例えば図10に示す例では,1006において変数「X」1007が選択されており,それに対応する変数化入力文中の変数「X」1005が対応する変数として検索される。変数「X」1005に対応する原言語の単語は「トイレ」1003であり,「トイレ」の目標言語での単語「restroom」が図4の対訳単語辞書から検索され,1008に示すように,変数「X」1007が「restroom」1009に置き換えられることになる。
第二の実施例を図13から図15を用いて説明する。
図13は,第二の実施例による機械翻訳システムの構成を示す概念ブロック図である。図13における構成要素と,図1に示す第一の実施例における構成要素との違いは,コーパス依存対訳単語辞書1301のみであり,他の構成要素は全く同じである。
第二の実施例においては,コーパス内変数化部1302において,対訳コーパス中の原言語文および目標言語文に含まれる単語を変数に置き換える際,すなわち,図7のステップ704の処理を行う際に,変数に置き換えた原言語の単語と目標言語の単語の組をコーパス依存対訳単語辞書1301中に登録する。コーパス依存対訳単語辞書1301に登録される内容は,図4に示す対訳単語辞書と同じ形式で記述することができる。
コーパス依存対訳単語辞書1301に登録された内容は,入力文を翻訳する際に,変数置換部1303において使用される。変数置換部1303に第一の実施例における処理を適用した場合,図12のステップ1207において,対訳単語辞書1304から,原言語の単語に対応する目標言語の単語を検索することになる。一方,第二の実施例では,まず,コーパス依存対訳単語辞書1301から,対象となる原言語の単語に対応する目標言語の単語を検索する。対象となる原言語の単語に対応する目標言語の単語が,コーパス依存対訳単語辞書1301中で見つからなかった場合は,対訳単語辞書1304から目標言語の単語を検索する。
通常,原言語の単語に対する目標言語の単語は複数存在する場合が多い。対訳コーパス中の単語を変数に置き換える際に,置き換えの対象となる原言語の単語と目標言語の単語の対応関係をコーパス依存対訳単語辞書として記録しておき,変数を具体的な単語に置き換える際にコーパス依存対訳単語辞書を優先的に使用して,原言語の単語に対応する目標言語の単語を選択することにより,対訳コーパスの内容に依存して使用される傾向の高い目標言語の単語を適切に選択することが可能となる。
コーパス依存対訳単語辞書1301に登録される情報としては,変数への置き換えの対象となった原言語の単語と目標言語の単語の組だけでなく,それらの周囲に存在する単語を共起情報として記録するようにしても良い。例えば,対象となっている単語の前後N語以内(Nは1以上の整数であり,あらかじめ定められる値)に出現する単語を全て登録するようにすることができる。この時,前方に出現する単語,後方に出現する単語を別々に記録するようにしても良いし,区別せずに記録するようにしても良い。また,同じ原言語の単語と目標言語の単語の組に対して,前後N語以内に出現する単語を対訳コーパス中で集計し,頻度を表す数値,あるいは頻度から算出した確率値等の数値である統計情報を合わせて登録するようにしても良い。さらには,頻度や確率値があらかじめ定められた閾値より大きい単語のみや,頻度や確率値が上位M位以内(Mは1以上の整数であり,あらかじめ定められる値)の単語のみを登録することもできる。共起情報として登録する単語の種類としては,原言語の単語または目標言語の単語のみ,あるいは,両方の単語を登録しても良い。また,名詞や動詞等,特定種類の品詞のみを選択的に登録するようにしても良い。
図14に,本実施例における共起情報を含むコーパス依存対訳単語辞書の一例を示す。図14において,1401および1402の列には,図4に示す対訳単語辞書と同様に,原言語の単語および目標言語の単語がそれぞれ登録される。なお,ここでも,原言語を日本語,目標言語を英語と想定して説明を行う。図14において1403には対象となる単語の前方に出現する単語に関する共起情報が,1404には対象となる単語の後方に出現する単語に関する共起情報が記載されている。図14では,目標言語である英語の単語に関する共起情報のみを登録すると想定している。また,共起情報の記述フォーマットは,「単語名(N)」という記述になっているが,Nはここでは対訳コーパス中に現れる頻度を表すと想定している。
図14に登録されている共起情報の登録方法を,図15に示す対訳コーパスに基づいて説明する。ここで共起情報は,対象とする単語の前後1語の範囲に出現する単語のみに着目して求めることとする。また,対象とする単語は,日本語単語は「スキー」,それに対応する英語単語は「ski」および「skiing」である。まず,対象とする単語の前方に存在する単語としては,図15において一重の下線で記された単語となり,これらの単語が共起情報としてコーパス依存対訳単語辞書に登録される。すなわち,「ski」については1502および1503に含まれている「rent」が,「skiing」については1501の「a」および1504の「night」が前方の共起情報として登録される。また,「rent」はコーパス中に2回出現しているため,「2」が頻度情報として登録されることになり,それ以外の単語は頻度が「1」となる。これらの結果が図14の1403に示されている。対象とする単語の後方に存在する単語としては,図15において二重の下線で記された単語となり,同様の考え方により,図14の1404に示されている内容となる。
変数置換部1303において,原言語の単語に対応する目標言語の単語をコーパス依存対訳単語辞書1301から選択する際には,入力文あるいはその翻訳結果中において,対象とする変数の前後にある単語とコーパス依存対訳単語辞書1301中の共起情報との比較を行い,一致する単語数が多いものを選択すれば良い。また,共起情報に頻度や確率値等の数値が付加されている場合は,それらの数値を重み値として用いた一致度を定義することができる。例えば,対象とする変数の周囲に出現している単語をWxi(i=1,2,…,n),共起情報として登録されている単語をWcj(j=1,2,…,m),Wcjの頻度をFcjとすれば,一致度Eは(式1)により計算することができる。
Figure 0005302784
ここでD(x,y)は,xとyが一致していれば1,不一致であれば0を返す関数である。(式1)に示した計算式は一例であり,入力文あるいは翻訳結果中の単語と共起情報中の単語が一致しているかどうかに基づいて計算を行う式であれば,特に制限は無い。
入力文が「ナイトスキーはありますか?」であり,統計翻訳部からの出力が「Is night X available?」であったとする。この場合,図14の共起情報を元に(式1)を適用すると,原言語の単語「スキー」に対応する目標言語の単語「ski」については,変数「X」の前方および後方に出現している単語についての一致度Eはいずれも0となる。一方,「skiing」については,前方に出現している単語に対する評価値が1(「night」の一致),後方に出現している単語に対しては0となる。この結果,変数「X」と置き換えられる目標言語の単語としては,一致度のより大きい「skiing」が選択され,「Is night skiing available?」が変数置換部1303より出力される。
なお,以上の説明は,コーパス依存対訳単語辞書にのみ,共起情報を登録した場合の説明であるが,同様の考え方で,対訳単語辞書にも共起情報を登録し,原言語の単語に対応する目標言語の単語を選択する際に使用できることは,言うまでもない。
第三の実施例を図16から図19を用いて説明する。
第三の実施例における機械翻訳システムで行われる処理は,第一あるいは第二の実施例のいずれによるものでも良い。第三の実施例では,入力文の入力,翻訳結果の表示および対訳単語辞書の更新をGUI(グラフィカル・ユーザ・インタフェース)等を利用し,ユーザがシステムとインタラクティブに翻訳処理を行うことを可能とする。
図16に,第三の実施例における機械翻訳システムの画面例を示す。なお、この画面例は図2のシステム構成における表示装置203等の表示部の表示画面である。図16において,1601は原言語の入力文を行うための入力欄である。ユーザはキーボードやマイク等の入力装置202を用いて,入力文を入力することができる。1602は,機械翻訳システムに,入力文の翻訳処理を実行することを指示するためのボタンである。ユーザがこのボタンをマウスのクリック等により操作すると,機械翻訳システムは入力文を読み込み,実施例1あるいは実施例2で説明した翻訳処理を実行する。1603は,新規の単語を対訳単語辞書に登録するための画面を表示するためのボタンである。新規の単語の登録方法については後述する。
1604の列には,それまでにユーザが入力し,翻訳処理を行った入力文の一覧が表示される。1605には,1604に表示されているそれぞれの入力文に対する翻訳結果が表示される。さらに,1606や1607は,それぞれの入力文に対する翻訳処理を再度実行することを指示するためのボタンであり,対訳単語辞書に新規の単語を登録した後等,機械翻訳システムの状態が更新された場合に使用することができる。これを実現するための,機械翻訳システムは,ユーザが入力した入力文の内容を記憶装置に格納しておく。
新規の単語登録のため、1603のボタンをユーザが操作すると,図17に示すような画面が表示装置203に表示される。図17において,1701は,原言語である日本語の単語を入力するための入力欄,1702は,目標言語である英語の単語を入力するための入力欄である。ユーザは,キーボードやマイク等の入力装置202を用いて,各単語を入力することができる。1703は,入力した単語を対訳単語辞書103や1304に登録することを機械翻訳システムに指示するためのボタンであり,ユーザがこのボタンをマウスのクリック等により操作すると,機械翻訳システムはユーザが入力した単語を読み込み,対訳単語辞書に追加する。
例えば,図16において,入力文「バス乗り場はどこですか。」1608に対する翻訳結果は「Where can I get a X?」となっている。なお,Xは対訳単語辞書に登録されていない単語があることを示す記号であるとする。ここで,ユーザがボタン1603を操作し,図17に示す表示装置203の画面により,日本語単語「バス」,英語単語「bus」を登録すると,図4に示す対訳単語辞書にはユーザが入力した「バス」および「bus」が図18の1801のように追加される。ここで,ユーザが再翻訳ボタン1607により再翻訳処理を機械翻訳システムに指示すると,対訳単語辞書の内容は,登録されると即,翻訳処理に反映されることにより,図19の1901に示すように,日本語単語「バス」に対応する英語単語「bus」を使用した適切な翻訳結果を表示することができる。
本発明は,機械翻訳システム,特に,対応付けされた原言語文と目標言語文の集合である対訳コーパスから学習された統計的情報に基づいて,原言語文を目標言語文に翻訳する統計翻訳技術として有用である。
101…対訳コーパス
102…コーパス内単語検索部
103…対訳単語辞書
104…コーパス内変数化部
105…変数化対訳コーパス
106…統計モデル学習部
107…翻訳モデル
108…言語モデル
109…入力文
110…入力文内単語検索部
111…入力文内変数化部
112…変数化入力文
113…統計翻訳部
114…変数置換部
115…翻訳結果
1301…コーパス依存対訳単語辞書。

Claims (20)

  1. 処理部と記憶部とを備え、翻訳処理の対象となる原言語文を目標言語文に翻訳する機械翻訳方法であって、
    前記記憶部に、
    原言語の単語と目標言語の単語との対応関係を記録した対訳単語辞書と、
    対応関係にある原言語文と目標言語文の複数の組からなる対訳コーパスであって、前記対訳単語辞書中で対応関係にある単語が前記対訳コーパス中で対応関係にある原語文と目標言語文の双方に含まれている場合に、該当する前記原言語文と目標言語文の組に対して、該当する前記単語の箇所を変数に置き換えた結果である変数化対訳コーパスにより学習した,原言語の単語から目標言語の単語への変換を行うための統計モデルである翻訳モデルと,
    前記変数化対訳コーパス中の目標言語文から学習した,目標言語における単語の並び方に関する統計モデルである言語モデルを格納しておき,
    前記処理部は、
    前記入力文中に含まれる単語の内,前記対訳単語辞書に登録されている単語の箇所を変数に置き換えた変数化入力文を生成し、
    前記翻訳モデルと前記言語モデルを用いて,統計的な手段により、前記変数化入力文を目標言語文に翻訳し,
    前記翻訳の結果中に含まれる変数を目標言語の単語に置き換えて,最終翻訳結果として出力する、
    ことを特徴とする機械翻訳方法。
  2. 請求項1記載の機械翻訳方法であって,
    前記記憶部に前記対訳コーパスを格納しておき,
    前記処理部は、
    前記対訳単語辞書中で対応関係にある単語が、前記対訳コーパス中で対応関係にある原言語文と目標言語文の双方に含まれている場合,該当する原言語文と目標言語文の組に対して,該当する単語の箇所を変数に置き換えた結果である変数化対訳コーパスを生成し,
    前記変数化対訳コーパスから前記翻訳モデルと前記言語モデルを生成する、
    ことを特徴とする機械翻訳方法。
  3. 請求項1記載の機械翻訳方法であって,
    前記処理部は、
    前記変数化入力文を生成する際,変数に置き換え可能な箇所が複数存在する場合,該当する全ての箇所を変数に置き換えた入力文を前記変数化入力文として生成する、
    ことを特徴とする機械翻訳方法。
  4. 請求項2記載の機械翻訳方法であって,
    前記処理部は,
    前記対訳単語辞書中で対応関係にある原言語の単語および目標言語の単語であり,且つ,前記対訳コーパス中の原言語文と目標言語文の組において一対一に対応付けが可能な単語のみを変数に置き換えることにより前記変数化対訳コーパスを生成する、
    ことを特徴とする機械翻訳方法。
  5. 請求項2記載の機械翻訳方法であって、
    前記処理部は、
    前記変数化対訳コーパスを生成する際,
    前記対訳コーパス中の原言語文と目標言語文の組において,変数に置き換え可能な箇所が複数存在する場合,変数に置き換え可能な箇所各々について,該当する一箇所のみを変数に置き換えた原言語文と目標言語文の組を生成する,
    ことを特徴とする機械翻訳方法。
  6. 請求項1記載の機械翻訳方法であって,
    前記処理部は、
    前記変数化入力文を生成する際,
    置き換えられる単語の種類毎に異なった記号を変数として使用する、
    ことを特徴とする機械翻訳方法。
  7. 請求項2記載の機械翻訳方法であって,
    前記処理部は、
    前記変数化対訳コーパスを生成する際,
    置き換えられる単語の種類毎に異なった記号を変数として使用する、
    ことを特徴とする機械翻訳方法。
  8. 請求項2記載の機械翻訳方法であって,
    前記記憶部は、
    前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係をコーパス依存対訳単語辞書として記憶しており,
    前記処理部は、
    前記変数化対訳コーパスを生成する際、変数への置き換えを行った原言語の単語と目標言語の単語の組を前記コーパス依存対訳単語辞書に登録する、
    ことを特徴とする機械翻訳方法。
  9. 請求項8記載の機械翻訳方法であって,
    前記処理部は、
    前記コーパス依存対訳単語辞書への登録を行う際,
    変数に置き換えられた原言語の単語と目標言語の単語の組とともに,前記対訳コーパスにおける該当する単語の周囲に存在する単語を共起情報として記録する、
    ことを特徴とする機械翻訳方法。
  10. 請求項9記載の機械翻訳方法であって,
    前記コーパス依存対訳単語辞書に記録される前記共起情報に,該当する単語の周囲に存在する単語に加えて,当該単語が前記対訳コーパス中で現れる頻度や確率値等の統計情報も合わせて記録する、
    ことを特徴とする機械翻訳方法。
  11. 請求項1記載の機械翻訳方法であって,
    前記処理部は,
    前記入力文,前記変数化入力文および前記変数化入力文が翻訳された目標言語文における単語および変数の対応関係に基づいて,前記変数化入力文が翻訳された目標言語文中における変数に対応する原言語の単語を同定し,
    同定した原言語の単語に対応する目標言語の単語を前記対訳単語辞書から検索し,
    前記変数化入力文が翻訳された目標言語文中における変数を、検索された当該目標言語の単語により置き換え,その結果を前記最終翻訳結果として出力する、ことを特徴とする機械翻訳方法。
  12. 処理部と記憶部とを備え、翻訳処理の対象となる原言語文を目標言語文に翻訳する機械翻訳方法であって、
    前記記憶部に、
    原言語の単語と目標言語の単語との対応関係を記録した対訳単語辞書と、
    対応関係にある原言語文と目標言語文の複数の組からなる対訳コーパスであって、前記対訳単語辞書中で対応関係にある単語が前記対訳コーパス中で対応関係にある原語文と目標言語文の双方に含まれている場合に、該当する前記原言語文と目標言語文の組に対して、該当する前記単語の箇所を変数に置き換えた結果である変数化対訳コーパスより学習した,原言語の単語から目標言語の単語への変換を行うための統計モデルである翻訳モデルと,
    前記変数化対訳コーパス中の目標言語文から学習した,目標言語における単語の並び方に関する統計モデルである言語モデルと、
    前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係を記録したコーパス依存対訳単語辞書とを格納しておき,
    前記処理部は、
    前記入力文中に含まれる単語の内,前記対訳単語辞書に登録されている単語の箇所を変数に置き換えた変数化入力文を生成し、
    前記翻訳モデルと前記言語モデルを用いて,前記変数化入力文を目標言語文に翻訳し,
    前記入力文,前記変数化入力文および前記変数化入力文を翻訳した目標言語文における単語および変数の対応関係に基づいて,前記変数化入力文を翻訳した目標言語文中における変数に対応する原言語の単語を同定し,
    同定した原言語の単語に対応する目標言語の単語を前記コーパス依存対訳単語辞書から取得し,取得した目標言語の単語で、前記変数化入力文を翻訳した目標言語文中における変数を置き換え,その結果を最終翻訳結果として出力し,
    同定した原言語の単語に対応する目標言語の単語が前記コーパス依存対訳単語辞書から取得できなかった場合は,前記対訳単語辞書を検索することにより目標言語の単語を取得し,取得した目標言語の単語で、前記変数化入力文を翻訳した目標言語文中における変数を置き換え,その結果を最終翻訳結果として出力する、
    ことを特徴とする機械翻訳方法。
  13. 請求項12記載の機械翻訳方法であって,
    前記コーパス依存対訳単語辞書には,前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係とともに,該当する単語の周囲に存在する単語を共起情報として記録しておき,
    前記処理部は,
    前記コーパス依存対訳単語辞書の内容を検索することにより,同定した原言語の単語に対応する目標言語の単語とその共起情報を候補として取得し,
    取得した各候補に対する共起情報と,変数の周囲に存在している単語との比較を行い,
    一致する単語の数が最も多い候補に対応する目標言語の単語により,前記変数化入力文が翻訳された目標言語文中に含まれる変数を置き換える、
    ことを特徴とする機械翻訳方法。
  14. 請求項13記載の機械翻訳方法であって,
    前記コーパス依存対訳単語辞書には,前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係とともに,該当する単語の周囲に存在する単語と,それらの単語が対訳コーパス中で現れる頻度や確率値等の統計情報を共起情報として記録し,
    前記処理部は,
    前記コーパス依存対訳単語辞書の内容を検索することにより,同定した原言語の単語に対応する目標言語の単語とその共起情報を候補として取得し,
    取得した各候補に対する共起情報と,変数の周囲に存在している単語との比較を行い,一致した単語に関する共起情報中の前記統計情報に基づく一致度を算出し,
    前記一致度が最も大きい候補に対応する目標言語の単語により,前記変数化入力文が翻訳された目標言語文中に含まれる変数を置き換える、
    ことを特徴とする機械翻訳方法。
  15. 翻訳処理の対象となる原言語文を目標言語文に翻訳する機械翻訳システムであって、
    原言語文である入力文を処理する処理部と、記憶部とを備え、
    前記記憶部に、
    原言語の単語と目標言語の単語との対応関係を記録した対訳単語辞書と、
    対応関係にある原言語文と目標言語文の複数の組からなる対訳コーパスであって、前記対訳単語辞書中で対応関係にある単語が前記対訳コーパス中で対応関係にある原語文と目標言語文の双方に含まれている場合に、該当する前記原言語文と目標言語文の組に対して、該当する前記単語の箇所を変数に置き換えた結果である変数化対訳コーパスより学習した,原言語の単語から目標言語の単語への変換を行うための統計モデルである翻訳モデルと,
    前記変数化対訳コーパス中の目標言語文から学習した,目標言語における単語の並び方に関する統計モデルである言語モデルを格納し,
    前記処理部は、
    前記入力文中に含まれる単語の内,前記対訳単語辞書に登録されている単語の箇所を変数に置き換えた変数化入力文を生成する入力文内変数化部と、
    前記翻訳モデルと前記言語モデルを用いて,前記変数化入力文を目標言語文に翻訳して出力する統計翻訳部と,
    前記統計翻訳部からの出力中に含まれる変数を目標言語の単語に置き換え,その結果を最終翻訳結果として出力する変数置換部とを備える、
    ことを特徴とする機械翻訳システム。
  16. 請求項15記載の機械翻訳システムであって,
    前記記憶部に、
    対訳関係にある原言語文と目標言語文の複数の組からなら対訳コーパスを格納し,
    前記処理部は、
    前記対訳単語辞書中で対応関係にある単語が前記対訳コーパス中で対応関係にある原言語文と目標言語文の双方に含まれている場合,該当する原言語文と目標言語文の組に対して,該当する単語の箇所を変数に置き換えた結果である変数化対訳コーパスを生成するコーパス内変数化部と,
    前記変数化対訳コーパスから前記翻訳モデルと前記言語モデルを生成する統計モデル学習部と,
    を更に備えることを特徴とする機械翻訳システム。
  17. 請求項16記載の機械翻訳システムであって,
    前記コーパス内変数化部は,
    前記対訳単語辞書中で対応関係にある原言語の単語および目標言語の単語であり,且つ,前記対訳コーパス中の原言語文と目標言語文の組において一対一に対応付けが可能な単語のみを変数に置き換えることにより前記変数化対訳コーパスを生成する、
    ことを特徴とする機械翻訳システム。
  18. 請求項15記載の機械翻訳システムであって,
    前記記憶部に、
    前記対訳コーパスに固有の原言語の単語と目標言語の単語の対応関係を示すコーパス依存対訳単語辞書を格納し,
    前記変数置換部は,
    前記入力文,前記変数化入力文および前記統計翻訳部の出力における単語および変数の対応関係に基づいて,前記統計翻訳部の出力中における変数に対応する原言語の単語を同定し,
    同定した原言語の単語に対応する目標言語の単語を前記コーパス依存対訳単語辞書から取得し,取得した目標言語の単語で前記統計翻訳部の出力中における変数を置き換え,前記最終翻訳結果として出力し,
    同定した原言語の単語に対応する目標言語の単語が前記コーパス依存対訳単語辞書から取得できなかった場合は,前記対訳単語辞書を検索することにより目標言語の単語を取得し,取得した目標言語の単語で前記統計翻訳部の出力中における変数を置き換え,前記最終翻訳結果として出力する、
    ことを特徴とする機械翻訳システム。
  19. 請求項15記載の機械翻訳システムであって,
    原言語の単語と目標言語の単語の対応関係を対訳単語辞書に新規に登録するための入力部を更に備える、
    ことを特徴とする機械翻訳システム。
  20. 請求項19記載の機械翻訳システムであって,
    既に翻訳を行った入力文に対して,再度翻訳処理を実行し,その結果を表示する表示部を更に備える、
    ことを特徴とする機械翻訳システム。
JP2009135784A 2009-06-05 2009-06-05 機械翻訳方法、及びシステム Expired - Fee Related JP5302784B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009135784A JP5302784B2 (ja) 2009-06-05 2009-06-05 機械翻訳方法、及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009135784A JP5302784B2 (ja) 2009-06-05 2009-06-05 機械翻訳方法、及びシステム

Publications (2)

Publication Number Publication Date
JP2010282453A JP2010282453A (ja) 2010-12-16
JP5302784B2 true JP5302784B2 (ja) 2013-10-02

Family

ID=43539119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009135784A Expired - Fee Related JP5302784B2 (ja) 2009-06-05 2009-06-05 機械翻訳方法、及びシステム

Country Status (1)

Country Link
JP (1) JP5302784B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5699859B2 (ja) * 2011-08-23 2015-04-15 富士通株式会社 情報処理装置、プログラム、および翻訳テンプレート生成方法
CN110781689B (zh) 2019-10-25 2021-08-06 北京小米智能科技有限公司 信息处理方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151260A (ja) * 1991-11-29 1993-06-18 Hitachi Ltd 翻訳テンプレート学習方法および翻訳テンプレート学習システム
JP4963245B2 (ja) * 2007-03-16 2012-06-27 日本電信電話株式会社 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体

Also Published As

Publication number Publication date
JP2010282453A (ja) 2010-12-16

Similar Documents

Publication Publication Date Title
US11030407B2 (en) Computer system, method and program for performing multilingual named entity recognition model transfer
JP6655788B2 (ja) 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6649124B2 (ja) 機械翻訳方法、機械翻訳装置及びプログラム
JP4050755B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP6828335B2 (ja) 検索プログラム、検索装置および検索方法
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP2017138654A (ja) 換言文生成方法、該装置および該プログラムならびに機械翻訳システム
JP2016516247A (ja) 翻字、翻訳、書記素洞察のキュレーション及び統合による多言語ビジネスの印の向上
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
WO2019123854A1 (ja) 翻訳装置、翻訳方法、及びプログラム
Borin The why and how of measuring linguistic differences
Vandeghinste et al. Improving the translation environment for professional translators
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
Jamro Sindhi language processing: A survey
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Núñez et al. Phonetic normalization for machine translation of user generated content
JP2008140204A (ja) データ検索システム及びプログラム
JP2016189089A (ja) 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置
JP5097340B2 (ja) 翻訳装置および翻訳方法、プログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP5853688B2 (ja) 言語処理プログラム、言語処理装置および言語処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130621

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees