JP2009294747A - 統計的機械翻訳装置 - Google Patents

統計的機械翻訳装置 Download PDF

Info

Publication number
JP2009294747A
JP2009294747A JP2008145533A JP2008145533A JP2009294747A JP 2009294747 A JP2009294747 A JP 2009294747A JP 2008145533 A JP2008145533 A JP 2008145533A JP 2008145533 A JP2008145533 A JP 2008145533A JP 2009294747 A JP2009294747 A JP 2009294747A
Authority
JP
Japan
Prior art keywords
class
smt
model
probability
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008145533A
Other languages
English (en)
Other versions
JP5288371B2 (ja
Inventor
Finch Andrew
アンドリュー・フィンチ
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2008145533A priority Critical patent/JP5288371B2/ja
Publication of JP2009294747A publication Critical patent/JP2009294747A/ja
Application granted granted Critical
Publication of JP5288371B2 publication Critical patent/JP5288371B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】特定のクラスの入力文をより安定して頑健に翻訳するSMTシステムを提供する。
【解決手段】SMTシステム30は、ソース文48のクラスメンバーシップを表す確率ベクトルW1、W2及びW3を決定する分類器92と。それぞれのクラスのトレーニングデータで統計的にトレーニングされたクラス特定SMTサブシステムと、サブシステムから出力された確率を補間することによって計算されたターゲット言語の可能な単語シーケンスの確率に従って、最も尤度の高い翻訳仮説50を推定するためのデコーダ96とを含む。
【選択図】 図1

Description

この発明は統計的機械翻訳(Statistical Machine Translation:SMT)に関し、特に、クラス依存SMTの改良に関する。
音声認識において、モデルの品質を改善するのに、トピック依存モデリングが有効であることが知られている。最近、機械翻訳分野での実験により(先行技術の非特許文献1、2及び3)、クラスに特定のモデルもまた、翻訳に有用であることが示された。非特許文献1では、トピック依存性は、デコード処理開始前にデータを集合に分け、その後、前処理パスでソース文の全てによって学習を済ませた分類器により、ソース文のクラスを予測し、予測されたクラスに特定の別々のモデルを用いて、これらの集合を独立してデコードすることによって実現される。
ヒロフミ ヤマモトら、2007年。統計的機械翻訳のためのバイリンガルクラスタベースモデル。EMNLP−CoNLL−2007(ACL2007に続くコンピュータによる自然言語学習ジョイントミーティング、自然言語処理大会における実験方法カンファレンス)、プラハ、チェコ共和国、第514−523ページ。
(Hirofumi Yamamoto et al. 2007. Bilingual cluster based models for statistical machine translation. EMNLP-CoNLL-2007 (Conference on Empirical Methods in Natural Language Processing Conference on Computational Natural Language Learning Joint Meeting following ACL 2007), Prague, Czech Republic; pp. 514-523.)
アンドリュー フィンチら、2007年。NICT/ATR IWSLT2007のための音声翻訳システム。IWSLT2007年、トレント、イタリア。
(Andrew Finch et al. 2007. The NICT/ATR speech translation system for IWSLT 2007. IWSLT 2007, Trento, Italy.)
ジョージ フォスター 及びローランド クーン、2007年。SMTのための混合モデルの適応。統計的機械翻訳に関する第2回ワークショップ予稿集、ACL、第128−135ページ、プラハ、チェコ共和国。
(George Foster and Roland Kuhn. 2007. Mixture-model adaptation for SMT. In Proceedings of the Second Workshop on Statistical Machine Translation, ACL, pp. 128-135, Prague, Czech Republic.)
トピック依存、又はクラス依存のモデリングは機械翻訳の精度を改善する。しかし、精度は分類器の精度に大きく左右される。もし入力された文が誤ったトピック又はクラスに分類されてしまうと、翻訳の精度は非常に劣化する。
従って、この発明の目的の一つは、特定のクラスの入力文をより安定して頑健に翻訳することのできるSMT装置を提供することである。
この発明の別の目的は、特定のクラスの入力文をより安定してより高い精度で頑健に翻訳することのできるSMT装置を提供することである。
この発明の第1の局面に従った統計的機械翻訳装置は、ソース文のクラスメンバーシップを表す確率のベクトルを決定するための手段を含む。ベクトルの要素は、ソース文の確率が予め定められたクラスの集合の1つに属する確率を表す。装置はさらに、予め定められたクラスの集合のクラスそれぞれについて設けられた、複数個のクラス特定統計的サブデコーダを含む。デコーダはそれぞれのクラスのトレーニングデータのそれぞれの集合によって統計的にトレーニングされる。デコーダの各々はソース文中の単語又は単語シーケンスの各々についてターゲット言語での翻訳単語又は単語シーケンスの確率を出力する。装置はさらに、ターゲット言語の可能な単語シーケンスの確率に従って、前記ソース文の前記ターゲット言語における最も尤度の高い翻訳仮説を推定する手段を含む。ターゲット言語の可能な単語シーケンスの確率は、複数個のサブデコーダによって出力される確率をターゲット言語の単語又は単語シーケンスの各々について、確率ベクトルに従って補間することによって計算される。
クラスメンバーシップを決定する手段は、確率ベクトルを決定する。ベクトルの要素はソース文がそれぞれのクラスに属する確率を表す。複数個の統計的サブデコーダはソース文中の単語又は単語シーケンスの各々についてターゲット言語での翻訳単語又は単語シーケンスの確率を出力する。推定手段は、単語又は単語シーケンスの確率に従って、最も尤度の高い翻訳仮説を推定し、これらはサブデコーダによって出力される確率を補間することによって計算される。
好ましくは、複数個のクラスは一般クラスと複数個の特定クラスとを含み、前記複数個の特定クラスは、前記一般クラスを分割したものである。
より好ましくは、一般クラスに対応する前記ベクトルの1要素は、0から1の範囲の定数である。
さらに好ましくは、装置は前記ベクトルの要素を正規化して、前記要素の和が1となるようにするための正規化手段をさらに含む。
前記確率のベクトルを決定するための手段は、最大エントロピモデルに基づいて統計的にトレーニングされ、前記クラスのそれぞれにメンバーシップ確率を割当ててもよい。
好ましくは、前記複数個のクラス特定統計的サブデコーダの各々は、クラス特定言語モデル、クラス特定翻訳モデル、クラス特定長さモデル、若しくはクラス特定ディストーションモデル、又はこれらモデルの任意の組合せに従って確率を計算する。
この発明のアプローチは、多くの点において先行技術の非特許文献1を一般化したものである。この発明の技術により、デコード処理そのものにおいて多数のモデルの集合を利用することが可能になる。クラス特定モデルの集合の各々の寄与分は、後述するように、補間重みの集合によって、デコードの間に動的に制御される。これらの重みは、文ごとに変更可能である。以前のアプローチでは、本質的に、補間の重みは(ソース文がモデルと同じトピックであることを示す)1であるか、又は(ソース文が異なるトピックであることを示す)0であるか、のどちらかであった。
本発明の利点の一つは、これが柔軟なアプローチである、ということである。すなわち、ソース文は、多数のクラスに様々な程度で属することができる。ここでは、確率分類器を用いて、クラスメンバーシップを表す確率のベクトルを決定した。これらの確率は、補間されたモデルの集合において、それぞれのクラス依存モデルについて、混合重みとして直接使用される。
この発明のシステムの別の特徴は、これが、クラス特定モデルの集合とともに、全てのデータから構築された一般モデルを含むことである。この結果、正確で安定した翻訳が得られる。
この実施の形態のアプローチは、クラス依存のモデルの点で、先行する全てのアプローチと異なる。先行技術の非特許文献1以前には、クラス依存の言語モデルのみが用いられていた。非特許文献1及び3はともに、これを拡張して翻訳モデルを含めている。この発明のアプローチでは、ディストーション及びターゲット長さモデルを含みうるすべてのモデルが、単一のフレームワーク内でSMTシステムに組合されている。
バイリンガルコーパスは、文の対の集合体である。各対は、第1の言語の文と第2の言語の文とを含む。各文は他方の翻訳である。バイリンガルコーパス中の文は単語又は音素にセグメント化され、品詞ラベルを付されている。
言語モデル(LM)は、N−1個の他の単語がその前に出現するという条件での、単語の出現確率を与える。N−グラムLMは、バイリンガルコーパスのトレーニング集合のターゲット部分から得られる統計により、構築(トレーニング)される。
翻訳モデル(TM)は、第1の言語の単語が第2の言語の別の単語にされる確率を与える。この実施の形態では、TMはトレーニング集合から統計的に得られる。
長さモデル(LeM)は平均に対して翻訳(ターゲット)中の単語が1つ付加されるたびにペナルティを与える。長さモデルはトレーニング集合中の文の対のターゲット部分から得られる。
ディストーションモデル(DM)はターゲット言語において2つの隣り合った句に対応付けられた、2つのソース言語の句の相対的距離に対するペナルティを与える。DMはトレーニング集合から統計的に得られる。
1.始めに
この実施の形態は、多数のSMTシステムを重み付けして組合せ、システム中の全てのモデルについて、トピック依存モデル間の確率的に柔軟な重みづけを可能にする。この実施の形態はこの技術を応用したもので、疑問文及び叙述文のためのクラスベースのモデルを構築し組合せることによって、対話システムの品質を改善する。
この実施の形態のSTMシステムは、全てのモデルのクラス依存の形式がデコード処理に直接統合される点で、先行するクラス依存の翻訳方法と異なる。この実施の形態のシステムは、モデルの間の確率的な混合重みを用いるが、この重みはソースセグメントの特性に依存してセグメントごとにダイナミックに変更可能である。
この実施の形態のシステムはクラス依存のモデルを用いた質問及び叙述文の翻訳に関する。これを達成するために、このシステムは対話文の2つのクラス、すなわち質問と叙述、の一つに当てはまる文に対処するために特別に構築された2つのモデルの集合を、一般のクラスを扱うために構築された第3の集合と統合する。
この実施の形態の目的のために、疑問文と、それ以外とを区別したい。表現を簡潔にするために、以下の明細書中では、疑問文を「質問」とし、それ以外を「叙述」と呼ぶことにする。トレーニングに用いられるバイリンガルコーパス中の文には各々、「質問」又は「叙述」のラベルが付されているものとする。
2.システムの概観
2.1システムアーキテクチャ
後述する図1は、このシステムの全体構造を示す。データはクラスに分けられ、さらに各クラスについて、トレーニングセットと開発セットとに細分される。3個の完全なSMTシステムが構築される。各クラスのための1つと、両方のクラスからのデータについての1つとである。確率分類器(次の項で述べる)もまた、トレーニングデータの完全なセットからトレーニングされる。
用いられる機械翻訳デコーダは、デコードされるべき各ソース単語シーケンスについて与えられる補間重みのベクトルに従って、全てのサブシステムからの全てのモデルを線形補間可能である。こうするために、検索に先立って、デコーダはまず、各サブシステムからの句(フレーズ)テーブルをマージしなければならない。全ての句テーブルの句の全てが、デコードの間に用いられる。1つのサブシステムのテーブルで発現するが他のサブシステムのテーブルでは発現しない句も用いられるが、トレーニング中にこの句を獲得しなかったサブシステムによるサポートはない(ゼロ確率)。探索処理は、典型的な多段句ベースデコーダにおけるのと同様に行われる。
一般モデルのための重みは、このパラメータを、一般開発セットに対してBLEUスコアが最大になるように調整することによって設定される。この重みは、一般モデルに割当てられるべき確率の大きさを決定し、全ての文のデコードの間、固定されたままである。確率の大きさの残りの部分は実行時に、各文について動的に、クラス特定モデルの間で分割される。各クラスに割当てられる割合は、単に、分類器によって割当られたソース文のクラスメンバーシップ確率である。
3.質問予測
3.1問題の概要
ある特定のクラス(この実施の形態では、疑問又は叙述)のソース文が与えられる場合、生成されるターゲット文が確実に適切なクラスであることが望まれる。これは必ずしも、ソースで質問が与えられるとターゲットで質問が生成されなければならない、という意味ではない。しかし、少なくとも直観的には、ソースの質問からはターゲットの質問が、ソースの叙述からはターゲットの叙述が生成できるはずだと仮定するのが合理的であろう。これが合理的なのは、機械翻訳エンジンの役割が、ソースから可能な全ての翻訳を生成することではなく、1つの受容可能な翻訳を生成できるようにすることだからである。この仮定から、進むべきもっともふさわしい方策が2つ導かれる。
1.ソース文のクラスを予測し、これを用いてターゲットを生成するのに用いられるデコード処理を制約すること。
2.ターゲットのクラスを予測すること。
後述する実験では、最も正確であると思われたため、第2の方法を選択したが、いずれの戦略にも相応の利点があると思われる。
3.2最大エントロピ分類器
この実施の形態では、最大エントロピ(Maximum Entropy:ME)分類器を用い、語彙的特徴量の集合を用いて入力ソース文が属するクラスを決定する。すなわち、分類器を用いて、クラス特定モデルの混合重みを設定する。最近は、この様な分類器が、さまざまな自然言語処理課題において多数の語彙的特徴量を利用して有力なモデルを生成している。例えば、ロナルド ローゼンフェルド、1996を参照(ロナルド ローゼンフェルド、1996年。適応的統計的言語モデル化への最大エントロピアプローチ。コンピュータ音声及び言語。10:187−228)(Ronald Rosenfeld. 1996. A maximum entropy approach to adaptive statistical language modeling. Computer Speech and Language. 10:187-228)MEモデルは以下の形の指数モデルである。
Figure 2009294747
ここで、
tは予測されるクラス、
cはtの文脈、
γは正規化係数、
Kはモデル中の特徴量の数、
αは特徴量fの重み、
は二次特徴量関数、
はデフォルトモデルであり、
これらはソース文中の、文のクラスを予測するための特徴量である。
さらに、文中で出現するものを、文頭及び文末で出現するnグラムと区別するために、単語シーケンス中に文頭トークン(<s>)と文末トークンとを導入した。これは、「質問語」又は文が質問であることを示す単語が、(たとえば、英語のwh−<what,where,when>、マレー語の−kah語−<apakah,dimanakah,kapankah>のように)文頭にしばしば見出されるか、(日本語の<ka>又は中国語の<ma>のように)文末にしばしば見出される、という観察に基づくものである。
このnグラム抽出を採用したのは、誤りの分析から、“excuse me please where is…”等の文を扱うには、文の内側からのnグラムが必要であることが示されたためである。簡単な例文とその文から生成された特徴量の集合を図11に示し、詳細は後述する。
この発明のMEモデルを実現するために、Le ZhangのMEモデリングツールキットを用いた。(LeZhang。2004年。Python及びC++用最大エントロピモデリングツールキット)(Le Zhang. 2004. Maximum Entropy Modeling Toolkit for Python and C++, [http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html])。これらのモデルは、L―BFGSパラメータ推定によってトレーニングされ、トレーニングの間、平滑化のためにガウス事前分布を用いた。「L−BFGS」は非線形最適化問題を解決するための周知のソフトウェアパッケージである。
デコーダからのnベスト出力をとり、ソース及びターゲット分類器に従ったクラスが一致するリストの中で最も高い翻訳仮説を選択する。
4.システム構成
図1はこの実施の形態のSMTシステム30の全体構造を示す。図1を参照して、SMTシステム30は、クラス依存SMTモデル、ソース文を分類するために用いられる分類器モデル、及びSMTデコーダ内で用いられる句テーブルをトレーニングするためのトレーニングモジュール44を含む。トレーニングセット42はトレーニングデータとして用いられる。トレーニングモジュール44はさらに、一般SMTモデルに割当てられる重みW1を推定する。重みは、開発セット40に基づいて推定される。バイリンガルコーパスはクラスに分けられ、さらに、各クラスについてトレーニングセットと開発セットとに細分される。
SMTシステム30はさらに、ソース言語の入力文48をターゲット言語の翻訳50に翻訳するための統計的機械翻訳(Statistical Machine Translation:SMT)装置46を含む。SMT装置46はトレーニングモジュール44によってトレーニングされたモデルと、トレーニングモジュール44によって推定された重みW1とに基づいて、統計的に翻訳を行う。
トレーニングモジュール44は、入力文の特徴量の組が与えられると、その文が質問である確率を分類器モデル110に基づいて計算するように、分類器モデル100をトレーニングするための分類器トレーニングモジュール72と、クラス依存SMTモデル112の3つの集合、すなわち一般、質問に特定、叙述に特定のモデルをトレーニングするためのSMTトレーニングモジュール74と、バイリンガルコーパスのトレーニングセット42から抽出された句テーブル114を生成するための、句テーブル生成モジュール76と、開発セット40に基づいて、一般SMTモデルの一般集合に割当られた重みW1を推定するための重み推定モジュール70とを含む。
SMT装置46は、分類器モデル110、クラス依存SMTモデル112の3つの集合、句テーブル114及び重み推定モジュール70によって推定された重み116(W1)を記憶するための記憶部90を含む。
SMT装置46はさらに、入力文48が質問文である確率Pを推定する分類器92と、翻訳処理の間に一般SMTモデル、質問に特定のSMTモデル及び叙述に特定のSMTモデルに基づいて、重みW1、W2及びW3の和が1になるように計算される、確率に割当てられる重みW1、W2及びW3を正規化する正規化モジュール94と、ソース言語の入力文48を、統計的機械翻訳方法を利用してターゲット言語の翻訳50に翻訳するためのSMTモジュール96とを含む。SMTモジュール96は、一般集合から由来する確率に代えて、SMTモデル112の3つの集合からくる確率の重みづけ合計で仮説の確率を計算する点を除き、通常のSMTモジュールである。
図2は図1のSMTトレーニングモジュール74とクラス依存SMTモデル112の3つの集合とを示す詳細なブロック図である。
図2を参照して、クラス依存SMTモデル112の3つの集合は、一般SMTモデルの集合160、質問に特定のSMTモデルの集合162、及び叙述に特定のSMTモデルの集合164を含む。
一般SMTモデル160は、言語モデル180、翻訳モデル182、長さモデル184、及びディストーションモデル186を含む。
言語モデル(LM)はN−1個の他の単語が直前に出現しているという条件での、単語の出現の確率を与える。N−グラムLMはバイリンガルコーパスのトレーニングセット42のターゲット部から得られる統計から構築(トレーニング)される。
翻訳モデル(TM)は第1の言語の単語が、第2の言語の単語に翻訳される確率を与える。この実施の形態では、TM182はバイリンガルコーパスのトレーニングセット42から得られる。
長さモデル(LeM)は平均に対して翻訳(ターゲット)中の単語が1つ増えるたびにペナルティを与える。長さモデル184はバイリンガルコーパスのトレーニングセット42の文の対のうちターゲット部から得られる。
ディストーションモデル(DM)は、2つの近接するターゲット言語の句に対応付けされる2つのソース言語の句の相対的距離に対してペナルティを与える。DM186はバイリンガルコーパスのトレーニングセット42から統計的に得られる。
同様に、質問に特定のSMTモデル162の集合はLM200、TM202、LeM204、及びDM206を含み、叙述に特定のSMTモデル164の集合はLM220、TM222、LeM224、及びDM226を含む。
SMTトレーニングモジュール74は、トレーニングセット42の全体に基づいて、一般SMTモデル160の集合をトレーニングするための一般SMTトレーニングモジュール130と、トレーニングセット42から文の対であってターゲット側に質問を含むものを抽出する、質問抽出モジュール132と、質問抽出モジュール132によって抽出された文の対に基づいて、質問に特定のSMTモデル162をトレーニングするための質問特定SMTトレーニングモジュール134と、トレーニングセット42から文の対であってターゲット側に叙述を含むものを抽出する叙述抽出モジュール136と、叙述抽出モジュール136によって抽出された文の対に基づいて、叙述に特定のSMTモデル164をトレーニングするための、叙述特定SMTトレーニングモジュール138とを含む。
図3は、図1に示す句テーブル生成モジュール76のブロック図である。図1を参照して、句テーブル生成モジュール76は、バイリンガルコーパスのトレーニングセット42の対の各々のソース文とターゲット文とを対応付ける自動アライメントモジュール240と、自動アライメントモジュール240によって対応付けされたソース文とターゲット文とを特定しその句を抽出する句抽出モジュール242と、を含む。
自動アライメントモジュール240は、ソース文の各単語をターゲット文の対応の単語と対応付ける。句抽出モジュール242はソース文中の特定の単語シーケンスであってターゲット文中の連続した単語と対応付けされたものを句の対として抽出し、これらを一般句テーブル244に記憶する。
同様に、句テーブル生成モジュール76はさらに、質問特定句テーブル254を生成するための、自動アライメントモジュール250及び句抽出モジュール252と、叙述特定句テーブル264を生成するための自動アライメントモジュール260及び句抽出モジュール262とを含む。
句テーブル生成モジュール76はさらに、一般句テーブル244、質問特定句テーブル254及び叙述特定句テーブル264をマージするためのテーブルマージモジュール270を含む。句テーブル114を生成するにあたって、1つのサブシステムのテーブルで出現するが別のサブシステムのテーブルには出現しない句も用いられるが、トレーニング中にこの句を獲得しないサブシステムからのサポートはない(ゼロ確率)。
図4は図1に示した、分類器トレーニングモジュール72の詳細なブロック図であり、これは入力文の特徴量の予め定められた組を受け、MEモデルに基づいてその文が質問である確率を出力する、質問特定分類器92のためのME(最大エントロピ)モデルをトレーニングするためのものである。
図4を参照して、分類器トレーニングモジュール72は、バイリンガルコーパスのトレーニングセット42のソース文の各々から特徴量の予め定められた組を抽出する特徴量抽出モジュール290と、特徴量の組と、ソース文のラベル(質問/叙述)とを記憶する記憶部292と、確率分類モデル110を計算するための最大エントロピモデリングモジュール294とを含む。最大エントロピモデリングモジュール294は最大エントロピツールキットで実現される。このようなツールキットのいくつかがインターネット上で入手可能である。
図5は図1に示す重み推定モジュール70のブロック図である。図5を参照して、重み推定モジュール70はバイリンガルコーパスの開発セット40とSMT装置46とを利用して、翻訳セット310について計算された平均BLEUスコアが最も高くなるように、一般SMTの重みW1を最適化する。
重み推定モジュール70は翻訳セット310内の全ての翻訳のBLEUスコアを評価するBLEU評価器320を含む。翻訳セット310は、開発セット40内の全てのソース文の、SMT装置46によるターゲット言語への翻訳を含む。BLEU評価器320は開発セット40内の文の対のうちターゲット部分を、基準翻訳として使用する。
重み推定モジュール70はさらに、BLEU評価器320によって評価された翻訳のBLEUスコアを記憶するための記憶部322と、翻訳と評価との繰返しにより一般SMT確率についての重み326(W1)を最適化するための重み最適化モジュール324とを含む。後述するように、重みW1の最適化に先立って、分類器モデル110及びクラス特定SMTモデル112と句テーブル114との3つの組が生成される。従って、重みW1の最適化は、各々が0から1までの範囲の重みの組について全てのソース文を繰返し翻訳し、最も高いBLEUスコアが得られる値を見出すことによって可能となる。
図6は図1に示すSMTモジュール96のブロック図である。図6を参照して、SMTモジュール96は、入力文48を受け、一般SMTモデル160の集合に基づいて、LeM及びDMペナルティとともにそのSMT(SM及びTM)確率を出力する一般SMTサブシステム340と、ターゲット言語からの確率及びペナルティの各々を図1の正規化モジュール94からの重みW1で乗算する重みづけモジュール350と、入力文48を受け、質問特定SMTモデル162に基づいて、LeM及びDMペナルティとともにそのSMT確率を出力する質問特定SMTサブシステム342と、質問特定SMTサブシステム342からの確率及びペナルティの各々を乗算し、入力文48を受け叙述特定SMTモデルに基づいてLeM及びDMペナルティとともにそのSMT確率を出力するための重みづけモジュール352と、入力文48を受け、叙述特定SMTモデル164に基づいて、LeM及びDMペナルティとともにそのSMT確率を出力する叙述特定SMTサブシステム344と、LM及びTMの値の各々を質問特定及び叙述とともに乗算する重みづけモジュール354と、を含む。
SMTモジュール96はさらに、重みづけられたLM、TM、LeMペナルティとDMペナルティとを合計する合計モジュール360と、LM及びTM確率とLeM及びDMペナルティとの合計を受け、句テーブル114を利用して、入力文48の翻訳のnベスト仮説を探索する多段フレーズベースデコーダ362とを含む。
図7は重みづけモジュール352の簡略化したブロック図である。図7を参照して、重みづけモジュール352は、質問特定SMTサブシステム342からのLM確率を重みW2で乗算する乗算器400と、質問特定SMTサブシステム342からのTM確率を重みW2で乗算する乗算器402と、質問特定SMTサブシステム342からのLeMペナルティを重みW2で乗算する乗算器404と、質問特定SMTサブシステム342からのDMペナルティを重みW2で乗算する乗算器406と、を含む。
図示しないが、重みづけモジュール350及び354は重みづけモジュール352と同様の構造を有する。しかしながら、重みづけモジュール350及び354の重みはそれぞれW1とW3とである。重みづけモジュール350、352及び354の出力は合計モジュール360に与えられる。
図8は図6に示す合計モジュール360のブロック図である。図6を参照して、合計モジュール360は、重みづけモジュール350、352及び354から出力されるLM確率、TM確率、LeMペナルティ及びDMペナルティをそれぞれ計算するための4つの合計回路420、422、424及び426を含む。合計回路420、422、424及び426の出力はデコーダ362の入力に与えられ、これは、これらの値に基づいて翻訳の最も確率の高い仮説を探索する。
図9は、分類器92によって推定された確率Pに基づいて、クラスメンバーシップを表す重みベクトルの要素である重みW1、W2及びW3の合計が1となるように、重みW2及びW3を正規化するための正規化モジュール94のブロック図である。重みW1は、一旦重み推定モジュール70によって最適化されると、固定されたままである。従って、正規化モジュール94はW2とW3との合計が1−W1となるように、W2及びW3に対するPと1−Pとを正規化する。
具体的には、正規化モジュール94は、数値定数「1」を記憶するための記憶部440と、一方入力が分類器92からの確率Pを受けるように結合され、他方入力が記憶装置440に結合されて、定数1と確率Pとの差、すなわち1−Pを出力する減算器442と、一方入力が重みW1を受けるように結合され、他方入力が記憶装置440に結合されて、定数1と重みW1との差を出力する減算器444と、一方入力が減算器444の出力を受けるように結合され、他方入力が分類器92からの確率Pを受けるように結合された乗算器446と、一方入力が減算器444の出力を受けるように結合され、他方入力が減算器442の出力を受けるように結合された乗算器448と、を含む。
減算器442及び444の出力はそれぞれ、1−Pと1−W1とに等しい。従って、乗算器446及び448の出力W2及びW3は、それぞれP*(1−W1)と、(1−P)*(1−W1)とに等しい。W1、W2及びW3の合計、すなわちW1+P*(1−W1)+(1−P)*(1−W1)は1に等しい。
図10は図1に示す分類器92のブロック図である。図10を参照して、分類器92は、図4に示す特徴量抽出モジュール290によって抽出されたのと同じ特徴量の組を入力文48から抽出するための特徴量抽出モジュール460と、分類器モデル110(図1を参照)及び特徴量抽出モジュール460によって抽出された入力文48の特徴量の組に基づいて、入力文48の確率Pを計算するための確率計算モジュール462と、を含む。
図11はターゲット文のクラスを予測するためにMEモデルにおいて述語として用いられる、文“<s>where is the station</s>”から抽出されたnグラム(n≦3)の組を示す。この組は、4個のユニグラム(<s>where,is,the,station</s>)、3個のバイグラム(<s>where is,is the,the station</s>)、及び2個のトライグラム(<s>where is the,is the station</s>)を含む。nグラムの特徴量の説明を簡潔にするため、図1ではnを3とした。しかし、nの数は3に限られない。後述するように、発明者らは実験では5グラム特徴量(n=5)を用いている。
5.動作
<全体手順>
SMTシステムは以下のように動作する。SMTシステム30は大まかに言って2つの動作段階を含む。トレーニング段階と翻訳段階である。
図12を参照して、トレーニング段階は4つのサブ段階を含む。クラス依存SMTモデル112のトレーニング(ステップ500)と、分類器モデル110のトレーニング(ステップ502)と、句テーブル114の生成(ステップ504及び506)と、開発セット40の一般モデルのための重みW1の最適化(ステップ508)と、である。ステップ500から508が完了すると、SMTシステム30は何らかの入力文を翻訳する準備が整う。
[SMTモデルのトレーニング(ステップ500)]
図2を参照して、一般SMTトレーニングモジュール130はトレーニングセット42の全データに基づいて一般SMTモデル160をトレーニングする。SMTモデルのトレーニングは通常の方法で行われる。
質問抽出モジュール132はトレーニングセット42から、各々がターゲット側に質問文を含む文の対を抽出する。質問特定SMTトレーニングモジュール134は、質問抽出モジュール132によって抽出された文の対に基づいて、質問特定SMTモジュール162をトレーニングする。トレーニングの方法は、一般SMTトレーニングモジュール130と同様である。
叙述抽出モジュール136は、トレーニングセット42から、各々がターゲット側に叙述文を含む文の対を抽出する。叙述特定SMTトレーニングモジュール138は、叙述抽出モジュール136によって抽出された文の対に基づいて、叙述特定SMTモジュール164をトレーニングする。トレーニングの方法は、SMTトレーニングモジュール130及び質問特定SMTトレーニングモジュール134と同様である。
[分類器モデル110のトレーニング(ステップ502)]
図4を参照して、特徴量抽出モジュール290は、トレーニングセット42の文の対のソース文の各々から図10に示す特徴量抽出モジュール460によって抽出されるのと同じ特徴量の組を抽出する。記憶部292は抽出された特徴量の組をターゲット側の文の各々の文ラベル(質問/叙述)とともに記憶する。その後最大エントロピモデリングモジュール294が記憶部292に記憶された特徴量の組と文ラベルとに基づいて、式(1)に従って分類モデル110のパラメータを計算する。
[句テーブルの生成(ステップ504及び506)]
図3を参照して、自動アライメントモジュール240は、トレーニングセット42の文の対の各々について、ソース文の単語とターゲット文の単語とを対応付ける。句抽出モジュール242は、対応付けされた文の対から、句の対を抽出する。ここで、句抽出モジュール242は、ターゲット文中の連続した単語に対応付けられたソース文中の連続した単語のシーケンスを見出し、これら単語シーケンスの対を句の翻訳対として抽出する。抽出した句の対は、一般句テーブル244に記憶される。
自動アライメントモジュール250は、トレーニングセット42の「質問」というラベルを付された文の対の各々において、ソース文の単語とターゲット文の単語とを対応付ける。句抽出モジュール252は、一般句テーブル244と同様に、対応付けされた文の対から句の対を抽出する。抽出された句の対は、質問特定句テーブル254に記憶される。
自動アライメントモジュール250はトレーニングセット42の「叙述」というラベルを付された文の対の各々において、ソース文の単語とターゲット文の単語とを対応付ける。句抽出モジュール262は、句抽出モジュール242及び一般句テーブル244と同様に、対応付けされた文の対から句の対を抽出する。抽出された句の対は、叙述特定句テーブル264に記憶される。
テーブルマージモジュール270は、一般句テーブル244、質問特定句テーブル254及び叙述特定句テーブル264をマージする。ここで、テーブル244、254及び264の1つ又は2つで出現する句の対は、句テーブル114に記憶される。しかし、この句をトレーニング中に獲得しなかったサブシステムにはサポートがない(ゼロ確率)。
[重みW1の最適化(ステップ508)]
重みW1の最適化には開発セット40が用いられる。図5を参照して、開発セット40内のソース文の各々がSMT装置46によって翻訳され、翻訳セット310ができる。BLEU評価器320が翻訳の各々のBLEUスコアを評価する。開発セット40内のターゲット側の文は、この評価において基準翻訳として用いられる。BLEUスコアの平均が計算され記憶される。
次のサイクルで、重みW1の値をわずかに変えて、同様のBLEU評価が行われる。こうして、最少誤差トレーニングにより(フランツ J オック、2003年。統計的機械翻訳のための最少誤差率トレーニング、ACL予稿集)(Franz J. Och, 2003. Minimum error rate training for statistical machine translation, Proceedings ACL.)、一般モデルの重みW1が最適化される。
一旦最適化されると、重みW1は文のデコード(翻訳)の間、固定されたままである。
[SMTモジュール96による翻訳]
ラベル(質問/叙述)なしの入力文48が分類器92(図1及び図10を参照)に与えられると、特徴量抽出モジュール460は入力文48から特徴量の組を抽出し、その特徴量の組を確率計算モジュール462に与える。確率計算モジュール462は、特徴量の組を分類器モデル110に適用することによって、入力文48が質問である確率を計算する。計算された確率Pは正規化モジュール94の減算器442及び乗算器446の入力に与えられる。分類器92から与えられた確率Pに基づいて、正規化モジュール94は、重みW1、W2及びW3の和が1となるように重みW2及びW3を正規化し、重みW1、W2及びW3をSMTモジュール96に与える。
図6を参照して、一般SMTサブシステム340、質問特定SMTサブシステム342及び叙述特定SMTサブシステム344は、特徴量の組が与えられると、一般SMTモデル160、質問特定SMTモデル162及び叙述特定SMTモデル164にそれぞれ基づいて、仮説の確率を独立に計算する。LM及びTM確率と、LeM及びDMペナルティとが一般SMTサブシステム340、質問特定SMTサブシステム342及び叙述特定SMTサブシステム344から重みづけモジュール350、352及び354にそれぞれ与えられ、重みW1、W2及びW3によってそれぞれ重みづけられる。
重みづけられたLM及びTM確率と重みづけられたLeM及びDMペナルティとは合計モジュール360に与えられ(図8を参照)、ここで重みづけモジュール350、352及び354からのLM確率が加算される。同様に、重みづけモジュール350、352及び354からのTM確率が加算される。LeM確率及びDMペナルティも同様に加算される。このようにして得られたLM確率、TM確率、LeMペナルティ及びDMペナルティはデコーダ362に与えられる。
デコーダはこれらの値に基づいて、入力文48の翻訳の最もそれらしい仮説を検索し、nベスト仮説を出力する。
6.実験
6.1 実験データ
提案された技術を評価するために、旅行会話コーパスについて実験を行った。実験用コーパスは、BTECコーパスの旅行用構成課題であり(キクイら、2003年。音声対音声翻訳のためのコーパスの生成。EUROSPEECH予稿集、第381−384ページ)、(Kikui, et al., 2003. Creating Corpora for Speech-to-Speech Translation. In Proceedings of EUROSPEECH, pages 381-384)英語をターゲットとし、他の言語の各々をソース言語とした。トレーニング、開発、及び評価コーパス統計はテーブル1に示すとおりである。評価コーパスでは、一文につき16個の参照翻訳文がある。
(テーブル1)
Figure 2009294747

データはクラスに分けられ(質問及び叙述)、さらに各クラスについてトレーニングセットと開発セットとに細分された。1000個の文が開発データとして取除けられ、残りがトレーニングに用いられた。
実験は様々な異なる言語に対して行われた。これらを以下のキーで表す:アラビア語(ar)、デンマーク語(da)、ドイツ語(de)、英語(en)、スペイン語(es)、フランス語(fr)、インドネシア語(マレー語)(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、マレーシア語(マレー語)(ms)、オランダ語(nl)、ポルトガル語(pt)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)、中国語(zh)である。
[デコーダ]
実験で用いたデコーダ、CleopATRa(クレオパトラ)は、PHARAOH(ファラオ)(フィリップ コーエン、2004年。ファラオ:句ベースの統計的機械翻訳モデルのためのビームサーチデコーダ。機械翻訳:実際のユーザから研究まで:第6回AMTAカンファレンス、ワシントンDC,シュプリンガーフェラーク、第115−124ページ)(Philipp Koehn. 2004. Pharaoh: a beam search decoder for phrase-based statistical machine translation models. Machine translation: from real users to research: 6th conference of AMTA, Washington, DC, Springer Verlag, pp. 115-124.)及びMOSES(モーゼ)(フィリップ コーエンら、2007年。モーゼ:統計的機械翻訳のためのオープンソースツールキット、ACL2007:デモ及びポスターセッション予稿集、プラハ、チェコ共和国、第177−180ページ)(Philipp Koehn et al., 2007. Moses: open source toolkit for statistical machine translation, ACL 2007: proceedings of demo and poster sessions, Prague, Czech Republic, pp. 177-180.)デコーダと同じ原理で動作する、出願人組織内のフレーズベースの統計的デコーダである。デコーダはこれらの実験で、MOSESとほぼ同一の出力を生成するように構成された。デコーダは、モデルの多数の組を扱い、重みづけられた入力を受容し、デコードの間にダイナミックな補間処理を組入れるように修正された。
[実際的な問題]
提案されたアプローチについて最も懸念されるのは、多数のモデルを扱う場合に起こりうる、リソースについての過大な要求である。しかしながら、この実験で用いるデコーダの重要な特徴の一つは、そのモデルをディスクに置き、モデルのうち、手元の文をデコードするのに必要な部分のみをロードできる能力である。これによって、多数のモデルをロードする際に、デコード時間をそれとわかるほど悪化させることなく、メモリのオーバーヘッドが減じられる。さらに、検索開始前に、各文のモデルのほとんどについて、補間可能性を前もって計算することができ、これによって検索メモリと処理時間の両方を減じることができる。
[デコード条件]
デコーダパラメータの調整のために、それぞれの開発コーパスを用いて、BLEUスコアに対する最少誤差トレーニングを行った。SRI言語モデリングツールキット(アンドレアス ストルク1999年。SRILM−拡張可能言語モデルツールキット)(Andreas Stolcke. 1999. SRILM - An Extensible Language Model Toolkit. http://www.speech.sri.com/projects/srilm/)とウィットン−ベル平滑化を用いて構築した5グラム言語モデルを用いた。モデルは長さモデルを含み、さらに、PHARAOHデコーダで用いられる単純な距離ベースのディストーションモデルも含む。
[補間重みの調整]
補間重みは、0から1の範囲で0.1ずつ増分する重みの組によって開発セットのBLEUスコアを最大化することで調整された。図13はこの発明の2つのモデルの重みパラメータに対する挙動を示したものである。
図13を参照して、破線522で示す中国語(zh)から英語への翻訳のBLEUスコアは、重みW1をゼロから増加させても改善が見られなかった。これに対して、実線520で示すインドネシア語(マレー語)(id)から英語への翻訳の場合、W1を約2にするとBLEUスコアは最大となった。これは、ソース言語とターゲット言語との組合せに対する、このシステムの依存性を示す。
[評価スキーム]
ここで提案するアプローチの利点をバランスよく見るために、実験では、このシステムの評価に6種類の評価技術を用いた。すなわち、BLEU(キショー パピネニら、2001年。Bleu:機械翻訳の自動評価方法。IBM調査レポート、RC22176、9月17日)(Kishore Papineni et al., 2001. Bleu: a method for automatic evaluation of machine translation. IBM Research Report, RC22176, September 17.)、NIST(ジョージ ドディントン、2002。nグラムの同時出現統計を用いた機械翻訳品質の自動評価。人間言語技術カンファレンス予稿集、サンディエゴ、カリフォルニア、第138−145ページ)(George Doddington. 2002 Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. Proceedings of Human Language Technology Conference, San Diego, California, pp. 138-145.)、WER(Word Error Rate:単語誤り率)、PER(Position independent WER:位置独立WER)、GTM(General Text Matcher:汎用テキスト一致器)、及びMETEOR(サタニエフ バネリジ及びアロン ラビ、2005年。人の判断との相関が改善されたMT評価のための自動メトリック、ACL―2005:機械翻訳及び/又は要約のための内在的及び外在的評価尺度に関するワークショップ、第65−72ページ)(Satanjeev Banerjee and Alon Lavie. 2005. METEOR:an automatic metric for MT evaluation with improved correlation with human judgments. ACL-2005: Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, pp. 65-72.)である。
6.2分類精度
分類器の性能(トレーニングセットの10分割相互検証による)を表2に示す。ソース(同じ言語)とターゲット(英語)の句読法を予測する分類精度の数字を示した。当然のことながら、全てのシステムで、それ自身の句読法はより良く予測された。表でスコアが悪いものは、言語的特性(おそらくは、ソース文の質問がターゲットではしばしば陳述として表わされる)又はコーパス自体の特性を反映してものであろう。全ての言語について、分類器の精度は、特にコーパスそのものに一貫性を欠く可能性があること(従ってこの実験でのテストデータもそうであること)を考えれば、満足のいくものと思われる。
Figure 2009294747

6.3翻訳の品質
SMTシステムの性能を表3に示す。
Figure 2009294747
この表から、評価された実験条件のほとんどについて、全データでトレーニングされたSMTシステムからなるベースラインシステムにくらべ、このシステムの性能が勝っていることが明らかである。性能が劣化している数値部分では、1つを除く全てで、結果は統計的には有意なものではなく、全ての事例で、他のMT評価メトリックスは改善を示した。いくつかの言語対では驚くべき改善が見られ、特に、この技術を用いると、マレー語idとmsはいずれもBLEUが3.5ポイントも改善された。
興味深いことに、マレー語の親戚であるオランダ語も、実質的に改善された。これは、利得に関する言語学的説明を証拠立てるものである。マレー語は非常に簡潔で規則正しい質問の構造を有し、質問語が質問文のはじめに出現し(ターゲット言語と同様に)、その言語において(たとえば英語の“do”と異なり)他の機能を果たすことはない。おそらくこの表現の単純さのために、この発明のクラス特定モデルが、データ分割によってデータが減少したにも関わらず、データを良好にモデル化できたものと思われる。
別の要因は、分類器の性能と思われ、これは全ての言語において高かった(約98%)。残念ながら、表のスコアの多様性の裏にある理由を知るのは困難である。大きな要因の一つは、コーパスの品質の差と、ソースコーパスとターゲットコーパスとの関係とであろう。いくつかのコーパスは互いの直訳であり、他のものは別の言語からの重訳である。中国語がこの様な言語の一つであり、中国語と関連の深い日本語とタイ語では非常にうまくいったにも関わらず、この言語ではベースラインから改善できなかった理由がこれで説明できるかもしれない。
[先行する方法との比較]
ここで提案した方法を、このシステムのハード重みを用いた実現例と比較するための実験を行った。その目的は、このフレームワーク内で、先行技術の非特許文献1で提案されたシステムにできる限り近づいてみることであった。分類確率でクラス特定モデルに重みを付けることに代えて、1と0との重みを用いた。これを達成するために、分類器からの確率を、確率が>0.5であれば1の重みを与え、そうでなければ0の重みを用いるように2値化処理した。このシステムの性能を、表4の「ハード」という見出しの欄に示す。1つを除く全ての条件下で、このシステムよりも、発明で提案したアプローチのほうが性能が勝っているか、又は等しかった。
Figure 2009294747
表4の、「分類器なし」のラベルの欄は、発明のシステムの分類器の有効性を示している。これらの結果から、質問モデルと叙述モデルとの間の補間に等しい重み(0.5)を用いる効果が示された。このシステムは、分類器を用いたシステムほどではないが、相当の性能を示した。
7.結論
上述の実施の形態では、質問に特定のSMTエンジンと叙述に特定のSMTエンジンとからの2つのモデルを単一のデコード処理に組合せた。しかし、この発明は2つのクラスのシステムに限定されるものではない。式1から明らかなとおり、この発明は3又はそれ以上のクラスを含むシステムに適用可能である。
この技術は、構成要素モデル間の確率による柔軟な重みづけでのトピック依存デコード処理を可能にする。実験は、疑問文と叙述文とのクラスにクラス特定モデルを構築することで、会話データに対するこの発明の実施の形態の有効性を示した。多数の言語対及びMT評価メトリックスを用いた技術の広範な評価は、この発明の有効性を示す。ほとんどの場合、モデル補間なしのシステムに対し優位な改善を示すことができ、いくつかの言語対に対してはこのアプローチが優越している。全ての言語対の中で最も改善されたのはマレーシア語(マレー語)と英語であり、ベースラインシステムに対しBLEUが4.7ポイント(0.463から0.510)上昇した。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
この発明の1実施の形態のSMTシステム30の全体ブロック図である。 図1に示すクラス依存SMTモデル112の3つの組とSMTトレーニングモジュール74の詳細なブロック図である。 句テーブル生成モジュール76の詳細なブロック図である。 分類器トレーニングモジュール72の詳細なブロック図である。 重み推定モジュール70ブロック図である。 SMTモジュール96の詳細なブロック図である。 重みづけモジュール352の簡略化されたブロック図である。 合計モジュール360の簡略化されたブロック図である。 正規化モジュール94のブロック図である。 分類器92の簡略化されたブロック図である。 「<s>where is the station</s>」の文から抽出されたnグラム特徴量の組の例を示す図である。 SMTシステム30の動作処理を示すフローチャートである。 実験に用いられたモデルのうち2つ、すなわち中国語(zh)とインドネシア語(id)との、それらの重みパラメータに対する挙動を示す図である。
符号の説明
30 SMTシステム
40 開発セット
42 トレーニングセット
44 トレーニングモジュール
46 SMT装置
48 入力文
50 翻訳
70 重み推定モジュール
72 分類器トレーニングモジュール
74 SMTトレーニングモジュール
76 句テーブル生成モジュール
92 分類器
96 SMTモジュール
110 分類器モデル
112 クラス特定SMTモデル
114 句テーブル
130 SMTトレーニングモジュール
134 質問特定SMTトレーニングモジュール
138 叙述特定SMTトレーニングモジュール
160 一般SMTモデル
162 質問特定SMTモデル
164 叙述特定SMTモデル
290及び460 特徴量抽出モジュール
294 最大エントロピモデリングモジュール
324 重み最適化モジュール
340 一般SMTサブシステム
342 質問特定SMTサブシステム
344 叙述特定SMTサブシステム
362 デコーダ

Claims (6)

  1. ソース文のクラスメンバーシップを表す確率のベクトルを決定するための手段を含み、前記ベクトルの要素はソース文が予め定められたクラスの集合の1つに属する確率を表し、さらに、
    前記予め定められたクラスの集合のクラスそれぞれについて設けられた、複数個のクラス特定統計的サブデコーダをさらに含み、前記デコーダはそれぞれのクラスのトレーニングデータのそれぞれの集合によって統計的にトレーニングされ、前記デコーダの各々は前記ソース文中の単語又は単語シーケンスの各々について、ターゲット言語での翻訳単語又は単語シーケンスの確率を出力し、
    前記ターゲット言語の可能な単語シーケンスの確率に従って、前記ソース文の前記ターゲット言語における最も尤度の高い翻訳仮説を推定するための手段をさらに含み、前記ターゲット言語の可能な単語シーケンスの前記確率は、前記複数個のサブデコーダによって出力される確率を前記ターゲット言語の単語又は単語シーケンスの各々についての前記確率ベクトルに従って補間することによって計算される、統計的機械翻訳装置。
  2. 前記複数個のクラスは一般クラスと複数個の特定クラスとを含み、
    前記複数個の特定クラスは、前記一般クラスを分割したものである、請求項1に記載の統計的機械翻訳装置。
  3. 前記一般クラスに対応する前記ベクトルの1要素は、0から1の範囲の定数である、請求項1又は請求項2に記載の統計的機械翻訳装置。
  4. 前記ベクトルの要素を正規化して、前記要素の和が1となるようにするための正規化手段をさらに含む、請求項1〜請求項3のいずれかに記載の統計的機械翻訳装置。
  5. 前記確率のベクトルを決定するための手段は、最大エントロピモデルに基づいて統計的にトレーニングされ、前記クラスのそれぞれにメンバーシップ確率を割当てる、請求項1〜請求項4のいずれかに記載の統計的機械翻訳装置。
  6. 前記複数個のクラス特定統計的サブデコーダの各々は、クラス特定言語モデル、クラス特定翻訳モデル、クラス特定長さモデル、又はクラス特定ディストーションモデル、又はこれらモデルの任意の組合せに従って確率を計算する、請求項1〜請求項5のいずれかに記載の統計的機械翻訳装置。
JP2008145533A 2008-06-03 2008-06-03 統計的機械翻訳装置 Active JP5288371B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008145533A JP5288371B2 (ja) 2008-06-03 2008-06-03 統計的機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008145533A JP5288371B2 (ja) 2008-06-03 2008-06-03 統計的機械翻訳装置

Publications (2)

Publication Number Publication Date
JP2009294747A true JP2009294747A (ja) 2009-12-17
JP5288371B2 JP5288371B2 (ja) 2013-09-11

Family

ID=41542918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008145533A Active JP5288371B2 (ja) 2008-06-03 2008-06-03 統計的機械翻訳装置

Country Status (1)

Country Link
JP (1) JP5288371B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180941A (ja) * 2010-03-03 2011-09-15 National Institute Of Information & Communication Technology 句テーブル生成器及びそのためのコンピュータプログラム
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
JP2017097882A (ja) * 2015-11-24 2017-06-01 株式会社Nttドコモ 機械翻訳評価方法および装置、並びに機械翻訳方法および装置
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
US9881006B2 (en) 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
CN109960814A (zh) * 2019-03-25 2019-07-02 北京金山数字娱乐科技有限公司 模型参数搜索方法以及装置
CN113435215A (zh) * 2021-06-22 2021-09-24 北京捷通华声科技股份有限公司 一种机器翻译方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000509173A (ja) * 1996-04-03 2000-07-18 シーメンス アクチエンゲゼルシヤフト デジタルデータへの変換後にドキュメントにプロットされるテキストの自動分類方法
JP2005285129A (ja) * 2004-03-30 2005-10-13 Microsoft Corp 論理形式のための統計的言語モデル
JP2006338261A (ja) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 翻訳装置、翻訳方法及び翻訳プログラム
JP2007249050A (ja) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP2008059440A (ja) * 2006-09-01 2008-03-13 National Institute Of Information & Communication Technology 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000509173A (ja) * 1996-04-03 2000-07-18 シーメンス アクチエンゲゼルシヤフト デジタルデータへの変換後にドキュメントにプロットされるテキストの自動分類方法
JP2005285129A (ja) * 2004-03-30 2005-10-13 Microsoft Corp 論理形式のための統計的言語モデル
JP2006338261A (ja) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 翻訳装置、翻訳方法及び翻訳プログラム
JP2007249050A (ja) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP2008059440A (ja) * 2006-09-01 2008-03-13 National Institute Of Information & Communication Technology 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
JP2011180941A (ja) * 2010-03-03 2011-09-15 National Institute Of Information & Communication Technology 句テーブル生成器及びそのためのコンピュータプログラム
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
US9805031B2 (en) 2014-02-28 2017-10-31 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9881006B2 (en) 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
JP2017097882A (ja) * 2015-11-24 2017-06-01 株式会社Nttドコモ 機械翻訳評価方法および装置、並びに機械翻訳方法および装置
CN109960814A (zh) * 2019-03-25 2019-07-02 北京金山数字娱乐科技有限公司 模型参数搜索方法以及装置
CN109960814B (zh) * 2019-03-25 2023-09-29 北京金山数字娱乐科技有限公司 模型参数搜索方法以及装置
CN113435215A (zh) * 2021-06-22 2021-09-24 北京捷通华声科技股份有限公司 一种机器翻译方法和装置

Also Published As

Publication number Publication date
JP5288371B2 (ja) 2013-09-11

Similar Documents

Publication Publication Date Title
JP5288371B2 (ja) 統計的機械翻訳装置
Artetxe et al. An effective approach to unsupervised machine translation
Yeh Speech act identification using semantic dependency graphs with probabilistic context-free grammars
KR102329127B1 (ko) 방언을 표준어로 변환하는 방법 및 장치
Mauser et al. Extending statistical machine translation with discriminative and trigger-based lexicon models
KR20190039817A (ko) 신경 기계 번역 시스템
WO2010046782A2 (en) Hybrid machine translation
WO2006138386A2 (en) Collocation translation from monolingual and available bilingual corpora
Kirchhoff et al. Improved language modeling for statistical machine translation
Finch et al. Dynamic model interpolation for statistical machine translation
Devlin et al. Statistical machine translation as a language model for handwriting recognition
Prasad et al. BBN TransTalk: Robust multilingual two-way speech-to-speech translation for mobile platforms
Gu et al. Concept-based speech-to-speech translation using maximum entropy models for statistical natural concept generation
JP5500636B2 (ja) 句テーブル生成器及びそのためのコンピュータプログラム
Justo et al. Integration of complex language models in ASR and LU systems
Blackwood Lattice rescoring methods for statistical machine translation
Zarnoufi et al. Machine normalization: Bringing social media text from non-standard to standard form
Sridhar et al. Enriching machine-mediated speech-to-speech translation using contextual information
Aransa Statistical machine translation of the Arabic language
Khalilov et al. Neural network language models for translation with limited data
Vaičiūnas et al. Statistical language models of Lithuanian based on word clustering and morphological decomposition
Antony et al. Statistical method for English to Kannada transliteration
Pham et al. Adaptation in Statistical Machine Translation for Low-resource Domains in English-Vietnamese Language
Berrichi et al. A word alignment study to improve the reliability of the statistical and neural translation system
Garcia-Varea et al. Maximum Entropy Modeling: A Suitable Framework to Learn Context-Dependent Lexicon Models for Statistical Machine Translation: Basic Instructions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130528

R150 Certificate of patent or registration of utility model

Ref document number: 5288371

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250