JP4113204B2 - 機械翻訳装置、その方法およびプログラム - Google Patents

機械翻訳装置、その方法およびプログラム Download PDF

Info

Publication number
JP4113204B2
JP4113204B2 JP2005183421A JP2005183421A JP4113204B2 JP 4113204 B2 JP4113204 B2 JP 4113204B2 JP 2005183421 A JP2005183421 A JP 2005183421A JP 2005183421 A JP2005183421 A JP 2005183421A JP 4113204 B2 JP4113204 B2 JP 4113204B2
Authority
JP
Japan
Prior art keywords
language
phrase
probability
phrases
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005183421A
Other languages
English (en)
Other versions
JP2007004446A (ja
Inventor
昌明 永田
邦子 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005183421A priority Critical patent/JP4113204B2/ja
Publication of JP2007004446A publication Critical patent/JP2007004446A/ja
Application granted granted Critical
Publication of JP4113204B2 publication Critical patent/JP4113204B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、第1の言語(原言語)の文を該第1の言語とは別の第2の言語(目的言語)の文に翻訳する機械翻訳技術、特に入力された原言語の文を句に分割し、各々の句の対訳となる目的言語の句を列挙し、これを並べ替えることにより目的言語の文を生成する機械翻訳装置において、原言語における句の並びと目的言語における句の並びとの対応関係の確率モデルを用いることにより、目的言語の句の並びをより自然かつ文法的に正しい順とする機械翻訳技術に関するものである。
近年、対訳コーパスから翻訳モデルを学習することで統計的に翻訳を行う統計的機械翻訳(統計翻訳)についての研究が盛んに行われている。辞書や規則を人手で作成する従来の方法に比べて、統計的機械翻訳は、対訳コーパスさえあれば、短期間に低コストで機械翻訳システムを作成できるという利点がある。
統計的機械翻訳は、1990年代前半にIBM研究所においてその基礎が確立された。当時IBMで考案された翻訳モデルは、単語を翻訳の基本単位としており、一般に「IBM翻訳モデル」と呼ばれる。IBM翻訳モデルは、特許文献1に詳しく述べられている。
また、統計的機械翻訳では、原言語の文を目的言語への翻訳することを「デコーディング」と呼び、翻訳を実行するプログラムのことを「デコーダ」と呼ぶ。IBMモデルに基づく翻訳デコーダについては、特許文献2に詳しく述べられている。
近年、単語を翻訳の基本単位とするIBMモデルに対して、1つの単語もしくは2つ以上の連続する単語からなる単語列、即ち句(phrase)を翻訳の基本単位とする「句に基づく翻訳モデル」が幾つか提案された。句に基づく翻訳モデルは、単語に基づく翻訳モデルに比べて、文脈に基づく訳語選択や局所的な語の並べ替えを表現する能力が高いため、現在の最も優れた統計翻訳モデルとされている。
句に基づく翻訳モデルとしては、「対応付けテンプレート(alignment template)に基づく翻訳」および「統計的な句に基づく翻訳(statistical phrase−based translation)」が代表的である。
対応付けテンプレートに基づく翻訳は、ドイツのアーヘン工業大学において考案されたもので、非特許文献1に詳しく述べられている。また、統計的な句に基づく翻訳は、米国の南カリフォルニア大学情報科学研究所において考案されたもので、非特許文献2に詳しく述べられている。
ここでは、現在、最も翻訳の精度が高い統計的機械翻訳手法として知られている「統計的な句に基づく翻訳(statistical phrase−based translation)」について簡単に説明する。
統計的機械翻訳では、原言語fが目的言語eへ翻訳される確率p(e|f)を最大とする目的言語の文
Figure 0004113204
を求める。これはベイズの法則によりp(f|e)p(e)を最大化すればよい。
Figure 0004113204
ここで、p(e)を「言語モデル」、p(f|e)を「翻訳モデル」と呼ぶ。言語モデルは、目的言語の文の尤もらしさを確率として表現するモデルで、一般的には単語trigramモデルが用いられる。
統計的な句に基づく翻訳では、翻訳モデルとして次式を使用する。
Figure 0004113204
ここで、
Figure 0004113204
を「句翻訳確率」、d(ai−bi-1)を「歪み確率」と呼ぶ。
上式においてIは句の数を表し、原言語の文はI個の句の列
Figure 0004113204
に分割される。
Figure 0004113204
は分割されたそれぞれの句、
Figure 0004113204
Figure 0004113204
の対訳となる句である。目的言語の文はI個の句の列
Figure 0004113204
から構成され、aiは目的言語のi番目の句
Figure 0004113204
の左端の単語の位置、bi-1は目的言語のi−1番目の句
Figure 0004113204
の右端の単語の位置を表す。
句翻訳確率は、互いに対訳になっている句(対訳句)の集合を対訳コーパスから統計的な方法で予め求めておき、次式のように、同じ目的言語の句の対訳となる様々な原言語の句の相対頻度から計算する。
Figure 0004113204
歪み確率は、次式によって算出する。ここでαは実験的に決定するパラメータである。
Figure 0004113204
この歪み確率のモデルを図1の例で説明する。ここでは英語から日本語への翻訳の例を考え、原言語の文「language is a means of communication」が目的言語の文「言話はコミュニケーションの道具である」に翻訳されるとする。例えば、式(4)の指数の肩にある|αi−bi-1−1|の値を目的言語の3番目の句「の道具」について求めると、この目的言語の句に対応する原言語の句の左端の単語“a”の位置は「3」であり、この目的言語の句の直前の句(2番目の句)の右端の単語“communication”の位置は「6」であるので、|3−6−1|=4となる。
従って、式(4)の歪み確率モデルは、原言話の句と目的言語の句の並びが同じである時に確率が1となり、句の並びの変化が大きければ大きいほど、指数的に小さな確率を割り当てるようになっている。
句に基づく翻訳モデルのもう一つの代表例である翻訳テンプレートに基づく手法において、原言語の句と目的言語の句との対応関係に対して与えられる確率(スコア)も、基本的な考え方は式(4)と同じである。非特許文献1によれば、目的言語のi番目の句に対応する原言語の句の最後の単語の位置と、目的言語のi−1番目の句に対応する原言語の句の最後の単語の位置との差の絶対値を求め、全ての目的言語の句に関するこの絶対値の総和を対数線形モデルの特徴量とする。
特開平5−189481号公報(特願平4−191712号) 米国特許第5,510,981号明細書(1996.4.23) Franz Josef Och and Hermann Ney,The Alignment Template Approach to Statistical Machine Translation,Computational Linguistics,Vol.30,No.4,2004 Philipp Koehn,Franz Josef Och and Daniel Marcu,Statistical Phrase−based Translation,HLT/NAACL−2004,p.127−133
従来の句に基づく翻訳における歪み確率のモデルでは、句の並べ替えにおいて、目的言語において隣り合う2つの句に対応する原言語の2つの句の相対的な距離の絶対値しか考慮しない。
例えば、英語は主語・動詞・目的語という語順が基本であり、日本語は主語・目的語・動詞という語順が基本であるので、動詞を含む句と目的語となる名詞を含む句は、英語と日本語では逆順になるが、従来の句に基づく翻訳における歪み確率モデルには、句の種類や正順・逆順という概念はない。
これは従来の統計翻訳の研究が、英語とフランス語の翻訳や英語とドイツ語の翻訳のように、語順が比較的近い言語間の翻訳を対象としており、「原言語と目的言語の句の並びはほとんど同じであり、句の順番を大きく並び替えることに対してペナルティを与えればよい」という非常に単純な発想に基づいて、歪み確率モデルが設計されているためだと考えられる。
従って、従来の句に基づく翻訳における歪み確率モデルは、日本語と英語のような語順が大きく異なる言語間の翻訳にみられる大局的かつ規則的な語句の並び替えを表現する能力が低く、文法的に正しく自然な語順の目的言語の文を生成することが難しいという問題があった。
本発明は、このような事情に鑑みてなされたものであり、原言語から目的言語への翻訳において、句を構成する単語の表記や品詞の情報に基づいて句を分類し、句の並べ替えにおいて句の距離だけでなく正順と逆順を区別するような歪み確率モデル使用することにより、より文法的に正しく自然な語順を有する目的言語の文を生成できる機械翻訳装置を提供することを目的とする。
図2は本発明の機械翻訳装置の原理構成図である。
本発明の機械翻訳装置は、
原言語の句とこれに対応する目的言語の句を多数記憶するとともに、互いに対訳になっている原言語の句と目的言語の句との組について、目的言語の句が原言語の句へ翻訳される確率を求める句翻訳モデル(句翻訳確率計算手段)1と、
原言語の句と目的言語の句との対応関係の尤もらしさを示す歪み確率を、目的言語の隣り合う2つの句に対応する原言語の2つの句の距離の情報とともに少なくとも前後関係の情報を用いて求める歪みモデル(歪み確率計算手段)2と、
目的言語の任意の単語列が生成される確率を求める言語モデル(言語確率計算手段)3と、
入力された原言語の文(品詞付き単語列)を句に分割し、各々の句の対訳となる目的言語の句を句翻訳モデル1から検索し、該検索した目的言語の句を並べ替えることにより目的言語の文を作成し、該作成した目的言語の文の中で、句翻訳モデル1により求められる句翻訳確率と、歪みモデル2により求められる歪み確率と、言語モデル3により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーダ(翻訳デコーディング手段)4と、
を備える。
図3は本発明の機械翻訳装置の原理を説明するためのフローチャートである。
本発明の機械翻訳装置は、翻訳デコーダ4において、まず、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された原言語の文を句に分割し、全ての句についてその対訳となる目的言語の句を句翻訳モデル1から検索し、これらをメモリに記録して対訳句テーブル5を作成する(ステップs1)。
図4は対訳句テーブル5の一例、ここでは図1の翻訳例に対応した例を示すものである。図示するように、原言語の各々の句に対して、一つまたは複数の目的言語の句が列挙される。
以降、この対訳句テーブル5の要素を参照しながら、原言語の文から句を1つ選択し、その対訳となる句を用いて、目的言語の文を左から右へ句を1つ接続するという操作を繰り返すことにより、目的言語の文を作成する。この処理過程の途中の状態を「仮説」と呼び、該仮説は、原言語の文において既に選択された句、選択された句の対訳を接続して生成した目的言語の文、原言語の句と目的言語の句との対応関係などを含む。
まず、初期仮説として、原言語の文において句は全く選択されておらず、かつ、目的言語の文が空集合(φ)である状態の仮説を作成し、これを仮説スタック(FIFOメモリ)6に格納する(ステップs2)。
次に、仮説スタック6内に仮説がまだあるかどうかを調べる(ステップs3)。もし仮説が残っていなければ探索を終了し、翻訳に失敗したことを通知する。もし仮説が残っていれば、次のステップへ進む。
次に、仮説スタック6の先頭の仮説を取り出す(ステップs4)。
次に、この仮説が目標状態に達しているか否かを調べる(ステップs5)。目標状態とは、原言語の文のおいて句を選択することにより、原言語の全ての単語が目的言語へ翻訳されている状態である。もし目標状態へ達していれば、翻訳は成功であり、目的言語の文を出力して処理を終了する。もし目標状態へ到達していなければ、次のステップへ進む。
次に、この仮説を対訳句テーブル5の要素を参照して展開し、得られた新たな仮説の集合を仮説スタック6へ入れる(ステップs6)。仮説を展開するとは、現在の仮説において、原言語の文の中でまだ翻訳されていない部分から句を一つ選択し、その対訳となる目的言語の句を目的言語の文の末尾に接続することである。原言語の文から句を選択する方法は複数あり得るので、複数の仮説が生成される。
次に、仮説に含まれる、原言語の文から選択された句、その対訳となる目的言語の句を並び替えることにより生成された目的言語の文、および、原言語の句と目的言語の句の対応関係を基に、仮説スタック6内の各仮説が表す翻訳の途中の状態の確率を、句翻訳モデル1と歪みモデル2と言語モデル3とから計算し(ステップs7)、仮説スタック6内の仮説を前記確率が大きい順にソートし(ステップs8)、ステップs3へ戻る。
このような構成になっているので、歪みモデル2において、目的言語の隣り合う2つの句に対応する原言語の2つの句の距離および前後関係の情報、さらには句を構成する単語の表記や品詞の情報を用いて歪み確率を計算することにより、2つの句の距離しか用いない従来の歪みモデルに比べて、目的言語の句の並びがより自然かつ文法的に正しい語順となるような機械翻訳装置を構成できる。
図5に翻訳デコーダ4による動作の一例を示す。この例では「language is a means of translation」という英語の文が「言語はコミュニケーションの道具である」という日本語の文に翻訳される様子を示している。原言語(英語)の文と目的言語(日本語)の文を含む長方形の枠が一つの仮説を表す。探索空間を表現する木構造の根にある仮説が初期仮説である。図中、太線の矢印で示される経路により、原言語の文から句が一つずつ選択され、それに対応する日本語の句を末尾に一つずつ連接していくことにより、目的言語の文が生成される様子が分かる。
[作用]
従来の句に基づく翻訳における歪みモデルでは、句の並べ替えにおいて、目的言語において隣り合う2つの句に対応する原言語の2つの句の相対的な距離の絶対値しか考慮しないため、日本語と英語のような語順が大きく異なる言語間の翻訳にみられる大局的かつ規則的な語句の並び替えを表現する能力が低く、文法的に正しく自然な語順の目的言語の文を生成することが難しいという問題があった。
本発明は、歪みモデルにおいて、目的言語の隣り合う2つの句に対応する原言語の2つの句の距離および前後関係情報、さらには句を構成する単語の表記や品詞の情報を用いることにより、2つの句の距離しか用いない従来の歪みモデルに比べて、目的言語の句の並びがより自然かつ文法的に正しい語順となるような機械翻訳を実現できる。
本発明によれば、原言語から目的言語への翻訳において、句を構成する単語の表記や品詞の情報に基づいて句を分類し、句の並べ替えにおいて句の距離だけでなく正順と逆順を区別するような歪みモデル使用することにより、より文法的に正しく自然な語順を有する目的言語の文を生成できる機械翻訳を実現できる。
図6は本発明の機械翻訳装置の実施の形態の一例を示すもので、図中、図2と同一構成部分は同一符号をもって表す。即ち、1は句翻訳モデル(句翻訳確率計算手段)、2は歪みモデル(歪み確率計算手段)、3は言語モデル(言語確率計算手段)、4は翻訳デコーダ(翻訳デコーディング手段)、7は品詞付与手段、11は対訳コーパス、12は句対応付け手段、13は句対応付き対訳コーパス、14は原言語品詞付与手段、15は目的言語品詞付与手段、16は句対応・品詞付き対訳コーパス、17は歪みモデル学習手段である。
以下、図6を参照して、この発明の実施の形態の一例について説明する。
<句翻訳モデルと言語モデル>
本発明の実施の形態の一例における句翻訳モデル1は、従来の「統計的な句に基づく翻訳」と同じである。即ち、互いに対訳になっている原言語と目的言語の句を対訳コーパス11から自動的に抽出し、同じ目的言語の句の対訳となる原言語の句の相対頻度を句翻訳確率とする。
このために、まず原言語から目的言語、目的言語から原言語の両方向について、IBM翻訳モデルを用いて対訳文の単語対応を求める。ここで、二つの単語対応付けの積集合(intersection)と和集合(union)を考えると、両方向で一致している積集合の要素はより信頼できる対応付けである。そこで、積集合の対応点を起点にその近傍の和集合の対応点を加えて対訳句を作る。必要ならば、句が文を矛盾なく覆うという条件の下で、和集合に含まれていない近傍の単語対応をさらに加えて対訳句を作成する。
この対訳句の抽出法および句翻訳確率の計算法については、非特許文献2に詳しく述べられている。
図7に句翻訳モデルの一例を示す。各行が一つの対訳句を表し、一つのレコードは‘|’で区切られおり、それぞれ、原言語の句、目的言語の句、目的言語から原言語への翻訳確率を表す。
一方、本発明の実施の形態の一例における言語モデル3は、単語trigramモデルである。この単語trigramモデルは、対訳コーパス11における目的言語の文から作成してもよいし、他の目的言語のコーパスから作成してもよい。
<歪みモデル>
本発明の実施の形態の一例における歪みモデル2は、図6に示すように、対訳コーパス11と句翻訳モデル1から作成する。
まず対訳コーパス11の各対訳文に対して、句対応付け手段12を用いて、句対応を求める。句対応とは、図1に示されているような、原言語の句と目的言語の句の対応のことである。句対応付け手段12は、句翻訳モデル1を用いて、目的言語の句が原言語の句へ翻訳される確率の全ての句に関する積が最大となるような句対応(Viterbi対応)を動的計画法により求める。
こうして作成した句対応付き対訳コーパス13に対して、原言語品詞付与手段14および目的言語品詞付与手段15を用いて各文に品詞を付与し、句対応・品詞付き対訳コーパス16を作成する。この句対応・品詞付き対訳コーパス16から歪みモデル学習手段17を用いて歪みモデルを学習する。
こうして対訳コーパス11に対して、句の対応と品詞を付与することにより、目的言語の隣り合う2つの句に対応する原言語の2つの句の距離、前後関係、句を構成する単語の表記・品詞など、様々な情報を利用した歪みモデル2を、相対頻度法により推定することができる。
本発明の実施の形態の一例の歪みモデルでは、目的言語の隣り合う2つの句の後方の句に対応する原言語の句の先頭の単語の品詞を考慮する。また、目的言語の隣り合う2つの句に対応する原言語の2つの句の状態を、以下のような正順(間隙なし)、正順(間隙あり)、逆順(間隙なし)、逆順(間隙あり)の4つの場合に分ける。
・正順(間隙なし):対応する原言語の2つの句は、目的言語の句と同じ順番で、かつ、連接している。
・正順(間隙あり):対応する原言語の2つの句は、目的言語の句と同じ順番で、かつ、連接していない。
・逆順(間隙なし):対応する原言語の2つの句は、目的言語の句とは反対の順番で、かつ、連接している。
・逆順(間隙あり):対応する原言語の2つの句は、目的言語の句とは反対の順番で、かつ、連接していない。
図8に歪みモデルの一例を示す。各行が一つのレコードを表し、データは‘|’で区切られている。先頭からそれぞれ、原言語の句の先頭の単語の品詞(図中、DTは冠詞、EXは存在のthrer、FWは外来語)、上記の4つの状態(正順/逆順、間隙あり/なし)、その確率(e−05は×10-5の意)を表している。ここで、正順(間隙なし)、正順(間隙あり)、逆順(間隙なし)、逆順(間隙あり)は、それぞれ「1」、「2」、「−1」、「−2」で表されている。
<翻訳デコーダの動作>
本発明の実施の形態の一例において、原言語の文を翻訳する際には、図6に示すように、まず品詞付与手段7により、入力文の各単語に品詞を付与する。この品詞付き単語列を入力として、翻訳デコーダ4は、句翻訳モデル1、歪みモデル2、言語モデル3を用いて、図3で説明したような流れに従い、句翻訳確率と歪み確率と言語モデル確率と積が最大となるような目的言語の文を出力する。
従来の機械翻訳手法における歪みモデルの説明図 本発明の機械翻訳装置の原理構成図 本発明の機械翻訳装置の原理を説明するためのフローチャート 対訳句テーブルの一例を示す説明図 翻訳デコーダによる動作の一例を示す説明図 本発明の機械翻訳装置の実施の形態の一例を示す構成図 句翻訳モデルの一例を示す説明図 歪みモデルの一例を示す説明図
符号の説明
1:句翻訳モデル(句翻訳確率計算手段)、2:歪みモデル(歪み確率計算手段)、3:言語モデル(言語確率計算手段)、4:翻訳デコーダ(翻訳デコーディング手段)、5:対訳句テーブル、6:仮説スタック(FIFOメモリ)、7:品詞付与手段、11:対訳コーパス、12:句対応付け手段、13:句対応付き対訳コーパス、14:原言語品詞付与手段、15:目的言語品詞付与手段、16:句対応・品詞付き対訳コーパス、17:歪みモデル学習手段。

Claims (9)

  1. 第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳する機械翻訳装置であって、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報とともに少なくとも第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段と、
    入力された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成し、該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備えた
    ことを特徴とする機械翻訳装置。
  2. 第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳する機械翻訳装置であって、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報および第1の言語または第2の言語のいずれか一方もしくは両方における句を構成する単語のうちの少なくとも1つの単語の表記の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段と、
    入力された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成し、該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備えた
    ことを特徴とする機械翻訳装置。
  3. 第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳する機械翻訳装置であって、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報および第1の言語または第2の言語のいずれか一方もしくは両方における句を構成する単語のうちの少なくとも1つの単語の品詞の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段と、
    入力された第1の言語の文の各単語に品詞を付与する品詞付与手段と、
    前記各単語に品詞が付与された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成し、該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備えた
    ことを特徴とする機械翻訳装置。
  4. コンピュータを用いて第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳する方法であって、
    コンピュータは、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報とともに少なくとも第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段とを備え、
    前記コンピュータが、
    入力された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、
    該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成し、
    該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する
    ことを特徴とする機械翻訳方法。
  5. コンピュータを用いて第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳する方法であって、
    コンピュータは、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報および第1の言語または第2の言語のいずれか一方もしくは両方における句を構成する単語のうちの少なくとも1つの単語の表記の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段とを備え、
    前記コンピュータが、
    入力された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、
    該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成し、
    該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する
    ことを特徴とする機械翻訳方法。
  6. コンピュータを用いて第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳する方法であって、
    コンピュータは、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報および第1の言語または第2の言語のいずれか一方もしくは両方における句を構成する単語のうちの少なくとも1つの単語の品詞の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段と、
    入力された第1の言語の文の各単語に品詞を付与する品詞付与手段とを備え、
    前記コンピュータが、
    前記各単語に品詞が付与された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、
    該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成し、
    該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する
    ことを特徴とする機械翻訳方法。
  7. コンピュータに第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳させるプログラムであって、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報とともに少なくとも第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段とを備えたコンピュータに、
    入力された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索するステップと、
    該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成するステップと、
    該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力するステップとを実行させる
    ことを特徴とする機械翻訳プログラム。
  8. コンピュータに第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳させるプログラムであって、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報および第1の言語または第2の言語のいずれか一方もしくは両方における句を構成する単語のうちの少なくとも1つの単語の表記の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段とを備えたコンピュータに、
    入力された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索するステップと、
    該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成するステップと、
    該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力するステップとを実行させる
    ことを特徴とする機械翻訳プログラム。
  9. コンピュータに第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳させるプログラムであって、
    第1の言語の句とこれに対応する第2の言語の句を複数記憶するとともに、互いに対訳になっている第1の言語の句と第2の言語の句との組について、第2の言語の句が第1の言語の句へ翻訳される確率を求める句翻訳確率計算手段と、
    第1の言語の句と第2の言語の句との対応関係の尤もらしさを示す歪み確率を、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離の情報、第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の前後関係の情報および第1の言語または第2の言語のいずれか一方もしくは両方における句を構成する単語のうちの少なくとも1つの単語の品詞の情報を用いて求める歪み確率計算手段と、
    第2の言語の任意の単語列が生成される確率を求める言語確率計算手段と、
    入力された第1の言語の文の各単語に品詞を付与する品詞付与手段とを備えたコンピュータに、
    前記各単語に品詞が付与された第1の言語の文を句に分割し、各々の句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索するステップと、
    該検索した第2の言語の句を並べ替えることにより第2の言語の文を作成するステップと、
    該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記歪み確率計算手段により求められる歪み確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力するステップとを実行させる
    ことを特徴とする機械翻訳プログラム。
JP2005183421A 2005-06-23 2005-06-23 機械翻訳装置、その方法およびプログラム Active JP4113204B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005183421A JP4113204B2 (ja) 2005-06-23 2005-06-23 機械翻訳装置、その方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005183421A JP4113204B2 (ja) 2005-06-23 2005-06-23 機械翻訳装置、その方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2007004446A JP2007004446A (ja) 2007-01-11
JP4113204B2 true JP4113204B2 (ja) 2008-07-09

Family

ID=37690023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005183421A Active JP4113204B2 (ja) 2005-06-23 2005-06-23 機械翻訳装置、その方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4113204B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5544518B2 (ja) * 2010-05-14 2014-07-09 日本電信電話株式会社 機械翻訳装置、機械翻訳方法、およびそのプログラム
JP5791097B2 (ja) * 2011-03-04 2015-10-07 国立研究開発法人情報通信研究機構 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置

Also Published As

Publication number Publication date
JP2007004446A (ja) 2007-01-11

Similar Documents

Publication Publication Date Title
JP5705472B2 (ja) 一般化された巡回セールスマン問題としてのフレーズ−ベースの統計的機械翻訳
US7797148B2 (en) Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice
Chen Building probabilistic models for natural language
US6233544B1 (en) Method and apparatus for language translation
US20090150139A1 (en) Method and apparatus for translating a speech
US7689405B2 (en) Statistical method for building a translation memory
Garg et al. Machine translation: a literature review
US8849665B2 (en) System and method of providing machine translation from a source language to a target language
JP2005521952A (ja) 統計的機械翻訳用の句間結合確率モデル
JP2008065395A (ja) 翻訳装置、翻訳方法および翻訳プログラム
Hellsten et al. Transliterated mobile keyboard input via weighted finite-state transducers
JP4113204B2 (ja) 機械翻訳装置、その方法およびプログラム
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP5565827B2 (ja) 統計的機械翻訳のための言語独立な単語セグメント化のための文分離器トレーニング装置、そのためのコンピュータプログラム及びコンピュータ可読媒体。
JP2009075795A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
JP5180522B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体
Chaudhary et al. The ariel-cmu systems for lorehlt18
JP4829702B2 (ja) 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体
JP2005025474A (ja) 機械翻訳装置、コンピュータプログラム及びコンピュータ
JP5734917B2 (ja) 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
JP5500636B2 (ja) 句テーブル生成器及びそのためのコンピュータプログラム
JP5544518B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
WO1999001828A1 (en) FSTs APPROXIMATING HIDDEN MARKOV MODELS AND TEXT TAGGING USING SAME

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080410

R150 Certificate of patent or registration of utility model

Ref document number: 4113204

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130418

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140418

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350