JP2006338261A - 翻訳装置、翻訳方法及び翻訳プログラム - Google Patents
翻訳装置、翻訳方法及び翻訳プログラム Download PDFInfo
- Publication number
- JP2006338261A JP2006338261A JP2005161357A JP2005161357A JP2006338261A JP 2006338261 A JP2006338261 A JP 2006338261A JP 2005161357 A JP2005161357 A JP 2005161357A JP 2005161357 A JP2005161357 A JP 2005161357A JP 2006338261 A JP2006338261 A JP 2006338261A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- phrase
- language
- parallel
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】複数の翻訳辞書を用いて機械翻訳する際に各辞書由来の尤度の偏りを補正して精度の高い翻訳処理を可能とすること。
【解決手段】固有表現抽出手段11で入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成し、句対訳候補列挙手段25で固有表現抽出済み文を構成する各々の句に対応する句対訳候補を翻訳モデル群記憶部21から検索し、その確率値とともに対訳侯補テーブル24に記録し、辞書別重み付け手段26で重み付けテーブル23を参照して句対訳候補に対応する各翻訳辞書由来の確率値に重みを付け、最適経路探索手段27で対訳侯補テーブル24に記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部22から取得した当該組み合わせにおける連続する2つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する。
【選択図】図1
【解決手段】固有表現抽出手段11で入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成し、句対訳候補列挙手段25で固有表現抽出済み文を構成する各々の句に対応する句対訳候補を翻訳モデル群記憶部21から検索し、その確率値とともに対訳侯補テーブル24に記録し、辞書別重み付け手段26で重み付けテーブル23を参照して句対訳候補に対応する各翻訳辞書由来の確率値に重みを付け、最適経路探索手段27で対訳侯補テーブル24に記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部22から取得した当該組み合わせにおける連続する2つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する。
【選択図】図1
Description
この発明は、第1の言語で記述された入力文を第2の言語に翻訳する技術に関する。
計算機に翻訳処理を行わせる機械翻訳技術は、従来、非常に難しい技術であり、長い間研究されてきたが、近年では様々な翻訳ソフトが出現してきた。
従来の機械翻訳技術は、対訳や文法を表す辞書やルールをいくつか有し、これらを参照しながら翻訳文を生成していくものが一般的であり、ルールや辞書データの蓄積に長い年月を要することが多かった。近年では、統計的手法により大量の対訳データからルールや辞書知識を低コストで蓄積する研究、即ち統計的機械翻訳技術の研究が盛んに行われている。
この技術の特徴は、翻訳の過程を雑音のある通信路モデルに適用したことであり、例えば日英翻訳では、翻訳すべき日本語入力文は雑音の多い通信路によって英語が日本語へ変形したものだと考え、これを元の英語へ復元することが翻訳処理であり、翻訳処理系は復元器(デコーダ)であると考える。即ち、日本語Jから英語Eへの復号の過程は、英語文の事前確率P(E)と英語文が与えられた時の日本語文の条件付き確率P(J|E)とを用いて、P(E)*P(J|E)を最大化する英語文を求めることである。ここで、P(E)を言語モデル、P(J|E)を翻訳モデルと呼ぶ。
当初、翻訳モデルは単語単位で行う翻訳技術が主流であったが、近年では1つ以上の単語をつなげた句単位で翻訳モデルを設計する句翻訳に基づく統計的機械翻訳技術の研究が主流である。
この技術の利点は、ある程度まとまった単位で句の位置が前後に動く場合にも比較的強いこと、また意味的にまとまりのある単位で翻訳を行えることなどである。この句翻訳に基づく統計的機械翻訳の従来技術の1つに「pharaoh」と呼ばれるものがある(非特許文献1参照)。本明細書では、「pharaoh」のような句翻訳に基づく統計的機械翻訳技術に基づく翻訳装置を提案する。
ところで、人名、地名、組織名などの固有名詞は種類も多く、次々に新しい表現が発生する。そのため、未知語になり易い特徴があり、翻訳モデルに存在しないことも多い。また、これらの固有名詞を短い単位にすると、それぞれの単位については翻訳モデルに存在する可能性が高くなるが、それらの翻訳モデルを結合しても必ずしも正しい訳になるとは限らない。例えば「日本電信電話株式会社」という固有名詞の正しい訳が「Nippon Telegraph and Telephone Corporation」であるように、逐語訳のような性質ではなく、そう訳すことに決められたものという性質のものも多い。
また、日付、金額、時間などの数値表現も各国によって独自の習慣がある場合が多く、表現の種類も無数にあるため、翻訳モデルには存在せず、未知語となることも多い。そのため、翻訳モデルから翻訳するよりはむしろ変換規則を用意する方が望ましい。なお、これらの固有名詞や数値表現をまとめて固有表現と呼ぶことにする。
翻訳対象となる入力文に固有表現が含まれている場合、上記のように固有表現は未知語になり易かったり、独自の習慣に基づく表記であるために、通常の翻訳モデルで翻訳しようとすると翻訳に失敗して文全体の意味がおかしくなることがある。
そこで、通常の句対訳辞書の他に、対訳固有表現辞書、数値表現のための変換規則、今風の語のための新語辞書、基本語句のための対訳辞書など、翻訳をする上で様々な種類の辞書や変換規則を用意し、それらを組み合わせながら句翻訳に基づく統計的機械翻訳を行う技術が求められてくる。
また、辞書の構築は大変コストのかかる作業であり、全てを人手で構築するのではなく、ある程度自動化された手段で行うことは現実の技術開発ではよくある。例えば、特許文献1に記載の技術では、大量の対訳テキストデータから固有表現対訳データを、自動的に翻訳として確率の高い順にその尤度とセットで収集できる。この尤度は、上記翻訳モデルにおける翻訳確率P(E|J)とみなせる。また、確率値が付与されてない辞書であって、辞書中の頻度を利用して出現確率として確率を得ることは可能である。各確率値はそれぞれの辞書の中での相対的な位置を示すと考えるのが妥当であり、異なる辞書同士の確率値を比べることに論理的根拠がない。そのため複数の辞書を利用して統計翻訳を行いたい場合、それぞれの辞書が有する確率値を句翻訳デコーダの中でどのように利用すべきかが問題となる。
特開2004−326584号公報(特願2003−122360)「対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム」
"Pharaoh : a Beam Search Decoder for Phrase-Based Statistical Machine Translation Models"、[online]、Computer Science and Artificial Intelligence Lab Massachusetts Institute of Technology、[平成17年5月19日検索]、インターネット<URL:http://www.iccs.informatics.ed.ac.uk/~pkoehn/publications/pharaoh-amta2004-slides.pdf>
"Minimum Error Rate Training in Statistical Machine Translation"、[online]、平成15年7月8日、ACL anthology、[平成17年5月25日検索]、インターネット<URL:http://acl.ldc.upenn.edu/P/P03/P03-1021.pdf>
従来、翻訳対象となる入力文に固有表現が含まれている場合、固有表現は元々翻訳モデルに存在しない未知語であることが多く、固有表現対訳辞書や独特の翻訳技術を必要とするために、文のほかの箇所と同じ体系で処理すると翻訳に失敗することが多いという課題があった。
また、固有表現に限らず、新語対訳や専門語対訳など、いわゆる基本単語や句を収めた基本対訳辞書、句対訳辞書とは別に語彙を増やすために様々な種類の辞書、規則類を併用したいという要望がある。しかし、数多くの辞書や規則類を併用しようとすると、どの情報を優先するか、明確な基準を設定することは困難であり、自動的に各辞書の確率値の重みを変更し、最適な翻訳確率を得ることが重要である。
本発明の翻訳装置では、入力文を固有表現抽出処理し、固有表現の箇所を抽出しておく。そして抽出された固有表現について、固有名詞は固有表現対訳辞書、数値表現は変換規則を参照して対訳侯補を得る。そして、文章全体の翻訳処理においては、他の辞書からも対訳侯補を得る場合があるため、それぞれの辞書毎の確率値の重みを付与する。
最適の重みをつけることで様々な辞書を併用しても翻訳として尤もらしい翻訳結果を得ることができる。なお、最適の重みをつける技術としては、誤り最小学習法を利用することができる。
本発明によれば、従来、翻訳が困難であった固有表現、数値表現、専門用語、新語などについて、様々な辞書や規則などを最適の条件で併用した翻訳処理を行うことができ、結果として文章全体の翻訳精度が向上する。
図1は本発明の翻訳装置の実施の形態の一例を示す構成図、図2は翻訳処理の流れ図、図3は辞書別の重みを計算する際の処理の流れ図であり、以下、本発明の概要について説明する。
本発明の翻訳装置は、固有表現抽出部10、句翻訳デコーダ20及び重み計算部30から構成される。なお、重み計算部30は、後述するように、通常の翻訳処理においては動作せず、辞書別の重みを計算する際にのみ用いられる。
固有表現抽出部10は、入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済みテキストを作成する固有表現抽出手段11を有する。
句翻訳デコーダ20は、第1の言語における固有表現句に対応する第2の言語の対訳句をその確率値とともに多数記述した固有表現対訳辞書を少なくとも含む複数の翻訳辞書を記憶した翻訳モデル群記憶部21と、第2の言語において連続する2つの単語の出現確率値を多数記憶した言語モデル記憶部22と、前記複数の翻訳辞書毎の重みを記憶した重み付けテーブル23と、所定の対訳候補テーブル24と、固有表現抽出済み文を構成する各々の句に対応する句対訳候補を翻訳モデル群記憶部21から検索し、当該句対訳候補及びその確率値を対訳侯補テーブル24に記録する句対訳侯補列挙手段25と、重み付けテーブル23を参照して、対訳侯補テーブル24に記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付ける辞書別重み付け手段26と、対訳侯補テーブル24に記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部22から取得した当該組み合わせにおける連続する2つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する最適経路探索手段27とを有する。
重み計算部30は、最適経路探索手段27による翻訳結果(但し、ここでは確率値最大のものから上位N個までの翻訳結果Nbest)と別途入力された正解の翻訳文とを比較して翻訳精度を計算し、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し、重み付けテーブル23を更新する重み計算・テーブル更新手段31を有する。
本発明の翻訳処理は、図2に示すように、固有表現抽出手段11が、入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成し(s1)、句対訳侯補列挙手段25が、該固有表現抽出済み文を構成する各々の句に対応する句対訳候補を翻訳モデル群記憶部21に記憶された複数の翻訳辞書群から検索し、当該句対訳候補及びその確率値を対訳侯補テーブル24に記録し(s2)、辞書別重み付け手段26が、重み付けテーブル23を参照して、対訳侯補テーブル24に記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付け(s3)、最適経路探索手段27が、対訳侯補テーブル24に記録された句対訳候補による組み合わせのうち、前記重みを付けられたそれぞれの確率値と、言語モデル記憶部22から取得した当該組み合わせにおける連続する2つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する(s4)ことによって行われる。
また、辞書別の重みを計算する際は、図3に示すように、前記同様のs1〜s4の処理の後、重み計算・テーブル更新手段31が、翻訳結果Nbestと別途入力された正解の翻訳文とを比較して翻訳精度を計算し(s7)、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し(s8)、重み付けテーブルを更新し(s9)、これを翻訳結果Nbestの順位が変動しなくなるまで繰り返す(s5,s6)。
以下、前述した各部における処理の詳細について説明する。
<固有表現抽出手段11>
固有表現抽出手段11は、前述したように、入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済みテキストを作成し、(図中、破線で示した)所定のメモリに一時記憶する。
固有表現抽出手段11は、前述したように、入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済みテキストを作成し、(図中、破線で示した)所定のメモリに一時記憶する。
固有表現抽出処理では、入力文に含まれている固有表現を認識する。例えば、入力文が「西日本電信電話株式会社(NTT西日本)は3月1日、事業計画を申請した」である場合、文全体の単語分割(形態素解析)をした上で、「西 日本 電信 電話 株式 会社」「NTT 西 日本」が組織名<ORG>であり、「3月 1日」が日付<DAT>であることを認識する。
ここでの固有表現抽出処理には、例えば特開2004−46775号公報、あるいは特願2004−373532に記載の技術を利用する。なお、一般に形態素解析や固有表現抽出は、入力文を単語分割して品詞や読みなどの言語情報を付与することも含むが、本発明では、単語分割の情報のみを利用するため、以下では品詞や読みなどの言語情報は全て省略して記載する。そのため、単語分割では入力文が1単語ずつに分割された状態となり、固有表現抽出では、分割された各単語がどういう固有表現をとるかを認識し、特定の固有表現を示す範囲を明示する。
範囲の明示方法は、例えばxmlマークアップなどを利用しても良い。特定の固有表現とは、例えば組織名<ORG>、人名<PSN>、地名<LOC>、日付<DAT>などである。抽出すべき固有表現に応じて任意の種類を事前に設定する。
xmlマークアップを利用して固有表現の範囲を指定した例を図4に示す。xmlマークアップとは、テキストに書かれた文字に、タグ「<」と「>」の間に様々な情報を埋め込むマークアップ言語のひとつである。
<翻訳モデル群記憶部21>
翻訳モデル群記憶部21には、図5に示すような第1の言語(ここでは日本語)における固有表現句に対応する第2の言語(ここでは英語)の対訳句をその確率値とともに多数記述した固有表現対訳辞書、第1の言語における一般的な単語や句に対応する第2の言語の対訳語や対訳句をその確率値とともに多数記述した基本対訳辞書、第1の言語における新しい単語や句に対応する第2の言語の対訳語や対訳句をその確率値とともに多数記述した新語辞書、日付、金額、時間などの数値表現に関する第1及び第2の言語間における変換規則をその確率値とともに記述した変換テーブルなどが予め記憶されている。
翻訳モデル群記憶部21には、図5に示すような第1の言語(ここでは日本語)における固有表現句に対応する第2の言語(ここでは英語)の対訳句をその確率値とともに多数記述した固有表現対訳辞書、第1の言語における一般的な単語や句に対応する第2の言語の対訳語や対訳句をその確率値とともに多数記述した基本対訳辞書、第1の言語における新しい単語や句に対応する第2の言語の対訳語や対訳句をその確率値とともに多数記述した新語辞書、日付、金額、時間などの数値表現に関する第1及び第2の言語間における変換規則をその確率値とともに記述した変換テーブルなどが予め記憶されている。
<言語モデル記憶部22>
言語モデル記憶部22には、第2の言語(ここでは英語)における任意の2つの単語についてそれらが連続して出現する確率値が予め多数記憶されている。
言語モデル記憶部22には、第2の言語(ここでは英語)における任意の2つの単語についてそれらが連続して出現する確率値が予め多数記憶されている。
<重み付けテーブル23>
重み付けテーブル23には、翻訳モデル群記憶部21に記憶された複数の翻訳辞書毎の重みが予め記憶されている。
重み付けテーブル23には、翻訳モデル群記憶部21に記憶された複数の翻訳辞書毎の重みが予め記憶されている。
<句対訳侯補列挙手段25>
句対訳候補列挙手段25は、固有表現抽出手段21が作成し、メモリに一時記憶された固有表現抽出済み文を入力として、翻訳モデル群記憶部21に記憶された複数の翻訳辞書群を参照しながら想定される句対訳全侯補を列挙する。
句対訳候補列挙手段25は、固有表現抽出手段21が作成し、メモリに一時記憶された固有表現抽出済み文を入力として、翻訳モデル群記憶部21に記憶された複数の翻訳辞書群を参照しながら想定される句対訳全侯補を列挙する。
この時、日本語側の句の生成は、連続する1つ以上の単語の並びを順次つなげていくものとする。但し、既に固有表現として抽出されている箇所は、まずその範囲を1つの句とする。例えば、「西日本電信電話株式会社」でひとまとまりとし、これを検索キーとして固有表現対訳辞書を参照し、対訳とその時の確率値を取得する。もし該当する対訳データが存在しない場合は、固有表現としてのまとまりを解除して新たに句を生成するものとする。
また、「事業 計画 を 申請 した」の個所は、それぞれ「事業」「事業計画」「事業計画を」「事業計画を申請」「事業計画を申請した」、「計画」「計画を」…、…のように順次生成し、該生成した全ての句について基本対訳辞書、新語辞書などの順に検索し、該当する対訳があれば全て列挙する。
上記のようにして列挙される対訳及び確率値は、対訳侯補テーブル24に記録されていく。対訳侯補テーブル24における記録例の一例を図6に示す。なお、この際、該句の入力文における位置、即ち開始と終了の位置がわかるようにしておく。ここでは先頭から何語目から始まって何語目で終わる句なのかを記録する。例えば、「NTT西日本」は8語目と9語目と10語目の単語から構成される句で「8,10」となる。
<辞書別重み付け手段26>
本発明の翻訳装置では、複数の辞書や変換規則などを参照して確率値を得る。そのため個別の辞書の確率値P(E|J)の値を単純に比較して尤度の高さを判断することはできない。そこで、辞書別重み付け手段26により、重み付けテーブル23を参照して、対訳侯補テーブル24に記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付けて確率値を規格化する。
本発明の翻訳装置では、複数の辞書や変換規則などを参照して確率値を得る。そのため個別の辞書の確率値P(E|J)の値を単純に比較して尤度の高さを判断することはできない。そこで、辞書別重み付け手段26により、重み付けテーブル23を参照して、対訳侯補テーブル24に記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付けて確率値を規格化する。
例えば基本対訳辞書、固有表現対訳辞書、新語対訳辞書、変換規則由来の確率値をそれぞれ、Pk(E|J)、Pne(E|J)、Ps(E|J)、Ph(E|J)とし、それぞれの重みをλk、λne、λs、λhとすると、λk・Pk(E|J)、λne・Pne(E|J)、λs・Ps(E|J)、λh・Ph(E|J)とする。
<最適経路探索手段27>
最適経路探索手段27は、全ての対訳候補が書き込まれた対訳侯補テーブル24を参照し、それぞれの日本語句と該日本語句の対訳に関し、確率値P(E|J)を取得する。また言語モデル記憶部22を参照して、対訳中の連続する2つの単語(ここでは英単語)の出現確率である確率値P(E)を取得する。最終的には全ての日本語単語が1度ずつ翻訳され、かつP(E|J)*P(E)が最大になる組み合わせを求める。但し、確率値P(E|J)としては、前述したように、各辞書由来の確率値に重みを付けた確率値、即ち
P(E|J)=λk・Pk(E|J)+λne・Pne(E|J)
+λs・Ps(E|J)+λh・Ph(E|J)
を用いて処理し、最終的に、例えば「Nippon Telegraph and Telephone West Corporation(NTT West)submitted its business operation plan 1 May.」を翻訳結果として出力する。
最適経路探索手段27は、全ての対訳候補が書き込まれた対訳侯補テーブル24を参照し、それぞれの日本語句と該日本語句の対訳に関し、確率値P(E|J)を取得する。また言語モデル記憶部22を参照して、対訳中の連続する2つの単語(ここでは英単語)の出現確率である確率値P(E)を取得する。最終的には全ての日本語単語が1度ずつ翻訳され、かつP(E|J)*P(E)が最大になる組み合わせを求める。但し、確率値P(E|J)としては、前述したように、各辞書由来の確率値に重みを付けた確率値、即ち
P(E|J)=λk・Pk(E|J)+λne・Pne(E|J)
+λs・Ps(E|J)+λh・Ph(E|J)
を用いて処理し、最終的に、例えば「Nippon Telegraph and Telephone West Corporation(NTT West)submitted its business operation plan 1 May.」を翻訳結果として出力する。
<重み計算・テーブル更新手段31>
重み計算・テーブル更新手段31は、予め各辞書毎の重みを計算する。この処理手段では、既に説明してきた固有表現抽出部10及び句翻訳デコーダ20の各部と誤り最小学習法(非特許文献2参照)を利用して、ある一定のデータセットを使って最適の重みを決定する。
重み計算・テーブル更新手段31は、予め各辞書毎の重みを計算する。この処理手段では、既に説明してきた固有表現抽出部10及び句翻訳デコーダ20の各部と誤り最小学習法(非特許文献2参照)を利用して、ある一定のデータセットを使って最適の重みを決定する。
誤り最小学習法は、本明細書で実施するような複数の確率モデルで構成される確率値を計算する際に、各確率モデルの最適な重みを求めるものである。ここでの複数の確率モデルとは、前述した辞書毎の翻訳モデル(確率値)Pk(E|J)、Pne(E|J)、Ps(E|J)、Ph(E|J)を指し、各確率モデルの重みはλk、λne、λs、λhである。
本手法では、予め重みを求めるためのデータセットを用意する。ここでのデータセットとは、入力文(ここでは日本語文)とこれに対応する正解の翻訳文(ここでは英語文)である。各確率モデルの重みの初期値をλk0、λne0、λs0、λh0と設定しておき、本発明の翻訳装置、つまり固有表現抽出部10及び句翻訳デコーダ20の各部を用いて入力文Jiを翻訳する。ここで、翻訳結果は最適経路探索手段27で確率値最大のものから上位N個までの翻訳結果、即ちNbest翻訳結果Ei1,Ei2,……EiNを得て、(図中、破線で示した)所定のメモリに一時記憶される。
ここで、メモリに一時記憶された各翻訳結果Nbestと別途入力された正解の翻訳文とを比較し、翻訳精度を計算するが、例えば機械翻訳の精度として一般的に用いられるBLEUを用いる。BLEUとは、翻訳結果中の単語ngramが正解の翻訳文と一致する割合をn=1〜4について相乗平均したもので、1に近づくほど精度が良いことを示している(単語ngramとは連続するn個の単語列である。)。
翻訳結果NbestにおけるBLEUを計算し、BLEUの値が大きい候補が上位に来るよう重みを初期値λk0、λne0、λs0、λh0から少しずつ変えて重み付けテーブル23を更新していき、辞書別重み付け処理及び最適経路探索処理を繰り返し、翻訳結果Nbestにおける順位の変動が止まったところで終了する。その時の重みの値が最終的な値となり、この値を用いて実際の翻訳処理、つまり正解の翻訳文が無い翻訳処理を行う。
以上の構成により、複数の辞書を有する句翻訳デコーダ20が、それぞれの辞書から由来する翻訳確率を辞書別重み付けにより妥当な確率値に変換して利用することができ、複数の辞書資源を活用してより精度の高い翻訳処理を実現できる。この重み付けは、重み計算部30により最適の値を設定する。翻訳モデル群は、既存の基本辞書、新語辞書、別途作成した固有表現対訳辞書、数値類の変換規則など、様々な構成にすることができる。
特に本発明では、固有表現抽出部10にて予め固有表現を抽出できるため、別途、対訳固有表現抽出装置で生成した固有表現対訳辞書を利用して、本来、未知語になり易い固有表現の翻訳を精度良く行うことができる。
なお、本発明の翻訳装置は、前述した各構成部分に対応する回路(ハードウェア)によって実現可能であるが、周知のコンピュータに、記録媒体や通信回線を介してプログラムをインストールすることによっても実現される。
10:固有表現抽出部、11:固有表現抽出手段、20:句翻訳デコーダ、21:翻訳モデル群記憶部、22:言語モデル記憶部、23:重み付けテーブル、24:対訳候補テーブル、25:句対訳候補列挙手段、26:辞書別重み付け手段、27:最適経路探索手段、30:重み計算部、31:重み計算・テーブル更新手段。
Claims (6)
- 第1の言語で記述された入力文を第2の言語に翻訳する装置であって、
第1の言語における固有表現句に対応する第2の言語の対訳句をその確率値とともに多数記述した固有表現対訳辞書を少なくとも含む複数の翻訳辞書を記憶した翻訳モデル群記憶部と、
第2の言語において連続する2つの単語の出現確率値を多数記憶した言語モデル記憶部と、
前記複数の翻訳辞書毎の重みを記憶した重み付けテーブルと、
入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成する固有表現抽出手段と、
固有表現抽出済み文を構成する各々の句に対応する句対訳候補を言語モデル記憶部から検索し、当該句対訳候補及びその確率値を対訳侯補テーブルに記録する句対訳侯補列挙手段と、
重み付けテーブルを参照して、対訳侯補テーブルに記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付ける辞書別重み付け手段と、
対訳侯補テーブルに記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部から取得した当該組み合わせにおける連続する2つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力する最適経路探索手段とを備えた
ことを特徴とする翻訳装置。 - 最適経路探索手段による翻訳結果と別途入力された正解の翻訳文とを比較して翻訳精度を計算し、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し、重み付けテーブルを更新する重み計算・テーブル更新手段を備えた
ことを特徴とする請求項1記載の翻訳装置。 - コンピュータを用いて第1の言語で記述された入力文を第2の言語に翻訳する方法であって、
コンピュータは、第1の言語における固有表現句に対応する第2の言語の対訳句をその確率値とともに多数記述した固有表現対訳辞書を少なくとも含む複数の翻訳辞書を記憶した翻訳モデル群記憶部と、第2の言語において連続する2つの単語の出現確率値を多数記憶した言語モデル記憶部と、前記複数の翻訳辞書毎の重みを記憶した重み付けテーブルとを備え、
前記コンピュータが、
入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成するステップと、
固有表現抽出済み文を構成する各々の句に対応する句対訳候補を言語モデル記憶部から検索し、当該句対訳候補及びその確率値を対訳侯補テーブルに記録するステップと、
重み付けテーブルを参照して、対訳侯補テーブルに記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付けるステップと、
対訳侯補テーブルに記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部から取得した当該組み合わせにおける連続する2つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力するステップとを行う
ことを特徴とする翻訳方法。 - 翻訳結果と別途入力された正解の翻訳文とを比較して翻訳精度を計算し、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し、重み付けテーブルを更新するステップを含む
ことを特徴とする請求項3記載の翻訳方法。 - コンピュータに第1の言語で記述された入力文を第2の言語に翻訳させるプログラムであって、
第1の言語における固有表現句に対応する第2の言語の対訳句をその確率値とともに多数記述した固有表現対訳辞書を少なくとも含む複数の翻訳辞書を記憶した翻訳モデル群記憶部と、第2の言語において連続する2つの単語の出現確率値を多数記憶した言語モデル記憶部と、前記複数の翻訳辞書毎の重みを記憶した重み付けテーブルとを備えたコンピュータに、
入力文を形態素解析し、該入力文に含まれる固有表現を抽出して固有表現抽出済み文を作成するステップと、
固有表現抽出済み文を構成する各々の句に対応する句対訳候補を言語モデル記憶部から検索し、当該句対訳候補及びその確率値を対訳侯補テーブルに記録するステップと、
重み付けテーブルを参照して、対訳侯補テーブルに記録された句対訳候補に対応する各翻訳辞書由来の確率値に重みを付けるステップと、
対訳侯補テーブルに記録された句対訳候補による組み合わせのうち、重みを付けられたそれぞれの確率値と、言語モデル記憶部から取得した当該組み合わせにおける連続する2つの単語の確率値との積が最大となる組み合わせを求めて翻訳結果として出力するステップとを実行させる
ことを特徴とする翻訳プログラム。 - 翻訳結果と別途入力された正解の翻訳文とを比較して翻訳精度を計算し、誤り最小学習法を用いて、前記翻訳精度が向上するよう翻訳辞書毎の重みを変更し、重み付けテーブルを更新するステップを含む
ことを特徴とする請求項5記載の翻訳プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005161357A JP2006338261A (ja) | 2005-06-01 | 2005-06-01 | 翻訳装置、翻訳方法及び翻訳プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005161357A JP2006338261A (ja) | 2005-06-01 | 2005-06-01 | 翻訳装置、翻訳方法及び翻訳プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006338261A true JP2006338261A (ja) | 2006-12-14 |
Family
ID=37558775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005161357A Pending JP2006338261A (ja) | 2005-06-01 | 2005-06-01 | 翻訳装置、翻訳方法及び翻訳プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006338261A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217770A (ja) * | 2007-02-05 | 2008-09-18 | Sorun Corp | 言語データ表示システム、言語データ表示方法、及び言語データ表示プログラム |
JP2009223548A (ja) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | 対訳表現処理装置およびプログラム |
JP2009294747A (ja) * | 2008-06-03 | 2009-12-17 | National Institute Of Information & Communication Technology | 統計的機械翻訳装置 |
US8060301B2 (en) * | 2007-04-09 | 2011-11-15 | Toyota Jidosha Kabushiki Kaisha | Vehicle navigation apparatus |
WO2014196457A1 (ja) * | 2013-06-07 | 2014-12-11 | シャープ株式会社 | 字幕付きコンテンツ再生装置 |
JP2016058003A (ja) * | 2014-09-12 | 2016-04-21 | 日本放送協会 | 翻訳装置 |
US11669695B2 (en) | 2019-03-29 | 2023-06-06 | Fujitsu Limited | Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network |
-
2005
- 2005-06-01 JP JP2005161357A patent/JP2006338261A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217770A (ja) * | 2007-02-05 | 2008-09-18 | Sorun Corp | 言語データ表示システム、言語データ表示方法、及び言語データ表示プログラム |
US8060301B2 (en) * | 2007-04-09 | 2011-11-15 | Toyota Jidosha Kabushiki Kaisha | Vehicle navigation apparatus |
JP2009223548A (ja) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | 対訳表現処理装置およびプログラム |
JP2009294747A (ja) * | 2008-06-03 | 2009-12-17 | National Institute Of Information & Communication Technology | 統計的機械翻訳装置 |
WO2014196457A1 (ja) * | 2013-06-07 | 2014-12-11 | シャープ株式会社 | 字幕付きコンテンツ再生装置 |
JP2016058003A (ja) * | 2014-09-12 | 2016-04-21 | 日本放送協会 | 翻訳装置 |
US11669695B2 (en) | 2019-03-29 | 2023-06-06 | Fujitsu Limited | Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101762866B1 (ko) | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及*** | |
US20120179694A1 (en) | Method and system for enhancing a search request | |
KR20210138776A (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
KR20170122755A (ko) | 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 | |
KR101709693B1 (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
JP6160438B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
Chaudhary et al. | The ariel-cmu systems for lorehlt18 | |
Gao et al. | MARS: A statistical semantic parsing and generation-based multilingual automatic translation system | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
Núñez et al. | Phonetic normalization for machine translation of user generated content | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
JP2009157888A (ja) | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム | |
KR20140079545A (ko) | 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법 | |
JP7218803B2 (ja) | モデル学習装置、方法及びプログラム | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
KR20080028655A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP2016189154A (ja) | 翻訳方法、装置、及びプログラム | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム |