JP4829685B2 - Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium - Google Patents

Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium Download PDF

Info

Publication number
JP4829685B2
JP4829685B2 JP2006158083A JP2006158083A JP4829685B2 JP 4829685 B2 JP4829685 B2 JP 4829685B2 JP 2006158083 A JP2006158083 A JP 2006158083A JP 2006158083 A JP2006158083 A JP 2006158083A JP 4829685 B2 JP4829685 B2 JP 4829685B2
Authority
JP
Japan
Prior art keywords
phrase pair
phrase
translation
word
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006158083A
Other languages
Japanese (ja)
Other versions
JP2007328483A (en
Inventor
元 塚田
太郎 渡辺
秀樹 磯崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006158083A priority Critical patent/JP4829685B2/en
Publication of JP2007328483A publication Critical patent/JP2007328483A/en
Application granted granted Critical
Publication of JP4829685B2 publication Critical patent/JP4829685B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、翻訳フレーズペア生成装置、統計的機械翻訳装置、翻訳フレーズペア生成方法、統計的機械翻訳方法、翻訳フレーズペア生成プログラム、統計的機械翻訳プログラム、および、記憶媒体に関する。   The present invention relates to a translation phrase pair generation device, a statistical machine translation device, a translation phrase pair generation method, a statistical machine translation method, a translation phrase pair generation program, a statistical machine translation program, and a storage medium.

翻訳元言語の文と翻訳先言語の文のペアを大量に集めた対訳データから、機械翻訳システムを自動構築する技術(統計的機械翻訳)が提案されている。   A technique (statistical machine translation) for automatically constructing a machine translation system from parallel translation data obtained by collecting a large number of pairs of sentences in a source language and a target language has been proposed.

図3は、フレーズ翻訳を示す説明図である。フレーズベースの統計的機械翻訳は、単語単位ではなく、単語列に対する翻訳モデルが用いられる。最初に図3上部の翻訳元言語文「日本 の 首相 は 小泉 です」を部分文字列に分割するあらゆる可能性を考える。その可能性の1つとして、図3に示すような3つの部分文字列「日本 の」「首相 は」「小泉 です」に分割される。   FIG. 3 is an explanatory diagram showing phrase translation. Phrase-based statistical machine translation uses a translation model for word strings rather than word units. First, consider all the possibilities of dividing the source language sentence at the top of Fig. 3 "Japan's prime minister is Koizumi" into substrings. As one of the possibilities, it is divided into three substrings “Japan”, “Prime Minister” and “I am Koizumi” as shown in Figure 3.

次に、分割された部分文字列ごとに翻訳モデルを用いて翻訳して翻訳先言語文(目的言語の文字列)「The prime minister」「of Japan」「is Koizumi」を作成する。さらに、これら目的言語の文字列のあらゆる並び替えを翻訳文候補として考える。   Next, each divided partial character string is translated using a translation model to create a translated language sentence (a character string in the target language) “The prime minister”, “of Japan”, and “is Koizumi”. Furthermore, all sorts of character strings in these target languages are considered as translation sentence candidates.

こうして生成される膨大な翻訳文候補の中から、最も尤度の高い翻訳文「The prime minister of Japan is Koizumi」を探索し出力する。ただし実際は、これらあらゆる可能性を全探索して最適解を求めることは現実的でないため、様々な制約を加えて候補を絞り、準最適解を求めることが一般的である。   From the enormous translation candidates generated in this way, the most likely translation “The prime minister of Japan is Koizumi” is searched and output. However, in practice, it is not practical to search all these possibilities to find an optimal solution, so it is common to narrow down candidates by adding various constraints to find a sub-optimal solution.

機械翻訳の問題は、翻訳元単語列fに対応して、次の(式1)を満たす最適な翻訳先単語列ehを求める問題として定式化される(非特許文献1参照)。なお、本明細書では、説明を理解しやすくするために、翻訳元単語列fの一例として日本語文字列を、翻訳先単語列eの一例として英語文字列を、それぞれ使用する。   The problem of machine translation is formulated as a problem of finding an optimal translation destination word string eh that satisfies the following (Formula 1) corresponding to the translation source word string f (see Non-Patent Document 1). In this specification, in order to make the explanation easy to understand, a Japanese character string is used as an example of the translation source word string f, and an English character string is used as an example of the translation destination word string e.

(e,f)は翻訳元単語列fと翻訳先単語列eのペアをスコア付けする素性関数、λ(m=1…M)はそれらのスケーリングファクタ、Eは可能な全ての翻訳先単語列(すなわち翻訳先言語)とする。

Figure 0004829685
h m (e, f) is a feature function for scoring a pair of source word string f and destination word string e, λ m (m = 1... M) is their scaling factor, and E is all possible translations. A destination word string (that is, a translation destination language) is used.
Figure 0004829685

各素性関数h(e,f)としては、非特許文献2では、次の7つのlogをとったものが使われる。
・フレーズ翻訳確率:φ(e|f)
・フレーズ翻訳確率:φ(f|e)
・レキシカル重み:lex(e|f)
・レキシカル重み:lex(f|e)
・フレーズペナルティ:ωlength(e)(ただし、ωは定数、length()は単語列長を返す関数)
・N−gram言語モデル:PLM(e)
・歪モデル
As each feature function h m (e, f), Non-Patent Document 2, which was taken following seven log is used.
・ Phrase translation probability: φ (e | f)
・ Phrase translation probability: φ (f | e)
・ Lexical weight: lex (e | f)
・ Lexical weight: lex (f | e)
Phrase penalty: ω length (e) (where ω is a constant and length () is a function that returns the word string length)
-N-gram language model: P LM (e)
・ Distortion model

各フレーズ翻訳確率やレキシカル重みは翻訳としての尤度を評価する関数であり、別名、翻訳モデルとも呼ばれる。前記の式において、現実にはEの全ての要素を候補とすることは不可能であるため、次のようにして翻訳候補を生成し、Eを近似する。   Each phrase translation probability or lexical weight is a function for evaluating the likelihood as a translation, and is also called a translation model. In the above equation, since it is impossible in reality to use all elements of E as candidates, translation candidates are generated as follows and E is approximated.

図4は、文分割と翻訳候補を示す説明図である。まず、翻訳元の文を単語列に分割し、翻訳モデルを用いて各々の翻訳元単語列に対する翻訳先単語列の候補を生成する。翻訳元の文をオーバーラップやギャップなしに覆うような翻訳元単語列と翻訳先単語列のペア(以後、フレーズペア)の集合(この図の場合、文頭から文末まで有効グラフをたどって得られるフレーズペアの集合)のすべての要素を並び替えたものが翻訳候補となる。   FIG. 4 is an explanatory diagram showing sentence division and translation candidates. First, a translation source sentence is divided into word strings, and translation target word string candidates for each translation source word string are generated using a translation model. A set of pairs of source word strings and target word strings (hereinafter referred to as phrase pairs) that cover the source sentence without overlap or gaps (in this case, it is obtained by tracing the effective graph from the beginning to the end of the sentence) A translation candidate is a combination of all the elements of a phrase pair set).

なお、本明細書では、1つのフレーズペアをカギ括弧でくくり、“「翻訳元単語列fから翻訳される翻訳先単語列eのフレーズ(翻訳元単語列fのフレーズ)」”の形式で表現する。なお、1つの文は、1つ以上のフレーズペアにより構成される。   In this specification, one phrase pair is enclosed in square brackets and expressed in the form of “a phrase of a translation destination word string e translated from a translation source word string f (a phrase of the translation source word string f)”. One sentence is composed of one or more phrase pairs.

例えば、図4の例では以下の集合は翻訳候補を構成するものとして適切なものである。
・{「Japanese(日本 の)」,「The prime minister(首相 は)」,「Koizumi(小泉)」,「is(です)」}
・{「Japanese(日本 の)」,「the prime minister(首相 は)」,「is Koizumi(小泉 です)」}
For example, in the example of FIG. 4, the following set is appropriate as a translation candidate.
・ {"Japanese", "The prime minister", "Koizumi", "is"}
・ {"Japanese", "the prime minister", "is Koizumi"}

各集合の要素を並びかえることで、以下のような膨大な翻訳候補文を生成する。
・「Japanese(日本 の)」「The prime minister(首相 は)」「is Koizumi(小泉 です)」
・「the prime minister(首相 は)」「Japanese(日本 の)」「is Koizumi(小泉 です)」
By rearranging the elements of each set, the following huge translation candidate sentences are generated.
・ “Japanese” “The prime minister” “is Koizumi”
・ "The prime minister""Japanese""isKoizumi"

しかしながら、ここまで翻訳候補数を制限しても現実的にはこれら全ての候補から最適解を求めることはできない。そこで、非特許文献3の手法で準最適解をもとめる。   However, even if the number of translation candidates is limited so far, it is practically impossible to obtain an optimal solution from all these candidates. Therefore, a suboptimal solution is obtained by the method of Non-Patent Document 3.

各スケーリングファクタλについては、非特許文献1の手法を用いることで、スケーリングファクタ学習用対訳コーパスにおける翻訳精度が最大になるように自動設定できる。 About each scaling factor (lambda) m , it can set automatically so that the translation accuracy in the bilingual corpus for scaling factor learning may become the maximum by using the method of a nonpatent literature 1.

前記4つの翻訳モデル(φ(e|f)、φ(f|e)、lex(e|f)、および、lex(f|e))は次のようなフレーズテーブルとして表現される。

Figure 0004829685
The four translation models (φ (e | f), φ (f | e), lex (e | f), and lex (f | e)) are expressed as the following phrase table.
Figure 0004829685

翻訳候補文に対するこれらの値は、翻訳候補を構成するフレーズペアのスコアの累積として計算される。例えば候補
・「of Japan(日本 の)」「The prime minister(首相 は)」「is Koizumi(小泉 です)」に対するφ(e|f)は、φ(e|f)=0.3×0.6×0.2=0.036となり、対応する素性関数の値はそのlog値であるため、logφ(e|f)≒−1.44となる。
These values for the translation candidate sentence are calculated as the cumulative score of the phrase pair constituting the translation candidate. For example, φ (e | f) for “of Japan”, “The prime minister” and “is Koizumi” is φ (e | f) = 0.3 × 0. Since 6 × 0.2 = 0.036, and the value of the corresponding feature function is the log value, logφ (e | f) ≈−1.44.

4つの翻訳モデルに対応する素性関数のスケーリングファクタがそれぞれ、0.1、0.2、0.3、0.4だとすると、以下の翻訳候補文の翻訳モデルに関する総合スコアを計算する。
・「The prime minister(首相 は)」「of Japan(日本 の)」「is Koizumi(小泉 です)」
計算結果は、次の通りである。
0.1×log(0.6×0.3×0.2)
+0.2×log(0.5×0.35×0.1)
+0.3×log(0.4×0.2×0.3)
+0.4×log(0.3×0.25×0.4)
Assuming that the scaling factors of the feature functions corresponding to the four translation models are 0.1, 0.2, 0.3, and 0.4, respectively, an overall score for the translation model of the following translation candidate sentences is calculated.
・ "The prime minister""ofJapan""isKoizumi"
The calculation results are as follows.
0.1 x log (0.6 x 0.3 x 0.2)
+ 0.2 × log (0.5 × 0.35 × 0.1)
+ 0.3 × log (0.4 × 0.2 × 0.3)
+ 0.4 × log (0.3 × 0.25 × 0.4)

翻訳候補文のスコアとしては、翻訳モデルに関する総合スコアだけでなく、その他の素性関数を考慮して、同様に計算される。翻訳結果としては、最もスコアの高い翻訳候補が選ばれる(繰り返しになるが、現実的には最適解は求められず、非特許文献3の手法によって準最適化をもとめる)。   The score of the translation candidate sentence is calculated in the same manner in consideration of not only the overall score related to the translation model but also other feature functions. As a translation result, the translation candidate with the highest score is selected (repeatedly, but in reality, an optimal solution is not required, and quasi-optimization is requested by the method of Non-Patent Document 3).

図5は、翻訳フレーズペア生成装置1aを示す構成図である。フレーズテーブル19aは、翻訳元言語の文と翻訳先言語の文のペアを大量に集めた対訳データから作成される。フレーズテーブル19aは、次の(1)から(3)のステップで作られる。
(1)単語対応付け部14aは、対訳コーパス11aから単語対応16aを作成することで、単語対応付けを行う。
(2)フレーズペア抽出部15aは、対訳コーパス11aおよび単語対応16aから対応するフレーズペア17aを抽出する。
(3)スコア付加部18aは、フレーズペア17aにスコア付けを行い、フレーズテーブル19aを作成する。
FIG. 5 is a configuration diagram showing the translation phrase pair generation device 1a. The phrase table 19a is created from parallel translation data in which a large number of pairs of sentences in the translation source language and sentences in the translation destination language are collected. The phrase table 19a is created by the following steps (1) to (3).
(1) The word association unit 14a performs word association by creating the word association 16a from the parallel corpus 11a.
(2) The phrase pair extraction unit 15a extracts the corresponding phrase pair 17a from the bilingual corpus 11a and the word correspondence 16a.
(3) The score adding unit 18a scores the phrase pair 17a and creates the phrase table 19a.

図6は、フレーズ抽出を示す説明図である。フレーズ抽出は、前記した(1)、(2)に相当する。最初にIBMモデル(非特許文献4)などを用いて、単語の対応付けを行う。図6の「塗りつぶし矩形」が単語対応を表す。この例の単語対応は、単語位置をインデックスとして、「日本語の単語位置−英語の単語位置」の集合{1−1,2−2,3−3,3−4,4−0}(ただし単語位置0はどこにも対応しないことを意味する)と表現される。次にこの単語対応を基に、翻訳元言語の各単語に対応する「塗りつぶし矩形」が閉じるとともに翻訳先言語の各単語に対応する「塗りつぶし矩形」も閉じるように、フレーズペア17aを抽出する。この例では、以下の9組が抽出される。
・This(これ)
・is(は)
・a pen(ペン)
・a pen(ペン です)
・This is(これ は)
・This is a pen(これ は ペン)
・This is a pen(これ は ペン です)
・is a pen(は ペン)
・is a pen(は ペン です)
FIG. 6 is an explanatory diagram showing phrase extraction. Phrase extraction corresponds to the above (1) and (2). First, word association is performed using an IBM model (Non-Patent Document 4) or the like. The “filled rectangle” in FIG. 6 represents word correspondence. The word correspondence in this example is obtained by setting a set {1-1, 2-2, 3-3, 3-4, 4-0} of “Japanese word position−English word position” with the word position as an index (however, Word position 0 means not corresponding anywhere). Next, based on this word correspondence, the phrase pair 17a is extracted so that the “filled rectangle” corresponding to each word in the source language is closed and the “filled rectangle” corresponding to each word in the target language is also closed. In this example, the following 9 sets are extracted.
・ This
・ Is
・ A pen
・ A pen
・ This is
・ This is a pen
・ This is a pen
・ Is a pen
・ Is a pen

スコア付加部18aは、対訳データのすべての文ペアから抽出されるフレーズペア17aのリストから、各フレーズペア17aに対するスコアを計算する。各スコアの計算方法は、非特許文献2に基づく。   The score adding unit 18a calculates a score for each phrase pair 17a from the list of phrase pairs 17a extracted from all sentence pairs of the parallel translation data. The calculation method of each score is based on Non-Patent Document 2.

図7は、翻訳フレーズペア生成装置1bを示す構成図である。翻訳フレーズペア生成装置1bは、(1)単語対応付けの前処理として単語正規化してから、フレーズテーブル19bを求める。具体的には、単語表現正規化部13bは、対訳コーパス11bから正規化対訳コーパス12bを作成する。単語対応付け部14bは、正規化対訳コーパス12bから単語対応16bを作成する。残りの構成は図5と同じである。   FIG. 7 is a configuration diagram showing the translation phrase pair generation device 1b. The translation phrase pair generation device 1b obtains the phrase table 19b after (1) word normalization as preprocessing for word association. Specifically, the word expression normalization unit 13b creates a normalized bilingual corpus 12b from the bilingual corpus 11b. The word association unit 14b creates a word association 16b from the normalized parallel corpus 12b. The remaining configuration is the same as in FIG.

単語表現正規化部13bの単語正規化手法としてはいくつかの方法が考えられるが、英単語の正規化の場合、全てを小文字化する手法、または、ステミングとよばれる単語の活用語尾を削除する手法などがよく使われる。単語正規化した対訳コーパスは単語対応付けのためだけに用いられ、フレーズペア17bの抽出はもとの対訳コーパスを用いるため、フレーズテーブルに現れる単語列は単語正規化しないものが使われる。
F.J.Och著、「Minimum error rate training in statistical machine translation」、in Proc.of the 41st Annual Meeting of the Association for Computational Linguistics(ACL),pp.160-167,2003 P.Koehn,F.J.Och,andD.Marcu著、「Statistical phrase-based translation」、in Proc.of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics(HLT-NAACL),pp.127-133,2003 P.Koehn,Pharaoh著、「a beam search decoder for phrase-based statistical machine translation models」、in Proc of the 6th Conforence of the Association for Machine Translation in the Americas(AMTA),pp.115-124,2004 P.F.Brown,S.A.D.Pietra,V.J.D.Pitra and R.L.Mercer著、「the Mathematics of Statistical Machine Translation」、Parameter Estimation,Computational Linguistics,Vol.19,No.2,pp.263-311,1993.3
Several methods can be considered as a word normalization method of the word expression normalization unit 13b. In normalization of English words, a method of lowering all of the words, or a word ending ending called stemming is deleted. Techniques are often used. Since the word-normalized bilingual corpus is used only for word association and the phrase pair 17b is extracted using the original bilingual corpus, a word string that appears in the phrase table is not word-normalized.
FJOch, "Minimum error rate training in statistical machine translation", in Proc. Of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), pp. 160-167, 2003 P.Koehn, FJOch, and D.Marcu, `` Statistical phrase-based translation '', in Proc. Of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL), pp. 127-133, 2003 P. Koehn, Pharaoh, `` a beam search decoder for phrase-based statistical machine translation models '', in Proc of the 6th Conforence of the Association for Machine Translation in the Americas (AMTA), pp. 115-124, 2004 PFBrown, SADPietra, VJDPitra and RLMercer, `` the Mathematics of Statistical Machine Translation '', Parameter Estimation, Computational Linguistics, Vol. 19, No. 2, pp. 263-311, 1993.3

単語列に対する翻訳モデルは、翻訳元言語文字列、翻訳先言語文字列およびスコアの三つ組みの集合で表される。この翻訳モデルは、両言語に含まれる単語同士の共起の統計量を用いて単語対応付けを行い、その単語対応付け結果を用いて構成される。   A translation model for a word string is represented by a set of triplets of a translation source language character string, a translation destination language character string, and a score. This translation model is configured by using the word association result by performing word association using the co-occurrence statistics of words included in both languages.

しかし、単語対応付けに用いる共起の統計量は、翻訳モデルの学習に用いる学習データが少ない場合には信頼できるものが求まらず、結果として精度の高い翻訳モデルが獲得できない問題がある。   However, the co-occurrence statistic used for word association cannot be obtained when the learning data used for learning the translation model is small, and as a result, there is a problem that a highly accurate translation model cannot be obtained.

そこで、あらかじめ英単語を小文字に統一する、または、英語の活用語尾を削除する(ステミング)など、単語表記の正規化をしておくことで共起の統計量を安定してもとめやすくすることが広く行われている。これまで単語の対応付けを正規化された対訳コーパスのみから生成していた。   Therefore, it is easier to stop co-occurrence statistics by stabilizing the word notation by unifying English words in lower case in advance or deleting the English endings (stemming). Widely done. Until now, word associations were generated only from normalized bilingual corpora.

しかし、正規化により、どのような学習データに対しても安定し、性能を引き出すことは困難であるという副作用が発生してしまう。つまり、単語表記を正規化することはある種の情報が失われることであるため、単語表記を正規化してもとめた単語対応に基づき作成された翻訳モデルは、学習データが増えると単語表記を正規化しないで作成したものより精度が落ちるという問題があった。   However, normalization causes a side effect that it is difficult for any learning data to be stable and to extract performance. In other words, normalizing the word notation means that some information is lost. Therefore, the translation model created based on word correspondence obtained by normalizing the word notation normalizes the word notation as the learning data increases. There was a problem that the accuracy was lower than the one created without conversion.

例えば、日本語の単語「日本」は英単語の「Japan」や「Japanese」に対応づき易い。しかし、学習データが少ない場合、英単語をステミングすることで、「Japan」も「Japanese」も「Japan」に変換して扱った方が、安定して共起統計量がもとまる。しかし、「日本人は日本が好き」と「Japanese people like Japan」の二文間で単語対応を求める際は、どちらの「日本」が「Japan」と「Japanese」に対応しているかの区別が必要なため、このような正規化は副作用も及ぼす。   For example, the Japanese word “Japan” can easily correspond to the English words “Japan” and “Japanese”. However, when learning data is small, it is more stable to obtain co-occurrence statistics by stemming English words and converting “Japan” and “Japanese” to “Japan”. However, when seeking word correspondence between two sentences, “Japanese likes Japan” and “Japanese people like Japan”, it is difficult to distinguish which “Japan” corresponds to “Japan” or “Japanese”. Such normalization also has side effects because it is necessary.

そこで、本発明は、前記した問題を解決し、どのような学習データにおいても、精度の高い翻訳ができるような、フレーズペアを作成することを主な目的とする。   Therefore, the main object of the present invention is to solve the above-described problems and to create a phrase pair that can be translated with high accuracy in any learning data.

前記課題を解決するために、本発明は、統計的機械翻訳に使用されるフレーズペアを生成するフレーズペア生成装置であって、正規化されていない第1対訳コーパスから正規化されていない第1単語対応を作成し、正規化されている第2対訳コーパスから正規化されている第2単語対応を作成する単語対応付け部と、前記第1対訳コーパス、および、前記第1単語対応から第1フレーズペアを抽出し、前記第1対訳コーパス、および、前記第2単語対応から第2フレーズペアを抽出し、前記第2対訳コーパス、および、前記第1単語対応から第3フレーズペアを抽出し、前記第2対訳コーパス、および、前記第2単語対応から第4フレーズペアを抽出するフレーズペア抽出部と、前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、を有することを特徴とする。   In order to solve the above-described problem, the present invention provides a phrase pair generation device that generates a phrase pair used for statistical machine translation, and is a first unnormalized first untranslated corpus. Creating a word correspondence and creating a normalized second word correspondence from the normalized second bilingual corpus, the first bilingual corpus, and the first word correspondence to the first A phrase pair is extracted, a second phrase pair is extracted from the first bilingual corpus and the second word correspondence, a third phrase pair is extracted from the second bilingual corpus and the first word correspondence, A phrase pair extraction unit for extracting a fourth phrase pair from the second bilingual corpus and the second word correspondence; the first phrase pair; the second phrase pair; Zupea, and, with respect to the fourth phrase pair, respectively perform scoring, and having a score adding unit for storing a phrase table, a.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明は、翻訳元言語文の入力を受け付け、前記翻訳フレーズペア生成装置により前記フレーズテーブルに格納された前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアをもとに、翻訳先言語文を出力することを特徴とする。   The present invention accepts an input of a translation source language sentence and stores the first phrase pair, the second phrase pair, the third phrase pair, and the fourth phrase stored in the phrase table by the translated phrase pair generation device. Based on the phrase pair, the translated language sentence is output.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明は、統計的機械翻訳に使用されるフレーズペアを生成する翻訳フレーズペア生成方法であって、コンピュータが、正規化されていない第1対訳コーパスから正規化されていない第1単語対応を作成し、正規化されている第2対訳コーパスから正規化されている第2単語対応を作成する手順と、前記第1対訳コーパス、および、前記第1単語対応から第1フレーズペアを抽出し、前記第1対訳コーパス、および、前記第2単語対応から第2フレーズペアを抽出し、前記第2対訳コーパス、および、前記第1単語対応から第3フレーズペアを抽出し、前記第2対訳コーパス、および、前記第2単語対応から第4フレーズペアを抽出する手順と、前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納する手順と、を実行することを特徴とする。   The present invention is a translation phrase pair generation method for generating a phrase pair used for statistical machine translation, in which a computer creates a non-normalized first word correspondence from a non-normalized first parallel corpus Generating a normalized second word correspondence from the normalized second bilingual corpus, extracting the first bilingual corpus, and the first phrase pair from the first word correspondence, Extracting a second phrase pair from the first bilingual corpus and the second word correspondence; extracting a second phrase pair from the second bilingual corpus and the first word correspondence; and the second bilingual corpus; , Extracting the fourth phrase pair from the second word correspondence, the first phrase pair, the second phrase pair, the third phrase pair, and the fourth frame Against Zupea, respectively perform scoring, and executes the instructions stored in the phrase table, a.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明は、コンピュータが、翻訳元言語文の入力を受け付け、前記翻訳フレーズペア生成方法により前記フレーズテーブルに格納された前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアをもとに、翻訳先言語文を出力することを特徴とする。   In the present invention, a computer receives an input of a translation source language sentence, and the first phrase pair, the second phrase pair, the third phrase pair stored in the phrase table by the translated phrase pair generation method, and A translated language sentence is output based on the fourth phrase pair.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明は、前記翻訳フレーズペア生成方法をコンピュータに実行させるための翻訳フレーズペア生成プログラムである。   The present invention is a translation phrase pair generation program for causing a computer to execute the translation phrase pair generation method.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明は、前記統計的機械翻訳方法をコンピュータに実行させるための統計的機械翻訳プログラムである。   The present invention is a statistical machine translation program for causing a computer to execute the statistical machine translation method.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明は、前記プログラムを格納することを特徴とする。   The present invention is characterized by storing the program.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明は、統計的機械翻訳に使用されるフレーズペアを生成するフレーズペア生成装置であって、正規化しない1つの対訳コーパスと、その対訳コーパスに対してN−1種類の単語正規化手法をそれぞれ1回適用した対訳コーパスをN−1個作成することで、合計N個の対訳コーパスとし、前記N個の対訳コーパスからN個の単語対応グループを作成する単語対応付け部と、前記N個の対訳コーパスと、前記N個の単語対応との組み合わせにより、Nの2乗個のフレーズペアを抽出するフレーズペア抽出部と、前記Nの2乗個のフレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、を有することを特徴とする。   The present invention is a phrase pair generation device that generates a phrase pair used for statistical machine translation, and includes one bilingual corpus that is not normalized and N-1 types of word normalization techniques for the bilingual corpus. By creating N-1 bilingual corpora each applied once, a total of N bilingual corpora, and a word association unit for creating N word correspondence groups from the N bilingual corpora, the N A phrase pair extraction unit that extracts N square phrase pairs by combining the N-word parallel corpus and the N word correspondence, and scoring each of the N square phrase pairs. And a score adding unit for storing in the phrase table.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明は、統計的機械翻訳に使用されるフレーズペアを生成するフレーズペア生成装置であって、正規化しない1つの対訳コーパスからN種類の単語正規化手法をそれぞれ1回適用したN個の単語対応グループを作成する単語対応付け部と、前記1個の対訳コーパスと、前記N個の単語対応との組み合わせにより、N個のフレーズペアを抽出するフレーズペア抽出部と、前記N個のフレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、を有することを特徴とする。   The present invention is a phrase pair generation device for generating a phrase pair used for statistical machine translation, and N words obtained by applying N kinds of word normalization techniques once each from one bilingual corpus without normalization A phrase pair extraction unit that extracts N phrase pairs by a combination of a word association unit that creates a correspondence group, the one bilingual corpus, and the N word correspondences, and the N phrase pairs And a score adding unit that performs scoring and stores in a phrase table.

これにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。   Thereby, it is possible to generate a larger number of translated phrase pairs than in the conventional method.

本発明により、正規化していない対訳コーパスからも生成するようにしたことにより、従来の方法よりも多数の翻訳フレーズペアの生成ができる。よって、どのような学習データにおいても、単語正規化しない翻訳モデルだけ用いた場合や、単語正規化した翻訳モデルだけ用いた場合と比べて、平均して精度の高い翻訳ができ、安定して性能を引き出すことができる。   According to the present invention, by generating from a bilingual corpus that has not been normalized, a larger number of translation phrase pairs can be generated than in the conventional method. Therefore, any learning data can be translated with high accuracy on average compared to the case where only the translation model without word normalization is used or the case where only the translation model with word normalization is used. Can be pulled out.

また、ユーザは、学習データに応じて対訳コーパスを正規化するかしないか、またはどのような正規化手法を用いるかを学習データに応じて先見的に決定する必要がなくなり、決定に関する負担が軽減する。   In addition, the user does not have to make a priori decision on whether or not to normalize the bilingual corpus according to the learning data or what kind of normalization method is used, thus reducing the burden on the decision. To do.

以下に、本発明が適用される翻訳システムの一実施形態について、図面を参照して詳細に説明する。   Hereinafter, an embodiment of a translation system to which the present invention is applied will be described in detail with reference to the drawings.

図1は、翻訳フレーズペア生成装置1cを示す構成図である。図7と比較すると、以下に示す構成の差異がある。   FIG. 1 is a configuration diagram showing a translation phrase pair generation device 1c. Compared with FIG. 7, there are differences in the configuration shown below.

まず、単語対応付け部14cは、単語正規化しない対訳コーパス11c(第1対訳コーパス)、および、正規化した正規化対訳コーパス12c(第2対訳コーパス)にそれぞれ対応して、正規化なし単語対応16d(第1単語対応)、および、正規化あり単語対応16c(第2単語対応)を求める。   First, the word association unit 14c corresponds to a word without normalization corresponding to the bilingual corpus 11c (first bilingual corpus) without word normalization and the normalized bilingual corpus 12c (second bilingual corpus), respectively. 16d (corresponding to the first word) and normalized word correspondence 16c (corresponding to the second word) are obtained.

次に、フレーズペア抽出部15cは、以下に示す4種類のフレーズペア(フレーズペアのマルチセット)を抽出する。
・第1フレーズペア17cとして、正規化していない対訳コーパス11cから正規化なし単語対応16dを用いて、フレーズペアを抽出する。
・第2フレーズペア17dとして、正規化していない対訳コーパス11cから正規化あり単語対応16cを用いて、フレーズペアを抽出する。
・第3フレーズペア17eとして、正規化対訳コーパス12cから正規化なし単語対応16dを用いて、フレーズペアを抽出する。
・第4フレーズペア17fとして、正規化対訳コーパス12cから正規化あり単語対応16cを用いて、フレーズペアを抽出する。
Next, the phrase pair extraction unit 15c extracts the following four types of phrase pairs (multiple sets of phrase pairs).
As the first phrase pair 17c, the phrase pair is extracted from the non-normalized bilingual corpus 11c using the unnormalized word correspondence 16d.
As the second phrase pair 17d, the phrase pair is extracted from the bilingual corpus 11c that has not been normalized using the normalized word correspondence 16c.
As the third phrase pair 17e, the phrase pair is extracted from the normalized parallel corpus 12c using the non-normalized word correspondence 16d.
As the fourth phrase pair 17f, the phrase pair is extracted from the normalized parallel corpus 12c using the normalized word correspondence 16c.

以下にフレーズテーブル19(一部)の例を示す。

Figure 0004829685
An example of the phrase table 19 (part) is shown below.
Figure 0004829685

フレーズテーブル19において、抽出されなかったフレーズペアのスコアは非常に小さな値である0.001に設定する。前記フレーズテーブル17の例では、フレーズペア「#1」は、第1フレーズペア17cに含まれなかったため、0.001となっている。   In the phrase table 19, the score of the phrase pair that has not been extracted is set to 0.001, which is a very small value. In the example of the phrase table 17, the phrase pair “# 1” is 0.001 because it is not included in the first phrase pair 17c.

図2は、統計的機械翻訳装置2を示す構成図である。日本語から英語へ翻訳する日英機械翻訳システムに関する一例を示す。統計的機械翻訳装置2は、スケーリングファクタ学習用対訳データ21、スケーリングファクタ学習部22、スケーリングファクタ23、解探索部24、フレーズテーブル25、および、言語モデル26を有する。これらの構成要素は、例えば、非特許文献1、非特許文献3の従来法により実現できる。   FIG. 2 is a configuration diagram showing the statistical machine translation apparatus 2. An example of a Japanese-English machine translation system that translates from Japanese to English is shown. The statistical machine translation apparatus 2 includes parallel translation data 21 for scaling factor learning, a scaling factor learning unit 22, a scaling factor 23, a solution search unit 24, a phrase table 25, and a language model 26. These components can be realized by the conventional methods of Non-Patent Document 1 and Non-Patent Document 3, for example.

フレーズテーブル19(図1参照)に格納されている内容と、フレーズテーブル25に格納されている内容とは、同じである。この内容の同一化をするために、例えば、フレーズテーブル17からフレーズテーブル25にデータコピーを行ってもよいし、フレーズテーブル25からフレーズテーブル17に参照するリンクを設定してもよい。   The contents stored in the phrase table 19 (see FIG. 1) and the contents stored in the phrase table 25 are the same. In order to make this content the same, for example, data may be copied from the phrase table 17 to the phrase table 25, or a link referring to the phrase table 17 from the phrase table 25 may be set.

フレーズテーブル25に格納されている個々のフレーズペアとそれに対応する各スコアの三つ組みの集合から、翻訳候補文を評価する関数h(e,f)を構成する。スケーリングファクタ学習部22は、翻訳モデル(言語モデル26)以外の素性関数も含めて、スケーリングファクタ学習用対訳データ21における翻訳精度が最大になるように、非特許文献1の手法などを用いてスケーリングファクタ23を求める。 A function h m (e, f) for evaluating a translation candidate sentence is constructed from a set of triplets of individual phrase pairs and the corresponding scores stored in the phrase table 25. The scaling factor learning unit 22 performs scaling using the method of Non-Patent Document 1 so that the translation accuracy in the parallel translation data 21 for scaling factor learning including the feature function other than the translation model (language model 26) is maximized. Factor 23 is determined.

解探索部24は、スケーリングファクタ23により個々の素性関数を重み付けする。   The solution search unit 24 weights each feature function by the scaling factor 23.

以上の実施形態では、フレーズテーブル25に格納されている「対訳コーパス」と「正規化対訳コーパス」の2種類を用いることで、2の2乗=4種類のフレーズペアのバリエーションを獲得した。さらに、単語表現正規化部13cは、N−1種類の単語正規化手法をそれぞれ1回適用した対訳コーパスをN−1個作成し、正規化しない1つの対訳コーパスを含めて、合計N個の対訳コーパスを用いるように拡張できる。同様に、N−1種類の単語正規化手法をそれぞれ1回適用した単語対応をN−1個作成し、正規化しない1つの単語対応を含めて、合計N個の単語対応を用いるように拡張できる。なお、Nは、2以上の自然数である。   In the above embodiment, by using two types of “parallel translation corpus” and “normalized parallel corpus” stored in the phrase table 25, variations of 2 2 = 4 types of phrase pairs are obtained. Further, the word expression normalization unit 13c creates N-1 bilingual corpuses each applying N-1 types of word normalization techniques once, and includes a total of N corpora including one bilingual corpus that is not normalized. It can be extended to use a bilingual corpus. Similarly, N-1 word correspondences, each of which applies N-1 types of word normalization methods once, are created and expanded to use a total of N word correspondences including one word correspondence that is not normalized. it can. N is a natural number of 2 or more.

この場合、抽出対象となる対訳コーパスがN個、利用する単語対応がN個で合計Nの2乗個のフレーズペアのマルチセットが獲得可能である。または、正規化しない対訳コーパスが1個、利用する単語対応がN個で合計N個のフレーズペアのマルチセットが獲得可能である。このように、本実施形態では対訳コーパスのバリエーションを組み合わせ的に活かして、翻訳モデルのバリエーションを増やすことが可能となる。   In this case, it is possible to acquire a multi-set of N 2 parallel corpus to be extracted, N word correspondences to be used, and a total of N square phrase pairs. Alternatively, it is possible to acquire a multi-set of a total of N phrase pairs with one bilingual corpus without normalization and N word correspondences to be used. As described above, in the present embodiment, it is possible to increase the variations of the translation model by combining the variations of the bilingual corpus.

以上説明した本発明は、単語正規化しないで求めた翻訳モデルと、単語正規化してもとめた翻訳モデルを重み付けて併用して用いる。翻訳モデルの重み付けは、翻訳モデルを学習した学習データとは別の重み決定用学習データを用い、重み決定用学習データでの翻訳精度が一番高くなるように設定することを特徴とする。   In the present invention described above, the translation model obtained without word normalization and the translation model obtained after word normalization are used in a weighted manner. The weighting of the translation model is characterized in that weighting learning data different from the learning data obtained by learning the translation model is used and the translation accuracy in the weight determination learning data is set to be the highest.

以上説明した本発明は、以下のようにその趣旨を逸脱しない範囲で広く変形実施することができる。   The present invention described above can be widely modified without departing from the spirit thereof as follows.

例えば、本明細書では、翻訳元単語列fおよび翻訳先単語列eとして、任意の言語体系から任意の言語体系への翻訳が適用可能である。   For example, in this specification, translation from an arbitrary language system to an arbitrary language system can be applied as the translation source word string f and the translation destination word string e.

なお、翻訳フレーズペア生成装置1c、および、統計的機械翻訳装置2は、それぞれ演算処理を行う際に用いられる主記憶手段としてのメモリと、前記演算処理を行う演算処理装置と、各テーブルを格納するHDD(Hard Disk Drive)などの補助記憶手段を少なくとも備えるコンピュータとして構成される。なお、メモリは、RAM(Random Access Memory)などにより構成される。演算処理は、CPU(Central Processing Unit)によって構成される演算処理装置が、メモリ上のプログラムを実行することで、実現される。本実施形態は、各装置に加え、各装置に演算処理を実行させるためのプログラム、および、そのプログラムを格納したコンピュータ読み取り可能な記憶媒体を含む。   The translation phrase pair generation device 1c and the statistical machine translation device 2 each store a memory as a main storage unit used when performing arithmetic processing, an arithmetic processing device that performs the arithmetic processing, and each table. The computer is configured to include at least auxiliary storage means such as a hard disk drive (HDD). The memory is constituted by a RAM (Random Access Memory) or the like. Arithmetic processing is realized by an arithmetic processing unit configured by a CPU (Central Processing Unit) executing a program on a memory. In addition to each device, the present embodiment includes a program for causing each device to perform arithmetic processing, and a computer-readable storage medium storing the program.

本発明の一実施形態に関する翻訳フレーズペア生成装置を示す構成図である。It is a block diagram which shows the translation phrase pair production | generation apparatus regarding one Embodiment of this invention. 本発明の一実施形態に関する統計的機械翻訳装置を示す構成図である。It is a block diagram which shows the statistical machine translation apparatus regarding one Embodiment of this invention. 本発明の一実施形態に関するフレーズ翻訳を示す説明図である。It is explanatory drawing which shows the phrase translation regarding one Embodiment of this invention. 本発明の一実施形態に関する文分割と翻訳候補を示す説明図である。It is explanatory drawing which shows the sentence division and translation candidate regarding one Embodiment of this invention. 本発明の一実施形態に関する翻訳フレーズペア生成装置(従来法1)を示す構成図である。It is a block diagram which shows the translation phrase pair production | generation apparatus (conventional method 1) regarding one Embodiment of this invention. 本発明の一実施形態に関するフレーズ抽出を示す説明図である。It is explanatory drawing which shows the phrase extraction regarding one Embodiment of this invention. 本発明の一実施形態に関する翻訳フレーズペア生成装置(従来法2)を示す構成図である。It is a block diagram which shows the translation phrase pair production | generation apparatus (conventional method 2) regarding one Embodiment of this invention.

符号の説明Explanation of symbols

1 翻訳フレーズペア生成装置
2 統計的機械翻訳装置
14 単語対応付け部
15 フレーズペア抽出部
18 スコア付加部
19 フレーズテーブル
DESCRIPTION OF SYMBOLS 1 Translation phrase pair production | generation apparatus 2 Statistical machine translation apparatus 14 Word matching part 15 Phrase pair extraction part 18 Score addition part 19 Phrase table

Claims (9)

統計的機械翻訳に使用されるフレーズペアを生成する翻訳フレーズペア生成装置であって、
正規化されていない第1対訳コーパスから正規化されていない第1単語対応を作成し、正規化されている第2対訳コーパスから正規化されている第2単語対応を作成する単語対応付け部と、
前記第1対訳コーパス、および、前記第1単語対応から第1フレーズペアを抽出し、前記第1対訳コーパス、および、前記第2単語対応から第2フレーズペアを抽出し、前記第2対訳コーパス、および、前記第1単語対応から第3フレーズペアを抽出し、前記第2対訳コーパス、および、前記第2単語対応から第4フレーズペアを抽出するフレーズペア抽出部と、
前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、
を有することを特徴とする翻訳フレーズペア生成装置。
A translation phrase pair generator for generating phrase pairs used for statistical machine translation,
A word associating unit that creates a non-normalized first word correspondence from the unnormalized first bilingual corpus and creates a normalized second word correspondence from the normalized second bilingual corpus; ,
Extracting a first phrase pair from the first bilingual corpus and the first word correspondence; extracting a first phrase pair from the first bilingual corpus and the second word correspondence; and the second bilingual corpus, And a phrase pair extraction unit that extracts a third phrase pair from the first word correspondence, extracts the second parallel corpus, and a fourth phrase pair from the second word correspondence;
A score adding unit that performs scoring for each of the first phrase pair, the second phrase pair, the third phrase pair, and the fourth phrase pair, and stores the score in a phrase table;
The translation phrase pair production | generation apparatus characterized by having.
翻訳元言語文の入力を受け付け、請求項1に記載された翻訳フレーズペア生成装置により前記フレーズテーブルに格納された前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアをもとに、翻訳先言語文を出力することを特徴とする統計的機械翻訳装置。   The input of the translation source language sentence is accepted, and the first phrase pair, the second phrase pair, the third phrase pair, and the stored in the phrase table by the translated phrase pair generation device according to claim 1, A statistical machine translation device that outputs a translated language sentence based on a fourth phrase pair. 統計的機械翻訳に使用されるフレーズペアを生成する翻訳フレーズペア生成方法であって、
コンピュータが、
正規化されていない第1対訳コーパスから正規化されていない第1単語対応を作成し、正規化されている第2対訳コーパスから正規化されている第2単語対応を作成する手順と、
前記第1対訳コーパス、および、前記第1単語対応から第1フレーズペアを抽出し、前記第1対訳コーパス、および、前記第2単語対応から第2フレーズペアを抽出し、前記第2対訳コーパス、および、前記第1単語対応から第3フレーズペアを抽出し、前記第2対訳コーパス、および、前記第2単語対応から第4フレーズペアを抽出する手順と、
前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納する手順と、
を実行することを特徴とする翻訳フレーズペア生成方法。
A translation phrase pair generation method for generating a phrase pair used for statistical machine translation,
Computer
Creating a non-normalized first word correspondence from the non-normalized first bilingual corpus, and creating a normalized second word correspondence from the second bilingual corpus that is normalized;
Extracting a first phrase pair from the first bilingual corpus and the first word correspondence; extracting a first phrase pair from the first bilingual corpus and the second word correspondence; and the second bilingual corpus, And extracting a third phrase pair from the first word correspondence, extracting the second parallel corpus, and a fourth phrase pair from the second word correspondence;
The first phrase pair, the second phrase pair, the third phrase pair, and the fourth phrase pair are each scored and stored in a phrase table;
The translation phrase pair generation method characterized by performing this.
コンピュータが、翻訳元言語文の入力を受け付け、請求項3に記載された翻訳フレーズペア生成方法により前記フレーズテーブルに格納された前記第1フレーズペア、前記第2フレーズペア、前記第3フレーズペア、および、前記第4フレーズペアをもとに、翻訳先言語文を出力することを特徴とする統計的機械翻訳方法。   The computer accepts input of a translation source language sentence, and the first phrase pair, the second phrase pair, the third phrase pair stored in the phrase table by the translated phrase pair generation method according to claim 3, And the statistical machine translation method characterized by outputting a translation destination language sentence based on said 4th phrase pair. 請求項3に記載された翻訳フレーズペア生成方法をコンピュータに実行させるための翻訳フレーズペア生成プログラム。   A translation phrase pair generation program for causing a computer to execute the translation phrase pair generation method according to claim 3. 請求項4に記載された統計的機械翻訳方法をコンピュータに実行させるための統計的機械翻訳プログラム。   A statistical machine translation program for causing a computer to execute the statistical machine translation method according to claim 4. 請求項5または請求項6に記載されたプログラムを格納することを特徴とするコンピュータが読み取り可能な記憶媒体。   A computer-readable storage medium storing the program according to claim 5 or 6. 統計的機械翻訳に使用されるフレーズペアを生成するフレーズペア生成装置であって、
正規化しない1つの対訳コーパスと、その対訳コーパスに対してN−1種類の単語正規化手法をそれぞれ1回適用した対訳コーパスをN−1個作成することで、合計N個の対訳コーパスとし、前記N個の対訳コーパスからN個の単語対応グループを作成する単語対応付け部と、
前記N個の対訳コーパスと、前記N個の単語対応との組み合わせにより、Nの2乗個のフレーズペアを抽出するフレーズペア抽出部と、
前記Nの2乗個のフレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、
を有することを特徴とする翻訳フレーズペア生成装置。
A phrase pair generation device for generating a phrase pair used for statistical machine translation,
One bilingual corpus without normalization and N-1 bilingual corpora obtained by applying N-1 types of word normalization methods once to the bilingual corpus are generated as a total of N bilingual corpora, A word association unit for creating N word correspondence groups from the N parallel corpora;
A phrase pair extraction unit that extracts N square phrase pairs by combining the N bilingual corpora and the N word correspondences;
A score adding unit for scoring each of the N square phrase pairs and storing it in the phrase table;
The translation phrase pair production | generation apparatus characterized by having.
統計的機械翻訳に使用されるフレーズペアを生成するフレーズペア生成装置であって、
正規化しない1つの対訳コーパスからN種類の単語正規化手法をそれぞれ1回適用したN個の単語対応グループを作成する単語対応付け部と、
前記1個の対訳コーパスと、前記N個の単語対応との組み合わせにより、N個のフレーズペアを抽出するフレーズペア抽出部と、
前記N個のフレーズペアに対して、それぞれスコア付けを行い、フレーズテーブルに格納するスコア付加部と、
を有することを特徴とする翻訳フレーズペア生成装置。
A phrase pair generation device for generating a phrase pair used for statistical machine translation,
A word associating unit that creates N word correspondence groups each applying N kinds of word normalization techniques once from one bilingual corpus that is not normalized;
A phrase pair extraction unit that extracts N phrase pairs by combining the one bilingual corpus and the N word correspondence;
A score adding unit for scoring each of the N phrase pairs and storing it in a phrase table;
The translation phrase pair production | generation apparatus characterized by having.
JP2006158083A 2006-06-07 2006-06-07 Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium Expired - Fee Related JP4829685B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006158083A JP4829685B2 (en) 2006-06-07 2006-06-07 Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006158083A JP4829685B2 (en) 2006-06-07 2006-06-07 Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium

Publications (2)

Publication Number Publication Date
JP2007328483A JP2007328483A (en) 2007-12-20
JP4829685B2 true JP4829685B2 (en) 2011-12-07

Family

ID=38928920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006158083A Expired - Fee Related JP4829685B2 (en) 2006-06-07 2006-06-07 Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium

Country Status (1)

Country Link
JP (1) JP4829685B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504353B2 (en) * 2009-07-27 2013-08-06 Xerox Corporation Phrase-based statistical machine translation as a generalized traveling salesman problem
JP5500636B2 (en) * 2010-03-03 2014-05-21 独立行政法人情報通信研究機構 Phrase table generator and computer program therefor

Also Published As

Publication number Publication date
JP2007328483A (en) 2007-12-20

Similar Documents

Publication Publication Date Title
Guzmán et al. The flores evaluation datasets for low-resource machine translation: Nepali-english and sinhala-english
Mayhew et al. Cheap translation for cross-lingual named entity recognition
US8229731B2 (en) Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice
Song et al. AMR-to-text generation with synchronous node replacement grammar
Song et al. AMR-to-text generation as a Traveling Salesman Problem
JP5497048B2 (en) Transliteration of proper expressions using comparable corpus
KR101732634B1 (en) Statistical Machine Translation Method using Dependency Forest
Irvine et al. End-to-end statistical machine translation with zero or small parallel texts
Martínez Garcia et al. Document-level machine translation with word vector models
Singh et al. Improving neural machine translation for low-resource Indian languages using rule-based feature extraction
Vyas et al. Real time machine translation system for english to indian language
JP4829685B2 (en) Translation phrase pair generation apparatus, statistical machine translation apparatus, translation phrase pair generation method, statistical machine translation method, translation phrase pair generation program, statistical machine translation program, and storage medium
Yeong et al. Using dictionary and lemmatizer to improve low resource English-Malay statistical machine translation system
Singh et al. An English-assamese machine translation system
Steingrímsson et al. Pivotalign: Leveraging high-precision word alignments for bilingual dictionary inference
Mara English-Wolaytta Machine Translation using Statistical Approach
JP2018072979A (en) Parallel translation sentence extraction device, parallel translation sentence extraction method and program
Gimpel et al. Generative models of monolingual and bilingual gappy patterns
Lavecchia et al. Using inter-lingual triggers for machine translation
JP2009157888A (en) Transliteration model generation device, transliteration apparatus, and computer program therefor
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
JP4829702B2 (en) Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof
Rajput et al. N-Grams TextRank A Novel Domain Keyword Extraction Technique
Karimbi Mahesh et al. Identification of bilingual segments for translation generation
Yildiz et al. Evaluation of sentence alignment methods for English-Turkish parallel texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110729

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110913

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees