JP5850512B2

JP5850512B2 - 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム

Info

Publication number: JP5850512B2
Application number: JP2014045012A
Authority: JP
Inventors: 晃裕田村; 渡辺　太郎; 太郎渡辺; 隅田　英一郎; 英一郎隅田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2014-03-07
Filing date: 2014-03-07
Publication date: 2016-02-03
Anticipated expiration: 2034-03-07
Also published as: JP2015170168A; SG11201606967RA; US10049105B2; CN106062736A; US20170068665A1; CN106062736B; WO2015133238A1

Description

本発明は、対訳文対内で各単語の対応関係（単語アライメント）を解析する単語アライメント装置及びそのための単語アライメントスコア算出装置に関する。

単語アライメントは、統計的機械翻訳（Statistical Machine Translation：ＳＭＴ）に欠かせない重要な処理の一つである。図１に単語アライメントの例を示す。

図１を参照して、日本語文と英語との対訳文対２０を考える。対訳文対２０の各文は予め単語ごとに区切られている。対訳文対２０は、日本語文３０（「私｜が｜利用｜料金｜を｜払う」（「｜」は単語の区切りを示す。））と、英語文３２（「I pay usage fees.」）とを含む。単語アライメントは、例えば日本語文３０を構成する各単語が英語文３２中のどの単語（又は単語群）に翻訳されるか、すなわち日本語文３０を構成する各単語が英語文３２中のどの単語（又は単語群）に対応するかを推定する処理である。図１には日本語から英語への単語アライメントを示したが、英語から日本語への単語アライメントも同様に行なわれる。

ＳＭＴでは、このような単語アライメントが非常に重要な役割を果たす。ＳＭＴでは、上記したような対訳を多数含む対訳コーパスを準備する。各対訳について単語アライメントを行なう。この単語アライメントに基づいて、統計的な処理により翻訳モデルが作成される。この過程を翻訳モデルの学習と呼ぶ。翻訳モデルは、端的に言えば、一方の言語のある単語が他方の言語のどの単語に翻訳されるかを確率の形で示すものである。ＳＭＴでは、原言語の文が与えられたときに、翻訳先の言語（目的言語）の文の候補を多数準備し、その原言語の文が目的言語の各文の候補から生成された確率を求め、目的言語の文のうちでその確率が最も高い文を原言語の文に対する翻訳文と推定する。この過程で、上記した翻訳モデルが使用される。

明らかに、ＳＭＴの性能を改善するためには翻訳モデルの精度を高める必要がある。そのためには翻訳モデルの学習に使用される対訳コーパスの単語アライメントの精度を高めなければならない。したがって、ＳＭＴの性能を改善するために、対訳に対して単語アライメントを行なう単語アライメント装置の性能向上が求められている。

広く使われている単語アライメントの方法として、ＩＢＭモデル（後掲の非特許文献１を参照）、及びＨＭＭモデル（非特許文献２を参照）がある。これらは、単語アライメントが、ある確率分布により生成されることを想定し、実際に観測された単語アライメントからその確率分布を推定（学習）するモデル（生成モデル）である。原言語の文をｆ₁ ^J＝ｆ₁,...,ｆ_J、目的言語の文をｅ₁ ^I＝ｅ₁,...,ｅ_Iとすると、原言語の文ｆ₁ ^Jは単語アライメントａ₁ ^Jにしたがって目的言語の文ｅ₁ ^Iから生成され、その生成確率は以下の式（１）で計算する。式（１）中の各ａ_jは、原言語の単語ｆ_jが目的言語の単語ｅ_{a_j}に対応付けられることを示す隠れ変数である。なお、以下のテキストでは、ある下付き文字にさらに下付き文字が付いていることをアンダースコア「＿」で示し、下付き文字の範囲をアンダースコアの後ろの「｛｝」で示す。すなわち、「e_{a_{j}}」という表現は、「e」に添えられた下付き文字が通常の表現では「a_j」であることを示し、「e_{a_{j}-1}」という表現はeの下付き文字がa_j−１であることを示し、「e_{a_{j-1}}」という表現はeの下付き文字がa_j-1であることを示す。

式（２）においてｐ_aはアライメント確率、ｐ_tは語彙翻訳確率である。

これらのモデルは、対訳文対（ｆ₁ ^J，ｅ₁ ^I）に対し、以下の式（３）を満たす最適なアライメント＾ａ（記号「＾」は、本来は直後の文字の直上に記載されるべきものである。）をforward-backwardアルゴリズムを使う等して特定する。最適なアライメント＾ａはビタビアライメントと呼ばれる。

非特許文献３は、フィード・フォワード型ニューラル・ネットワーク（feed forward neural networks （ＦＦＮＮ））の一種であるContext-Dependent Deep Neural Network for HMMを非特許文献２のＨＭＭモデルに適用し、アライメント確率に対応するアライメントスコア、語彙選択確率に対応する語彙スコアをＦＦＮＮで計算するアライメント手法を提案した。すなわち、対訳文対（ｆ₁ ^J，ｅ₁ ^I）に対するアライメントａ₁ ^Jのスコアｓ_NN（ａ₁ ^J｜ｆ₁ ^J，ｅ₁ ^I）は以下の式（４）により表される。

非特許文献３の手法では、全単語における正規化の計算量が膨大となるために、確率のかわりにスコアを用いている。ここで、ｔ_a及びｔ_tはそれぞれ、式（２）のｐ_a及びｐ_tに対応する。ｓ_NNはアライメントａ₁ ^Jのスコアであり、ｃ（ｗ）は、単語ｗの文脈を表す。ビタビアライメントは、このモデルでもＨＭＭモデルと同様、forward-backwardアルゴリズムにより決定する。

式（４）における語彙翻訳スコアｔ_t（ｆ_j，ｅ_{a_{j}}｜ｃ（ｆ_j），ｃ（ｅ_{a_{j}-1}））を計算するためのニューラル・ネットワークのネットワーク構造（語彙翻訳モデル）を図３に示す。図３に示すニューラル・ネットワーク６０は、原言語の単語ｆ_j-1、ｆ_j、及びｆ_j+1、並びに目的言語の単語ｅ_{a_{j}-1}、ｅ_{a_{j}}、及びｅ_{a_{j}+1}を受け、これらをベクトルｚ₀に変換する入力層（Lookup層）７０と、ベクトルｚ₀を受けて式（５）による出力ベクトルｚ₁を出力する隠れ層７２と、ベクトルｚ₁を受けて式（６）により語彙翻訳スコア７６を計算し出力する出力層７４とを含む。各層はそれぞれ、重み行列Ｌ、｛Ｈ，Ｂ_H｝、及び｛Ｏ，Ｂ_O｝を持つ。ここでは隠れ層が１層の場合を説明するが、複数個の隠れ層を用いてもよい。

重み行列Ｌはembedding行列であり、各単語のword embeddingを管理する。word embeddingとは、単語を特徴付ける低次元の実ベクトルであり、単語の統語的、意味的特性を表す。原言語の単語集合をＶ_f、目的言語の単語集合をＶ_e、word embeddingの長さをＭとすると、重み行列ＬはＭ×（｜Ｖ_f｜＋｜Ｖ_e｜）行列である。ただし、Ｖ_fとＶ_eには、それぞれ、未知語を表す〈unk〉と単語「null」を表す〈null〉を追加する。

この語彙翻訳モデルは、入力として、計算対象である原言語の単語ｆ_jと目的言語の単語ｅ_{a_{j}}とともにそれらの文脈単語を受付ける。文脈単語とは、予め定めたサイズの窓内に存在する単語である。ここでは、図３に示すように窓幅が３の場合を想定している。入力層７０は、原言語の入力部８０と、目的言語の入力部８２とを含む。原言語の入力部８０は、計算対象である原言語の単語ｆ_jとともに、その前後の２つの単語ｆ_j-1及びｆ_j+1を受付け、embedding行列（Ｌ）から対応する列を見つけ、word embeddingベクトルのうち、原言語部分を出力する。目的言語の入力部８２は、計算対象である目的言語の単語ｅ_{a_{j}}とともに、その前後の２つの単語ｅ_{a_{j}-1}及びｅ_{a_{j}+1}を受付け、embedding行列（Ｌ）から対応する列を見つけ、word embeddingベクトルのうち、目的言語の部分を出力する。原言語の入力部８０の出力及び目的言語の入力部８２の出力は連結されて実ベクトルｚ₀を形成し隠れ層７２の入力に与えられる。次に隠れ層７２が実ベクトルｚ₀の非線形な特徴を捉えてベクトルｚ₁を出力する。最後に、出力層７４が隠れ層７２の出力するベクトルｚ₁を受け取り、以下の式で表される語彙翻訳スコア７６を計算して出力する。

隠れ層７２及び出力層７４が行なう具体的な計算は以下の通りである。

ここで、Ｈ，Ｂ_H，Ｏ，Ｂ_Oはそれぞれ、｜ｚ₁｜×｜ｚ₀｜、｜ｚ₁｜×１、１×｜ｚ₁｜、１×１行列である。f(x)は非線形活性化関数であり、ここではhtanh(x)を用いている。htanh(x)は次のような関数である。

アライメントスコアｔ_a（ａ_j―ａ_j-1｜ｃ（ｅ_{a_{j}-1}））を計算するアライメントモデルもこれと同様に構成できる。

各モデルの学習では、次式（７）のランキング損失を最小化するように、各層の重み行列を確率的勾配降下法（Stochastic Gradient Descent:ＳＧＤ）により学習する。各重みの勾配はバックプロパゲーションで計算する。

ここで、θは最適化するパラメータ（重み行列の重み）、Ｔは学習データ、ｓ_θはパラメータθのモデルによるａ₁ ^Jのスコア（式（４）参照）、ａ⁺は正解アライメント、ａ^-はパラメータθのモデルでスコアが最高の不正解アライメントを示す。

Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics, 19(2):263-311. Stephan Vogel, Hermann Ney, and Christoph Tillmann. 1996. Hmm-based Word Alignment in Statistical Translation. In Proceedings of the 16th International Conference on Computational Linguistics, pages 836-841. Nan Yang, Shujie Liu, Mu Li, Ming Zhou, and Nenghai Yu. 2013. Word Alignment Modeling with Context Dependent Deep Neural Network. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 166-175.

式（２）及び式（４）のいずれにおいても、各単語のアライメントａ_jは直前のアライメントａ_j-1に依存している。図２に示すように、日本語文３０の先頭の単語「私」のアライメント４０を行なった後、次の単語「が」のアライメント４２を行なう際には、アライメント４０の結果が参照される。すなわち、最適なアライメント＾ａを求める際、各単語のアライメントは、直前のアライメント関係に基づいて（手がかりとして）決定される。

しかし、直前のアライメント関係のみでアライメントの手がかりとして十分かどうかは定かではない。単語アライメントの精度を高めるためには他の手法も考え、より精度の高い方法があればそれを特定する必要がある。

したがって本発明の１つの目的は、従来の手法より精度が高い単語アライメントが行なえる単語アライメント装置及びそのための単語アライメントスコア算出装置、ならびにそれらのためのコンピュータプログラムを提供することである。

本発明の第１の局面に係る単語アライメントスコア算出装置は、第１の言語と第２の言語との対訳文対の単語アライメントのスコアを算出する。この装置は、対訳文対と、当該対訳文対に対する単語アライメントとを受けて、所定の順序にしたがって、対訳文対の第１の言語の文の単語を順番に選択する選択手段と、選択手段により選択された単語と、単語アライメントにより当該単語と対応付けられた第２の言語の単語とからなる単語対が正しい単語対である可能性を示すスコアを対訳文対の第１の言語の文の全ての単語について算出し、当該スコアに基づいて、単語アライメントのスコアを算出するスコア算出手段とを含む。スコア算出手段は、ある単語対のスコアを算出するにあたって、当該ある単語対を構成する第１の言語の単語より前に選択手段により選択された単語のアライメントの全てに基づいて当該ある単語対のスコアを算出する。

好ましくは、選択手段は、対訳文対の内、第１の言語の文の単語を第１の言語の文の先頭から順番に選択する手段を含む。

より好ましくは、スコア算出手段は、選択手段により選択された単語と、対訳文対の第２の言語の文のうちで単語アライメントにより当該単語と対応付けられた単語とからなる単語対が正しい単語対である可能性を示すスコアを算出する第１の算出手段と、対訳文対の第１の言語の文の全ての単語について第１のスコア算出手段により算出されたスコアに基づいて、単語アライメントのスコアを算出する第２の算出手段とを含む。

さらに好ましくは、第２の算出手段は、対訳文対の第１の言語の文の全ての単語について第１の算出手段により算出されたスコアを互いに乗算することにより、単語アライメントのスコアを算出する手段を含む。

スコア算出手段は、選択手段により選択された単語を受ける第１の入力と、単語アライメントにより当該単語に対応付けられた第２の言語の単語を受ける第２の入力とを持つリカレント型のニューラル・ネットワークと、選択手段により選択された単語と、単語アライメントにより当該単語に対応付けられた単語とを、第１の入力及び第２の入力にそれぞれ与える入力制御手段とを含んでもよい。リカレント型のニューラル・ネットワークは、第１の入力及び第２の入力を持ち、第１の入力及び第２の入力にそれぞれ与えられた単語からword embeddingベクトルを算出し出力する入力層と、入力層の出力を受け、予め定められた非線形演算により、入力層からの２つの出力の関係を表すベクトルを生成する隠れ層と、隠れ層の出力に基づいてスコアを算出し出力する出力層とを含む。隠れ層の出力は、単語アライメントスコア算出装置に次の単語対が入力として与えられたときに、隠れ層に入力として与えられる。

本発明の第２の局面に係る単語アライメント装置は、第１の言語と第２の言語との対訳文対の単語アライメントを推定する単語アライメント装置である。この装置は、上記したいずれかの単語アライメントスコア算出装置と、対訳文対に対して複数個の単語アライメント候補を生成する単語アライメント候補生成手段と、単語アライメント候補生成手段により生成された複数個の単語アライメント候補の各々について、単語アライメントスコア算出装置を用いて対訳文対に対する単語アライメントスコアを算出する算出手段と、算出手段により複数個の単語アライメント候補に対して算出された単語アライメントスコアのうち、最も高いスコアに対応する単語アライメント候補を、対訳文対の単語アライメントとして決定し出力する単語アライメント決定手段とを含む。

本発明の第３の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの装置の各手段として機能させる。

単語アライメントを説明する模式図である。従来の単語アライメントの方法を説明する模式図である。非特許文献３による語彙翻訳モデルを実現するニューラル・ネットワークの構成を模式的に示す図である。本発明の１実施の形態におけるＲＮＮによる単語アライメントモデルの構成を示す模式図である。対訳コーパスを用いて図４に示す単語アライメントモデルのための学習を行なうためのコンピュータプログラムの制御構造を示すフローチャートである。図４に示す単語アライメントモデルを用いてコーパス中の対訳の単語アライメントを行なうコンピュータプログラムの制御構造を示すフローチャートである。対訳コーパスを用いて図４に示す単語アライメントモデルの片方向の学習を行なうためのコンピュータプログラムの制御構造を示すフローチャートである。実験に用いたデータセットのサイズを示す表形式の図である。本発明の１実施の形態による単語アライメント性能を表形式で示す図である。本発明の１実施の形態による単語アライメント結果を用いて学習した統計的機械翻訳装置の翻訳性能を表形式で示す図である。単語アライメントの例を示す図である。単語アライメントの他の例を示す図である。様々なサイズの学習データにより学習した際のＢＴＥＣコーパスに対する単語アライメント性能を表形式で示す図である。本発明の１実施の形態に係る単語アライメント装置を実現するコンピュータの外観を示す図である。図１４に示すコンピュータの内部構成を示すブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［基本的考え方］
本実施の形態では、最適なアライメント＾ａを求める際、各単語のアライメントは、文頭から直前までの全てのアライメント関係に基づいて決定する。例えば、アライメント系列ａ₁ ^J＝ａ₁,…,ａ_Jのスコアを次の式（８）のように以前のアライメント関係全てに依存したスコアにより求める。スコアは確率でもよい。

［第１の実施の形態］
このために本実施の形態では、ＲＮＮ（Recurrent Neural Network）によるアライメントモデルを採用する。このモデルは、ＲＮＮを用いてアライメントａ₁ ^Jのスコアｓ_NNを式（８）を用いて計算する。式（８）によれば、第ｊ番目のアライメントａ_jの予測は、それに先立つ全てのアライメントａ₁ ^j-1に依存する。この例では、従来のＦＦＮＮ型のものと同様、確率ではなくスコアを用いている点に注意する必要がある。

図４に、このＲＮＮによるモデル１００の構成を示す。図４を参照して、このモデル１００は、入力層（Lookup層）１１０と、隠れ層１１２と、出力層１１４とを含む。これらはそれぞれ、重み行列Ｌ，｛Ｈ^d，Ｒ^d，Ｂ^d _H｝、及び｛Ｏ，Ｂ_o｝を持つ。隠れ層１１２の行列（Ｈ^d，Ｒ^d，Ｂ^d _H）はアライメントに依存する。ここでｄはアライメントａ_j-1からアライメントａ_jまでのジャンプ距離を示す：ｄ＝ａ_j−ａ_j-1。なお、後述する実験では、ジャンプ距離が８以上のもの及び−８以下のものはそれぞれ一まとめで「≧８」距離及び「≦−８」距離とした。つまり、隠れ層１１２は重み行列｛Ｈ^≦-8,Ｈ^-7,…,Ｈ⁷,Ｈ^8≦,Ｒ^≦-8,Ｒ^-7,…,Ｒ⁷,Ｒ^8≦,Ｂ_Ｈ ^≦-8,Ｂ_Ｈ ^-7,…,Ｂ_Ｈ ⁷,Ｂ_Ｈ ^8≦を持つ。

図４を参照して、入力層１１０は、原言語の入力部１３０と、目的言語の入力部１３２とを含む。原言語の入力部１３０は、計算対象である原言語の単語ｆ_jを受付け、embedding行列（Ｌ）から対応する列を見つけ、word embeddingベクトルのうち、原言語部分を出力する。目的言語の入力部１３２は、計算対象である目的言語の単語ｅ_{a_{j}}を受付け、embedding行列（Ｌ）から対応する列を見つけ、word embeddingベクトルのうち、目的言語の部分を出力する。原言語の入力部１３０の出力及び目的言語の入力部１３２の出力は連結されて実ベクトルｘ_jを形成し隠れ層１１２の入力に与えられる。隠れ層１１２の前回の出力は一時記憶されており、循環接続１１８により隠れ層１１２の入力に前回の出力ベクトルｙ_j-1として与えられる。次に隠れ層１１２が実ベクトルｘ_j及び出力ベクトルｙ_j-1の非線形な特徴を捉えてベクトルｙ_jを出力する。このベクトルは一時記憶され、原言語の次の単語ｆ_j+1の処理時に循環接続１１８を介して隠れ層１１２の入力に与えられる。なお、ｊ＝０のときにはベクトルｙ_j-1は全て０に初期化されている。隠れ層１１２における計算では、特定のジャンプ距離ｄに依存した重み行列{Ｈ^d,Ｒ^d,Ｂ^d _H}が使われていることに注意が必要である。最後に、出力層１１４が隠れ層１１２の出力するベクトルｙ_jを受け取り、次式で表されるスコア１０２、つまり

を計算して出力する。

隠れ層１１２の出力するベクトルｙ_jを受けた出力層１１４は、ベクトルｙ_jに応答してアライメントａ_jのスコア１０２（ｔ_RNN）を式（１０）により算出し出力する。従来のＦＦＮＮモデル（図３）は語彙翻訳スコアとアライメントスコアとの２つの要素からなっていたが、この実施の形態のＲＮＮによるモデルは、単に１つのスコア１０２しか出力しない点に注意が必要である。

このモデルの隠れ層１１２及び出力層１１４における計算は以下の式により行なわれる。

この実施の形態でビタビアライメントはforward-backwardアルゴリズムにより決定するが、厳密にはダイナミック・プログラミングによるforward-backwardアルゴリズムは使用できない。ｙ_jに対するアライメントの履歴が長いためである。したがってここでは、ヒューリスティックなビームサーチによりビタビアライメントを近似的に算出する。具体的には、forwardアルゴリズムの際、各ｆ_jに対して、予め指定するビーム幅分の状態のみを保持し、それ以外は切り捨てる。

このように、ＲＮＮによるモデルは、循環接続された隠れ層を持つ。この循環接続により、これまでのアライメントの履歴を隠れ層１１２によってコンパクトにエンコードして伝播できる。そのため、その隠れ層１１２の設定にしたがってスコアを求めることにより、以前のアライメント関係全体を考慮したスコアを計算できる。

〈学習〉
学習では、各層の重み行列の最適化を、バッチサイズＤのミニバッチＳＧＤにより行なった。この手法は、単純なＳＧＤ（Ｄ＝１）よりも収束が速く安定している。勾配は、通時的逆伝播（Back propagation through time：ＢＰＴＴ）アルゴリズムにより計算した。ＢＰＴＴでは、ネットワークを時間（ｊ）方向に展開し、時間ステップごとに勾配を計算する。さらに目的関数にl2正規化項を加えることによりモデルの過学習を防止する。

ＲＮＮによるモデルは、ＦＦＮＮによるモデルと同様に教師付き学習による学習ができる。この場合、学習は式（７）により定義されるランキング損失に基づいて行なわれる。また、この学習方法以外に、アライメントの両方向の整合性をとる制約を組込んだり、教師なし学習をしたりすることで、更なる性能改善ができる。教師付き学習では、教師データ（理想的なアライメント）が必要となる。こうした問題を解決するため、本実施の形態では、ラベルなしの学習データから学習を行なえる、ＮＣＥ（Noise-Contrastive Estimation）を用いた教師なし学習を用いる。

〈教師なし学習〉
Ｄｙｅｒらは、contrastive estimation（ＣＥ）に基づく教師なし学習によるアライメントモデルを提案している（Chris Dyer, Jonathan Clark, Alon Lavie, and Noah A. Smith. 2011. Unsupervised Word Alignment with Arbitrary Features. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies Volume 1, pages 409-419.）。ＣＥは、観測されたデータに対し、その周辺のデータを擬似的なネガティブサンプルとみなし、観測データとその周辺データを識別するモデルを学習する。Ｄｙｅｒらは、学習データＴとして与えられた対訳文について考えられる限りで可能な単語アライメントを観測データ、翻訳の全探索空間Ωをその周辺データとみなした。

本実施の形態ではこのアイディアをマージン付きランキング損失に導入した。

ここでΦは（ｆ，ｅ）が与えられたときに可能な全てのアライメントの集合を指し、Ｅ_Φ［ｓ_θ］はΦ上でのスコアｓ_θの期待値を表し、ｅ⁺は学習データ中の目的言語の文を表し、ｅ^-は擬似的な目的言語の文を表す。期待値の第１項は観測データに対するものであり、第２項は周辺データに関するものである。

全探索空間Ωに対する計算量は膨大となる。計算量を削減するためにＮＣＥを採用した。ＮＣＥは、全探索空間Ω中からランダムに選んだサンプル文をｅ^-とする。また、ビーム幅Ｗのビームサーチにより期待値を算出し、スコアの低いアライメントを捨てることで計算量をさらに削減する。そして、上記式（１１）をオンライン処理に適した形式に変形する。

ただし、ｅ⁺は学習データ中でｆ⁺の対訳となっている目的言語の文、すなわち（ｆ⁺，ｅ⁺）∈Ｔであり、ｅ^-はランダムサンプリングにより生成された、長さが｜ｅ⁺｜である擬似的な目的言語の文であり、Ｎはｆ⁺に対して生成する擬似的な目的言語の文の数を表す。ＧＥＮは可能な全てのアライメントの集合Φの、ビームサーチにより生成されたサブセットを示す。

ｅ^-を生成する単純な方法では、目的言語の単語集合Ｖ_eからランダムに｜ｅ⁺｜回目的言語の単語をサンプリングし、それらを並べることでｅ^-を生成する。モデルの学習により効果的なネガティブサンプルを生成するためには、原言語の単語ｆ_i∈ｆ⁺と学習データの対訳文内で共起する目的言語の単語の内、l0 priorを組込んだＩＢＭモデル１においてしきい値Ｃより大きな確率を持つ単語（翻訳候補の単語）と判定された単語集合からサンプリングする。l0 priorを組込んだＩＢＭモデル１は、標準的なＩＢＭモデル１と比較してより疎なアライメントを生成するため、翻訳候補の数を削減する上では適している。

〈合意制約〉
ＦＦＮＮによるモデルもＲＮＮによるモデルもＨＭＭアライメントモデルを基礎にしており、したがって非対称である。すなわち、目的言語側から見たときに１対他のアライメントを表し得る。このような非対称モデルの学習は、２つのアライメント方向で行なわれることが通常である。しかし、このような方向性を持つモデルについて、両者が一致するような学習を行なうとアライメント性能が向上することが分かった。このような制約を合意制約と呼ぶ。以下、上記したモデルに合意制約を課して学習を行なう方法を説明する。

具体的には、合意制約は、双方向におけるword embeddingを一致させるという条件を課す。この実施の形態では、双方向のモデルについて、以下に示すような、word embeddingの相違を表現するペナルティ項を導入した目的関数にしたがって学習を行なう。

ただしθ_FE（θ_EF）は原言語から目的言語（目的言語から原言語）へのアライメントモデルにおける各層の重みを表し、θ_Lは入力層（Lookup層）、すなわちword embeddingの重みを表し、αは合意制約の強さを制御するパラメータを示す。「||θ||」はノルムを表す。後述する実験では２−ノルムを使用した。式（１３）及び式（１４）はいずれも教師付き学習及び教師なし学習の双方に利用できる。それぞれ式（７）及び式（１２）を式（１３）、式（１４）のloss(θ）に代入すればよい。

図５を参照して、本実施の形態における学習を実現するプログラムは、以下のような制御構造を有する。なお、後述するようにこの実施の形態に係る単語アライメントモデル学習装置、及び単語アライメント装置は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるコンピュータプログラムとにより実現されることが一般的でかつ現実的である。しかし、これらはいずれも専用のハードウェアにより実現してもよいし、プログラマブルロジックデバイスにより実現してもよい。

このプログラムは、まず、予めパラメータを記入した設定ファイルを読み、バッチサイズＤ，Ｎ，Ｃ，Ｗ，αを設定する（ステップ１５０）。次に、θ¹ _FE、θ¹ _EFと、最大繰返し回数を表す定数ＭａｘＩｔｅｒとの入力を受け、あわせて学習データＴとＩＢＭ１を読込む（ステップ１５２）。ここでＩＢＭ１は、原言語及び目的言語の各単語に対して、10 priorを組込んだＩＢＭモデル１によって見出された翻訳候補の単語を並べたリストである。このプログラムはさらに、上記ステップに続いて、１≦ｔ≦ＭａｘＩｔｅｒを満たす全てのｔに対して以下の処理を繰返すステップ１５４と、ステップ１５４が完了したときに得られる値θ_EF ^MaxIter+1及びθ_FE ^MAXIter+1を出力して処理を終了するステップ１５６とを含む。

ステップ１５４で各ｔに対して繰返される処理は、学習データＴからＤ個の対訳文対（ｆ⁺，ｅ⁺）^Dをサンプリングするステップ１７０と、l0 priorを組込んだＩＢＭモデル１によって見出されたｆ⁺の中の各単語の翻訳候補（ＩＢＭ１）に基づいて、各ｆ⁺に対してＮ個の擬似的ネガティブサンプルを生成するステップ１７２と、同様の処理により、ｅ⁺中の各単語の翻訳候補に基づいて、各ｅ⁺に対してＮ個の擬似的ネガティブサンプルを生成するステップ１７４とを含む。さらに、ステップ１７６及び１７８により、前述した目的関数にしたがってニューラル・ネットワークの各層の重みが更新される。θ^t _EF及びθ^t _EFは各繰返しで同時に更新され、θ^t _FEとθ^t _EFを更新する際には、それぞれ、word embeddingを相互に合意（一致）させるためにθ^t-1 _EFとθ^t-1 _FEの値が用いられる。

図６に、このＲＮＮによるモデルを用いて対訳コーパスの単語アライメントを行なうコンピュータプログラムの制御構造を示す。これにより、例えば、統計的機械翻訳装置の学習に用いる学習データ（対訳コーパス）に単語アライメントを付与できる。図６を参照して、このプログラムは、ＲＮＮによるモデルの学習済パラメータを読み、ＲＮＮを初期化するステップ１９０と、対訳コーパスを開くステップ１９２と、全ての対訳（ｆ₁ ^J，ｅ₁ ^I）に対して、単語アライメントを実行するステップ１９４と、ステップ１９４により全ての対訳に対して単語アライメントが終了した学習データファイルを閉じて処理を終了するステップ１９６とを含む。

ステップ１９４は、処理中の対訳（ｆ₁ ^J，ｅ₁ ^I）について考えられる全てのアライメント（ａ₁ ^J,_k）（ｋ＝１〜Ｋ）に対して後述するスコアｓ_kを算出し記憶するステップ２００と、全てのアライメント（ａ₁ ^J,_k）（ｋ＝１〜Ｋ）のうち、ステップ２００により記憶されたスコアｓ_kが最大となるアライメントを処理中の対訳に対するアライメントとして選択し、対訳にラベルを付して学習データを更新するステップ２０２とを含む。

ステップ２００は、スコアｓ_kを１に初期化するステップ２１０と、変数ｊ＝１〜Ｊの順序で順番に変化させて原言語の単語ｆ_jを選択しながら、各ｊに対し、単語ｆ_jと、その単語ｆ_jに対してアラインメントａ_jによりアラインされる単語ｅ_{a_{j}}とについて、それまでに得られたアライメント結果を全て（ａ₁ ^j-1）考慮してスコアｓ_kを更新していき、最終的なスコアｓ_kを算出するステップ２１２と、ステップ２１２で算出されたスコアｓ_kをｋ番目のアライメントに対するスコアとして記憶するステップ２１４とを含む。

ステップ２１２は、スコアｔ_RNN（ａ_j|ａ₁ ^j-1，ｆ_j，ｅ_{a_{j}}）を算出するステップ２２０と、スコアｓ_kにスコアｔ_RNNを乗じてスコアｓ_kを更新するステップ２２２とを含む。

［第２の実施の形態］
第１の実施の形態は、ＲＮＮによるモデルに対して双方向の合意制約を課したものである。しかし本発明はそのような合意制約を課したものには限定されない。合意制約のない一方向のＲＮＮモデルを用いるものでもよい。

図７に、この第２の実施の形態で使用されるモデルの学習を実現するコンピュータプログラムの制御構造を示す。図７に示すプログラムは、図５に示すステップ１５４及びステップ１５６に代えて、ステップ２４０及び２４２を含んでいる。ステップ２４０は、実質的には、図５のステップ１５４からステップ１７４及びステップ１７８を取り除き、２つの変数のうち、一方の変数のみを計算するようにしたものである。ステップ２４２は、図５のステップ１５６で出力される２つの変数のうち、ステップ２４０で計算される一方の変数の値のみを出力する点のみがステップ１５６と異なっている。

図５におけるステップ１７６及び１７８は、それぞれ、式（１３）、式（１４）を目的関数として各重みを更新するのに対し、図７のステップ１７６では、式（７）又は（１２）を目的関数とする点が異なる。図７において、その他個々のステップで行なわれる処理はそれぞれ図５に示すもので実行されるものと同じである。

［実験］
上記実施の形態に記載した単語アライメント方法の性能を調べるために実験を行なった。実験では、コーパスＢＴＥＣ（Toshiyuki Takezawa, Eiichiro Sumita, Fumiaki Sugaya, Hirofumi Yamamoto, and Seiichi Yamamoto. 2002. Toward a Broad-coverage Bilingual Corpus for Speech Translation of Travel Conversations in the Real World. In Proceedings of the 3rd International Conference on Language Resources and Evaluation, pages 147-152.）での日本語と英語との単語アライメントと、２００３ＮＡＡＣＬ共通タスク（Rada Mihalcea and Ted Pedersen. 2003. An Evaluation Exercise for Word Alignment. In Proceedings of the HLT-NAACL 2003 Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond, pages 1-10.）で用いられたＨａｎｓａｒｄｓデータセット（Ｈａｎｓａｒｄｓ）でのフランス語と英語とのアライメントとを行なった。さらに、ＦＢＩＳコーパスにおける中国語から英語への翻訳タスク、ＩＷＳＬＴ２００７における日本語から英語への翻訳タスク、及びＮＴＣＩＲ日本語−英語特許翻訳タスクについてもその翻訳性能を評価した。

図８に、使用したデータセットのサイズを表形式で示す。ＢＴＥＣ及びＨａｎｓａｒｄｓについては、予備実験によりアライメントタスクのためのハイパーパラメータが設定済だったため、開発セットは用いていない。ＢＴＥＣデータはＩＷＳＬＴの学習データ中の最初の９，９６０個の対訳文対であり、Ｇｏｈら（Chooi-Ling Goh, Taro Watanabe, Hirofumi Yamamoto, and Eiichiro Sumita. 2010. Constraining a Generative Word Alignment Model with Discriminative Output. IEICE Transactions, 93-D(7):1976-1983.）により正しい単語アライメントが付されている。このデータを２つに分割した。先頭の９０００文対からなる学習データと、最後の９６０文対からなるテストデータである。ＢＴＥＣの全データについては単語アライメントがされているが、Ｈａｎｓａｒｄｓ中の学習データはラベル付けがされていない。ＦＢＩＳについては、ＮＩＳＴ０２評価データを開発データとして用い、ＮＩＳＴ０３及び０４の評価データをテストデータとして用いた。

〈比較対象〉
上記実施の形態に係るＲＮＮによるアライメントモデルについて、２つのベースラインモデルと対比した。第１はＩＢＭモデル４であり、第２は隠れ層を１つ持つＦＦＮＮによるモデルである。ＩＢＭモデル４はＯｃｈ及びＮｅｙ（Franz Josef Och and Hermann Ney. 2003. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29:19-51.）により示されたモデルシーケンス（１⁵Ｈ⁵３⁵４⁵：ＩＢＭモデル１による５回の繰返し、その後にＨＭＭモデルによる５回の繰返し、…）により学習したものであり、これはＧＩＺＡ＋＋に対するデフォルトの設定である（ＩＢＭ４）。ＦＦＮＮによるモデルについては、word embedding長Ｍを３０に、隠れ層のユニット数｜ｚ₁｜を１００に、窓幅を５に、それぞれ設定した。Ｙａｎｇら（Nan Yang, Shujie Liu, Mu Li, Ming Zhou, and Nenghai Yu. 2013. Word Alignment Modeling with Context Dependent Deep Neural Network. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 166―175.）の教示にしたがい、既に説明したような教師あり学習によってＦＦＮＮによるモデルの学習を行なった。

ＲＮＮによるモデルについては、word embedding長Ｍを３０に、隠れ層のユニット数｜ｙ_i｜を１００に、それぞれ設定した。評価実験では、ＲＮＮによる４つのモデル、すなわちＲＮＮ_s、ＲＮＮ_s+c、ＲＮＮ_u、及びＲＮＮ_u+cの性能を評価した。ここで「ｓ／ｕ」は教師あり／教師なし学習によるモデルであることを示し、「＋ｃ」は合意制約が課されているか否かを示す。

ＩＢＭ４を除くモデルに関する学習では、各層の重みを最初に初期化した。すなわち、入力層（Lookup層）Ｌの重みについては原言語及び目的言語の双方についてword embeddingを学習データのそれぞれの側から学習し、得られたword embeddingをＬに設定した。これにより局所最適解に陥ってしまうことが避けられる。他の重みについては、閉区間［-0.1,0.1］の範囲内でランダムな値に設定した。word embeddingの学習ではＭｉｋｏｌｏｖら（Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, and Sanjeev Khudanpur. 2010. Recurrent Neural Network based Language Model. In Proceedings of 11th Annual Conference of the International Speech Communication Association, pages 1045-1048.）に基づくＲＮＮＬＭツールキット（http://www.fit.vutbr.cz/~imikolov/）をデフォルト設定で用いた。ただしここでは、５回未満しか出現しない単語は全て〈unk〉という特別なトークンにまとめた。次に、重みの各々をミニバッチＳＧＤを用いて最適化した。ここでのバッチサイズＤは１００に、学習率は０．０１に、ｌ2正規化パラメータは０．１に、それぞれ設定した。学習は５０世代の繰返し後に終了した。他のパラメータは以下のとおりである。教師なし学習におけるパラメータＷ，Ｎ及びＣはそれぞれ１００，５０及び０．００１に設定した。合意制約の強度を示すパラメータαは０．１に設定した。

翻訳タスクでは、Ｋｏｅｈｎら（Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constrantin, and Evan Herbst. 2007. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics on Interactive Poster and Demonstration Sessions, pages 177-180.）によるフレーズベースのＳＭＴを用いた。日本語及び中国語の文は全て、Chasen及びStanford segmenterを使用してそれぞれ単語分割を行なった。学習では、４０語を超える長い文は除いた。改良型のKneser-Ney (modified Kneser-Ney) 平滑化を用いるＳＲＩＬＭツールキット（Stolcke, 2002）を使用して、学習データの英語側を用いてＩＷＳＬＴ及びＮＴＣＩＲのための５グラム言語モデルの学習を行ない、English Gigaword CorpusのXinhua側を用いてＦＢＩＳのための５グラム言語モデルの学習を行なった。ＳＭＴの重みパラメータは、開発データを用いてＭＥＲＴ（Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, pages 160-167.）を用いて調整した。

〈単語アライメントの結果〉
図９に、単語アライメントの性能をＦ値により評価したものを示す。以下の説明では、ＭＯＤＥＬ（Ｒ）及びＭＯＤＥＬ（Ｉ）はそれぞれ、正解アライメント、ＩＢＭモデル４による単語アライメントを教師データとして学習したモデルを示す。Ｈａｎｓａｒｄｓでは、学習データからランダムにサンプリングした１００Ｋのデータにより全てのモデルの学習を行なった。単語アライメントの評価は、最初に各モデルを双方向に適用しそれぞれの方向のアライメントを解析した後、「grow-diag-final-and」ヒューリスティック（Philipp Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of the 2003 Human Language Technology Conference: North American Chapter of the Association for Computational Linguistics, pages 48-54.）によってそれらのアライメントを組合わせたものに対して行なった。単語アライメントの性能に関する有意性検定は、有意レベル５％で符号検定により行なった。図９の「＋」は、ベースライン（ＩＢＭ４及びＦＦＮＮ_s（Ｒ/Ｉ））との間に有意な差があることを示す。

図９において、ＲＮＮ_u+cは、上記実施の形態に記載した全ての特徴を備えたものである。すなわち、ＲＮＮによるモデル、教師なし学習、及び合意制約を全て適用したものである。そしてこのＲＮＮ_u+cが、ＢＴＥＣ及びＨａｎｓａｒｄｓの双方において最もよい性能を示した。特に、ベースラインのシステムとの間の差は統計的に有意であった。図９からはまた、ＢＴＥＣについてはＲＮＮ_s（Ｒ／Ｉ）がＦＦＮＮ_s（Ｒ／Ｉ）に対して統計的に有意な差を示したことが分かる。これらの結果から、ＲＮＮによるモデルにより、直前だけでなくそれ以前のアライメント結果を考慮して単語アライメントを行なうことにより、性能が向上することが確認できる。

図９によれば、ＲＮＮ_s+c（Ｒ／Ｉ）及びＲＮＮ_u+cが、いずれのタスクにおいてもそれぞれＲＮＮ_s（Ｒ／Ｉ）及びＲＮＮ_uよりよい性能を示している。この結果から、合意制約を課すとモデルの性能が向上することが分かる。

ＢＴＥＣでは、ＲＮＮ_u及びＲＮＮ_u+cの性能はそれぞれＲＮＮ_s（Ｉ）及びＲＮＮ_s+c（Ｉ）の性能をかなり上回っているが、Ｈａｎｓａｒｄｓではこれらの性能の間には大きな差はない。これは、学習データの自動アライメント結果を教師データとして使ったときのように、教師データの精度が高くないときには、上記実施の形態の教師なし学習が効果を持つことを示している。

〈機械翻訳の結果〉
図１０は、大文字と小文字を区別したＢＬＥＵ値（Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, pages 311-318.）により測定した翻訳精度を示す。各値は、３回の独立のＭＥＲＴ処理で得られたＢＬＥＵ値の算術平均である。

ＮＴＣＩＲ及びＦＢＩＳでは、各アライメントモデルをランダムにサンプリングした１００Ｋのデータにより学習した後に、このアライメントモデルを用いて単語アライメントされた学習データ全てを用いて翻訳モデルの学習を行なった。さらに、全ての学習データを用いて学習したＩＢＭモデル４によるＳＭＴシステム（ＩＢＭ４_all）の評価も行なった。翻訳性能に関する有意性検定は、有意レベル５％でboot strapによる検定手法（Philipp Koehn. 2004. Statistical Significance Tests for Machine Translation Evaluation. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 388-395.）により行なった。図１０において「＊」は、翻訳性能が２つのベースライン、ＩＢＭ４及びＦＦＮＮ_s（Ｉ）の双方に対して有意な差を持つことを示す。

図１０の結果から、ＲＮＮ_u及びＲＮＮ_u+cは全てのタスクでＦＦＮＮ_s（Ｉ）及びＩＢＭ４を上回る性能を示していることが分かる。したがって、ＲＮＮによるモデルを用いて単語アライメントした学習データにより翻訳モデルの学習を行なうことで、翻訳性能が向上することが分かる。さらに、図１０からは、ＲＮＮによるモデルは、ＮＴＣＩＲ及びＦＢＩＳタスクでは、学習データの一部しか用いずに学習を行なっただけであるにもかかわらず、ＩＢＭ４_allに匹敵する性能を示すことが分かる。

図１１に、日本語と英語の対訳文に対するＲＮＮ_s（Ｒ）による単語アライメントの結果を○で、ＦＦＮＮ_s（Ｒ）による単語アライメントの結果を△で、正しいアライメントを実線の□で、それぞれ示す。図１１からは、ＲＮＮ_s（Ｒ）によるモデルが、遠く離れた２つの単語を含む複雑なアライメントをほぼ正確に行なっていることがわかる。ＦＦＮＮ_s（Ｒ）では特に、遠く離れた２つの単語のアライメントがうまく行なわれていない。これは、ＦＦＮＮ_s（Ｒ）が直前のアライメントの結果しか用いていないのに対し、ＲＮＮ_s（Ｒ）が、直前だけでなくそれ以前のアライメントの結果も用いており、ある意味ではフレーズレベルでのアライメントを行なっているといえることによる。

図１２に、フランス語と英語の対訳文に対するＲＮＮ_s（Ｒ）とＦＦＮＮ_s（Ｒ）による単語アライメントの結果を示す。英語とフランス語とでは語順が似通っているため、直前のアライメント結果が単語アライメントの大きな手がかりになっており、ＦＦＮＮ_s（Ｒ）でもアライメントを精度高くできることがわかる。したがってこのような言語対ではＲＮＮ_s（Ｒ）を用いてもそれほど大きな効果は得られないと考えられる。

〈学習データサイズ〉
図１３に、学習データのサイズを変えて学習した各モデルを用いてＢＴＥＣの単語アライメントした結果（Ｆ値）を示す。学習データは、ＩＷＳＬＴ用の学習データ（４０Ｋ），ＢＴＥＣ用の学習データ（９Ｋ）、及びＢＴＥＣの学習データからランダムにサンプリングした学習データ（１Ｋ）である。なお、ＩＷＳＬＴについてはアライメントの正解データがないため、ＲＮＮ_s+c（Ｒ）についてはＩＷＳＬＴ用のデータ（４０Ｋ）を用いた学習はできなかった。

図１３によれば、上記実施の形態に係るＲＮＮによるモデルの性能は、１Ｋのラベル付きデータで学習した場合も、９Ｋのラベル付きデータで学習した場合も、４０Ｋのラベルなしの学習データにより学習したＩＢＭモデル４を上回る。すなわち、ＲＮＮによるモデルは、ＩＢＭモデル４の学習データの２５％にも満たないデータで学習してもＩＢＭモデル４を上回る性能を示す。したがって、ごく少ない学習データにより学習したＲＮＮ_u+cモデルを用いたＳＭＴによれば、図１０に示すような学習データの全体を用いて学習したＩＢＭモデル４によるＳＭＴと同等以上の性能を得ることができる。

以上のように上記実施の形態に係るＲＮＮによるモデルを用いると、直前の単語アライメントの結果だけではなく、それ以前の単語アライメントの結果を用いて単語のアライメントを行なえる。その結果、実験で明らかになったように、このモデルを用いた単語アライメントは従来の、直前の単語アライメントのみに依存して単語アライメントを行なうモデルよりも高い性能を示す。しかもこのモデルは教師なし学習での学習も可能で、その結果得られるモデルの性能も高い。さらに、学習に必要とされる学習データの数が少なくても従来のモデルと同等以上の性能が得られる。

［コンピュータによる実現］
上記した単語アライメントモデル学習装置及び単語アライメント装置は、実質的には、コンピュータハードウェアと、コンピュータハードウェアと協働するコンピュータプログラムとにより実現できる。

＜ソフトウェア構成＞
ソフトウェア構成については、図５、図６及び図７に記載したとおりである。

＜ハードウェア構成＞
図１４は、上記した単語アライメントモデル学習装置及び単語アライメント装置を実現する、コンピュータ３４０を含むコンピュータシステム３３０の外観を示し、図１５はコンピュータ３４０の内部構成を示す。

図１４を参照して、このコンピュータシステム３３０は、コンピュータ３４０と、このコンピュータ３４０に接続されるモニタ３４２、キーボード３４６、及びマウス３４８とを含む。コンピュータ３４０は、ＤＶＤ３６２（図１５を参照）が装着可能なＤＶＤドライブ３５０と、リムーバブルメモリ３６４（図１５を参照）が装着されるメモリポート３５２とを有する。

図１５を参照して、コンピュータ３４０は、上記したＤＶＤドライブ３５０及びメモリポート３５２に加え、ＣＰＵ（中央演算処理装置）３５６と、ＣＰＵ３５６に接続されたバス３６６と、ブートアッププログラム等を記憶する、書換え可能な読出専用メモリ（ＲＯＭ）３５８と、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、コンピュータプログラム及び対訳コーパスなどを記憶するハードディスクドライブ（ＨＤＤ）３５４と、他の端末との通信を可能とするネットワークインターフェイス（Ｉ／Ｆ）３４４とを含む。

コンピュータシステム３３０を上記した実施の形態に係る単語アライメントモデル学習装置及び単語アライメント装置の各機能部として機能させるためのコンピュータプログラムは、予めリムーバブルメモリ３６４に記憶され、リムーバブルメモリ３６４をメモリポート３５２に装着した後にＲＯＭ３５８の書換えプログラムを起動することによりＲＯＭ３５８又はＨＤＤ３５４に転送され記憶される。又は、プログラムを、ネットワークＩ／Ｆ３４４を介した通信によりネットワーク上の他の装置からＲＡＭ３６０に転送し、その後にＲＯＭ３５８又はＨＤＤ３５４に書き込むようにしてもよい。プログラムは実行の際にＲＯＭ３５８又はＨＤＤ３５４から読出され、ＲＡＭ３６０にロードされ、ＣＰＵ３５６により実行される。

ＲＯＭ３５８又はＨＤＤ３５４に記憶されたプログラムは、コンピュータ３４０を、上記実施の形態に係る単語アライメントモデル学習装置及び単語アライメント装置の各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又は、コンピュータ３４０にインストールされている各種プログラミングツールキット又はプログラムライブラリにより実行時に動的に提供されることがある。したがって、このプログラム自体はこの実施の形態に係る単語アライメントモデル学習装置及び単語アライメント装置を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールをコンピュータ３４０の記憶装置内から動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。

コンピュータプログラムを実行する際のコンピュータシステム３３０の動作は周知である。したがってここではその詳細については繰返さない。

上記実施の形態では、まず英語文の先頭から単語を順番に選択して行き、アライメントにしたがって各アライメントのスコアを算出した。しかし本発明はそのような実施の形態には限定されない。単語を選択する順番は任意でよく、全単語を所定の順番で選択できればどのような順番でもよい。もっとも、上記実施の形態のように一方の言語の文の先頭の単語から順番に他方の言語の単語とアライメントしていくのが簡単である。

また、上記実施の形態ではリカレント型のニューラル・ネットワークの各層の関数として特定の関数を用いた。しかし本発明はそのような実施の形態には限定されない。例えば隠れ層において、二つの単語の間の非線形的関係を表現できるものであればどのような関数を用いてもよい。入力層及び出力層についても同様である。また上記した実施の形態では、ニューラル・ネットワークの出力はスコアであったが、前述したとおりこれは２つの単語が正しい対応付けになっている確率であってもよい。確率もある種のスコアと考えることができる。

上記実施の形態では、ＲＮＮ型のニューラル・ネットワークの学習と単語アライメントとを同一のコンピュータで実行するものとした。しかしもちろん本発明はそのような実施の形態には限定されない。学習により得られたニューラル・ネットワークのパラメータを他のコンピュータにコピーしてＲＮＮ型のニューラル・ネットワークをセットアップすることにより、任意のコンピュータで単語アライメントを行なうことができる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

２０対訳文対
３０日本語文
３２英語文
４０，４２アライメント
６０ニューラル・ネットワーク
７０，１１０入力層（Lookup層）
７２，１１２隠れ層
７４，１１４出力層
７６語彙翻訳スコア
８０，１３０原言語の入力部
８２，１３２目的言語の入力部
１００ＲＮＮによるモデル
１０２スコア
１１８循環接続

Claims

第１の言語と第２の言語との対訳文対の単語アライメントのスコアを算出する単語アライメントスコア算出装置であって、
前記対訳文対と、当該対訳文対に対する単語アライメントとを受けて、所定の順序にしたがって、前記対訳文対の前記第１の言語の文の単語を順番に選択する選択手段と、
前記選択手段により選択された単語と、前記単語アライメントにより当該単語と対応付けられた前記第２の言語の単語とからなる単語対が正しい単語対である可能性を示すスコアを前記対訳文対の前記第１の言語の文の全ての単語について算出し、当該スコアに基づいて、前記単語アライメントのスコアを算出するスコア算出手段とを含み、
前記スコア算出手段は、ある単語対のスコアを算出するにあたって、前記単語アライメントのうち、当該ある単語対を構成する前記第１の言語の単語より前に前記選択手段により選択された単語のアライメントの全てに基づいて当該ある単語対のスコアを算出する、単語アライメントスコア算出装置。
前記選択手段は、前記対訳文対の内、前記第１の言語の文の単語を前記第１の言語の文の先頭から順番に選択する手段を含む、請求項１に記載の単語アライメントスコア算出装置。
前記スコア算出手段は、
前記選択手段により選択された単語と、前記対訳文対の前記第２の言語の文のうちで前記単語アライメントにより当該単語と対応付けられた単語とからなる単語対が正しい単語対である可能性を示すスコアを算出する第１の算出手段と、
前記対訳文対の前記第１の言語の文の全ての単語について前記第１のスコア算出手段により算出されたスコアに基づいて、前記単語アライメントのスコアを算出する第２の算出手段とを含む、請求項１又は請求項２に記載の単語アライメントスコア算出装置。
前記第２の算出手段は、前記対訳文対の前記第１の言語の文の全ての単語について前記第１の算出手段により算出されたスコアを互いに乗算することにより、前記単語アライメントのスコアを算出する手段を含む、請求項３に記載の単語アライメントスコア算出装置。
前記スコア算出手段は、前記選択手段により選択された単語を受ける第１の入力と、前記単語アライメントにより当該単語に対応付けられた前記第２の言語の単語を受ける第２の入力とを持つリカレント型のニューラルネットワークと、
前記選択手段により選択された単語と、前記単語アライメントにより当該単語に対応付けられた単語とを、前記第１の入力及び前記第２の入力にそれぞれ与える入力制御手段とを含み、
前記リカレント型のニューラルネットワークは、
前記第１の入力及び前記第２の入力を持ち、前記第１の入力及び前記第２の入力にそれぞれ与えられた単語からword embeddingベクトルを算出し出力する入力層と、
前記入力層の出力を受け、予め定められた非線形演算により、前記入力層からの２つの出力の関係を表すベクトルを生成する隠れ層と、
前記隠れ層の出力に基づいて前記スコアを算出し出力する出力層とを含み、
前記隠れ層の出力は、前記単語アライメントスコア算出装置に次の単語対が入力として与えられたときに、前記隠れ層に入力として与えられる、請求項１〜請求項４のいずれかに記載の単語アライメントスコア算出装置。
第１の言語と第２の言語との対訳文対の単語アライメントを推定する単語アライメント装置であって、
請求項１〜請求項５のいずれかに記載の単語アライメントスコア算出装置と、
前記対訳文対に対して複数個の単語アライメント候補を生成する単語アライメント候補生成手段と、
前記単語アライメント候補生成手段により生成された前記複数個の単語アライメント候補の各々について、前記単語アライメントスコア算出装置を用いて前記対訳文対に対する単語アライメントスコアを算出する算出手段と、
前記算出手段により前記複数個の単語アライメント候補に対して算出された単語アライメントスコアのうち、最も高いスコアに対応する単語アライメント候補を、前記対訳文対の単語アライメントとして決定し出力する単語アライメント決定手段とを含む、単語アライメント装置。
コンピュータにより実行されると、当該コンピュータを、請求項１〜請求項６のいずれかに記載の各手段として機能させる、コンピュータプログラム。