JP5850512B2 - 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム - Google Patents

単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP5850512B2
JP5850512B2 JP2014045012A JP2014045012A JP5850512B2 JP 5850512 B2 JP5850512 B2 JP 5850512B2 JP 2014045012 A JP2014045012 A JP 2014045012A JP 2014045012 A JP2014045012 A JP 2014045012A JP 5850512 B2 JP5850512 B2 JP 5850512B2
Authority
JP
Japan
Prior art keywords
word
alignment
score
word alignment
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014045012A
Other languages
English (en)
Other versions
JP2015170168A (ja
Inventor
晃裕 田村
晃裕 田村
渡辺 太郎
太郎 渡辺
隅田 英一郎
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2014045012A priority Critical patent/JP5850512B2/ja
Priority to SG11201606967RA priority patent/SG11201606967RA/en
Priority to PCT/JP2015/053825 priority patent/WO2015133238A1/ja
Priority to CN201580012326.9A priority patent/CN106062736B/zh
Priority to US15/118,703 priority patent/US10049105B2/en
Publication of JP2015170168A publication Critical patent/JP2015170168A/ja
Application granted granted Critical
Publication of JP5850512B2 publication Critical patent/JP5850512B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、対訳文対内で各単語の対応関係(単語アライメント)を解析する単語アライメント装置及びそのための単語アライメントスコア算出装置に関する。
単語アライメントは、統計的機械翻訳(Statistical Machine Translation:SMT)に欠かせない重要な処理の一つである。図1に単語アライメントの例を示す。
図1を参照して、日本語文と英語との対訳文対20を考える。対訳文対20の各文は予め単語ごとに区切られている。対訳文対20は、日本語文30(「私|が|利用|料金|を|払う」(「|」は単語の区切りを示す。))と、英語文32(「I pay usage fees.」)とを含む。単語アライメントは、例えば日本語文30を構成する各単語が英語文32中のどの単語(又は単語群)に翻訳されるか、すなわち日本語文30を構成する各単語が英語文32中のどの単語(又は単語群)に対応するかを推定する処理である。図1には日本語から英語への単語アライメントを示したが、英語から日本語への単語アライメントも同様に行なわれる。
SMTでは、このような単語アライメントが非常に重要な役割を果たす。SMTでは、上記したような対訳を多数含む対訳コーパスを準備する。各対訳について単語アライメントを行なう。この単語アライメントに基づいて、統計的な処理により翻訳モデルが作成される。この過程を翻訳モデルの学習と呼ぶ。翻訳モデルは、端的に言えば、一方の言語のある単語が他方の言語のどの単語に翻訳されるかを確率の形で示すものである。SMTでは、原言語の文が与えられたときに、翻訳先の言語(目的言語)の文の候補を多数準備し、その原言語の文が目的言語の各文の候補から生成された確率を求め、目的言語の文のうちでその確率が最も高い文を原言語の文に対する翻訳文と推定する。この過程で、上記した翻訳モデルが使用される。
明らかに、SMTの性能を改善するためには翻訳モデルの精度を高める必要がある。そのためには翻訳モデルの学習に使用される対訳コーパスの単語アライメントの精度を高めなければならない。したがって、SMTの性能を改善するために、対訳に対して単語アライメントを行なう単語アライメント装置の性能向上が求められている。
広く使われている単語アライメントの方法として、IBMモデル(後掲の非特許文献1を参照)、及びHMMモデル(非特許文献2を参照)がある。これらは、単語アライメントが、ある確率分布により生成されることを想定し、実際に観測された単語アライメントからその確率分布を推定(学習)するモデル(生成モデル)である。原言語の文をf1 J=f1,...,fJ、目的言語の文をe1 I=e1,...,eIとすると、原言語の文f1 Jは単語アライメントa1 Jにしたがって目的言語の文e1 Iから生成され、その生成確率は以下の式(1)で計算する。式(1)中の各ajは、原言語の単語fjが目的言語の単語ea_jに対応付けられることを示す隠れ変数である。なお、以下のテキストでは、ある下付き文字にさらに下付き文字が付いていることをアンダースコア「_」で示し、下付き文字の範囲をアンダースコアの後ろの「{ }」で示す。すなわち、「ea_{j}」という表現は、「e」に添えられた下付き文字が通常の表現では「aj」であることを示し、「ea_{j}-1」という表現はeの下付き文字がaj−1であることを示し、「ea_{j-1}」という表現はeの下付き文字がaj-1であることを示す。
Figure 0005850512
Figure 0005850512
式(2)においてpaはアライメント確率、ptは語彙翻訳確率である。
これらのモデルは、対訳文対(f1 J,e1 I)に対し、以下の式(3)を満たす最適なアライメント^a(記号「^」は、本来は直後の文字の直上に記載されるべきものである。)をforward-backwardアルゴリズムを使う等して特定する。最適なアライメント^aはビタビアライメントと呼ばれる。
Figure 0005850512
非特許文献3は、フィード・フォワード型ニューラル・ネットワーク(feed forward neural networks (FFNN))の一種であるContext-Dependent Deep Neural Network for HMMを非特許文献2のHMMモデルに適用し、アライメント確率に対応するアライメントスコア、語彙選択確率に対応する語彙スコアをFFNNで計算するアライメント手法を提案した。すなわち、対訳文対(f1 J,e1 I)に対するアライメントa1 JのスコアsNN(a1 J|f1 J,e1 I)は以下の式(4)により表される。
Figure 0005850512
非特許文献3の手法では、全単語における正規化の計算量が膨大となるために、確率のかわりにスコアを用いている。ここで、ta及びttはそれぞれ、式(2)のpa及びptに対応する。sNNはアライメントa1 Jのスコアであり、c(w)は、単語wの文脈を表す。ビタビアライメントは、このモデルでもHMMモデルと同様、forward-backwardアルゴリズムにより決定する。
式(4)における語彙翻訳スコアtt(fj,ea_{j}|c(fj),c(ea_{j}-1))を計算するためのニューラル・ネットワークのネットワーク構造(語彙翻訳モデル)を図3に示す。図3に示すニューラル・ネットワーク60は、原言語の単語fj-1、fj、及びfj+1、並びに目的言語の単語ea_{j}-1、ea_{j}、及びea_{j}+1を受け、これらをベクトルz0に変換する入力層(Lookup層)70と、ベクトルz0を受けて式(5)による出力ベクトルz1を出力する隠れ層72と、ベクトルz1を受けて式(6)により語彙翻訳スコア76を計算し出力する出力層74とを含む。各層はそれぞれ、重み行列L、{H,BH}、及び{O,BO}を持つ。ここでは隠れ層が1層の場合を説明するが、複数個の隠れ層を用いてもよい。
重み行列Lはembedding行列であり、各単語のword embeddingを管理する。word embeddingとは、単語を特徴付ける低次元の実ベクトルであり、単語の統語的、意味的特性を表す。原言語の単語集合をVf、目的言語の単語集合をVe、word embeddingの長さをMとすると、重み行列LはM×(|Vf|+|Ve|)行列である。ただし、VfとVeには、それぞれ、未知語を表す〈unk〉と単語「null」を表す〈null〉を追加する。
この語彙翻訳モデルは、入力として、計算対象である原言語の単語fjと目的言語の単語ea_{j}とともにそれらの文脈単語を受付ける。文脈単語とは、予め定めたサイズの窓内に存在する単語である。ここでは、図3に示すように窓幅が3の場合を想定している。入力層70は、原言語の入力部80と、目的言語の入力部82とを含む。原言語の入力部80は、計算対象である原言語の単語fjとともに、その前後の2つの単語fj-1及びfj+1を受付け、embedding行列(L)から対応する列を見つけ、word embeddingベクトルのうち、原言語部分を出力する。目的言語の入力部82は、計算対象である目的言語の単語ea_{j}とともに、その前後の2つの単語ea_{j}-1及びea_{j}+1を受付け、embedding行列(L)から対応する列を見つけ、word embeddingベクトルのうち、目的言語の部分を出力する。原言語の入力部80の出力及び目的言語の入力部82の出力は連結されて実ベクトルz0を形成し隠れ層72の入力に与えられる。次に隠れ層72が実ベクトルz0の非線形な特徴を捉えてベクトルz1を出力する。最後に、出力層74が隠れ層72の出力するベクトルz1を受け取り、以下の式で表される語彙翻訳スコア76を計算して出力する。
Figure 0005850512
隠れ層72及び出力層74が行なう具体的な計算は以下の通りである。
Figure 0005850512
ここで、H,BH,O,BOはそれぞれ、|z1|×|z0|、|z1|×1、1×|z1|、1×1行列である。f(x)は非線形活性化関数であり、ここではhtanh(x)を用いている。htanh(x)は次のような関数である。
Figure 0005850512
アライメントスコアta(aj―aj-1|c(ea_{j}-1))を計算するアライメントモデルもこれと同様に構成できる。
各モデルの学習では、次式(7)のランキング損失を最小化するように、各層の重み行列を確率的勾配降下法(Stochastic Gradient Descent:SGD)により学習する。各重みの勾配はバックプロパゲーションで計算する。
Figure 0005850512
ここで、θは最適化するパラメータ(重み行列の重み)、Tは学習データ、sθはパラメータθのモデルによるa1 Jのスコア(式(4)参照)、a+は正解アライメント、a-はパラメータθのモデルでスコアが最高の不正解アライメントを示す。
Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics, 19(2):263-311. Stephan Vogel, Hermann Ney, and Christoph Tillmann. 1996. Hmm-based Word Alignment in Statistical Translation. In Proceedings of the 16th International Conference on Computational Linguistics, pages 836-841. Nan Yang, Shujie Liu, Mu Li, Ming Zhou, and Nenghai Yu. 2013. Word Alignment Modeling with Context Dependent Deep Neural Network. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 166-175.
式(2)及び式(4)のいずれにおいても、各単語のアライメントajは直前のアライメントaj-1に依存している。図2に示すように、日本語文30の先頭の単語「私」のアライメント40を行なった後、次の単語「が」のアライメント42を行なう際には、アライメント40の結果が参照される。すなわち、最適なアライメント^aを求める際、各単語のアライメントは、直前のアライメント関係に基づいて(手がかりとして)決定される。
しかし、直前のアライメント関係のみでアライメントの手がかりとして十分かどうかは定かではない。単語アライメントの精度を高めるためには他の手法も考え、より精度の高い方法があればそれを特定する必要がある。
したがって本発明の1つの目的は、従来の手法より精度が高い単語アライメントが行なえる単語アライメント装置及びそのための単語アライメントスコア算出装置、ならびにそれらのためのコンピュータプログラムを提供することである。
本発明の第1の局面に係る単語アライメントスコア算出装置は、第1の言語と第2の言語との対訳文対の単語アライメントのスコアを算出する。この装置は、対訳文対と、当該対訳文対に対する単語アライメントとを受けて、所定の順序にしたがって、対訳文対の第1の言語の文の単語を順番に選択する選択手段と、選択手段により選択された単語と、単語アライメントにより当該単語と対応付けられた第2の言語の単語とからなる単語対が正しい単語対である可能性を示すスコアを対訳文対の第1の言語の文の全ての単語について算出し、当該スコアに基づいて、単語アライメントのスコアを算出するスコア算出手段とを含む。スコア算出手段は、ある単語対のスコアを算出するにあたって、当該ある単語対を構成する第1の言語の単語より前に選択手段により選択された単語のアライメントの全てに基づいて当該ある単語対のスコアを算出する。
好ましくは、選択手段は、対訳文対の内、第1の言語の文の単語を第1の言語の文の先頭から順番に選択する手段を含む。
より好ましくは、スコア算出手段は、選択手段により選択された単語と、対訳文対の第2の言語の文のうちで単語アライメントにより当該単語と対応付けられた単語とからなる単語対が正しい単語対である可能性を示すスコアを算出する第1の算出手段と、対訳文対の第1の言語の文の全ての単語について第1のスコア算出手段により算出されたスコアに基づいて、単語アライメントのスコアを算出する第2の算出手段とを含む。
さらに好ましくは、第2の算出手段は、対訳文対の第1の言語の文の全ての単語について第1の算出手段により算出されたスコアを互いに乗算することにより、単語アライメントのスコアを算出する手段を含む。
スコア算出手段は、選択手段により選択された単語を受ける第1の入力と、単語アライメントにより当該単語に対応付けられた第2の言語の単語を受ける第2の入力とを持つリカレント型のニューラル・ネットワークと、選択手段により選択された単語と、単語アライメントにより当該単語に対応付けられた単語とを、第1の入力及び第2の入力にそれぞれ与える入力制御手段とを含んでもよい。リカレント型のニューラル・ネットワークは、第1の入力及び第2の入力を持ち、第1の入力及び第2の入力にそれぞれ与えられた単語からword embeddingベクトルを算出し出力する入力層と、入力層の出力を受け、予め定められた非線形演算により、入力層からの2つの出力の関係を表すベクトルを生成する隠れ層と、隠れ層の出力に基づいてスコアを算出し出力する出力層とを含む。隠れ層の出力は、単語アライメントスコア算出装置に次の単語対が入力として与えられたときに、隠れ層に入力として与えられる。
本発明の第2の局面に係る単語アライメント装置は、第1の言語と第2の言語との対訳文対の単語アライメントを推定する単語アライメント装置である。この装置は、上記したいずれかの単語アライメントスコア算出装置と、対訳文対に対して複数個の単語アライメント候補を生成する単語アライメント候補生成手段と、単語アライメント候補生成手段により生成された複数個の単語アライメント候補の各々について、単語アライメントスコア算出装置を用いて対訳文対に対する単語アライメントスコアを算出する算出手段と、算出手段により複数個の単語アライメント候補に対して算出された単語アライメントスコアのうち、最も高いスコアに対応する単語アライメント候補を、対訳文対の単語アライメントとして決定し出力する単語アライメント決定手段とを含む。
本発明の第3の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの装置の各手段として機能させる。
単語アライメントを説明する模式図である。 従来の単語アライメントの方法を説明する模式図である。 非特許文献3による語彙翻訳モデルを実現するニューラル・ネットワークの構成を模式的に示す図である。 本発明の1実施の形態におけるRNNによる単語アライメントモデルの構成を示す模式図である。 対訳コーパスを用いて図4に示す単語アライメントモデルのための学習を行なうためのコンピュータプログラムの制御構造を示すフローチャートである。 図4に示す単語アライメントモデルを用いてコーパス中の対訳の単語アライメントを行なうコンピュータプログラムの制御構造を示すフローチャートである。 対訳コーパスを用いて図4に示す単語アライメントモデルの片方向の学習を行なうためのコンピュータプログラムの制御構造を示すフローチャートである。 実験に用いたデータセットのサイズを示す表形式の図である。 本発明の1実施の形態による単語アライメント性能を表形式で示す図である。 本発明の1実施の形態による単語アライメント結果を用いて学習した統計的機械翻訳装置の翻訳性能を表形式で示す図である。 単語アライメントの例を示す図である。 単語アライメントの他の例を示す図である。 様々なサイズの学習データにより学習した際のBTECコーパスに対する単語アライメント性能を表形式で示す図である。 本発明の1実施の形態に係る単語アライメント装置を実現するコンピュータの外観を示す図である。 図14に示すコンピュータの内部構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
[基本的考え方]
本実施の形態では、最適なアライメント^aを求める際、各単語のアライメントは、文頭から直前までの全てのアライメント関係に基づいて決定する。例えば、アライメント系列a1 J=a1,…,aJのスコアを次の式(8)のように以前のアライメント関係全てに依存したスコアにより求める。スコアは確率でもよい。
Figure 0005850512
[第1の実施の形態]
このために本実施の形態では、RNN(Recurrent Neural Network)によるアライメントモデルを採用する。このモデルは、RNNを用いてアライメントa1 JのスコアsNNを式(8)を用いて計算する。式(8)によれば、第j番目のアライメントajの予測は、それに先立つ全てのアライメントa1 j-1に依存する。この例では、従来のFFNN型のものと同様、確率ではなくスコアを用いている点に注意する必要がある。
図4に、このRNNによるモデル100の構成を示す。図4を参照して、このモデル100は、入力層(Lookup層)110と、隠れ層112と、出力層114とを含む。これらはそれぞれ、重み行列L,{Hd,Rd,Bd H}、及び{O,Bo}を持つ。隠れ層112の行列(Hd,Rd,Bd H)はアライメントに依存する。ここでdはアライメントaj-1からアライメントajまでのジャンプ距離を示す:d=aj−aj-1。なお、後述する実験では、ジャンプ距離が8以上のもの及び−8以下のものはそれぞれ一まとめで「≧8」距離及び「≦−8」距離とした。つまり、隠れ層112は重み行列{H≦-8,H-7,…,H7,H8≦,R≦-8,R-7,…,R7,R8≦,B ≦-8,B -7,…,B 7,B 8≦を持つ。
図4を参照して、入力層110は、原言語の入力部130と、目的言語の入力部132とを含む。原言語の入力部130は、計算対象である原言語の単語fjを受付け、embedding行列(L)から対応する列を見つけ、word embeddingベクトルのうち、原言語部分を出力する。目的言語の入力部132は、計算対象である目的言語の単語ea_{j}を受付け、embedding行列(L)から対応する列を見つけ、word embeddingベクトルのうち、目的言語の部分を出力する。原言語の入力部130の出力及び目的言語の入力部132の出力は連結されて実ベクトルxjを形成し隠れ層112の入力に与えられる。隠れ層112の前回の出力は一時記憶されており、循環接続118により隠れ層112の入力に前回の出力ベクトルyj-1として与えられる。次に隠れ層112が実ベクトルxj及び出力ベクトルyj-1の非線形な特徴を捉えてベクトルyjを出力する。このベクトルは一時記憶され、原言語の次の単語fj+1の処理時に循環接続118を介して隠れ層112の入力に与えられる。なお、j=0のときにはベクトルyj-1は全て0に初期化されている。隠れ層112における計算では、特定のジャンプ距離dに依存した重み行列{Hd,Rd,Bd H}が使われていることに注意が必要である。最後に、出力層114が隠れ層112の出力するベクトルyjを受け取り、次式で表されるスコア102、つまり
Figure 0005850512
を計算して出力する。
隠れ層112の出力するベクトルyjを受けた出力層114は、ベクトルyjに応答してアライメントajのスコア102(tRNN)を式(10)により算出し出力する。従来のFFNNモデル(図3)は語彙翻訳スコアとアライメントスコアとの2つの要素からなっていたが、この実施の形態のRNNによるモデルは、単に1つのスコア102しか出力しない点に注意が必要である。
このモデルの隠れ層112及び出力層114における計算は以下の式により行なわれる。
Figure 0005850512
ただしHd,Rd,Bd H,O,及びBOはそれぞれ、|yj|×|xj|,|yj|×|yj-1|,|yj|×1,1×|yj|、及び1×1行列である。ここでは|yj|=|yj-1|であることに注意。f(x)は非線形活性化関数であり、この実施の形態ではhtanh(x)である。
この実施の形態でビタビアライメントはforward-backwardアルゴリズムにより決定するが、厳密にはダイナミック・プログラミングによるforward-backwardアルゴリズムは使用できない。yjに対するアライメントの履歴が長いためである。したがってここでは、ヒューリスティックなビームサーチによりビタビアライメントを近似的に算出する。具体的には、forwardアルゴリズムの際、各fjに対して、予め指定するビーム幅分の状態のみを保持し、それ以外は切り捨てる。
このように、RNNによるモデルは、循環接続された隠れ層を持つ。この循環接続により、これまでのアライメントの履歴を隠れ層112によってコンパクトにエンコードして伝播できる。そのため、その隠れ層112の設定にしたがってスコアを求めることにより、以前のアライメント関係全体を考慮したスコアを計算できる。
〈学習〉
学習では、各層の重み行列の最適化を、バッチサイズDのミニバッチSGDにより行なった。この手法は、単純なSGD(D=1)よりも収束が速く安定している。勾配は、通時的逆伝播(Back propagation through time:BPTT)アルゴリズムにより計算した。BPTTでは、ネットワークを時間(j)方向に展開し、時間ステップごとに勾配を計算する。さらに目的関数にl2正規化項を加えることによりモデルの過学習を防止する。
RNNによるモデルは、FFNNによるモデルと同様に教師付き学習による学習ができる。この場合、学習は式(7)により定義されるランキング損失に基づいて行なわれる。また、この学習方法以外に、アライメントの両方向の整合性をとる制約を組込んだり、教師なし学習をしたりすることで、更なる性能改善ができる。教師付き学習では、教師データ(理想的なアライメント)が必要となる。こうした問題を解決するため、本実施の形態では、ラベルなしの学習データから学習を行なえる、NCE(Noise-Contrastive Estimation)を用いた教師なし学習を用いる。
〈教師なし学習〉
Dyerらは、contrastive estimation(CE)に基づく教師なし学習によるアライメントモデルを提案している(Chris Dyer, Jonathan Clark, Alon Lavie, and Noah A. Smith. 2011. Unsupervised Word Alignment with Arbitrary Features. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies Volume 1, pages 409-419.)。CEは、観測されたデータに対し、その周辺のデータを擬似的なネガティブサンプルとみなし、観測データとその周辺データを識別するモデルを学習する。Dyerらは、学習データTとして与えられた対訳文について考えられる限りで可能な単語アライメントを観測データ、翻訳の全探索空間Ωをその周辺データとみなした。
本実施の形態ではこのアイディアをマージン付きランキング損失に導入した。
Figure 0005850512
ここでΦは(f,e)が与えられたときに可能な全てのアライメントの集合を指し、EΦ[sθ]はΦ上でのスコアsθの期待値を表し、e+は学習データ中の目的言語の文を表し、e-は擬似的な目的言語の文を表す。期待値の第1項は観測データに対するものであり、第2項は周辺データに関するものである。
全探索空間Ωに対する計算量は膨大となる。計算量を削減するためにNCEを採用した。NCEは、全探索空間Ω中からランダムに選んだサンプル文をe-とする。また、ビーム幅Wのビームサーチにより期待値を算出し、スコアの低いアライメントを捨てることで計算量をさらに削減する。そして、上記式(11)をオンライン処理に適した形式に変形する。
Figure 0005850512
ただし、e+は学習データ中でf+の対訳となっている目的言語の文、すなわち(f+,e+)∈Tであり、e-はランダムサンプリングにより生成された、長さが|e+|である擬似的な目的言語の文であり、Nはf+に対して生成する擬似的な目的言語の文の数を表す。GENは可能な全てのアライメントの集合Φの、ビームサーチにより生成されたサブセットを示す。
-を生成する単純な方法では、目的言語の単語集合Veからランダムに|e+|回目的言語の単語をサンプリングし、それらを並べることでe-を生成する。モデルの学習により効果的なネガティブサンプルを生成するためには、原言語の単語fi∈f+と学習データの対訳文内で共起する目的言語の単語の内、l0 priorを組込んだIBMモデル1においてしきい値Cより大きな確率を持つ単語(翻訳候補の単語)と判定された単語集合からサンプリングする。l0 priorを組込んだIBMモデル1は、標準的なIBMモデル1と比較してより疎なアライメントを生成するため、翻訳候補の数を削減する上では適している。
〈合意制約〉
FFNNによるモデルもRNNによるモデルもHMMアライメントモデルを基礎にしており、したがって非対称である。すなわち、目的言語側から見たときに1対他のアライメントを表し得る。このような非対称モデルの学習は、2つのアライメント方向で行なわれることが通常である。しかし、このような方向性を持つモデルについて、両者が一致するような学習を行なうとアライメント性能が向上することが分かった。このような制約を合意制約と呼ぶ。以下、上記したモデルに合意制約を課して学習を行なう方法を説明する。
具体的には、合意制約は、双方向におけるword embeddingを一致させるという条件を課す。この実施の形態では、双方向のモデルについて、以下に示すような、word embeddingの相違を表現するペナルティ項を導入した目的関数にしたがって学習を行なう。
Figure 0005850512
ただしθFE(θEF)は原言語から目的言語(目的言語から原言語)へのアライメントモデルにおける各層の重みを表し、θLは入力層(Lookup層)、すなわちword embeddingの重みを表し、αは合意制約の強さを制御するパラメータを示す。「||θ||」はノルムを表す。後述する実験では2−ノルムを使用した。式(13)及び式(14)はいずれも教師付き学習及び教師なし学習の双方に利用できる。それぞれ式(7)及び式(12)を式(13)、式(14)のloss(θ)に代入すればよい。
図5を参照して、本実施の形態における学習を実現するプログラムは、以下のような制御構造を有する。なお、後述するようにこの実施の形態に係る単語アライメントモデル学習装置、及び単語アライメント装置は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるコンピュータプログラムとにより実現されることが一般的でかつ現実的である。しかし、これらはいずれも専用のハードウェアにより実現してもよいし、プログラマブルロジックデバイスにより実現してもよい。
このプログラムは、まず、予めパラメータを記入した設定ファイルを読み、バッチサイズD,N,C,W,αを設定する(ステップ150)。次に、θ1 FE、θ1 EFと、最大繰返し回数を表す定数MaxIterとの入力を受け、あわせて学習データTとIBM1を読込む(ステップ152)。ここでIBM1は、原言語及び目的言語の各単語に対して、10 priorを組込んだIBMモデル1によって見出された翻訳候補の単語を並べたリストである。このプログラムはさらに、上記ステップに続いて、1≦t≦MaxIterを満たす全てのtに対して以下の処理を繰返すステップ154と、ステップ154が完了したときに得られる値θEF MaxIter+1及びθFE MAXIter+1を出力して処理を終了するステップ156とを含む。
ステップ154で各tに対して繰返される処理は、学習データTからD個の対訳文対(f+,e+Dをサンプリングするステップ170と、l0 priorを組込んだIBMモデル1によって見出されたf+の中の各単語の翻訳候補(IBM1)に基づいて、各f+に対してN個の擬似的ネガティブサンプルを生成するステップ172と、同様の処理により、e+中の各単語の翻訳候補に基づいて、各e+に対してN個の擬似的ネガティブサンプルを生成するステップ174とを含む。さらに、ステップ176及び178により、前述した目的関数にしたがってニューラル・ネットワークの各層の重みが更新される。θt EF及びθt EFは各繰返しで同時に更新され、θt FEとθt EFを更新する際には、それぞれ、word embeddingを相互に合意(一致)させるためにθt-1 EFとθt-1 FEの値が用いられる。
図6に、このRNNによるモデルを用いて対訳コーパスの単語アライメントを行なうコンピュータプログラムの制御構造を示す。これにより、例えば、統計的機械翻訳装置の学習に用いる学習データ(対訳コーパス)に単語アライメントを付与できる。図6を参照して、このプログラムは、RNNによるモデルの学習済パラメータを読み、RNNを初期化するステップ190と、対訳コーパスを開くステップ192と、全ての対訳(f1 J,e1 I)に対して、単語アライメントを実行するステップ194と、ステップ194により全ての対訳に対して単語アライメントが終了した学習データファイルを閉じて処理を終了するステップ196とを含む。
ステップ194は、処理中の対訳(f1 J,e1 I)について考えられる全てのアライメント(a1 J,k)(k=1〜K)に対して後述するスコアskを算出し記憶するステップ200と、全てのアライメント(a1 J,k)(k=1〜K)のうち、ステップ200により記憶されたスコアskが最大となるアライメントを処理中の対訳に対するアライメントとして選択し、対訳にラベルを付して学習データを更新するステップ202とを含む。
ステップ200は、スコアskを1に初期化するステップ210と、変数j=1〜Jの順序で順番に変化させて原言語の単語fjを選択しながら、各jに対し、単語fjと、その単語fjに対してアラインメントajによりアラインされる単語ea_{j}とについて、それまでに得られたアライメント結果を全て(a1 j-1)考慮してスコアskを更新していき、最終的なスコアskを算出するステップ212と、ステップ212で算出されたスコアskをk番目のアライメントに対するスコアとして記憶するステップ214とを含む。
ステップ212は、スコアtRNN(aj|a1 j-1,fj,ea_{j})を算出するステップ220と、スコアskにスコアtRNNを乗じてスコアskを更新するステップ222とを含む。
[第2の実施の形態]
第1の実施の形態は、RNNによるモデルに対して双方向の合意制約を課したものである。しかし本発明はそのような合意制約を課したものには限定されない。合意制約のない一方向のRNNモデルを用いるものでもよい。
図7に、この第2の実施の形態で使用されるモデルの学習を実現するコンピュータプログラムの制御構造を示す。図7に示すプログラムは、図5に示すステップ154及びステップ156に代えて、ステップ240及び242を含んでいる。ステップ240は、実質的には、図5のステップ154からステップ174及びステップ178を取り除き、2つの変数のうち、一方の変数のみを計算するようにしたものである。ステップ242は、図5のステップ156で出力される2つの変数のうち、ステップ240で計算される一方の変数の値のみを出力する点のみがステップ156と異なっている。
図5におけるステップ176及び178は、それぞれ、式(13)、式(14)を目的関数として各重みを更新するのに対し、図7のステップ176では、式(7)又は(12)を目的関数とする点が異なる。図7において、その他個々のステップで行なわれる処理はそれぞれ図5に示すもので実行されるものと同じである。
[実験]
上記実施の形態に記載した単語アライメント方法の性能を調べるために実験を行なった。実験では、コーパスBTEC(Toshiyuki Takezawa, Eiichiro Sumita, Fumiaki Sugaya, Hirofumi Yamamoto, and Seiichi Yamamoto. 2002. Toward a Broad-coverage Bilingual Corpus for Speech Translation of Travel Conversations in the Real World. In Proceedings of the 3rd International Conference on Language Resources and Evaluation, pages 147-152.)での日本語と英語との単語アライメントと、2003 NAACL 共通タスク(Rada Mihalcea and Ted Pedersen. 2003. An Evaluation Exercise for Word Alignment. In Proceedings of the HLT-NAACL 2003 Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond, pages 1-10.)で用いられたHansardsデータセット(Hansards)でのフランス語と英語とのアライメントとを行なった。さらに、FBISコーパスにおける中国語から英語への翻訳タスク、IWSLT2007における日本語から英語への翻訳タスク、及びNTCIR日本語−英語特許翻訳タスクについてもその翻訳性能を評価した。
図8に、使用したデータセットのサイズを表形式で示す。BTEC及びHansardsについては、予備実験によりアライメントタスクのためのハイパーパラメータが設定済だったため、開発セットは用いていない。BTECデータはIWSLTの学習データ中の最初の9,960個の対訳文対であり、Gohら(Chooi-Ling Goh, Taro Watanabe, Hirofumi Yamamoto, and Eiichiro Sumita. 2010. Constraining a Generative Word Alignment Model with Discriminative Output. IEICE Transactions, 93-D(7):1976-1983.)により正しい単語アライメントが付されている。このデータを2つに分割した。先頭の9000文対からなる学習データと、最後の960文対からなるテストデータである。BTECの全データについては単語アライメントがされているが、Hansards中の学習データはラベル付けがされていない。FBISについては、NIST02評価データを開発データとして用い、NIST03及び04の評価データをテストデータとして用いた。
〈比較対象〉
上記実施の形態に係るRNNによるアライメントモデルについて、2つのベースラインモデルと対比した。第1はIBMモデル4であり、第2は隠れ層を1つ持つFFNNによるモデルである。IBMモデル4はOch及びNey(Franz Josef Och and Hermann Ney. 2003. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29:19-51.)により示されたモデルシーケンス(15555:IBMモデル1による5回の繰返し、その後にHMMモデルによる5回の繰返し、…)により学習したものであり、これはGIZA++に対するデフォルトの設定である(IBM4)。FFNNによるモデルについては、word embedding長Mを30に、隠れ層のユニット数|z1|を100に、窓幅を5に、それぞれ設定した。Yangら(Nan Yang, Shujie Liu, Mu Li, Ming Zhou, and Nenghai Yu. 2013. Word Alignment Modeling with Context Dependent Deep Neural Network. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 166―175.)の教示にしたがい、既に説明したような教師あり学習によってFFNNによるモデルの学習を行なった。
RNNによるモデルについては、word embedding長Mを30に、隠れ層のユニット数|yi|を100に、それぞれ設定した。評価実験では、RNNによる4つのモデル、すなわちRNNs、RNNs+c、RNNu、及びRNNu+cの性能を評価した。ここで「s/u」は教師あり/教師なし学習によるモデルであることを示し、「+c」は合意制約が課されているか否かを示す。
IBM4を除くモデルに関する学習では、各層の重みを最初に初期化した。すなわち、入力層(Lookup層)Lの重みについては原言語及び目的言語の双方についてword embeddingを学習データのそれぞれの側から学習し、得られたword embeddingをLに設定した。これにより局所最適解に陥ってしまうことが避けられる。他の重みについては、閉区間[-0.1,0.1]の範囲内でランダムな値に設定した。word embeddingの学習ではMikolovら(Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, and Sanjeev Khudanpur. 2010. Recurrent Neural Network based Language Model. In Proceedings of 11th Annual Conference of the International Speech Communication Association, pages 1045-1048.)に基づくRNNLM ツールキット(http://www.fit.vutbr.cz/~imikolov/)をデフォルト設定で用いた。ただしここでは、5回未満しか出現しない単語は全て〈unk〉という特別なトークンにまとめた。次に、重みの各々をミニバッチSGDを用いて最適化した。ここでのバッチサイズDは100に、学習率は0.01に、l2正規化パラメータは0.1に、それぞれ設定した。学習は50世代の繰返し後に終了した。他のパラメータは以下のとおりである。教師なし学習におけるパラメータW,N及びCはそれぞれ100,50及び0.001に設定した。合意制約の強度を示すパラメータαは0.1に設定した。
翻訳タスクでは、Koehnら(Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constrantin, and Evan Herbst. 2007. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics on Interactive Poster and Demonstration Sessions, pages 177-180.)によるフレーズベースのSMTを用いた。日本語及び中国語の文は全て、Chasen及びStanford segmenterを使用してそれぞれ単語分割を行なった。学習では、40語を超える長い文は除いた。改良型のKneser-Ney (modified Kneser-Ney) 平滑化を用いるSRILMツールキット(Stolcke, 2002)を使用して、学習データの英語側を用いてIWSLT及びNTCIRのための5グラム言語モデルの学習を行ない、English Gigaword CorpusのXinhua側を用いてFBISのための5グラム言語モデルの学習を行なった。SMTの重みパラメータは、開発データを用いてMERT(Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, pages 160-167.)を用いて調整した。
〈単語アライメントの結果〉
図9に、単語アライメントの性能をF値により評価したものを示す。以下の説明では、MODEL(R)及びMODEL(I)はそれぞれ、正解アライメント、IBMモデル4による単語アライメントを教師データとして学習したモデルを示す。Hansardsでは、学習データからランダムにサンプリングした100Kのデータにより全てのモデルの学習を行なった。単語アライメントの評価は、最初に各モデルを双方向に適用しそれぞれの方向のアライメントを解析した後、「grow-diag-final-and」ヒューリスティック(Philipp Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of the 2003 Human Language Technology Conference: North American Chapter of the Association for Computational Linguistics, pages 48-54.)によってそれらのアライメントを組合わせたものに対して行なった。単語アライメントの性能に関する有意性検定は、有意レベル5%で符号検定により行なった。図9の「+」は、ベースライン(IBM4及びFFNNs(R/I))との間に有意な差があることを示す。
図9において、RNNu+cは、上記実施の形態に記載した全ての特徴を備えたものである。すなわち、RNNによるモデル、教師なし学習、及び合意制約を全て適用したものである。そしてこのRNNu+cが、BTEC及びHansardsの双方において最もよい性能を示した。特に、ベースラインのシステムとの間の差は統計的に有意であった。図9からはまた、BTECについてはRNNs(R/I)がFFNNs(R/I)に対して統計的に有意な差を示したことが分かる。これらの結果から、RNNによるモデルにより、直前だけでなくそれ以前のアライメント結果を考慮して単語アライメントを行なうことにより、性能が向上することが確認できる。
図9によれば、RNNs+c(R/I)及びRNNu+cが、いずれのタスクにおいてもそれぞれRNNs(R/I)及びRNNuよりよい性能を示している。この結果から、合意制約を課すとモデルの性能が向上することが分かる。
BTECでは、RNNu及びRNNu+cの性能はそれぞれRNNs(I)及びRNNs+c(I)の性能をかなり上回っているが、Hansardsではこれらの性能の間には大きな差はない。これは、学習データの自動アライメント結果を教師データとして使ったときのように、教師データの精度が高くないときには、上記実施の形態の教師なし学習が効果を持つことを示している。
〈機械翻訳の結果〉
図10は、大文字と小文字を区別したBLEU値(Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, pages 311-318.)により測定した翻訳精度を示す。各値は、3回の独立のMERT処理で得られたBLEU値の算術平均である。
NTCIR及びFBISでは、各アライメントモデルをランダムにサンプリングした100Kのデータにより学習した後に、このアライメントモデルを用いて単語アライメントされた学習データ全てを用いて翻訳モデルの学習を行なった。さらに、全ての学習データを用いて学習したIBMモデル4によるSMTシステム(IBM4all)の評価も行なった。翻訳性能に関する有意性検定は、有意レベル5%でboot strapによる検定手法(Philipp Koehn. 2004. Statistical Significance Tests for Machine Translation Evaluation. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 388-395.)により行なった。図10において「*」は、翻訳性能が2つのベースライン、IBM4及びFFNNs(I)の双方に対して有意な差を持つことを示す。
図10の結果から、RNNu及びRNNu+cは全てのタスクでFFNNs(I)及びIBM4を上回る性能を示していることが分かる。したがって、RNNによるモデルを用いて単語アライメントした学習データにより翻訳モデルの学習を行なうことで、翻訳性能が向上することが分かる。さらに、図10からは、RNNによるモデルは、NTCIR及びFBISタスクでは、学習データの一部しか用いずに学習を行なっただけであるにもかかわらず、IBM4allに匹敵する性能を示すことが分かる。
図11に、日本語と英語の対訳文に対するRNNs(R)による単語アライメントの結果を○で、FFNNs(R)による単語アライメントの結果を△で、正しいアライメントを実線の□で、それぞれ示す。図11からは、RNNs(R)によるモデルが、遠く離れた2つの単語を含む複雑なアライメントをほぼ正確に行なっていることがわかる。FFNNs(R)では特に、遠く離れた2つの単語のアライメントがうまく行なわれていない。これは、FFNNs(R)が直前のアライメントの結果しか用いていないのに対し、RNNs(R)が、直前だけでなくそれ以前のアライメントの結果も用いており、ある意味ではフレーズレベルでのアライメントを行なっているといえることによる。
図12に、フランス語と英語の対訳文に対するRNNs(R)とFFNNs(R)による単語アライメントの結果を示す。英語とフランス語とでは語順が似通っているため、直前のアライメント結果が単語アライメントの大きな手がかりになっており、FFNNs(R)でもアライメントを精度高くできることがわかる。したがってこのような言語対ではRNNs(R)を用いてもそれほど大きな効果は得られないと考えられる。
〈学習データサイズ〉
図13に、学習データのサイズを変えて学習した各モデルを用いてBTECの単語アライメントした結果(F値)を示す。学習データは、IWSLT用の学習データ(40K),BTEC用の学習データ(9K)、及びBTECの学習データからランダムにサンプリングした学習データ(1K)である。なお、IWSLTについてはアライメントの正解データがないため、RNNs+c(R)についてはIWSLT用のデータ(40K)を用いた学習はできなかった。
図13によれば、上記実施の形態に係るRNNによるモデルの性能は、1Kのラベル付きデータで学習した場合も、9Kのラベル付きデータで学習した場合も、40Kのラベルなしの学習データにより学習したIBMモデル4を上回る。すなわち、RNNによるモデルは、IBMモデル4の学習データの25%にも満たないデータで学習してもIBMモデル4を上回る性能を示す。したがって、ごく少ない学習データにより学習したRNNu+cモデルを用いたSMTによれば、図10に示すような学習データの全体を用いて学習したIBMモデル4によるSMTと同等以上の性能を得ることができる。
以上のように上記実施の形態に係るRNNによるモデルを用いると、直前の単語アライメントの結果だけではなく、それ以前の単語アライメントの結果を用いて単語のアライメントを行なえる。その結果、実験で明らかになったように、このモデルを用いた単語アライメントは従来の、直前の単語アライメントのみに依存して単語アライメントを行なうモデルよりも高い性能を示す。しかもこのモデルは教師なし学習での学習も可能で、その結果得られるモデルの性能も高い。さらに、学習に必要とされる学習データの数が少なくても従来のモデルと同等以上の性能が得られる。
[コンピュータによる実現]
上記した単語アライメントモデル学習装置及び単語アライメント装置は、実質的には、コンピュータハードウェアと、コンピュータハードウェアと協働するコンピュータプログラムとにより実現できる。
<ソフトウェア構成>
ソフトウェア構成については、図5、図6及び図7に記載したとおりである。
<ハードウェア構成>
図14は、上記した単語アライメントモデル学習装置及び単語アライメント装置を実現する、コンピュータ340を含むコンピュータシステム330の外観を示し、図15はコンピュータ340の内部構成を示す。
図14を参照して、このコンピュータシステム330は、コンピュータ340と、このコンピュータ340に接続されるモニタ342、キーボード346、及びマウス348とを含む。コンピュータ340は、DVD362(図15を参照)が装着可能なDVDドライブ350と、リムーバブルメモリ364(図15を参照)が装着されるメモリポート352とを有する。
図15を参照して、コンピュータ340は、上記したDVDドライブ350及びメモリポート352に加え、CPU(中央演算処理装置)356と、CPU356に接続されたバス366と、ブートアッププログラム等を記憶する、書換え可能な読出専用メモリ(ROM)358と、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360と、コンピュータプログラム及び対訳コーパスなどを記憶するハードディスクドライブ(HDD)354と、他の端末との通信を可能とするネットワークインターフェイス(I/F)344とを含む。
コンピュータシステム330を上記した実施の形態に係る単語アライメントモデル学習装置及び単語アライメント装置の各機能部として機能させるためのコンピュータプログラムは、予めリムーバブルメモリ364に記憶され、リムーバブルメモリ364をメモリポート352に装着した後にROM358の書換えプログラムを起動することによりROM358又はHDD354に転送され記憶される。又は、プログラムを、ネットワークI/F344を介した通信によりネットワーク上の他の装置からRAM360に転送し、その後にROM358又はHDD354に書き込むようにしてもよい。プログラムは実行の際にROM358又はHDD354から読出され、RAM360にロードされ、CPU356により実行される。
ROM358又はHDD354に記憶されたプログラムは、コンピュータ340を、上記実施の形態に係る単語アライメントモデル学習装置及び単語アライメント装置の各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又は、コンピュータ340にインストールされている各種プログラミングツールキット又はプログラムライブラリにより実行時に動的に提供されることがある。したがって、このプログラム自体はこの実施の形態に係る単語アライメントモデル学習装置及び単語アライメント装置を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールをコンピュータ340の記憶装置内から動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。
コンピュータプログラムを実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細については繰返さない。
上記実施の形態では、まず英語文の先頭から単語を順番に選択して行き、アライメントにしたがって各アライメントのスコアを算出した。しかし本発明はそのような実施の形態には限定されない。単語を選択する順番は任意でよく、全単語を所定の順番で選択できればどのような順番でもよい。もっとも、上記実施の形態のように一方の言語の文の先頭の単語から順番に他方の言語の単語とアライメントしていくのが簡単である。
また、上記実施の形態ではリカレント型のニューラル・ネットワークの各層の関数として特定の関数を用いた。しかし本発明はそのような実施の形態には限定されない。例えば隠れ層において、二つの単語の間の非線形的関係を表現できるものであればどのような関数を用いてもよい。入力層及び出力層についても同様である。また上記した実施の形態では、ニューラル・ネットワークの出力はスコアであったが、前述したとおりこれは2つの単語が正しい対応付けになっている確率であってもよい。確率もある種のスコアと考えることができる。
上記実施の形態では、RNN型のニューラル・ネットワークの学習と単語アライメントとを同一のコンピュータで実行するものとした。しかしもちろん本発明はそのような実施の形態には限定されない。学習により得られたニューラル・ネットワークのパラメータを他のコンピュータにコピーしてRNN型のニューラル・ネットワークをセットアップすることにより、任意のコンピュータで単語アライメントを行なうことができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
20 対訳文対
30 日本語文
32 英語文
40,42 アライメント
60 ニューラル・ネットワーク
70,110 入力層(Lookup層)
72,112 隠れ層
74,114 出力層
76 語彙翻訳スコア
80,130 原言語の入力部
82,132 目的言語の入力部
100 RNNによるモデル
102 スコア
118 循環接続

Claims (7)

  1. 第1の言語と第2の言語との対訳文対の単語アライメントのスコアを算出する単語アライメントスコア算出装置であって、
    前記対訳文対と、当該対訳文対に対する単語アライメントとを受けて、所定の順序にしたがって、前記対訳文対の前記第1の言語の文の単語を順番に選択する選択手段と、
    前記選択手段により選択された単語と、前記単語アライメントにより当該単語と対応付けられた前記第2の言語の単語とからなる単語対が正しい単語対である可能性を示すスコアを前記対訳文対の前記第1の言語の文の全ての単語について算出し、当該スコアに基づいて、前記単語アライメントのスコアを算出するスコア算出手段とを含み、
    前記スコア算出手段は、ある単語対のスコアを算出するにあたって、前記単語アライメントのうち、当該ある単語対を構成する前記第1の言語の単語より前に前記選択手段により選択された単語のアライメントの全てに基づいて当該ある単語対のスコアを算出する、単語アライメントスコア算出装置。
  2. 前記選択手段は、前記対訳文対の内、前記第1の言語の文の単語を前記第1の言語の文の先頭から順番に選択する手段を含む、請求項1に記載の単語アライメントスコア算出装置。
  3. 前記スコア算出手段は、
    前記選択手段により選択された単語と、前記対訳文対の前記第2の言語の文のうちで前記単語アライメントにより当該単語と対応付けられた単語とからなる単語対が正しい単語対である可能性を示すスコアを算出する第1の算出手段と、
    前記対訳文対の前記第1の言語の文の全ての単語について前記第1のスコア算出手段により算出されたスコアに基づいて、前記単語アライメントのスコアを算出する第2の算出手段とを含む、請求項1又は請求項2に記載の単語アライメントスコア算出装置。
  4. 前記第2の算出手段は、前記対訳文対の前記第1の言語の文の全ての単語について前記第1の算出手段により算出されたスコアを互いに乗算することにより、前記単語アライメントのスコアを算出する手段を含む、請求項3に記載の単語アライメントスコア算出装置。
  5. 前記スコア算出手段は、前記選択手段により選択された単語を受ける第1の入力と、前記単語アライメントにより当該単語に対応付けられた前記第2の言語の単語を受ける第2の入力とを持つリカレント型のニューラルネットワークと、
    前記選択手段により選択された単語と、前記単語アライメントにより当該単語に対応付けられた単語とを、前記第1の入力及び前記第2の入力にそれぞれ与える入力制御手段とを含み、
    前記リカレント型のニューラルネットワークは、
    前記第1の入力及び前記第2の入力を持ち、前記第1の入力及び前記第2の入力にそれぞれ与えられた単語からword embeddingベクトルを算出し出力する入力層と、
    前記入力層の出力を受け、予め定められた非線形演算により、前記入力層からの2つの出力の関係を表すベクトルを生成する隠れ層と、
    前記隠れ層の出力に基づいて前記スコアを算出し出力する出力層とを含み、
    前記隠れ層の出力は、前記単語アライメントスコア算出装置に次の単語対が入力として与えられたときに、前記隠れ層に入力として与えられる、請求項1〜請求項4のいずれかに記載の単語アライメントスコア算出装置。
  6. 第1の言語と第2の言語との対訳文対の単語アライメントを推定する単語アライメント装置であって、
    請求項1〜請求項5のいずれかに記載の単語アライメントスコア算出装置と、
    前記対訳文対に対して複数個の単語アライメント候補を生成する単語アライメント候補生成手段と、
    前記単語アライメント候補生成手段により生成された前記複数個の単語アライメント候補の各々について、前記単語アライメントスコア算出装置を用いて前記対訳文対に対する単語アライメントスコアを算出する算出手段と、
    前記算出手段により前記複数個の単語アライメント候補に対して算出された単語アライメントスコアのうち、最も高いスコアに対応する単語アライメント候補を、前記対訳文対の単語アライメントとして決定し出力する単語アライメント決定手段とを含む、単語アライメント装置。
  7. コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項6のいずれかに記載の各手段として機能させる、コンピュータプログラム。
JP2014045012A 2014-03-07 2014-03-07 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム Expired - Fee Related JP5850512B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2014045012A JP5850512B2 (ja) 2014-03-07 2014-03-07 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
SG11201606967RA SG11201606967RA (en) 2014-03-07 2015-02-12 Word alignment score computing apparatus, word alignment apparatus, and computer program
PCT/JP2015/053825 WO2015133238A1 (ja) 2014-03-07 2015-02-12 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
CN201580012326.9A CN106062736B (zh) 2014-03-07 2015-02-12 词语对齐分数算出装置、词语对齐装置、以及存储介质
US15/118,703 US10049105B2 (en) 2014-03-07 2015-02-12 Word alignment score computing apparatus, word alignment apparatus, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014045012A JP5850512B2 (ja) 2014-03-07 2014-03-07 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015170168A JP2015170168A (ja) 2015-09-28
JP5850512B2 true JP5850512B2 (ja) 2016-02-03

Family

ID=54055048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014045012A Expired - Fee Related JP5850512B2 (ja) 2014-03-07 2014-03-07 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US10049105B2 (ja)
JP (1) JP5850512B2 (ja)
CN (1) CN106062736B (ja)
SG (1) SG11201606967RA (ja)
WO (1) WO2015133238A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5850512B2 (ja) * 2014-03-07 2016-02-03 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
CN111291553B (zh) * 2014-10-24 2023-11-21 谷歌有限责任公司 具有罕见词处理的神经机器翻译***
KR102449614B1 (ko) * 2015-11-06 2022-09-29 삼성전자주식회사 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치
US10460038B2 (en) 2016-06-24 2019-10-29 Facebook, Inc. Target phrase classifier
US10268686B2 (en) * 2016-06-24 2019-04-23 Facebook, Inc. Machine translation system employing classifier
JP6705506B2 (ja) * 2016-10-04 2020-06-03 富士通株式会社 学習プログラム、情報処理装置および学習方法
WO2018083670A1 (en) * 2016-11-04 2018-05-11 Deepmind Technologies Limited Sequence transduction neural networks
CN108460026B (zh) * 2017-02-22 2021-02-12 华为技术有限公司 一种翻译方法及装置
CN107895052B (zh) * 2017-12-08 2018-09-04 北京理工大学 一种基于模糊认知图的产品创新辅助设计方法
JP7072178B2 (ja) * 2018-02-28 2022-05-20 日本電信電話株式会社 自然言語処理のための装置、方法及びプログラム
JP6965846B2 (ja) * 2018-08-17 2021-11-10 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
CN109522563B (zh) * 2018-10-15 2023-05-23 语联网(武汉)信息技术有限公司 自动判断语句翻译完毕的方法及装置
KR102592630B1 (ko) * 2018-11-21 2023-10-23 한국전자통신연구원 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법
US10796107B2 (en) * 2018-12-26 2020-10-06 Soundhound, Inc. Unified embeddings for translation
CN110502759B (zh) * 2019-07-15 2022-07-19 昆明理工大学 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN111144134B (zh) * 2019-11-27 2023-05-16 语联网(武汉)信息技术有限公司 基于OpenKiWi的翻译引擎自动化评测***
CN112016306B (zh) * 2020-08-28 2023-10-20 重庆邂智科技有限公司 基于词性对齐的文本相似度计算方法
JPWO2022079845A1 (ja) * 2020-10-14 2022-04-21
US11900073B2 (en) * 2021-09-07 2024-02-13 Lilt, Inc. Partial execution of translation in browser
US11966708B2 (en) 2021-10-01 2024-04-23 International Business Machines Corporation Dynamic contraction and expansion of heuristic beam width based on predicted probabilities
WO2023059503A1 (en) * 2021-10-04 2023-04-13 Visa International Service Association Method, system, and computer program product for unsupervised alignment of embedding spaces
CN117034961B (zh) * 2023-10-09 2023-12-19 武汉大学 一种基于bert的中法互译质量测评方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
CN101075230B (zh) * 2006-05-18 2011-11-16 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
US8185375B1 (en) * 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
CN101482861B (zh) * 2008-01-09 2011-06-01 中国科学院自动化研究所 一种汉英词语自动对齐方法
US8543563B1 (en) * 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置
JP5850512B2 (ja) * 2014-03-07 2016-02-03 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2015170168A (ja) 2015-09-28
SG11201606967RA (en) 2016-10-28
US10049105B2 (en) 2018-08-14
CN106062736A (zh) 2016-10-26
US20170068665A1 (en) 2017-03-09
CN106062736B (zh) 2019-04-05
WO2015133238A1 (ja) 2015-09-11

Similar Documents

Publication Publication Date Title
JP5850512B2 (ja) 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
Tan et al. Neural machine translation: A review of methods, resources, and tools
Winata et al. Language models are few-shot multilingual learners
Uc-Cetina et al. Survey on reinforcement learning for language processing
US20210390271A1 (en) Neural machine translation systems
US11093813B2 (en) Answer to question neural networks
Baheti et al. Generating more interesting responses in neural conversation models with distributional constraints
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
US9176936B2 (en) Transliteration pair matching
KR102195223B1 (ko) 전역적으로 노멀화된 신경 네트워크들
US20200302953A1 (en) Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
WO2018032765A1 (zh) 序列转换方法及装置
JP2017021422A (ja) 統計翻訳の最適化装置、統計翻訳システム、及びコンピュータプログラム
CN114154518A (zh) 数据增强模型训练方法、装置、电子设备及存储介质
US11625572B2 (en) Recurrent neural networks for online sequence generation
Arthur et al. Learning coupled policies for simultaneous machine translation using imitation learning
Hu et al. Improved beam search with constrained softmax for nmt
US12019997B2 (en) Method of training real-time simultaneous interpretation model based on external alignment information, and method and system for simultaneous interpretation based on external alignment information
Richardson et al. A systematic study reveals unexpected interactions in pre-trained neural machine translation
CN110866395A (zh) 基于译员编辑行为的词向量生成方法及装置
Lou et al. Toward Zero-Shot Instruction Following
CN111553173B (zh) 自然语言生成训练方法和装置
Ding et al. How Do Source-side Monolingual Word Embeddings Impact Neural Machine Translation?
Singh et al. The custom decay language model for long range dependencies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150828

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20150901

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20151030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151126

R150 Certificate of patent or registration of utility model

Ref document number: 5850512

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees