JP2017199363A

JP2017199363A - 機械翻訳装置及び機械翻訳のためのコンピュータプログラム

Info

Publication number: JP2017199363A
Application number: JP2017077021A
Authority: JP
Inventors: 将夫内山; Masao Uchiyama
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2016-04-21
Filing date: 2017-04-07
Publication date: 2017-11-02

Abstract

【課題】原文を超える範囲の情報にしたがって適切に原文を訳し分けられる機械翻訳装置を提供する。【解決手段】機械翻訳装置２３０は、原文の文法タイプを特定する文法タイプ判定部２８２と、原文の先頭位置及び終了位置に、文法タイプに対応する第１のタグ及び第２のタグを、それぞれ挿入する文法タイプ別タグ付与部２８６と、第１のタグ及び第２のタグが付された原文を入力として受ける句に基づく機械翻訳部２８８とを含む。文法タイプとしては、予め定められた複数種類が規定されている。文法タイプ判定部２８２は、文法タイプの種類に応じて第１のタグ及び第２のタグを選択する。【選択図】図６

Description

この発明は機械翻訳装置に関し、特に、翻訳原文の相違を的確に翻訳文に反映させ、高精度な翻訳が可能な機械翻訳装置及び機械翻訳のためのコンピュータプログラムに関する。

統計的機械翻訳には、様々な種類があるが、機械翻訳方式として有力視されている方式に、句に基づく（フレーズベース）統計機械翻訳（Phrase based Statistical Machine Translation：ＰＢＳＭＴ）がある。ＰＢＳＭＴは、原文をフレーズと呼ばれる数単語の連鎖に分割し、各連鎖を相手方言語のフレーズに翻訳した後で、翻訳されたフレーズを並替える（非特許文献１）。ここでいうフレーズとは、言語学でいうフレーズとは異なり、単に単語の連鎖のことをいう。フレーズ単位の翻訳の学習は、対訳データから自動的に行える。例えば、英日翻訳においては、「Hello !」は「こんにちは！」又は「もしもし。」等に自動で対応できる。以下の説明では、翻訳の原文を日本語、翻訳文を英語として説明するが、他の言語についても同様である。

ＰＢＳＭＴは高速で、特に構造が似た言語間では、高精度で機械翻訳できる。さらに、最近の進展として、原文のフレーズを相手方言語の語順に近くなるように予め語順変換してからＰＢＳＭＴを適用することにより、英語と日本語、中国語と日本語のように、語順が大きく異なる言語間でも、高精度な翻訳が可能になった。このように語順を変換してから翻訳する技術を「事前並替」と呼ぶ。事前並替方式については、後掲の特許文献１に記載されている。

ＰＢＳＭＴの学習では、フレーズテーブルが作成される。フレーズテーブルは、多数のフレーズペアを収容する。フレーズペアは、２つの言語で互いに対訳となっているフレーズ同士の組み合わせである。

フレーズテーブルの学習では、多数の対訳を含む対訳コーパスが使用される。対訳とは、例えば図１に示す文のペア３０であり、互いに相手の翻訳となっているような２つの言語の文の組み合わせである。ＰＢＳＭＴの学習の主要な部分は、このペアを構成する単語の連鎖からなるフレーズの対応関係を抽出し、フレーズペアを作成することである。

ＰＢＳＭＴの学習において、対訳コーパスの各対訳の原文と翻訳文の双方に、文頭又は文末を表す記号を挿入して学習し、翻訳時に原文に同じ記号を挿入することにより、翻訳精度が上がることが知られている。例えば、図１を参照して、対訳文３２のうち、原文の先頭及び翻訳文の先頭にいずれも文頭を表すタグ<s>４０、４４を付与し、それぞれの文末に文末を表すタグ</s>４２、４６を付与する。このように文頭と文末にそれぞれタグ<s>及び</s>を付与した対訳文を学習で使用し、翻訳時にも原文に対して同様のタグを付すことにより、ＰＢＳＭＴの翻訳性能は向上する。これは以下の様な理由による。

ＰＢＳＭＴの学習では、文頭及び文末に付されたタグも１単語として処理される。その結果、フレーズ同士の対応付がより的確に行える。上記の例では、原文（日本語）で「これ」が文頭に出現するときには、原文の「<s> これ」が翻訳文（英語）の「<s> This」と対応づけられる。原文の文中（文頭でない場所）に「これ」が出現するときには、翻訳文の「this」が対応付けられる。すなわち、原文と翻訳文とで対になるフレーズ（フレーズペア）であっても、対訳文においてそれらが出現する位置が異なる場合を適切に区別して扱えるからである。すなわち、単語の位置を示すための補助情報としてタグを付すことで、結果的にフレーズの対応付けが適切に行えるという効果が得られる。

特開2013-250605公報

渡辺太郎、今村賢治、賀沢秀人、GrahamNeubig、中澤敏明、機械翻訳（自然言語処理シリーズ４）、コロナ社、ISBN: 978-4-339-02754-9. Andrew Finch, EiichiroSumita, Dynamic Model Interpolation for Statistical Machine Translation, Proceedingsof the Third Workshop on Statistical Machine Translation, pages 208-215, 2008. Sutskever, I.,Vinyals, O., and Le, Q. V. Sequence to sequence learning with neural networks.In Advances in Neural Information Processing Systems (2014), pp. 3104-3112.

以上のようにＰＢＳＭＴは高速でかつ高精度に機械翻訳を行える。しかし、依然としてＰＢＳＭＴには改善すべき余地がある。ＰＢＳＭＴの課題の一つは、仮に上記したような文頭及び文末を示すタグを付したとしても、フレーズの範囲を超えた情報を翻訳に導入し難いという点である。以下、具体的な問題点を挙げる。

（１）原文の文法的なタイプによる訳し分けが困難である。

従来のＰＢＳＭＴでは原文の文法的なタイプが異なる場合に、それを的確に訳し分けることが難しいという問題もある。この理由としては以下の様な事情が考えられる。

日英翻訳で、図２の上段に示すように、「監査の結果」という名詞句６０を英語に翻訳する場合を考える。ＰＢＳＭＴではまずこの原文を英語に近い語順に語順変換６２して「結果の監査」という単語列６４を得る。この単語列６４に対してタグ付与処理６６を行い、文頭に開始タグ<s>、文末に終了タグ</s>を、それぞれ付与する。この結果、単語列６８が得られる。この単語列６８に対してＰＢＳＭＴによる翻訳７０を適用した場合、"As a result of the audit"という副詞句７２が名詞句６０の訳文として得られてしまう。すなわち、名詞句６０を翻訳した結果が、名詞句ではなく副詞句７２になってしまうことがあるという問題がある。

同様の例として図２の下段に示すような例が考えられる。この例は、「Webサーバーのサービスは動作中か？」という疑問文８０を英語に翻訳する例である。この疑問文８０を語順変換８２して、「の Web サーバーサービスは動作中か？」という単語列８４が得られる。この単語列に対してタグ付与処理８６を行うことで「<s> の Web サーバーサービスは動作中か？ </s>」という単語列８８が得られる。単語列８８に対してＰＢＳＭＴによる翻訳９０を適用することで"the web server service running ?"という、疑問文とも平叙文ともつかない訳文９２が得られてしまう。

このような問題が生じるのは以下の様な理由による。

日英翻訳で、学習に用いるタグ付対訳文が以下のような疑問文である場合を考える。

<s> Ｗｅｂサーバーのサービスは動作中か？ </s>
<s> Is the Web server service is running ? </s>

一方、学習に用いる対訳文として次のような平叙文もあり得る。

<s> Ｗｅｂサーバーのサービスは動作中です。 </s>
<s> The Web server service is running . </s>

両者の表記上の差はごくわずかである。

語順変換した場合には、これらペアはそれぞれ以下のようになる。

<s> のＷｅｂサーバーサービスは動作中か？ </s>
<s> Is the Web server service is running ? </s>

<s> のＷｅｂサーバーサービスは動作中です。 </s>
<s> The Web server service is running . </s>
両者の表記上の差はごくわずかである。したがって、こうした対訳データを用いた場合には、フレーズテーブルに関して適切な学習ができない。具体的には、同一の日本語フレーズである「<s> のＷｅｂサーバー」というフレーズが、上記した２つの対訳において、一方では「<s> The Web server service is」に対応し、他方では「<s> Is the Web server service」に対応している。このため、このフレーズの範囲内では「<s> のＷｅｂサーバー」の訳としていずれを選択したらよいかが決定できない。その結果として、頻度が大きい平叙文の方が常に使われることになり、疑問文の翻訳に失敗する。

こうした問題を解決するための提案が非特許文献２に開示されている。非特許文献２は、ＰＢＳＭＴで使用するモデルとして、疑問文である対訳文から得られたモデルと、疑問文以外の対訳文から作成されたモデルとを線形補間したモデルを提案している。

一方、別の方策として、疑問文は疑問文として翻訳し、名詞句は名詞句として翻訳するために、疑問文のための翻訳エンジンと、名詞句のための翻訳エンジンとを別々に構築することが考えられる。そのような方式による翻訳装置の典型的な例を図３に示す。

図３を参照して、対訳コーパス１１０を準備する。モデル学習部１１４が、この対訳コーパス１１０を使用して、文法タイプ別の翻訳のための複数のモデル１１２の学習を行う。モデル学習部１１４は、この対訳コーパスの各対訳文をそれらの文法タイプ（疑問文、平叙文、名詞句等）にしたがって複数の部分コーパス１３０に分割する。モデル学習部１１４はさらに、これらの部分コーパス１３０を用いて、従来と同様の手法によりＰＢＳＭＴのための学習１３２を行って、翻訳用の複数のモデル１１２を構築する。これらモデル１１２の各々はフレーズテーブルを含み、それぞれ特定の文法タイプの翻訳に適した構成となる。これらモデルをそれぞれ別々の機械翻訳装置にモデルとして組み込むことにより、各文法タイプに適した翻訳エンジンが得られる。例えば、名詞句用のモデルを機械翻訳装置１２０に組み込むことにより、機械翻訳装置１２０は名詞句の翻訳のための専用の翻訳エンジンとなる。

翻訳時には、入力文１１８の文法タイプにしたがって、文法タイプ別の複数の翻訳エンジンのうちで適切な翻訳エンジンを使用する。例えば名詞句用の機械翻訳装置１２０は、入力文１１８を形態素解析する形態素解析部１４０と、原文に対する事前並替を行うために、形態素解析部１４０から出力される形態素列に対して構文解析を行う構文解析部１４２と、構文解析部１４２による構文解析結果を用い、英語の語順に近い語順となるように入力文１１８の単語を並替える事前並替部１４４と、語順が並替えられた入力文１１８の文頭及び文末にそれぞれ開始タグ<s>及び終了</s>を付与するタグ付与部１４６と、語順が変換され、タグが付された入力文１１８に対してＰＢＳＭＴを行い、翻訳文１２２を出力するＰＢＳＭＴ装置１４８とを含む。

図４に、図３に示すタグ付与部１４６を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。図４を参照して、このプログラムは、親ルーチンから入力文（単語列）を引数として呼び出される。このプログラムは、文字列を格納する変数ＳＴＲを宣言するステップ１６０と、開始タグ<s>と入力文（単語列）と終了タグ</s>をこの順に連結して変数ＳＴＲに格納し、変数ＳＴＲを戻り値として親ルーチンに制御を復帰させるステップ１６２とを含む。

このような方法を用いることにより、例えば名詞句用の翻訳エンジンが構築できる。学習には、例えば科学技術論文及び特許文献のタイトルだけからなる対訳コーパスを用いることができ、それによってタイトル専用の翻訳エンジンを作ることが可能になる。

しかし、上記した方法では、疑問文のタイプ別に対訳コーパス１１０を分割して翻訳エンジンを構築する必要がある。その結果、翻訳エンジンの学習に用いられる対訳データの量が減少する。学習に用いる対訳データの量が翻訳エンジンの精度に大きな影響を与えることは既に知られており、文法タイプ別に構築された翻訳エンジンの翻訳性能が低下する。さらに、複数の翻訳エンジンを使用するため、運用コストが高くなるという問題もある。

従来の技術では、文法タイプ別に適切な翻訳ができないだけではなく、場面による訳し分けができないという問題もある。例えば英語の「Hello」は、対面のときには「こんにちは」と訳せばよいが、電話での会話のときには「もしもし」と訳す必要がある。従来のＰＢＳＭＴでは、図３に示すような方策を採らない限り、このような訳し分けはできない。

従来の技術ではまた、話者による訳し分けもできないという問題がある。例えば、医療翻訳において、患者と看護師とでは、同一の文であっても適切に訳し分けることが必要な場合がある。例を挙げれば、「薬を飲みます」を英語に訳すとき、患者が話者である場合には「Ｉ」を主語とする必要があるが、看護師が話者である場合には「You」を主語とする必要がある。従来のＰＢＳＭＴでは、図３に示す様な方策を採らない限り、このような話者による訳し分けもできない。

さらに、従来のＰＢＳＭＴでは、文脈による訳し分けができないという問題がある。例えば日本語の「はい」を英語に訳すときを考える。「あなたはりんごが好きですか？」「はい」という文脈であれば、「はい」は「Yes」と訳し、「あなたはりんごがすきじゃないですか？」という文脈であれば「はい」は「No」と訳す必要がある。従来のＰＢＳＴＭではこのような文脈による訳し分けはできなかった。図３のような方策をとろうとしても、文脈が無数に考えられることから実現はほぼ不可能である。

上記したような、文法タイプ別の訳し分け、場面による訳し分け、話者による訳し分け、文脈による訳し分けが困難であるという問題は、結局のところ、精度の高い翻訳のために必要な、原文を超える範囲の情報が不足していることを意味している。そうした情報を機械翻訳装置に入力することは可能かもしれないが、そのために複雑な処理を行って翻訳のコストを高くすることは好ましくない。

さらに、上記したような問題は、ＰＢＳＭＴ以外の翻訳方式を採用した場合にも存在する。例えばＬＳＴＭ（Long Short-Term Memory）を用いた機械翻訳（非特許文献３を参照）についても同様の問題が存在する。

したがって、原文を超える範囲の情報にしたがって適切に原文を訳し分けられる機械翻訳装置が望まれている。

本発明の第１の局面に係る機械翻訳装置は、翻訳に関するメタ情報を特定するためのメタ情報特定手段と、翻訳の原文の所定位置に、メタ情報特定手段により特定されたメタ情報に対応するタグを挿入するためのメタ情報対応タグ挿入手段と、タグが付された原文を入力として受ける機械翻訳装置とを含む。メタ情報としては、予め定められた複数種類が規定されている。メタ情報対応タグ挿入手段は、メタ情報の種類に応じてタグを選択する。

好ましくは、メタ情報対応タグ挿入手段は、原文のうちでメタ情報を用いた翻訳を行う範囲を特定するために、当該範囲の先頭位置及び終了位置に、メタ情報に対応する第１のタグ及び第２のタグをそれぞれ挿入するための範囲特定タグ挿入手段を含む。

好ましくは、メタ情報特定手段は、原文を形態素解析するための形態素解析手段と、形態素解析手段により形態素解析された原文の構文解析を行うための構文解析手段と、構文解析手段による原文の構文解析結果により得られた、原文の文法タイプを示す情報を、当該原文のメタ情報として出力するための文法タイプ出力手段とを含む。

より好ましくは、原文には、当該原文に関するメタ情報が付されている。メタ情報特定手段は、原文に付されているメタ情報を原文から分離してメタ情報対応タグ挿入手段に与えるためのメタ情報分離手段を含む。

さらに好ましくは、メタ情報は、原文の文法タイプ、原文が発話される場面に関する場面情報、原文を発話する話者に関する話者情報、原文に先行して機械翻訳手段により翻訳された文である先行原文の文法タイプ、及び翻訳先の言語を特定する言語情報からなるグループから選択される。

より好ましくは、機械翻訳手段は、句に基づく機械翻訳手段である。

さらに好ましくは、メタ情報特定手段は、翻訳の原文の翻訳先言語をメタ情報として特定するための手段を含み、メタ情報対応タグ挿入手段は、メタ情報により特定される翻訳言語を示すタグを原文の所定位置に挿入するための手段を含む。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの機械翻訳装置として機能させる。

従来のＰＢＳＭＴにおけるタグ付与を示す模式図である。従来のＰＢＳＭＴによる誤訳の生成過程を示す模式図である。従来のＰＢＳＭＴによって文法タイプ別に翻訳エンジンを構築する方法を示すブロック図である。従来のＰＢＳＭＴの翻訳時に入力文の文頭及び文末に開始タグ及び終了タグを付与するプログラムの概略の制御構造を示すフローチャートである。本発明の第１の実施の形態に係るＰＢＳＭＴにおける翻訳過程を示す図である。本発明の第１の実施の形態に係るＰＢＳＭＴシステム及び当該ＰＢＳＭＴシステムの学習処理部の機能的構成を示すブロック図である。本発明の第１の実施の形態に係るＰＢＳＭＴシステムにおいて翻訳時の入力文の文頭及び文末にタグを付与するプログラムの制御構造の概略を示すフローチャートである。本発明の第２の実施の形態に係るＰＢＳＭＴシステム及び当該ＰＢＳＭＴシステムの学習処理部の機能的構成を示すブロック図である。本発明の第３の実施の形態に係るＰＢＳＭＴシステム及び当該ＰＢＳＭＴシステムの学習処理部の機能的構成を示すブロック図である。本発明の第４の実施の形態に係る翻訳システム及び当該翻訳システムの学習処理部の機能的構成を示すブロック図である。図１０に示す学習処理部のタグ付与部を実現するプログラムの制御構造を示すフローチャートである。図１０に示すニューラルネットワーク（ＮＮ）学習部によるＮＮの学習過程を説明するための模式図である。本発明の各実施の形態に係る翻訳システム及び当該翻訳システムの学習処理部を実現するコンピュータの外観を示す図である。図１３に外観を示すコンピュータのハードウェア構成を示すブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［基本的な考え方］
以下に説明する各実施の形態は、フレーズの範囲を超えたメタ情報を原文に付与することにより、翻訳時にそのメタ情報を参照して適切な訳し分けをする。メタ情報として、以下の実施の形態では原文に付すタグを用いる。複数種類のタグを準備し、原文の文法タイプにより（第１の実施の形態）、場面又は話者により（第２の実施の形態）、前文脈により（第３の実施の形態）、又は翻訳先の言語により（第４の実施の形態）、異なるタグを原文に付すことにより、適切な訳し分けが行える。学習においても同様のタグ付けをして、フレーズテーブルを含む、翻訳のためのモデルの学習をする必要がある。

なお、以下の第１〜第３の実施の形態では、入力文に対して事前並替を行った後、入力文の文頭と文末に、メタ情報を表すタグを付している。事前並替とは、翻訳に先立って、原文の語順を翻訳先の言語の語順に近い語順に変換することをいう。事前並替により、統計的翻訳装置では翻訳精度が高まることが知られている（非特許文献１の１５５ページ〜１５９ページ）。しかし本発明はそのような実施の形態には限定されない。例えば事前並替を行わないようなＰＢＳＭＴにおいて、上記したメタ情報を用いることも可能である。また、ＰＢＳＭＴに対してメタ情報を適用することにより最も大きな効果が得られるが、言語モデルの構築にメタ情報が利用されることになるため、ＰＢＳＭＴ以外の一般の統計的翻訳装置に対しても効果があると考えられる。第４の実施の形態は、ＰＢＳＭＴを使用したものではなく、いわゆるディープニューラルネットワーク（ＤＮＮ）の一種であるＬＳＴＭを使用したSequence-to-Sequence型の翻訳を行うシステムである。以下の実施の形態では、入力文の文法タイプ、話者又は相手に関する情報、場面に関する情報、文脈に関する情報、及び翻訳先の言語を特定する情報等をメタ情報として用いている。しかし、メタ情報はこれらには限定されず、翻訳に有用な情報であればどのような情報を用いてもよい。

なお、事前並替のための手法として、非特許文献１には、人手で並替ルールを作成する手法、並替モデルをコーパスから学習する手法、及び並替のための構文解析器自体を自動的に学習する手法が紹介されている。以下に述べる第１〜第３の各実施の形態では、これら手法のいずれを使用してもよい。また、以下の第１〜第３の実施の形態ではいずれも事前並替を行っているが、事前並替を行わなくても、メタ情報を利用しない翻訳よりも翻訳精度を向上させることが期待できる。

［第１の実施の形態］
第１の実施の形態に係るＰＢＳＭＴシステムは、ＰＢＭＳＴを行う装置であって、メタ情報としての入力の文法タイプを表すために複数種類のタグを使用する。学習時に、対訳の原文が名詞句であれば、事前並替を行った後の単語列の文頭に開始タグ<NP>を付し、文末に終了タグ</NP>を付してＰＢＳＭＴの学習を行う。対訳の原文が疑問文であれば、事前並替を行った後の単語列の文頭に開始タグ<SQ>を、文末に終了タグ</SQ>を付して学習を行う。翻訳時には、事前並替を行った入力文に対して、構文解析の結果として得られる文法タイプにしたがったタグを学習時と同様に付してＰＢＳＭＴを行う。

例えば図５の上段を参照して、翻訳への入力が「監査の結果」という名詞句６０である場合を考える。語順変換６２を行うことにより「結果の監査」という単語列６４が得られる。この単語列６４に上記した文法タイプ別のタグ付与処理１８０を行う。名詞句に対するタグはここでは<NP>とすることにすると、「<NP> 結果の監査 </NP>」という単語列１８２が得られる。この単語列１８２に対してＰＢＳＭＴによる翻訳１８４を適用することで"results of the audit"という単語列１８６が翻訳結果として得られる。

同様の例を図５の下段に示す。入力が「Webサーバーのサービスは動作中か？」という疑問文８０である場合を考える。この疑問文８０に語順変換８２を適用することで単語列８４が得られる。この単語列に対して文法タイプ別のタグ付与処理１９０を行う。ここでは疑問文に対応するタグとして<SQ>を用いる。その結果、文頭にタグ<SQ>が、文末にタグ</SQ>が、それぞれ付された単語列１９２が得られる。この単語列１９２に対してＰＢＳＭＴによる翻訳１９４を行うことにより、「Is the web server service running?」という翻訳文１９６が得られる。

なお、事前並替を行う場合には、原文の構文解析木において、位置を交換すべきノードを選択してそれらの位置を交換することが必要になる。そのために、事前並替を利用する場合には前もって原文の構文解析を行う。構文解析の副産物として、原文の文法タイプが得られる。以下の実施の形態では、この文法タイプをタグの種類の判定に利用する。

〈構成〉
図６を参照して、この実施の形態に係るＰＢＳＭＴシステム２１０は、対訳コーパス２２０に含まれる対訳データを学習データとして、上記した文法タイプ別のタグ付与を行うことによって、フレーズテーブルを含む翻訳のための統計的モデルの学習を行い、モデル記憶部２２２に出力するための学習処理部２２４と、入力文２２６が与えられると、モデル記憶部２２２に記憶された翻訳のためのモデルを用いた、ＰＢＳＭＴを行って翻訳文２２８を出力するための機械翻訳装置２３０とを含む。

文法タイプを用いた学習処理部２２４は、対訳コーパス２２０に含まれる対訳文を読出し、各対訳文を原文と翻訳文とに分離する対訳文読出部２５０と、対訳文読出部２５０が出力する各対訳文の原文に対して、当該原文の文法タイプを特定し、文法タイプにしたがったタグ付与を行う原文処理部２５２と、対訳文読出部２５０が出力する各対訳文の翻訳文に対して、従来と同様の手法によりタグを付与して出力する翻訳文処理部２５４と、原文処理部２５２により出力される、文法にしたがったタグ付けがされた原文と、翻訳文処理部２５４が出力する、従来と同様のタグ付けがされた翻訳文とを対にした対訳データをモデルの学習データとして記憶する学習データ記憶部２５６と、学習データ記憶部２５６に記憶された学習データを用いて翻訳のための統計的モデルの学習を従来と同様に行い、モデル記憶部２２２に格納するためのモデル学習部２５８とを含む。モデル学習部２５８の機能自体は従来と同様だが、原文に文法タイプにしたがったタグ付けが付されているため、モデル記憶部２２２に記憶されるモデルは従来と異なる。

原文処理部２５２は、対訳文読出部２５０から与えられる原文に対して形態素解析を行い、形態素列を出力する形態素解析部２６０と、形態素解析部２６０が出力する形態素列に対して構文解析を行い、同時に文法タイプを判定して、構文解析結果と文法タイプとを別個に出力する文法タイプ判定部２６２と、文法タイプ判定部２６２が出力する構文解析結果を使用し、入力された原文に含まれる単語列の語順を、翻訳に先立って翻訳先の言語の語順に近い語順に並替えて出力する事前並替部２６４と、事前並替部２６４が出力する、語順が変換された単語列の文頭及び文末に、文法タイプ判定部２６２から受けた文法タイプに応じた開始タグ及び終了タグを付した単語列を学習データ記憶部２５６に出力する文法タイプ別タグ付与部２６６とを含む。

図６に示す文法タイプ別タグ付与部２６６を実現するコンピュータプログラムの制御構造の一例を、図７にフローチャート形式で示す。図７を参照して、このプログラムは、入力単語列と文法タイプとを引数として受けた親ルーチンから呼出され、文法タイプに応じた開始タグが文頭に、文法タイプに応じた終了タグを文末に付した単語列を戻り値として返す。このプログラムは、文字列操作に用いる文字列形の変数ＳＴＲを宣言するステップ１６０と、引数として受け取った文法タイプに応じた開始タグ及び終了タグを選択するステップ３００と、変数ＳＴＲとして、ステップ３００で選択した開始タグと、引数として受け取った入力単語列と、ステップ３００で選択した終了タグとを連結し、ＳＴＲを戻り値としてこのルーチンを終了するステップ３０２とを含む。

ステップ３００で文法タイプに応じた開始タグ及び終了タグを選択するために、このルーチン中に文法タイプとタグとを対応付けて記述してよいし、別にルックアップテーブルをメモリに記憶しておき、文法タイプをキーとしてルックアップテーブルから開始タグ及び終了タグを読出すようにしてもよい。

翻訳文処理部２５４は、従来のＰＢＳＭＴで使用されている翻訳文処理部と同じであり、対訳文読出部２５０から対訳文の訳文を受けて、訳文を構成する単語列の先頭及び終了に従来と同じ開始タグ及び終了タグを付して学習データ記憶部２５６に出力するタグ付与部２７４を含む。

機械翻訳装置２３０は、入力文２２６に対して形態素解析を行う形態素解析部２８０と、形態素解析部２８０が出力する形態素列に対して構文解析を行い、構文解析結果の結果から入力文２２６の文法タイプを判定して構文解析結果と入力文２２６の文法タイプとを出力する文法タイプ判定部２８２と、文法タイプ判定部２８２から構文解析結果を受け、翻訳の事前に、翻訳言語の語順に近い語順に単語を並替えて得られる単語列を出力する事前並替部２８４と、事前並替部２８４が出力する単語列と、文法タイプ判定部２８２が出力する文法タイプとを受け、事前並替部２８４が出力する単語列の文頭に文法タイプに応じた開始タグを、文末に同じ文法タイプに応じた終了タグを、それぞれ付与して出力する文法タイプ別タグ付与部２８６と、文法タイプ別タグ付与部２８６が出力する、タグが付された単語列を入力としてＰＢＳＭＴを実行して翻訳文２２８を出力するＰＢＳＭＴ装置２８８とを含む。

文法タイプ別タグ付与部２８６は、文法タイプ別タグ付与部２６６と同じ機能を持ち、本実施の形態では文法タイプ別タグ付与部２６６と同一の構成を持つ。

〈動作〉
図６及び図７に示す構成を有するＰＢＳＭＴシステム２１０は以下のように動作する。ＰＢＳＭＴシステム２１０の動作フェイズは大きく分けて２つある。第１はモデル記憶部２２２の学習フェイズ、第２は機械翻訳装置２３０によるテスト又は翻訳フェイズである。なお、モデルの学習において、学習データからモデルを直接学習する方式もあるし、学習データからモデルを学習した後、モデルに与える素性の重みを最適化する方式もある。いずれの方式に対しても、本実施の形態は有効である。

予め、対訳コーパス２２０に多数の対訳文が記憶される。ここで準備される対訳文は、いずれもフレーズアライメントが済んでいるものとする。

対訳文読出部２５０は、対訳コーパス２２０から順番に各対訳文を読出し、原文を原文処理部２５２の形態素解析部２６０に与え、訳文を翻訳文処理部２５４のタグ付与部２７４に与える。

形態素解析部２６０は、対訳文読出部２５０から与えられる原文に対して形態素解析を行い、形態素列を出力する。文法タイプ判定部２６２は、形態素解析部２６０が出力する形態素列に対して構文解析を行い、同時に文法タイプを判定して、構文解析結果と文法タイプとを別個に出力する。事前並替部２６４は、文法タイプ判定部２６２が出力する構文解析結果を使用し、入力された原文に含まれる単語列の語順を、翻訳に先立って翻訳先の言語の語順に近い語順に並替えて出力する。文法タイプ別タグ付与部２６６は、事前並替部２６４が出力する、語順が変換された単語列の文頭及び文末に、文法タイプ判定部２６２から受けた文法タイプに応じた開始タグ及び終了タグを付した単語列を学習データ記憶部２５６に出力する。

翻訳文処理部２５４のタグ付与部２７４は、対訳文のうちの翻訳文を構成する単語列の先頭及び終了に従来と同じ開始タグ及び終了タグを付して学習データ記憶部２５６に出力する。

学習データ記憶部２５６は、文法タイプ別タグ付与部２６６が出力する、文法タイプ別のタグが付与された原文と、タグ付与部２７４が出力する、従来と同様のタグが付与された訳文とを対にして記憶する。モデル学習部２５８は、学習データ記憶部２５６に記憶された学習データを用いてモデルの学習を行い、そのパラメータをモデル記憶部２２２に記憶する。

翻訳時には、機械翻訳装置２３０は以下のように動作する。

学習が済んだモデルを記憶したモデル記憶部２２２は、機械翻訳装置２３０から参照可能なように機械翻訳装置２３０に接続される。この接続は、機械翻訳装置２３０を実現するコンピュータのハードディスクにモデルを記憶させた後、メモリに展開することによってコンピュータのＣＰＵからモデルが読み出せるようにすることで実現してもよいし、ネットワークによりコンピュータをモデル記憶部２２２に接続し、ネットワークを介してコンピュータの内部記憶装置にモデルを記憶するようにして実現してもよい。

入力文２２６が与えられたことに応答して、形態素解析部２８０は入力文２２６に対する形態素解析を行って、得られた形態素列を文法タイプ判定部２８２に与える。形態素解析部２８０の形態素解析処理は、入力文２２６の入力の後に特定のコードの入力を受けたことをトリガーとして開始してもよいし、入力文２２６の入力とは独立に、翻訳開始を指示する何らかのコマンドの入力をユーザから受けたことに応答して開始してもよい。

文法タイプ判定部２８２は、形態素解析部２８０が出力する形態素列に対して文法タイプ判定部２６２と同様の構文解析を行ってその結果を用いて入力文２２６の文法タイプを判定し、構文解析結果を事前並替部２８４に与え、文法タイプを文法タイプ別タグ付与部２８６に与える。

事前並替部２８４は、文法タイプ判定部２８２から与えられる、入力文２２６の構文解析結果に対し、翻訳先言語の語順に近い語順になるように、入力文２２６を構成する単語の語順を翻訳に先立って変換し、文法タイプ別タグ付与部２８６に与える。

文法タイプ別タグ付与部２８６は、事前並替部２８４から受けた、語順を変換した後の単語列の文頭に、文法タイプ判定部２８２から受けた文法タイプに応じた開始タグを付し、文末に、同じく文法タイプ判定部２８２から受けた文法タイプに応じた終了タグを付す。文法タイプ別タグ付与部２８６は、このように文法タイプ別のタグ付がされた単語列をＰＢＳＭＴ装置２８８に翻訳の原文として与える。

ＰＢＳＭＴ装置２８８は、文法タイプ別タグ付与部２８６から与えられた単語列を翻訳の原文として、モデル記憶部２２２に記憶されたモデルを参照しながらＰＢＳＭＴを行い、翻訳文２２８を出力する。

〈本実施の形態の効果〉
上記第１の実施の形態に係るＰＢＳＭＴシステム２１０によれば、文法タイプによって異なるタグが文頭および文末に付与される。ＰＢＳＭＴでは、フレーズを構成する単語としてこれらタグも考慮される。そのため、同じフレーズであっても文頭にある場合と文中にある場合とを互いに区別できる。また、肯定文と疑問文とがタグにより区別できるようになるため、肯定文から得られるフレーズペアと疑問文から得られるフレーズペアとは、互いに異なるタグを含む。そのため、フレーズテーブルの学習が的確に行える。その結果、翻訳精度が向上する。しかもこの場合、ＰＢＳＭＴ装置自体の構成は全く変える必要がない。したがって、簡単な構成により機械翻訳の精度を向上できる。

なお、上記した第１の実施の形態では、事前並替を行うために構文解析が必要であり、構文解析の結果得られる文法タイプをタグの判定に利用している。しかし本発明はそのような実施の形態には限定されない。事前並替を行わない場合には、別途、原文の文法タイプを決定可能な分類器を機械学習により構築し、その分類器を活用してもよい。

［第２の実施の形態］
上記第１の実施の形態では、文法タイプにより異なるタグをメタ情報として原文に付与している。そのために第１の実施の形態では、学習時及び翻訳時に原文に対して行われる構文解析の結果から得られる文法タイプを用いる。しかし本発明はそのような実施の形態には限定されない。例えば、メタ情報を表すタグを予め原文に付与するようにしてもよい。第２の実施の形態はそのような翻訳システムに関する。この実施の形態でも、機械翻訳の方式としてはＰＢＳＭＴを使用する。

〈構成〉
図８に、第２の実施の形態に係るＰＢＳＭＴシステム３２０の機能的構成を示す。図８を参照して、ＰＢＳＭＴシステム３２０は、メタ情報が付された対訳文からなるメタ情報付対訳コーパス２４０を用いてＰＢＳＭＴのためのモデルの学習を行い、モデルのパラメータをモデル記憶部３４２に記憶させる、メタ情報を用いた学習処理部３４０と、モデル記憶部３４２に記憶されたモデルパラメータを用い、メタ情報付入力文３４４に対する機械翻訳を行って翻訳文３４６を出力する機械翻訳装置３４８とを含む。

学習処理部３４０は、対訳文読出部２５０と、対訳文読出部２５０から対訳文の原文を受け取って、メタ情報に応じたタグを付して出力する原文処理部３６０と、対訳文読出部２５０から対訳文の訳文を受け取って従来と同様のタグを付与して出力する、図６と同じ翻訳文処理部２５４と、原文処理部３６０から出力されたメタ情報に応じたタグが付与された原文の単語列と、翻訳文処理部２５４から出力された、従来と同様のタグが付された訳文とを互いに対応づけて記憶する学習データ記憶部３６２と、学習データ記憶部３６２に記憶された学習データを用いてＰＢＳＭＴのためのモデルの学習を行ってモデルパラメータをモデル記憶部３４２に記憶させるためのモデル学習部３６４とを含む。

原文処理部３６０は、第１の実施の形態と同様の形態素解析部２６０と、第１の実施の形態の文法タイプ判定部２６２と同様の構文解析処理を行う構文解析部３７２と、事前並替部２６４と、対訳文読出部２５０から受け取った原文からメタ情報を分離するメタ情報分離部３７０と、事前並替部２６４から受け取った事前並替後の単語列の文頭及び文末に、メタ情報分離部３７０から与えられたメタ情報に対応するタグを付与して学習データ記憶部３６２に出力するタグ付与部３７４とを含む。

メタ情報としては、話者、話者の性別、話者の年齢又は職業を示す情報、相手、相手の性別、相手の年齢又は職業を示す情報、話者と相手の関係を示す情報等が考えられる。場面を示す情報としては、例えば対面／電話／ＴＶ会議等が考えられる。予めメタ情報付対訳コーパス２４０に記憶された対訳文の各々にメタ情報を付与しておくことにより、メタ情報を含む単語列に対する統計的なモデルの学習を行える。

機械翻訳装置３４８は、メタ情報が付されたメタ情報付入力文３４４のうち、単語列を受ける形態素解析部２８０と、形態素解析部２８０が出力する形態素列に対して構文解析を行う構文解析部３８２と、構文解析部３８２による構文解析結果を用いて入力文を構成する単語列を翻訳先言語の単語列の順序に近く並替えるための事前並替部２８４と、メタ情報付入力文３４４からメタ情報を分離するメタ情報分離部３８０と、事前並替部２８４から与えられる、事前並替された単語列の文頭及び文末に、メタ情報分離部３８０が出力するメタ情報に応じた種類のタグを付与して出力するメタ情報別タグ付与部３８４と、メタ情報別タグ付与部３８４が出力するメタ情報別のタグが付された単語列を入力とし、モデル記憶部３４２に記憶されたモデルパラメータに基づく機械翻訳用のモデルを用いてＰＢＳＭＴを行って翻訳文３４６を出力するＰＢＳＭＴ装置２８８とを含む。

〈動作〉
図６に示す第１の実施の形態では、学習時、文法タイプ判定部２６２により判定された文法タイプを用いて文法タイプ別のタグを単語列に付与している。この第２の実施の形態では、第１の実施の形態とは異なり、学習時、メタ情報分離部３７０が予めメタ情報が付された対訳文からメタ情報を分離し、タグ付与部３７４がメタ情報により異なるタグを単語列に付与する。メタ情報として何を用いるかを予め決定しておき、そのメタ情報を学習のための対訳文に付与することで、効率的にメタ情報を用いた機械翻訳のためのモデル学習が行える。

翻訳時にも同様で、入力文３４４にはメタ情報が付与されている。メタ情報分離部３８０がこのメタ情報を分離し、メタ情報別タグ付与部３８４に与える。メタ情報別タグ付与部３８４はメタ情報により異なるタグを原文の単語列に付与してＰＢＳＭＴ装置２８８に入力する。学習時に使用された種類のメタ情報を入力文３４４に付与しておくことで、メタ情報に応じた適切な翻訳文３４６が得られる。

構文解析の結果得られる文法タイプと同様、原文を分析することにより得られるメタ情報を用いる場合には、学習時の対訳コーパス２２０内の対訳文及び翻訳時の入力文３４４にメタ情報を付しておく必要はない。

［第３の実施の形態］
第１の実施の形態では、原文に対する構文解析の結果から判定される文法タイプ情報に基づいてタグを選択している。第２の実施の形態では、予め原文に付与されているメタ情報又は原文を解析することで得られるメタ情報に基づいてタグを選択している。以下に説明する第３の実施の形態では、メタ情報に相当する情報として１つ前の文の文法タイプを文脈情報として記憶しておき、原文にはこの文脈情報に応じて異なるタグを付与する。こうした仕組みにより、文脈に応じて原文を訳し分けることが可能になる。

〈構成〉
図９を参照して、この第３の実施の形態に係るＰＢＳＭＴシステム４００は、対訳コーパス２２０の中の対訳文を用いて機械翻訳のためのモデルの学習を行い、モデルパラメータ等をモデル記憶部４１０に記憶させるための学習処理部４１２と、入力文２２６に対して、モデル記憶部４１０に記憶されたモデルパラメータ等により構成される翻訳用のモデルを用いてＰＢＳＭＴを行って翻訳文４１４を出力する機械翻訳装置４１６とを含む。

学習処理部４１２は、図６と同じ対訳文読出部２５０と、対訳文読出部２５０から対訳の原文を受けて、その文の文脈に応じて異なる開始タグ及び終了タグを原文の文頭及び文末にそれぞれ付与して出力する原文処理部４４０と、対訳文読出部２５０から与えられる、対訳文の訳文にタグを付与して出力する、図６と同じ翻訳文処理部２５４と、原文処理部４４０が出力する、タグが付与された原文の単語列と、翻訳文処理部２５４が出力する、従来と同様のタグが付与された訳文とを互いに対応づけて、学習データとして記憶するための学習データ記憶部４４２と、学習データ記憶部４４２に記憶された学習データを用いてＰＢＳＭＴのためのモデルの学習を行い、モデルパラメータ等をモデル記憶部４１０に記憶させるためのモデル学習部４４４とを含む。

原文処理部４４０は、形態素解析部２６０と、構文解析部３７２と、事前並替部２６４と、構文解析部３７２による構文解析結果に基づいて、処理中の原文が否定疑問文か否かを表す情報を文脈情報として記憶する文脈情報記憶部４５０と、文脈情報記憶部４５０に記憶された文脈情報を一文の処理後にシフトして記憶し、先行する原文から得られた文脈情報として出力する一文前文脈情報記憶部４５２と、事前並替部２６４から出力される事前並替後の原文の単語列に対し、一文前文脈情報記憶部４５２に記憶された一文前の文脈情報に応じて異なるタグを付与して学習データ記憶部４４２に出力するためのタグ付与部４５４とを含む。

機械翻訳装置４１６は、図８に示す形態素解析部２８０、構文解析部３８２、及び事前並替部２８４と、構文解析部３８２の出力から得られる、入力文２２６が否定疑問文か否かを示す文脈情報を記憶するための文脈情報記憶部４７０と、機械翻訳装置４１６が一文を処理するたびに文脈情報記憶部４７０に記憶されている文脈情報を一文前の文脈情報としてシフトして記憶し出力するための一文前文脈情報記憶部４７２と、事前並替部２８４により並替された入力文２２６の単語列の文頭及び文末に、一文前文脈情報記憶部４７２に記憶されている一文前の文脈情報に応じて異なるタグを付与して出力するタグ付与部４７４と、タグ付与部４７４が出力するタグ付の単語列を入力として、モデル記憶部４１０に記憶された翻訳のモデルパラメータ等を参照してＰＢＳＭＴを行って翻訳文４１４を出力するためのＰＢＳＭＴ装置２８８とを含む。

〈動作〉
ＰＢＳＭＴシステム４００は以下のように動作する。

モデルの学習時には、対訳文読出部２５０は対訳コーパス２２０から一つずつ対訳文を取出し、原文を原文処理部４４０の形態素解析部２６０に、訳文を翻訳文処理部２５４のタグ付与部２７４に、それぞれ与える。この実施の形態では、文脈により異なるタグを原文に付す。したがって対訳コーパス２２０に記憶された対訳文は順序付けされており、対訳文読出部２５０は、対訳コーパス２２０から順序にしたがって対訳文を読出さなければならない。

形態素解析部２６０及び構文解析部３７２はそれぞれ原文に対して形態素解析及び構文解析をし、構文解析結果は事前並替部２６４に与えられる。構文解析部３７２は、構文解析の結果から、その文が否定疑問文か否かを示す文脈情報を出力する。文脈情報記憶部４５０は、この文脈情報を記憶する。事前並替部２６４は原文の単語列に対して構文解析部３７２による構文解析結果を用いた事前並替を行って並替後の単語列をタグ付与部４５４に与える。タグ付与部４５４は、事前並替部２６４から出力された単語列に対し、一文前文脈情報記憶部４５２に記憶された一文前の文脈情報により異なる開始タグ及び終了タグを文頭及び文末にそれぞれ付与してタグ付与部４５４に与える。最初の文を処理する場合には、一文前文脈情報記憶部４５２には何も記憶されていないため、一文前は平叙文であったと仮定する。

こうした処理をする場合、全く異なる文書から抽出された文を続けて処理する場合には、先行する文書の最後の文から得た文脈情報を、次の文書の最初の文の文脈情報として利用するのは好ましくない。したがって、文書が変わるたびに一文前文脈情報記憶部４５２に記憶される文脈情報はクリアする必要がある。

翻訳文処理部２５４は、従来と同様のタグを対訳の訳文に付与して出力する。学習データ記憶部４４２は、タグ付与部４５４から出力される、一文前の文脈情報が付された事前並替後の原文の単語列と、タグ付与部２７４から出力される訳文の単語列とを互いに対応付けて記憶する。

学習データが学習データ記憶部４４２において利用可能になると、モデル学習部４４４はこの学習データを使用して翻訳用のモデルの学習を開始する。学習されたモデルのモデルパラメータ等はモデル記憶部４１０に記憶される。

入力文２２６の翻訳時には、機械翻訳装置４１６は以下のように動作する。なお、翻訳時にも文脈情報を使用するため、機械翻訳装置４１６に与えられる入力文２２６は、文書中で文が出現する順序にしたがって機械翻訳装置４１６に与えなければならない。

形態素解析部２８０は、入力文２２６が与えられると形態素解析をし、得られる形態素列を構文解析部３８２に与える。構文解析部３８２は、この形態素列に対して構文解析を行い、構文解析結果を事前並替部２８４に出力する。この構文解析結果には、その文が否定疑問文か否かを示す情報が含まれる。文脈情報記憶部４７０はこの情報を記憶する。事前並替部２８４は、構文解析部３８２から与えられる構文解析結果を用いて入力文２２６を構成する単語列の順序を、翻訳先言語の単語列の順番に近くなるように翻訳に先立って並替えてタグ付与部４７４に与える。タグ付与部４７４は、一文前文脈情報記憶部４７２に記憶されている一文前の文脈情報を読出し、その文脈情報に応じて異なる開始タグ及び終了タグを入力された単語列の文頭及び文末に付与して出力する。

ＰＢＳＭＴ装置２８８は、タグ付与部４７４から出力される、タグ付の単語列に対し、モデル記憶部４１０に記憶されたモデルパラメータ等からなる翻訳用のモデルを適用することによりＰＢＳＭＴを行って翻訳文４１４を出力する。翻訳文４１４の出力が完了すると、文脈情報記憶部４７０に記憶されていた文脈情報が一文前文脈情報記憶部４７２にシフトされ、一文前の文脈情報として利用可能になる。

〈本実施の形態の効果〉
本実施の形態によれば、翻訳フェイズでは、一文前の原文が否定疑問文か否か等を示す文脈情報が一文前文脈情報記憶部４７２に記憶されている。この文脈情報に応じたタグを単語列に付与してＰＢＳＭＴ装置２８８への入力とすることにより、一文前が否定疑問文である場合とそうでない場合等の文脈に応じて適切に訳し分けることが可能になる。

なお、この第３の実施の形態では、一文前が否定疑問文か否かのみを文脈情報として用いている。しかし本発明はそのような実施の形態には限定されない。ある文の前に存在する一連の文をひとまとめにしてクラス分けし、クラスに応じたタグを後続する文に付与するようにしてもよい。クラスとしては、肯定／否定、疑問／平叙等を使用できるし、これらを組み合わせても使用できる。

上記した各実施の形態では、機械翻訳エンジンとしてはＰＢＳＭＴを利用している。しかし本発明はそのような実施の形態には限定されない。それ以外の機械翻訳方式であっても、対訳文を統計処理することにより学習するモデルを用いる機械翻訳方式であれば上記各実施の形態と同様の効果が得られる。

なお、上記第１〜第３の実施の形態ではメタ情報を表すタグを原文の文頭と文末とに付している。しかし本発明はそのような位置にメタ情報を付する実施の形態には限定されない。要は、メタ情報により訳し分ける部分が特定できるようにタグを付与すればよい。その場合には、訳し分けを行う必要がある部分が原文に相当することになる。以下に述べる第４の実施の形態がそのような例に当たる。

［第４の実施の形態］
〈構成〉
以下の第４の実施の形態において説明するように、あるタグが付された後、次のタグに遭遇した場合には、前のタグによるメタ情報が影響を及ぼす範囲が終了したものと考えられ、その場合にはメタ情報の終了タグを省略できる。また、翻訳対象の文の末尾に到達した場合に、メタ情報の影響が及ぶ範囲が終わったものと解釈することにより、同様に終了タグを省略できる。

第１の実施の形態では、原文に対する構文解析の結果から判定される文法タイプ情報に基づいてタグを選択している。第２の実施の形態では、予め原文に付与されているメタ情報又は原文を解析することで得られるメタ情報に基づいてタグを選択している。第３の実施の形態では、メタ情報に相当する情報として１つ前の文の文法タイプを文脈情報として記憶しておき、原文にはこの文脈情報に応じて異なるタグを付与している。以下に説明する第４の実施の形態では、メタ情報として、翻訳先の言語を特定するタグを原文の先頭に付与している。モデルの学習時、対訳の一方に、対訳の他方の言語を特定するメタ情報を付与して学習を行い、翻訳時に入力原文の先頭に翻訳先の言語を特定するメタ情報を付与することで、１つのモデルを用いて複数の言語への訳し分けを行うことができる。

図１０を参照して、この実施の形態に係る翻訳システム５００は、多数の言語の組み合わせに関する対訳を含むマルチリンガル対訳コーパス５１０と、マルチリンガル対訳コーパス５１０から各対訳を読出して、Sequence-to-Sequence型の翻訳を行うＮＮの学習を行う学習処理部５１２と、学習処理部５１２により学習が行われたＮＮのパラメータを記憶するＮＮパラメータ記憶部５１４とを含む。本実施の形態では、マルチリンガル対訳コーパス５１０に記憶されている各対訳にはその言語を示す情報は付されていないものとする。本実施の形態で使用するＮＮは、非特許文献３に記載されたＬＳＴＭを用いるものと同様の構成を持つ。

学習処理部５１２は、マルチリンガル対訳コーパス５１０から各対訳を読出す対訳文読出部５４０と、対訳文読出部５４０により読出された対訳のうち、第１文の先頭に第２文の言語を示すタグを付して出力する第１文処理部５４２と、対訳文読出部５４０に読出された対訳のうち、第２文の先頭に第１文の言語を示すタグを付して出力する第２文処理部５４４と、第１文処理部５４２の出力する第１文と第２文処理部５４４の出力する第２文とをペアにして学習データを生成し出力する学習データ生成部５４６と、出力された学習データを記憶する学習データ記憶部５４８と、学習データ記憶部５４８に記憶された各対訳データを用いてＮＮ５５２の学習を行うＮＮ学習部５５０とを含む。

この実施の形態において、マルチリンガル対訳コーパス５１０が記憶している対訳の各々は、ある言語の文と、別のある言語の文とが対になったものである。しかし本発明はそのような実施の形態には限定されない。例えば３個以上の言語で互いに訳文になっている訳文グループを集めたコーパスでもよい。そうした場合には、例えば対訳文読出部５４０がそれら訳文グループのうちから任意の２つの文を対訳として選択し第１文処理部５４２及び第２文処理部５４４に与えるようにすればよい。したがって、本実施の形態で使用されるタグは少なくとも２種類以上となり、マルチリンガル対訳コーパス５１０に記憶されている対訳の文の言語の数だけ存在することになる。

第１文処理部５４２は、対訳文読出部５４０が読出した対訳のうち、第１文の言語を識別し、その言語を特定する情報を出力する言語識別部５８０を含む。第２文処理部５４４は、同様に、第２文の言語を識別し、その言語を特定する情報を出力する言語識別部５９０を含む。第１文処理部５４２は、対訳文読出部５４０が読出した対訳の第１文に、言語識別部５９０が出力した第２文の言語を示すタグを付して出力するタグ付与部５８２をさらに含む。第２文処理部５４４も同様に、対訳文読出部５４０が読出した対訳の第２文に、言語識別部５８０が出力した第１文の言語を示すタグを付して出力するタグ付与部５９２をさらに含む。

図１０に示すタグ付与部５８２とタグ付与部５９２とは同じ構成を持ち、いずれも本実施の形態ではコンピュータプログラムにより実現される。図１１を参照して、例えばタグ付与部５８２を実現するプログラムは、変数ＳＴＲを宣言するステップ６３０と、処理対象の対訳の第１文を対訳文読出部５４０の出力が格納されたメモリロケーションから読出すステップ６３２と、第２文の言語を示す言語タグを言語識別部５９０の出力が格納されたメモリロケーションから読出すステップ６３４と、ステップ６３４で読出した言語タグ、ステップ６３２で読出した第１文、及び文末を示す記号＜ＥＯＳ＞を結合した文字列を変数ＳＴＲに代入するステップ６３６と、変数ＳＴＲの格納内容を学習データ生成部５４６に出力するステップ６３８とを含む。

タグ付与部５９２を実現するプログラムでは、図１１において第１文を第２文と読替え、第２文を第１文と読替えればよい。

図１０を参照して、学習データ生成部５４６は、上記第１文処理部５４２の出力及び第２文処理部５４４の出力から学習データを生成する。具体的には学習データ生成部５４６は、第１文処理部５４２の出力を原文、第２文処理部５４４の出力を訳文とする学習データと、第２文処理部５４４の出力を原文、第１文処理部５４２の出力を訳文とする学習データとを生成し学習データ記憶部５４８に格納する。学習データ生成部５４６により、処理対象の対訳について、第１文及び第２文の言語の組み合わせに関する双方向の学習データが準備できる。

ＮＮ学習部５５０は、学習データ記憶部５４８に記憶されている学習データを用いてＮＮ５５２の学習を行う機能を持つ。この学習は、非特許文献３に記載された技術と同様に行うことができる。

具体的に、非特許文献３に記載された学習の概要は以下のようなものである。学習用の対訳の原文が単語Ａ、Ｂ、Ｃを含み、翻訳文がＷ、Ｘ、Ｙ、Ｚを含むものとする。これらの末尾にはいずれも文末記号＜ＥＯＳ＞が付されている。図１２を参照して、例えば最初に入力文の単語Ａ、Ｂ、及びＣをそれぞれ順番にＮＮへの入力とし、これらをそれぞれ教師信号として誤差逆伝播法によりＮＮの学習を行う。入力文の終わりを示す記号＜ＥＯＳ＞に対しては、翻訳文の単語の先頭Ｗを教師信号としてＮＮの学習を行う。以下、翻訳文の単語Ｘ、Ｙ、Ｚを入力とし、その次の単語Ｙ、Ｚ及び翻訳文の終了を示す記号＜ＥＯＳ＞を教師信号としてＮＮの学習を行う。こうした処理を全ての対訳文について行う。

本実施の形態でＮＮ学習部５５０がＮＮ５５２に対して行う学習もこれと全く同じである。違う点は、入力される各文の先頭に対訳の相手側の言語を示すタグが付されている点だけである。

図１０に戻って、ＮＮを用いる機械翻訳装置５１８は、入力文５１６に対してＮＮを用いた機械翻訳を行い、翻訳文５２０を出力するためのものである。機械翻訳装置５１８は、翻訳先の言語を決定するために、ユーザの入力を対話形式で受け付ける入出力装置６００と、入出力装置６００により入力された翻訳先の言語を示すタグを記憶するターゲット言語記憶部６０２と、ターゲット言語記憶部６０２に接続され、入力文５１６を受けてその先頭にターゲット言語記憶部６０２から読出したタグを、末尾に文末記号＜ＥＯＳ＞を、それぞれ付して出力するタグ付与部６０４と、タグ付与部６０４の出力するタグ付きの入力文５１６に対し、ＮＮパラメータ記憶部５１４に記憶されたパラメータを持つ、ＮＮ５５２と同様の構成のＮＮにより翻訳を行って翻訳文５２０を出力するためのＮＮによる翻訳エンジン６０６とを含む。

本実施の形態では、入出力装置６００を用いてユーザが翻訳先の言語を指定する構成になっているが、本発明はそのような実施の形態には限定されない。例えば機械翻訳装置５１８が組み込まれた装置（スマートフォン、コンピュータ等）に設定された、ユーザインターフェイスの言語として選択された言語を用いるようにしてもよい。

〈動作〉
以上に構成を説明した翻訳システム５００は以下のように動作する。翻訳システム５００の動作には２つのフェイズがある。第１はＮＮの学習フェイズであり、第２は機械翻訳装置５１８による翻訳フェイズである。

学習の際、翻訳システム５００の学習処理部５１２は以下のように動作する。予めマルチリンガル対訳コーパス５１０には多数の言語の組み合わせに関する多数の対訳が格納されている。対訳文読出部５４０は、マルチリンガル対訳コーパス５１０から順番に対訳を取出し、各対訳の第１文を第１文処理部５４２に、第２文を第２文処理部５４４に与える。第１文処理部５４２の言語識別部５８０は、第１文の言語を識別し、その言語を示すタグを所定のメモリロケーションに格納する。第２文処理部５４４の言語識別部５９０は、同様にして第２文の言語を識別し、その言語を示すタグを所定のメモリロケーションに記憶するタグ付与部５８２は、対訳文読出部５４０から対訳の第１文を受け取ると、言語識別部５９０により識別された言語のタグを所定のメモリロケーションから読出し、第１文の先頭にそのタグを、末尾に文末記号＜ＥＯＳ＞を、それぞれ付して学習データ生成部５４６に出力する。タグ付与部５９２も同様に、対訳文読出部５４０から対訳の第２文を受け取ると、第１文の言語を示すタグを所定のメモリロケーションから読出し、第２文の先頭にそのタグを、末尾に文末記号＜ＥＯＳ＞を、それぞれ付して学習データ生成部５４６に与える。

学習データ生成部５４６は、タグ付与部５８２から受けた第１文を原文、タグ付与部５９２から受けた第２文を翻訳文とする学習データと、タグ付与部５９２から受けた第２文を原文、タグ付与部５８２から受けた第１文を翻訳文とする学習データとを生成し、学習データ記憶部５４８に格納する。対訳文読出部５４０、第１文処理部５４２、第２文処理部５４４、及び学習データ生成部５４６はこのようにして多数の学習データを生成し学習データ記憶部５４８に蓄積する。

学習データ記憶部５４８に十分な数の学習データが生成されると、ＮＮ学習部５５０がその学習データを用いてＮＮ５５２の学習を行う。この学習方法については前述したとおりである。学習においてＮＮ５５２のパラメータがある終了条件を満たすとＮＮ５５２の学習が終わり、そのときのＮＮ５５２の機能を定めるパラメータがＮＮパラメータ記憶部５１４に記憶され、ＮＮの学習が終わる。このパラメータは翻訳エンジン６０６に含まれるＮＮに設定される。

翻訳時には機械翻訳装置５１８は以下のように動作する。翻訳に先立ち、ユーザは入出力装置６００を操作して翻訳先の言語を指定する。ターゲット言語記憶部６０２は、指定された言語を示すタグを保存する。

入力文５１６が機械翻訳装置５１８に入力され、翻訳が要求されると、タグ付与部６０４はターゲット言語記憶部６０２から翻訳先の言語を示すタグを読出し、入力文５１６の先頭にそのタグを付与する。さらにタグ付与部６０４は、入力文５１６の末尾に文末記号＜ＥＯＳ＞を付与して翻訳エンジン６０６に入力する。

翻訳エンジン６０６は、学習によるパラメータが設定されたＮＮに、入力された入力文５１６の各単語を順番に入力として与える。入力として入力文５１６の末尾の文末記号＜ＥＯＳ＞が与えられたときにＮＮの出力に得られた単語が翻訳文の先頭の単語となる。以後、そのようにして得られた単語をＮＮの入力に与え、得られた出力を逐次接続していくことで入力文５１６に対する翻訳の単語列が得られる。ＮＮの出力として文末記号＜ＥＯＳ＞が得られた時点で翻訳エンジン６０６は翻訳を終了し、それまでに得られた単語列を連結して翻訳文５２０として出力する。

〈本実施の形態の効果〉
上記第４の実施の形態に係る翻訳システム５００によれば、翻訳先の言語によって異なるタグが文頭に付与される。ＮＮでは、翻訳エンジンであるＮＮへの入力単語としてこれらタグも考慮される。そのため、こうしたタグを用いて複数の言語の対訳により学習したＮＮでは、１つのＮＮで複数の言語間の翻訳が行えるようになる。複数の言語が共通した性質を持つ場合、そのうちのある特定の言語の文を含む対訳の数が少なかったとしても、それ以外で共通した性質を持つ言語の対訳を用いた学習により、そうした特定の言語の翻訳精度も向上することが期待できる。しかもこの場合、ＮＮによる翻訳エンジン自体の構成は全く変える必要がなく、学習時及び翻訳時の前処理として各文の先頭に翻訳先の言語を示すタグを付すだけである。したがって、簡単な構成により機械翻訳の精度を向上できる。

なお、上記した第４の実施の形態では、学習時、対訳の第１文と第２文との双方について言語識別部で言語を識別している。マルチリンガル対訳コーパス５１０に格納された各対訳に、それら言語を特定する情報が付されている場合には、言語識別部を設ける必要はなく、付された情報を用いて翻訳先の言語を示すタグを特定すればよい。マルチリンガル対訳コーパス５１０の各対訳の文の先頭に、対になっている相手の文の言語を示すタグを付すような前処理を行っていてもよい。

上記した実施の形態では、翻訳エンジンとしてＬＳＴＭによるＮＮを用いている。しかし本発明はそのような実施の形態には限定されない。ＬＳＴＭ以外のセルを利用したＲＮＮを用いた場合でも、同様の学習を行えばよいので、第４の実施の形態と同様の効果が期待できる。

［コンピュータによる実現］
上記実施の形態に係る機械翻訳システム、学習処理部、及び機械翻訳装置は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図１３はこのコンピュータシステム９３０の外観を示し、図１４はコンピュータシステム９３０の内部構成を示す。

図１３を参照して、このコンピュータシステム９３０は、メモリポート９５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ９５０を有するコンピュータ９４０と、キーボード９４６と、マウス９４８と、モニタ９４２とを含む。

図１４を参照して、コンピュータ９４０は、メモリポート９５２及びＤＶＤドライブ９５０に加えて、ＣＰＵ（中央処理装置）９５６と、ＣＰＵ９５６、メモリポート９５２及びＤＶＤドライブ９５０に接続されたバス９６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）９５８と、バス９６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）９６０とを含む。コンピュータシステム９３０はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス（Ｉ／Ｆ）９４４を含む。ネットワークＩ／Ｆ９４４は、インターネット９６８に接続されてもよい。

コンピュータシステム９３０を上記した各実施の形態の機械翻訳システム、学習処理部、又は機械翻訳装置を構成する各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ９５０又はメモリポート９５２に装着されるＤＶＤ９６２又はリムーバブルメモリ９６４に記憶され、さらにハードディスク９５４に転送される。又は、プログラムはネットワークＩ／Ｆ９４４を通じてコンピュータ９４０に送信されハードディスク９５４に記憶されてもよい。プログラムは実行の際にＲＡＭ９６０にロードされる。ＤＶＤ９６２から、リムーバブルメモリ９６４から、又はネットワークＩ／Ｆ９４４を介して、直接にＲＡＭ９６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ９４０を、上記各実施の形態に係る機械翻訳システム、学習処理部、又は機械翻訳装置の各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ９４０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又は、コンピュータ９４０にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の機械翻訳システム、学習処理部、又は機械翻訳装置を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記した機械翻訳システム、学習処理部、又は機械翻訳装置としての機能を実現する命令のみを含んでいればよい。コンピュータシステム９３０の動作は周知である。したがってここでは繰返さない。

なお、各種のコーパスは、上記実施の形態ではハードディスク９５４に記憶され、適宜ＲＡＭ９６０に展開される。翻訳のためのモデルパラメータ等はいずれもＲＡＭ９６０に記憶される。最終的に最適化されたモデルパラメータ等はＲＡＭ９６０からハードディスク９５４、ＤＶＤ９６２又はリムーバブルメモリ９６４に格納される。またはモデルパラメータはネットワークＩ／Ｆ９４４を介して別の装置に送信してもよいし、別の装置から受信してもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

６２、８２語順変換
６４、６８、８４、８８、１８２、１９２単語列
６６、８６、１８０、１９０タグ付与処理
１１０、２２０対訳コーパス
１１４、２５８、３６４、４４４モデル学習部
１１８、２２６、３４４、５１６入力文
１２０、２３０、３４８、４１６、５１８機械翻訳装置
１２２、２２８、３４６、４１４、５２０翻訳文
１４０、２６０、２８０形態素解析部
１４２、３７２，３８２構文解析部
１４４、２６４、２８４事前並替部
１４６、２７４、３７４、４５４、４７４、５８２、５９２、６０４タグ付与部
１４８、２８８ＰＢＳＭＴ装置
１８４、１９４ＰＢＳＭＴによる翻訳
２１０、３２０、４００ＰＢＳＭＴシステム
２２２、３４２、４１０モデル記憶部
２４０メタ情報付対訳コーパス
２５０、５４０対訳文読出部
２５２、３６０、４４０原文処理部
２５４翻訳文処理部
２５６、３６２、４４２学習データ記憶部
２６２、２８２文法タイプ判定部（構文解析部）
２６６、２８６文法タイプ別タグ付与部
２２４、３４０、４１２、５１２学習処理部
３７０、３８０メタ情報分離部
３８４メタ情報別タグ付与部
４５０、４７０文脈情報記憶部
４５２、４７２一文前文脈情報記憶部
５１０マルチリンガル対訳コーパス
５１４ＮＮパラメータ記憶部
５４２第１文処理部
５４４第２文処理部
５４６学習データ生成部
５４８学習データ記憶部
５５０ＮＮ学習部
５５２ＮＮ
６０２ターゲット言語記憶部
６０６ＮＮによる翻訳エンジン

Claims

翻訳に関するメタ情報を特定するためのメタ情報特定手段と、
翻訳の原文の所定位置に、前記メタ情報特定手段により特定されたメタ情報に対応するタグを挿入するためのメタ情報対応タグ挿入手段と、
前記タグが付された前記原文を入力として受ける機械翻訳装置とを含み、
前記メタ情報としては、予め定められた複数種類が規定されており、前記メタ情報対応タグ挿入手段は、前記メタ情報の種類に応じて前記タグを選択する、機械翻訳装置。
前記メタ情報対応タグ挿入手段は、前記原文のうちで前記メタ情報を用いた翻訳を行う範囲を特定するために、当該範囲の先頭位置及び終了位置に、前記メタ情報に対応する第１のタグ及び第２のタグをそれぞれ挿入するための範囲特定タグ挿入手段を含む、請求項１に記載の機械翻訳装置。
前記メタ情報特定手段は、
前記原文を形態素解析するための形態素解析手段と、
前記形態素解析手段により形態素解析された前記原文の構文解析を行うための構文解析手段と、
前記構文解析手段による前記原文の構文解析結果により得られた、前記原文の文法タイプを示す情報を、当該原文の前記メタ情報として出力するための文法タイプ出力手段とを含む、請求項１又は請求項２に記載の機械翻訳装置。
前記原文には、当該原文の翻訳に関する前記メタ情報が付されており、
前記メタ情報特定手段は、前記原文に付されている前記メタ情報を前記原文から分離して前記メタ情報対応タグ挿入手段に与えるためのメタ情報分離手段を含む、請求項１又は請求項２に記載の機械翻訳装置。
前記メタ情報は、前記原文の文法タイプ、前記原文が発話される場面に関する場面情報、前記原文を発話する話者に関する話者情報、及び前記原文に先行して前記機械翻訳手段により翻訳された文である先行原文の文法タイプからなるグループから選択される、請求項１、請求項２又は請求項４に記載の機械翻訳装置。
前記機械翻訳手段は、句に基づく機械翻訳手段である、請求項１〜請求項５のいずれかに記載の機械翻訳装置。
前記メタ情報特定手段は、前記翻訳の原文の翻訳先言語をメタ情報として特定するための手段を含み、
前記メタ情報対応タグ挿入手段は、前記メタ情報により特定される前記翻訳言語を示すタグを前記原文の所定位置に挿入するための手段を含む、請求項１に記載の機械翻訳装置。
コンピュータを、請求項１〜請求項７のいずれかに記載の機械翻訳装置として機能させる、コンピュータプログラム。