JPH09160918A

JPH09160918A - 対訳文対応付け方法及び装置

Info

Publication number: JPH09160918A
Application number: JP7324562A
Authority: JP
Inventors: Masahiko Haruno; 雅彦春野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-12-13
Filing date: 1995-12-13
Publication date: 1997-06-20

Abstract

(57)【要約】【課題】幅広い２ヶ国語の対訳文の高精度な対応付け
を可能にする。【解決手段】入力部１１０は、記憶装置１０等から日
本語と英語のような２ヶ国語の対応テキストを入力す
る。形態素解析部１２０は、入力された各テキストを形
態素解析する。類似度計算部１３０は、形態素解析結果
から両言語の単語の類似度をテキスト中の相互情報量と
して計算し、さらに統計的検定で信頼度の高い単語対を
選択する。文対応推定部１４０は、類似度ならびに既存
の対訳辞書を用いて文対応可能関係を絞り込む。後処理
部１５０は、絞り込まれた文対応可能関係に対して、所
定の支持回数を持つ文対応ペアを選択する。出力部１６
０は、この選択された文対応ペアを記憶装置２０等に出
力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は対訳文対応付け方法
及び装置に係り、詳しくは、機械翻訳、知識ベースシス
テム等の自然言語システムに用いられ、対訳テキストか
ら自動的に知識を学習する対訳文対応付け方法及び装置
に関するものである。

【０００２】

【従来の技術】従来の対訳文対応付けは、主に英語・フ
ランス語間などの構造並びに語彙が非常に近い言語間で
行われており、それらは、文中に含まれる単語数や文字
数などの情報で対訳の対応付けを行なう方法が一般的で
あった。一方、日本語・英語などの対訳に関しては、対
訳辞書のみを用いる方法、ならびに、ダイナミックプロ
グラミングの手法を用いて、対訳辞書を用いた後に後処
理として統計を用いる方法がある。

【０００３】

【発明が解決しようとする課題】このように、従来の対
訳文対応付け方法は、構造の似た比較的対応付けの容易
なテキストを扱ってきた。しかしながら、日本語と英語
のように全く構造も思考法も異なる言語間では、素直に
訳された対訳テキストであっても、その構成が違ってい
たり内容の削除等が行なわれるのが普通である。このよ
うな場合には、データからの統計的情報と既存の知識源
である辞書を適切に組み合わせることが重要である。統
計的情報、辞書情報の長短所は以下のようにまとめられ
る。

【０００４】統計情報の長所：データに依存した情報を
獲得出来るので、そのテキストの文脈に適切な訳語関係
を見つけることが出来る。また、日本語のように単語切
り（形態素解析）が必要な言語においては単語切りが誤
っていても情報を取り出せることが長所である。統計情報の短所：信頼性の高い統計情報を得るために
は、対象とする単語がデータ中に複数回出現する必要が
ある。多くの単語が１，２度しか現われないことを考え
ると、統計情報を取れる単語は限られてくる。辞書情報の長所：一度しか現われない単語についても情
報を得ることが出来る。辞書情報の短所：１つの単語の訳語には様々なものが考
えられ、データ中で使われているものが対訳辞書に載っ
ているとは限らない。また、形態素解析の段階で誤りが
あれば、正しい辞書びきは不可能である。これらから分かる様に、統計的情報と辞書情報の長短所
は相補的な関係にある。

【０００５】本発明の目的は、従来の問題を解決し、統
計的情報と辞書情報を適切に組合わせた高精度な対訳文
対応付け方法及び装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明は、２ヶ国語の対
応テキストが与えられると、類似度計算手段において、
両言語の単語の類似度をデータ中の相互情報量として計
算し、さらにｔ−ｔｅｓｔ等による統計的検定で信頼度
の高いものだけを選択する。次に、文対応推定手段に
て、この類似度と既存の対訳辞書の情報を用いて可能な
文の範囲を絞り込む。この絞り込まれた情報を用いて、
さらに類似度計算手段と文対応推定手段において上記の
操作を繰り返す。この操作の繰り返しにより、対応可能
な文の組が次第に絞り込まれ、最終的に所望の文対応付
けが得られる。

【０００７】

【発明の実施の形態】以下、本発明の一実施例として、
日本語と英語の対応テキストが与えられた場合について
説明する。

【０００８】図１に、本発明の一実施例の対訳文対応付
け装置のシステム構成図を示す。本対訳対応付け装置１
００は、入力部１１０、形態素解析部１２０、類似度計
算部１３０、文対応推定部１４０、後処理部１５０、出
力部１６０、これら各部のワークエリアとして使用され
る記憶部１７０、及び、既存の対訳辞書１８０からな
る。１０は日本語と英語と対応テキストデータが格納さ
れている記憶装置、２０は対応付けられた対訳文ペアが
格納される記憶装置である。なお、対応テキストデータ
の入力手段は、必ずしも記憶装置である必要はない。

【０００９】入力部１１０は、記憶装置１０などからの
日本語と英語の２ヶ国語の対応テキストを入力して記憶
部１７０の所定のワークエリアに格納する。形態素解析
部１２０は、日本語と英語の対応テキストを記憶部１７
０の所定ワークエリアからとり出して、それぞれ形態素
解析を行い、その結果を記憶部１７０の所定のワークエ
リアに格納する。類似度計算部１３０は、記憶部１７０
の所定のワークエリア内の形態素解析結果から両言語の
単語の対応可能関係を算出し、その相互情報量を求め、
更に統計的検定（ｔ−ｔｅｓｔ）により信頼性の高い単
語対を選択し、記憶部１７０の所定のワークエリアに格
納する。文対応推定部１４０は、記憶部１７０の所定ワ
ークエリア内の単語対について、あらかじめ用意された
対訳辞書１８０を用いて、日本文ｉと英文ｊの対応が支
持される回数をカウントし、所定の閾値にて文対応可能
関係を絞り込み、記憶部１７０の所定のワークエリアに
格納する。後処理部１５０は、記憶部１７０の所定ワー
クエリア内の文対応可能関係から、所定の支持回数を持
つ文対応ペアを選択し、記憶部１７０の所定のワークエ
リアに格納する。出力部１６０は、後処理部１５０で選
択された記憶部１７０の所定ワークエリア内の文対応ペ
アを記憶装置２０へ出力する。

【００１０】図２に、図１中の特に類似度計算部１３
０、文対応推定部１４０、後処理部１５０の接続関係を
示す。ここで、類似度計算部１３０と文対応推定部１４
０は記憶部１７０のワークエリアを介してループを構成
しており、この両者の処理の繰り返しで文対応範囲が絞
り込まれる。

【００１１】図３は、本実施例の一連の処理ステップを
示したものである。まず、形態素解析部１２０におい
て、それぞれが対応する日本語テキストと英語テキスト
の双方が形態素解析され、必要な品詞の単語だけが選び
出される（ステップ３００）。以後の対応付けでは、こ
こで取り出された単語だけが利用される。また、入力さ
れた日英テキスト中の文数から初期的な文対応可能関係
が作られる。この初期的関係では、それぞれのテキスト
の先頭、終末同士は対応し、それ以外の対応関係には幅
を持たせる。対応の幅は、テキストの両端では小さく、
テキストの中央に近いほど大きく取る。

【００１２】図４に、この対応可能関係の例を示す。対
応の幅はテキストの両端では小さく、テキストの中央に
近いほど大きくなっている。対応可能関係の数は日本語
の文数だけある。

【００１３】次に、類似度計算部１３０において、対応
可能関係から単語対応を推定する（ステップ３１０）。
以下に類似度計算部１３０の働きを説明する。

【００１４】いま、対応ペアｉ中ｊ番目の日本語単語を
Ｊ_ij、対応ペアｉ中ｋ番目の英語単語をＥ_ikとする。ま
た、Ｎ（Ｊ_ij）を単語Ｊ_ijが現われる対応ペア数とす
る。ただし、１つの出現単語が複数のペアで二重に数え
られないように管理する。この時、対応ペアｉ中の日、
英の単語をＪ_ij、Ｅ_ikの類似度は、以下の相互情報量Ｉ
(Ｊ_ij、Ｅ_ik）で与えられる。ここで、Ｐrは確率、ｎは
ペアの総数（即ち日本語テキストの文数）である。

【００１５】

【数１】

【００１６】この相互情報量は、単語対Ｊ_ijとＥ_ikの出
現の割合を表わしており、これを利用することで日英の
単語の近さを計ることができる。ただし、相互情報量は
頻度の低い単語対しても大きくなることがあるが、これ
は統計的に信頼性が低い。そこで、類似度計算部１３０
では、統計的検定（ｔ−ｔｅｓｔ）を合わせて行い、信
頼性の高い単語対のものだけを取り出す。この相互情報
量を取る操作を、対応可能関係中に含まれる（必要な品
詞を持つ）全ての単語の組合せについて行なう。

【００１７】次に、文対応推定部１４０において、類似
度計算部１３０で得られた単語対と既存の対訳辞書を用
いて文対応可能関係を絞り込む（ステップ３２０）。

【００１８】該文対応推定部３２０では、以下のステッ
プで日本文ｉと英文ｊの対応が支持される回数を数えて
いく。ｓｔ、ｄｉｃは外部から与えられるパラメータ
で、それぞれ統計、対訳辞書でサポートされた時に加え
る点数である。通常は、ｓｔをｄｉｃより大きく取る。ステップ１：相互情報量の大きかった単語ペア順に、こ
の操作を適用する。即ち、日本文ｉと英文ｊにそのペア
が含まれ、かつ、日本文ｉの対応ペアに含まれる英文で
他にその英単語を含むものが無ければ、日本文ｉと英文
ｊの組合せにｓｔを加える。なお、このステップに非公
差の条件を加えることも可能である。ステップ２：日本文ｉと英文ｊに対訳辞書の単語ペアが
含まれ、かつ、日本文ｉの対応ペアに含まれる英文で他
にその英単語を含むものが無ければ、日本文ｉと英文ｊ
の組合せにｄｉｃを加える。ステップ３：ステップ１、２である閾値を越えた対応
は、確実な対応として確定する（この対応をアンカーと
呼ぶ）。次の繰り返しへの入力としてアンカーの列から
新しい文対応可能関係を構成する。２つのアンカーに挟
まれる部分の対応可能関係は幅を持つが、その幅はアン
カーに近いほど小さく、アンカーの中央に近いほど大き
く取る。

【００１９】以上の類似度計算部１３０および文対応推
定部１４０の処理を文対応可能関係が収束するまで繰り
返す（ステップ３３０）、これにより、入力された日英
テキスト間の文対応関係を得ることが出来る。

【００２０】本手法は、ダイナミックプログラミングに
基づいて既存の対訳辞書を用いた後で後処理として統計
を用いる既存手法と比較して以下の長所を有する。 (１) 既存手法では、初めに辞書による対応付けを行な
うため、専門分野のテキストなど語彙が辞書に掲載され
ていないテキストでは正解率が著しく低下する。既存手
法の統計処理は第一段階の辞書による対応付けの結果に
基づいて行なうため、第一段階の正解率が低い場合には
正しい結果を得ることができない。また、既存手法では
形態素解析部の正解率に大きく左右されるという問題が
生じる。本発明手法ではこれらの問題が解決されてい
る。 (２) 日本語と英語のテキストでは相互に対応していな
い部分が含まれていることが多い。また、日本語文と英
文の対応関係がクロスしていることが多い（日本文ｉと
英文ｊが対応しているときに番号がｉより小さい日本文
がｊより大きい英文が対応あるいはその逆ケース）。既
存手法ではダインミックプログラミングで局所的に対応
付けを行なうため、このような問題に対処出来ない。一
方、テキスト全体を見ながらアンカーを設定していく本
発明手法では上記の問題に対処可能である。

【００２１】次に、後処理部１５０は、収束した文対応
可能関係から最終結果を導く（ステップ３４０）。文対
応可能関係では、支持回数の低い日本文は多くの対応英
文を持つ。そこで後処理部１５０では、それらの対応に
支持回数の有意な差がある場合には、多くの支持回数を
持つ文だけを対応関係として選び、どの対応の支持回数
も小さい場合は、その日本文は対応英文を持たないと判
断する。

【００２２】以上、本発明の一実施例として日本文と英
文の対応付けについて説明したが、本発明はこれに限定
されるものでないことは云うまでもない。

【００２３】

【発明の効果】以上説明したように、本発明によれば、
幅広い２ヶ国のテキスト中に含まれる文間の対応付けを
高精度で自動的に行なうことが可能である。従って、こ
こで得られる対応つきコーパスは、機械翻訳、例文検索
システム等のシステムに用いられ、また、自動的に知識
を学習するシステムの入力としても利用できる。

【図面の簡単な説明】

【図１】本発明の一実施例としてのシステム構成図であ
る。

【図２】図１中の主要部の接続関係を示す図である。

【図３】本発明の実施例の動作を説明するフローチャー
トである。

【図４】文対応ペアを説明する図である。

【符号の説明】

１００対訳対応付け装置１１０入力部１２０形態素解析部１３０類似度計算部１４０文対応推定部１５０後処理部１６０出力部１７０記憶部１８０対訳辞書

Claims

【特許請求の範囲】

【請求項１】２ヶ国語の対応テキスト中に含まれる文
間の対応付けを自動的に行う方法であって、２ヶ国語の
対応テキストが与えられた時に、統計に基づいて両言語
テキスト中の単語の類似度を計算する処理と、その類似
度ならびに既存の対訳辞書を用いて文対応を推定する処
理とを繰り返して、対応可能な文の組を次第に絞り込
み、最終的に所望の文対応付けを得ることを特徴とする
対訳文対応付け方法。
【請求項２】２ヶ国語の対応テキストを入力する入力
手段と、入力された各テキストを形態素解析する形態素
解析手段と、形態素解析結果から対応可能関係を算出
し、相互情報量を求め、更に統計的検定により単語対を
選択する類似度計算手段と、選択された単語対に、あら
かじめ用意された対訳辞書を用いて、一方の言語の文と
他方の言語の文の対応が支持される回数をカウントし、
所定の閾値にて文対応可能関係を絞り込む文対応推定手
段と、絞り込まれた文対応可能関係に対して、所定の支
持回数を持つ文対応ペアを選択する後処理手段と、選択
された文対応ペアを最終結果として出力する出力手段と
を有することを特徴とする対訳文対応付け装置。