JPH09160918A - 対訳文対応付け方法及び装置 - Google Patents

対訳文対応付け方法及び装置

Info

Publication number
JPH09160918A
JPH09160918A JP7324562A JP32456295A JPH09160918A JP H09160918 A JPH09160918 A JP H09160918A JP 7324562 A JP7324562 A JP 7324562A JP 32456295 A JP32456295 A JP 32456295A JP H09160918 A JPH09160918 A JP H09160918A
Authority
JP
Japan
Prior art keywords
sentence
correspondence
bilingual
pair
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7324562A
Other languages
English (en)
Inventor
Masahiko Haruno
雅彦 春野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7324562A priority Critical patent/JPH09160918A/ja
Publication of JPH09160918A publication Critical patent/JPH09160918A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 幅広い2ヶ国語の対訳文の高精度な対応付け
を可能にする。 【解決手段】 入力部110は、記憶装置10等から日
本語と英語のような2ヶ国語の対応テキストを入力す
る。形態素解析部120は、入力された各テキストを形
態素解析する。類似度計算部130は、形態素解析結果
から両言語の単語の類似度をテキスト中の相互情報量と
して計算し、さらに統計的検定で信頼度の高い単語対を
選択する。文対応推定部140は、類似度ならびに既存
の対訳辞書を用いて文対応可能関係を絞り込む。後処理
部150は、絞り込まれた文対応可能関係に対して、所
定の支持回数を持つ文対応ペアを選択する。出力部16
0は、この選択された文対応ペアを記憶装置20等に出
力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は対訳文対応付け方法
及び装置に係り、詳しくは、機械翻訳、知識ベースシス
テム等の自然言語システムに用いられ、対訳テキストか
ら自動的に知識を学習する対訳文対応付け方法及び装置
に関するものである。
【0002】
【従来の技術】従来の対訳文対応付けは、主に英語・フ
ランス語間などの構造並びに語彙が非常に近い言語間で
行われており、それらは、文中に含まれる単語数や文字
数などの情報で対訳の対応付けを行なう方法が一般的で
あった。一方、日本語・英語などの対訳に関しては、対
訳辞書のみを用いる方法、ならびに、ダイナミックプロ
グラミングの手法を用いて、対訳辞書を用いた後に後処
理として統計を用いる方法がある。
【0003】
【発明が解決しようとする課題】このように、従来の対
訳文対応付け方法は、構造の似た比較的対応付けの容易
なテキストを扱ってきた。しかしながら、日本語と英語
のように全く構造も思考法も異なる言語間では、素直に
訳された対訳テキストであっても、その構成が違ってい
たり内容の削除等が行なわれるのが普通である。このよ
うな場合には、データからの統計的情報と既存の知識源
である辞書を適切に組み合わせることが重要である。統
計的情報、辞書情報の長短所は以下のようにまとめられ
る。
【0004】統計情報の長所:データに依存した情報を
獲得出来るので、そのテキストの文脈に適切な訳語関係
を見つけることが出来る。また、日本語のように単語切
り(形態素解析)が必要な言語においては単語切りが誤
っていても情報を取り出せることが長所である。 統計情報の短所:信頼性の高い統計情報を得るために
は、対象とする単語がデータ中に複数回出現する必要が
ある。多くの単語が1,2度しか現われないことを考え
ると、統計情報を取れる単語は限られてくる。 辞書情報の長所:一度しか現われない単語についても情
報を得ることが出来る。 辞書情報の短所:1つの単語の訳語には様々なものが考
えられ、データ中で使われているものが対訳辞書に載っ
ているとは限らない。また、形態素解析の段階で誤りが
あれば、正しい辞書びきは不可能である。 これらから分かる様に、統計的情報と辞書情報の長短所
は相補的な関係にある。
【0005】本発明の目的は、従来の問題を解決し、統
計的情報と辞書情報を適切に組合わせた高精度な対訳文
対応付け方法及び装置を提供することにある。
【0006】
【課題を解決するための手段】本発明は、2ヶ国語の対
応テキストが与えられると、類似度計算手段において、
両言語の単語の類似度をデータ中の相互情報量として計
算し、さらにt−test等による統計的検定で信頼度
の高いものだけを選択する。次に、文対応推定手段に
て、この類似度と既存の対訳辞書の情報を用いて可能な
文の範囲を絞り込む。この絞り込まれた情報を用いて、
さらに類似度計算手段と文対応推定手段において上記の
操作を繰り返す。この操作の繰り返しにより、対応可能
な文の組が次第に絞り込まれ、最終的に所望の文対応付
けが得られる。
【0007】
【発明の実施の形態】以下、本発明の一実施例として、
日本語と英語の対応テキストが与えられた場合について
説明する。
【0008】図1に、本発明の一実施例の対訳文対応付
け装置のシステム構成図を示す。本対訳対応付け装置1
00は、入力部110、形態素解析部120、類似度計
算部130、文対応推定部140、後処理部150、出
力部160、これら各部のワークエリアとして使用され
る記憶部170、及び、既存の対訳辞書180からな
る。10は日本語と英語と対応テキストデータが格納さ
れている記憶装置、20は対応付けられた対訳文ペアが
格納される記憶装置である。なお、対応テキストデータ
の入力手段は、必ずしも記憶装置である必要はない。
【0009】入力部110は、記憶装置10などからの
日本語と英語の2ヶ国語の対応テキストを入力して記憶
部170の所定のワークエリアに格納する。形態素解析
部120は、日本語と英語の対応テキストを記憶部17
0の所定ワークエリアからとり出して、それぞれ形態素
解析を行い、その結果を記憶部170の所定のワークエ
リアに格納する。類似度計算部130は、記憶部170
の所定のワークエリア内の形態素解析結果から両言語の
単語の対応可能関係を算出し、その相互情報量を求め、
更に統計的検定(t−test)により信頼性の高い単
語対を選択し、記憶部170の所定のワークエリアに格
納する。文対応推定部140は、記憶部170の所定ワ
ークエリア内の単語対について、あらかじめ用意された
対訳辞書180を用いて、日本文iと英文jの対応が支
持される回数をカウントし、所定の閾値にて文対応可能
関係を絞り込み、記憶部170の所定のワークエリアに
格納する。後処理部150は、記憶部170の所定ワー
クエリア内の文対応可能関係から、所定の支持回数を持
つ文対応ペアを選択し、記憶部170の所定のワークエ
リアに格納する。出力部160は、後処理部150で選
択された記憶部170の所定ワークエリア内の文対応ペ
アを記憶装置20へ出力する。
【0010】図2に、図1中の特に類似度計算部13
0、文対応推定部140、後処理部150の接続関係を
示す。ここで、類似度計算部130と文対応推定部14
0は記憶部170のワークエリアを介してループを構成
しており、この両者の処理の繰り返しで文対応範囲が絞
り込まれる。
【0011】図3は、本実施例の一連の処理ステップを
示したものである。まず、形態素解析部120におい
て、それぞれが対応する日本語テキストと英語テキスト
の双方が形態素解析され、必要な品詞の単語だけが選び
出される(ステップ300)。以後の対応付けでは、こ
こで取り出された単語だけが利用される。また、入力さ
れた日英テキスト中の文数から初期的な文対応可能関係
が作られる。この初期的関係では、それぞれのテキスト
の先頭、終末同士は対応し、それ以外の対応関係には幅
を持たせる。対応の幅は、テキストの両端では小さく、
テキストの中央に近いほど大きく取る。
【0012】図4に、この対応可能関係の例を示す。対
応の幅はテキストの両端では小さく、テキストの中央に
近いほど大きくなっている。対応可能関係の数は日本語
の文数だけある。
【0013】次に、類似度計算部130において、対応
可能関係から単語対応を推定する(ステップ310)。
以下に類似度計算部130の働きを説明する。
【0014】いま、対応ペアi中j番目の日本語単語を
ij、対応ペアi中k番目の英語単語をEikとする。ま
た、N(Jij)を単語Jijが現われる対応ペア数とす
る。ただし、1つの出現単語が複数のペアで二重に数え
られないように管理する。この時、対応ペアi中の日、
英の単語をJij、Eikの類似度は、以下の相互情報量I
(Jij、Eik)で与えられる。ここで、Prは確率、nは
ペアの総数(即ち日本語テキストの文数)である。
【0015】
【数1】
【0016】この相互情報量は、単語対JijとEikの出
現の割合を表わしており、これを利用することで日英の
単語の近さを計ることができる。ただし、相互情報量は
頻度の低い単語対しても大きくなることがあるが、これ
は統計的に信頼性が低い。そこで、類似度計算部130
では、統計的検定(t−test)を合わせて行い、信
頼性の高い単語対のものだけを取り出す。この相互情報
量を取る操作を、対応可能関係中に含まれる(必要な品
詞を持つ)全ての単語の組合せについて行なう。
【0017】次に、文対応推定部140において、類似
度計算部130で得られた単語対と既存の対訳辞書を用
いて文対応可能関係を絞り込む(ステップ320)。
【0018】該文対応推定部320では、以下のステッ
プで日本文iと英文jの対応が支持される回数を数えて
いく。st、dicは外部から与えられるパラメータ
で、それぞれ統計、対訳辞書でサポートされた時に加え
る点数である。通常は、stをdicより大きく取る。 ステップ1:相互情報量の大きかった単語ペア順に、こ
の操作を適用する。即ち、日本文iと英文jにそのペア
が含まれ、かつ、日本文iの対応ペアに含まれる英文で
他にその英単語を含むものが無ければ、日本文iと英文
jの組合せにstを加える。なお、このステップに非公
差の条件を加えることも可能である。 ステップ2:日本文iと英文jに対訳辞書の単語ペアが
含まれ、かつ、日本文iの対応ペアに含まれる英文で他
にその英単語を含むものが無ければ、日本文iと英文j
の組合せにdicを加える。 ステップ3:ステップ1、2である閾値を越えた対応
は、確実な対応として確定する(この対応をアンカーと
呼ぶ)。次の繰り返しへの入力としてアンカーの列から
新しい文対応可能関係を構成する。2つのアンカーに挟
まれる部分の対応可能関係は幅を持つが、その幅はアン
カーに近いほど小さく、アンカーの中央に近いほど大き
く取る。
【0019】以上の類似度計算部130および文対応推
定部140の処理を文対応可能関係が収束するまで繰り
返す(ステップ330)、これにより、入力された日英
テキスト間の文対応関係を得ることが出来る。
【0020】本手法は、ダイナミックプログラミングに
基づいて既存の対訳辞書を用いた後で後処理として統計
を用いる既存手法と比較して以下の長所を有する。 (1) 既存手法では、初めに辞書による対応付けを行な
うため、専門分野のテキストなど語彙が辞書に掲載され
ていないテキストでは正解率が著しく低下する。既存手
法の統計処理は第一段階の辞書による対応付けの結果に
基づいて行なうため、第一段階の正解率が低い場合には
正しい結果を得ることができない。また、既存手法では
形態素解析部の正解率に大きく左右されるという問題が
生じる。本発明手法ではこれらの問題が解決されてい
る。 (2) 日本語と英語のテキストでは相互に対応していな
い部分が含まれていることが多い。また、日本語文と英
文の対応関係がクロスしていることが多い(日本文iと
英文jが対応しているときに番号がiより小さい日本文
がjより大きい英文が対応あるいはその逆ケース)。既
存手法ではダインミックプログラミングで局所的に対応
付けを行なうため、このような問題に対処出来ない。一
方、テキスト全体を見ながらアンカーを設定していく本
発明手法では上記の問題に対処可能である。
【0021】次に、後処理部150は、収束した文対応
可能関係から最終結果を導く(ステップ340)。文対
応可能関係では、支持回数の低い日本文は多くの対応英
文を持つ。そこで後処理部150では、それらの対応に
支持回数の有意な差がある場合には、多くの支持回数を
持つ文だけを対応関係として選び、どの対応の支持回数
も小さい場合は、その日本文は対応英文を持たないと判
断する。
【0022】以上、本発明の一実施例として日本文と英
文の対応付けについて説明したが、本発明はこれに限定
されるものでないことは云うまでもない。
【0023】
【発明の効果】以上説明したように、本発明によれば、
幅広い2ヶ国のテキスト中に含まれる文間の対応付けを
高精度で自動的に行なうことが可能である。従って、こ
こで得られる対応つきコーパスは、機械翻訳、例文検索
システム等のシステムに用いられ、また、自動的に知識
を学習するシステムの入力としても利用できる。
【図面の簡単な説明】
【図1】本発明の一実施例としてのシステム構成図であ
る。
【図2】図1中の主要部の接続関係を示す図である。
【図3】本発明の実施例の動作を説明するフローチャー
トである。
【図4】文対応ペアを説明する図である。
【符号の説明】
100 対訳対応付け装置 110 入力部 120 形態素解析部 130 類似度計算部 140 文対応推定部 150 後処理部 160 出力部 170 記憶部 180 対訳辞書

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 2ヶ国語の対応テキスト中に含まれる文
    間の対応付けを自動的に行う方法であって、2ヶ国語の
    対応テキストが与えられた時に、統計に基づいて両言語
    テキスト中の単語の類似度を計算する処理と、その類似
    度ならびに既存の対訳辞書を用いて文対応を推定する処
    理とを繰り返して、対応可能な文の組を次第に絞り込
    み、最終的に所望の文対応付けを得ることを特徴とする
    対訳文対応付け方法。
  2. 【請求項2】 2ヶ国語の対応テキストを入力する入力
    手段と、入力された各テキストを形態素解析する形態素
    解析手段と、形態素解析結果から対応可能関係を算出
    し、相互情報量を求め、更に統計的検定により単語対を
    選択する類似度計算手段と、選択された単語対に、あら
    かじめ用意された対訳辞書を用いて、一方の言語の文と
    他方の言語の文の対応が支持される回数をカウントし、
    所定の閾値にて文対応可能関係を絞り込む文対応推定手
    段と、絞り込まれた文対応可能関係に対して、所定の支
    持回数を持つ文対応ペアを選択する後処理手段と、選択
    された文対応ペアを最終結果として出力する出力手段と
    を有することを特徴とする対訳文対応付け装置。
JP7324562A 1995-12-13 1995-12-13 対訳文対応付け方法及び装置 Pending JPH09160918A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7324562A JPH09160918A (ja) 1995-12-13 1995-12-13 対訳文対応付け方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7324562A JPH09160918A (ja) 1995-12-13 1995-12-13 対訳文対応付け方法及び装置

Publications (1)

Publication Number Publication Date
JPH09160918A true JPH09160918A (ja) 1997-06-20

Family

ID=18167203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7324562A Pending JPH09160918A (ja) 1995-12-13 1995-12-13 対訳文対応付け方法及び装置

Country Status (1)

Country Link
JP (1) JPH09160918A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004107203A1 (ja) * 2003-05-30 2004-12-09 Fujitsu Limited 対訳文対応付け装置
US7663593B2 (en) 2005-03-02 2010-02-16 Sony Corporation Level shift circuit and shift register and display device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004107203A1 (ja) * 2003-05-30 2004-12-09 Fujitsu Limited 対訳文対応付け装置
US7308398B2 (en) 2003-05-30 2007-12-11 Fujitsu Limited Translation correlation device
US7663593B2 (en) 2005-03-02 2010-02-16 Sony Corporation Level shift circuit and shift register and display device

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
US5029085A (en) Conversational-type natural language analysis apparatus
CN110705302B (zh) 命名实体的识别方法、电子设备及计算机存储介质
US9594742B2 (en) Method and apparatus for matching misspellings caused by phonetic variations
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
US20090106015A1 (en) Statistical machine translation processing
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
US20230075614A1 (en) Automatically identifying multi-word expressions
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
US20040243394A1 (en) Natural language processing apparatus, natural language processing method, and natural language processing program
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
CN108932233A (zh) 翻译文生成方法、翻译文生成装置以及翻译文生成程序
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN116306594A (zh) 一种医学ocr识别纠错方法
US11907656B2 (en) Machine based expansion of contractions in text in digital media
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
JPH09160918A (ja) 対訳文対応付け方法及び装置
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Aşliyan et al. Detecting misspelled words in Turkish text using syllable n-gram frequencies
CN112183117A (zh) 一种翻译评价的方法、装置、存储介质及电子设备
JPH09179868A (ja) 対訳文対応付け支援システム