JPH0335354A

JPH0335354A - 機械翻訳装置における略称付き固有名詞処理方法

Info

Publication number: JPH0335354A
Application number: JP1170301A
Authority: JP
Inventors: Hidezo Kugimiya; 釘宮　秀造; Youji Fukumochi; 福持　陽士; Ichiko Nakamura; 中村　いち子; Noriyuki Hirai; 平井　徳行; Hitoshi Suzuki; 等鈴木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-06-30
Filing date: 1989-06-30
Publication date: 1991-02-15
Anticipated expiration: 2010-01-30
Also published as: GB2234614A; GB9014489D0; CA2020058C; JPH077419B2; US5161105A; CA2020058A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉本発明は機械翻訳装置の固有名詞処理に関するものであ
り、特に略称を伴う複合語固有名詞に対して好適に実施
される方法である。

〈従来技術〉従来において、入力文章中の単語が同右名詞として使わ
れている場合、辞書引きした際に該単語が固有名詞とし
て辞書登録されていれば、その辞書引き情報に従って翻
訳語を生成する。一方、＠記単語が固有名詞として辞書
登録されていなければ、他の辞書引き情報に基づいて翻
訳語を生成する。

〈発明が解決しようとする課題〉上述したように入力文章中の単語が固有名詞として使わ
れているにもかかわらず、該単語が辞書に固有名詞とし
て登録されていない場合、他の辞書引き情報に基づいて
翻訳語が生成されてその結果間違った翻訳を行うことが
あった。

特に上述したような誤壕りは複数の単語がひと筐と渣り
で複合語の固有名詞をなしている場合に多く見られる。

第１３図は入力文と従来の機械翻訳装置における前記入
力文に対する出力文の例である。

入力文章中に固有名詞ｒ□ｒｇａｎｉｌ／１ｉｏｎ　　
ｏｆＰｅｔｒｏｌｅｕｍ　　Ｅｘｐｏｒｔｉｎｇ　　Ｃ
ｏｕｎｔｒｉｅｓ（ＯＰＥＣ）Ｊ　（右曲輸出国機構）
があり、これらの単語群が複合語固有名詞として辞書登
録されていないとすると、他の辞書引き情報に基づいて
翻訳語を生成してその結果「諸国を輸出する石油の組織
」と出力され、翻訳文の意味を間違ったものにさせてい
た。

本発明は上記問題点に鑑み、複合語の固有名詞の誤った
翻訳を防止する方法を提供することを目的としている。

く課題を解決するための手段〉本発明は、上記目的を達成するために、入力された文章
中の各単語を辞書引きし、該辞書引き情報から前記入力
文章の形態素列を得る辞書引き形態素解析部と。

該辞書引き形態素解析部によって得られた形態素列の構
文を辞書と文法規則を用いて解析する構文解析部と、該構文解析部で得られた構文を目標言語にわける構文の
構造に変換する変換部と。

該変換部によって得られた目標言語の構文構造と前記辞
書引き情報とに基づいて翻訳文を生成する翻訳文生成部
とを有する機械翻訳装置において、＠記辞書引き形態素
解析部で辞書引きした結果単語が略称であるか否かを判
定するステップと、文章中の単語が略称であると判定さ
れた場合、前記略称単語の直前の単語から数えて前記略
称単語の文字数分だけの単語群がひとまとまりで複合語
固有名詞として辞書登録されているか否かを調べるステ
７プと、複合語固有名詞として辞書登録されていれば、その辞書
引き情報を前記翻訳文生成部に釦いて訳語として出力す
る一方、辞書登録されていなければ前記翻訳文生成部に
おいて前記単語群をそのま１出力するステップと金具溝するものである。

〈作　用〉本発明によれば、文章中の単語が略称であると判定され
ると、該略称単語の直前の単語から数えて前記略称単語
の文字数分だけの単語群がひとまとまりで複合語固有名
詞として辞書登録されていルカ否カを調へて、辞書登録
されてわれば、該辞書引き情報に従って翻訳語を生成出
力する一方、辞書登録されていなければ、前記単語群を
その１１出力する。

〈実施例〉以下、この発明を図示の実施例により詳細に説施例のブ
ロフク図である。１はメインＣＰＵ（中央処理装置）、
２はメインメモリー　３はＣＲＴｃカソード・レイ・チ
ューブ）、４はキーボード、５は翻訳モジュール、６は
翻訳用の辞書１文法規則および木構造変換規則等を格納
しているメモリーである。

上記翻訳モジュール５は、ソース言語が入力されると、
それを翻訳してターゲット言語を出力するものである。

すなわち、キーボード４から入力されたソース言語はメ
インＣＰＵＩの制御により翻訳モジュール５に送られる
。翻訳モジュール５は、メモリー６に記はされている辞
書１文法規則および木構造変換規則等を用いて、後に詳
述するようにして入力されたソース言語をターゲノト言
Ｙノ語に翻訳する。その結果は、メインメモｌす２に一旦記
憶されると共に、ＣＲＴＨに表示される。

翻訳モジュール５で行われる機械翻訳には。

船釣に第２図に示すような解析レベルがある。図中左上
においてソース言語が入力されると、レベルＬ１の辞書
引き、レベルＬ２の形態素解析、レベル上３の構文解析
、・・・と、解析が進められる。

機械翻訳はこの解析レベルにより、大きく次の２つに分
けられる。１つは、レベルＬ６のソース言語およびター
ゲット言語のどちらにも依存しない、Ｗ１念（中間言語
とよぶ）壕で解析し、そこからレベルＬ７の文脈生成、
レベルＬ８の意味生成。

レベルＬ９の構文生成、レベル１０の形態素生成と生成
を進めて、ターゲット言語を生成してい〈ピボノト方式
である。

もう一つは、上述のレベルＬ２の形態素解析。

レベル上３の構文解析、レベルＬ４の意味解析訃よびＬ
５の文脈解析のいずれか１で解析を行ってソース言語の
内部構造を得１次に、この得られたソース言語の内部構
造と同レベルのターゲット言語の内部構造に変換した後
、ターゲット言語を生成するトランスファ一方式である
。

ここで、上記各解析について説明する。

・辞書引き、形態素解析第１図に示すメモリー６の辞書を引き、入力された文章
を各形態素列（単語列）に分割し、この各単語に対する
品詞などの文法情報釦よび訳語を得、さらに、時制・人
称・数などを解析する。

・構文解析後述するようにして単語間の係り受けなどの、文章の構
造（構造解析木）を決定する。

・意味解析複数の構文解析の結果から意味的に正しいものとそうで
ないものを判別する。

・文脈解析話題を理解し、省略やあい昧さを取り去る。

この発明で用いる翻訳モジュール５は、少なくともレベ
ル上３の構文解析のレベルまでの解析を行うものとする
。すなわち１本実施例の翻訳モジュール５は第３図のよ
うな部分からなる翻訳モジュールを考える。

第４図は上記翻訳モジュール５のプロノク図である。ま
た、第５図〜第９図はｒＴｈｉｓ　ｉｓ　ａｐｅｎ　Ｊ
という英文を日本語に翻訳する場合の、第４図に示す各
バノファＡ−Ｈの内容を例示する。

以下、第３図〜第９図を用いて英日翻訳の動作を説明す
る。

まず、読み込１ｆ１．た原文は第５図に示すように第４
図のバッファＡに格納される。翻訳プログラム１６に基
づく翻訳ＣＰＵ１５の制御の下に、第３図の辞書引き形
態素解析部１１により、バッフＩＡに格納された原文に
従ってメモリー６の辞書を用いて各単語の必要な情報が
得られ、第４図のバＪファＢに格納される。ここで％　
ｔｈｉｓは多品詞語であるが１次の第３図の構文解析部
１２により一意に決定される。構文解析部１２ではメモ
リー６の辞書と文法規則にしたがって、各単語間の係り
受は関係を示す構造解析木が第７図に示すように決定さ
れて、第４図のバッファＣに格納される。この構造解析
木は１次のようにして決定される。すなわち、メモリー
６の文法規則から文　　→主部、述部主部　→名詞句述部　→動詞、名詞句名詞句→代名詞名詞句→冠詞１芯詞の規則が得られる。この規則は、例えば、１つめの規則
は”文とは、主部と述部からできている”ということを
表す。以下、この規則にしたがって構造解析木が決定さ
れるのである。

第３図の変換部１３では、上述の構文解析部同様、メモ
リー６の木構造変換規則を用いて、入力された英文に対
する構文解析木（第７図参照）の構造が、第８図に示す
ように日本文に対する構造に変換される。そして、得ら
れた結果が第４図のバッファＤに格納される。第３図の
翻訳文生戚部１４は、得られた日本語文字列「これ　ペ
ン　である。」に適切な助詞「は」や助動詞をつけて。

第９図のような日本語の形にして、第４図のバノファＥ
に格納する。この日本文「これはペンである。」は、翻
訳モジュール５から出力され、メインメモリー２に格納
されると共に、ＣＲＴ８に表示される。

以上が一般的な英日翻訳の動作であり１次に本発明の特
徴について述べる。

ｌず１本発明による辞書引き形態素解析部１１の辞書引
き処理の動作を第１０図に示すフローチャートに基づい
て説明する。

ステップｎ１で入力文章中の単語の通常の辞書引き処理
を行う。ここでは、単語の辞書引きを行い該単語が辞書
登録されていれば、その辞書引き情報を前記単語に対応
させてバノファＢに保持する。次にステップｎ２に釦い
て前記単語が辞書登録されていたか否かをチエ・ノクす
る。前記単語が辞書登録されていたならステ・ノブｎ８
に進み。

方辞書登録されていなかったならステップｎ３に進み、
後述する略称判別処理を行う。該略称判別処理が終了す
ればステップｎ４に進んで前記略称判別処理の結果に基
づいて前記単語が略称であるか否かを判定する。前記単
語が略称であればステップｎ５に進み、略称でなければ
ステップｎ８に進む。ステップｎ５にシいて略称である
と判定さされた略称の文字数分の単語群がひとまと１り
で複合語固有名詞として辞書登録されているか否かをチ
ェソクする。辞書登録されていれば、その辞書引き情報
を単語群に対応させてバ・ノブ７Ｂに保持してステップ
ｎ８に進む。一方辞書登録されていなければ・、ステッ
プｎ７に進み、前記単語群に対して未登録固有名詞であ
るという情報をバＪファＢに保持する。ステップｎ８で
は入力文章中の総ての単語の辞書引き処理を終了したか
否かを判定し、終了しておれば辞書引き処理の動作を終
了し、終了していなければステップｎ１に戻って次の単
語の辞書引き処理を行う。

次に上述した略称判別処理を第１１図のフローチャート
に基づいて説明する。入力された単語が略称の条件であ
る「■か−こで囲１れている」（ステップＳ１）「■す
べで大文字である」（ステップ３２）をすべて満足して
おればステップＳ３に進む。一方、上記■と■の条件を
どちらか１つでも満足していなければ前記単語は略称で
はないと判別される。更に略称の条件である「■略称の
各文字と略称の前にある単語群の頭文字が一致すテップ
ｓ４）。そしてポインタｌがセットされた文字とポイン
タＪがセノトされた文字が等しいか否かをチェ１クする
（ステ・フジＳ５）。２つの文字が等しくなければ前記
単語は略称ではないと判別される。一方１等しければポ
インタｉをセ・１トした文字の左横に文字があるか否か
をチエ・ノクする（ステップＳ６）。左横に文字がなけ
れば前記単語は略称であると判別する。左横に文字があ
ればポイン５１を現在セットされている位置から１文字
左側ヘシフトする（ステップＳ７）と共に、ポインタｊ
を現在セノトされている単語の１つ前の単語の頭文字ヘ
シフトしくステップ３２）、ステップＳ５に戻って上述
したような２つの文字が等しいか否かをチェ１クする。

このように略称判定の対象となっている単語の各文字が
該単語の前に位置する単語群の各頭文字が一致している
かどうかをチェ１クして、１つでも一致しない文字があ
れば、その時点で前記単語は略称ではないと判別し、総
ての文字が各頭文字と一致した時点で前記単語は略称で
あると判別する。

そして、翻訳文生成部１４がバ・ブファＢに保持されて
いる辞書引き情報に基づいて翻訳文を生成・出力する際
に、前記未登録固有名詞情報が付加されている単語があ
れば翻訳語を生成せずにそのまま出力する。

第１２図は入力文と本発明を適用した、機械翻訳装置の
前記入力文に対する出力文の一例である。

、ニジ、略称を併う単語群［）ｒｇａｎｔ／ａｔ＋ｏｎ　　ｏｆ
Ｐｅｔｒｏｌｅｕｍ　Ｅｘｐｏｒｔｉｎｇ　　Ｃｏｕｎ
ｔｒｉｅｓ（ＯＰＥＣ）Ｊの各単語に対して未登録固有
名詞情報が付加されて釦れば、翻訳文においては上記単
語は翻訳せずにそのま１の形で出力される。

以上のように本発明においては、入力文章中に略称の単
語があれば、その単語の前に存在する該単語の文字数分
の単語群が複合語固有名詞として辞書登録されているか
否かをチエツクして、登録されていなければ翻訳文生成
時に釦いて前記単語群を翻訳せずにその壕ま出力する。

ぐ発明の効果〉本発明によれば、略称を併う辞書に登録されていない複
合語の固有名詞に対しては翻訳語を生成せずにぞの１１
出力するために、複合語固有名詞に対する族１った翻訳
語の出力を防止でき、理解しやすい翻訳文を生成できる
。

【図面の簡単な説明】

第１図は本発明を適用する機械翻訳装置の一実施例のプ
ロ１り図、第２図は自動翻訳における翻訳レベルの説明
図、第８図は翻訳モジュールの作用構成図、第４図は翻
訳モジュールのブロック図。第５図乃至第９図は第４図における各バッフＴの内部例
を示す図、第１０図は辞書引き処理の動作ヲ示すフロー
チャート、第１１図は略称判別処理の動作を示すフロー
チャート、第１２図は本発明を適用した機械翻訳装置へ
の入力文とそれに対する出力文の一例を示す図、第１３
図は従来の機械翻訳装置への入力文とそれに対する出力
文の一例を示す図である。１・・・メインＣＰＵ、２・・・メインメモリー３・・
・ＣＲＴ、　　　　４・・・キーボード、５・・・翻訳
モジュール、６・・・メモリ１１・・・辞書引き形態素
解析部。１２・・・構文解析部、　　１８・・・変換部、１４・
・・翻訳文生成部、１５・・・翻訳ＣＰＵ、１６・・・
翻訳プログラム、Ａ−Ｅ・・・バソファ。

Claims

【特許請求の範囲】１、入力された文章中の各単語を辞書引きし、該辞書引
き情報から前記入力文章の形態素列を得る辞書引き形態
素解析部と、該辞書引き形態素解析部によって得られた形態素列の構
文を辞書と文法規則を用いて解析する構文解析部と、該構文解析部で得られた構文を目標言語における構文の
構造に変換する変換部と、該変換部によって得られた目標言語の構文構造と前記辞
書引き情報とに基づいて翻訳文を生成する翻訳文生成部
とを有する機械翻訳装置において、前記辞書引き形態素解析部で辞書引きした結果、単語が
略称であるか否かを判定するステップと、文章中の単語が略称であると判定された場合前記略称単
語の直前の単語から数えて前記略称単語の文字数分だけ
の単語群がひとまとまりで複合語固有名詞として辞書登
録されているか否かを調べるステップと、複合語固有名詞として辞書登録されていればその辞書引
き情報を前記翻訳文生成部において訳語として出力する
一方、辞書登録されていなければ前記翻訳文生成部にお
いて前記単語群をそのまま出力するステップとを具備す
ることを特徴とする機械翻訳装置における略称付き固有
名詞処理方法。