JP2839419B2 - イディオム登録機能を持つ機械翻訳装置 - Google Patents

イディオム登録機能を持つ機械翻訳装置

Info

Publication number
JP2839419B2
JP2839419B2 JP4293372A JP29337292A JP2839419B2 JP 2839419 B2 JP2839419 B2 JP 2839419B2 JP 4293372 A JP4293372 A JP 4293372A JP 29337292 A JP29337292 A JP 29337292A JP 2839419 B2 JP2839419 B2 JP 2839419B2
Authority
JP
Japan
Prior art keywords
idiom
word
translation
speech
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4293372A
Other languages
English (en)
Other versions
JPH06139272A (ja
Inventor
至幸 小山
いち子 佐田
陽士 福持
等 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP4293372A priority Critical patent/JP2839419B2/ja
Priority to US08/142,778 priority patent/US5541838A/en
Publication of JPH06139272A publication Critical patent/JPH06139272A/ja
Application granted granted Critical
Publication of JP2839419B2 publication Critical patent/JP2839419B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、電子化辞書あるいは
電子化辞書を搭載した情報検索装置あるいは電子化辞書
を搭載した機械翻訳装置に関し、特に、イディオムを登
録し検索・翻訳することのできるイディオム登録機能を
持つ辞書検索装置に関する。
【0002】
【従来の技術】現在実用化されている言語処理装置に
は、人間の文書作成活動を支援するためのワードプロセ
ッサや、或る言語で書かれた文書を別の言語に翻訳する
ための機械翻訳装置などがある。これらの言語処理装置
には、それぞれの目的に応じた情報を納めた辞書が備え
られている。ここでいう辞書とは、言語処理装置で扱う
言語に関して、見出語とそれに付帯する各種の情報の組
とを1単位の項目としたものを多数統合し、見出語を用
いて所望の項目を容易に検索できるように系統立てて並
べたものである。
【0003】辞書は、原則として機械可読な不揮発性の
媒体に機械可読な形式で記録される。このように機械可
読な不揮発性の媒体に機械可読な形式で記録された辞書
を、電子化辞書と呼ぶことにする。電子化辞書を機械翻
訳において用いる場合には、見出語としては原語(ソー
ス原語)の単語列(1単語のみのものも含む)が用いら
れ、その単語列に付帯する各種の情報は、その単語列の
品詞情報や翻訳語(ターゲット言語)の対応単語列など
を含む。
【0004】このような言語処理装置を用いて利用者が
処理あるいは作成しようとしている文書に、この装置に
備えられた辞書に見出語として記載されていない単語が
含まれている場合には、作業効率が著しく低下してしま
う。そのために、辞書に収録する見出語は、より多いほ
うが好ましい。同様に、機械翻訳の場合には、原語の各
単語のみではなく、イディオムを見出語として採用し、
対応するターゲット言語の言い回し等をペアとして、こ
のようなペアをできるだけ多数登録しておくことが翻訳
効率の上では望ましい。ここで、イディオムは、通常可
変部分と固定部分とから構成される。可変部分とはたと
えば「from〜to…」における「〜」と「…」であ
り、ある文法特徴を共有する単語や句が入る部分であ
る。また、固定部分とは「from」や「to」など骨
格となる単語や単語列からなる部分である。
【0005】
【発明が解決しようとする課題】しかし、たとえば見出
語としてイディオムなどを登録する場合、次のような問
題点がある。イディオムには、数詞、所有格代名詞、再
帰代名詞など、主語や他の語との関係でその形を変え得
る可変部分を含むものが多い。そのため、前述のように
翻訳効率を上げるためには、これら可変部分に具体的な
語を入れ替えた同一のイディオムを多数登録しなければ
ならない。そのために、辞書登録者に係る負担が大きく
なってしまう。また、見出語が増えれば増えるだけ辞書
の記憶媒体として必要な容量も増大するために、このよ
うな登録の方法は好ましいものではない。
【0006】そこで、辞書の記憶容量の増大を防ぐため
に、たとえば、イディオム中の可変部分に入るべき1つ
の単語に対応する代表記号を導入し、登録するイディオ
ムの数を減らすことが考えられる。
【0007】このような可変部分の表現形式として、1
つの単語のみが対応し、かつ同じ品詞の単語が対応し、
さらに、可変部分が1ヵ所しかないようなイディオムの
場合は、簡単に登録又は検索が可能であるが、イディオ
ムの中には可変部分そのものが複数個存在するものと
か、可変部分に形容詞又は副詞などのいくつかの品詞が
対応ししかも1つの単語だけでなく複数の単語からなる
単語列(句)が対応するものもある。
【0008】これらの種々の表現形式を持つイディオム
を登録するために、可変部分の単語ごとに代表記号を導
入していたのでは、かえって登録するイディオムの数が
増加し、登録作業の負担もかかり、記録容量の減少とは
ならないおそれがある。
【0009】そこでこの発明は、以上のような事情を考
慮してなされたもので、イディオムにおける可変部分を
代表記号で表わすことにより、イディオム中に可変部分
が複数存在する場合や可変部分に単語だけでなく句が入
る場合でも、イディオムを簡単に登録及び検索すること
ができ、登録時間の短縮、翻訳労力の削減および情報記
憶容量の増大の防止ができるイディオム登録機能を持つ
機械翻訳装置を提供するものである。
【0010】
【課題を解決するための手段】図1に、この発明の構成
ブロック図を示す。同図に示すように、この発明は、文
字列および記号を入力する入力手段1と、所定の属性を
共有する単語又は単語列の集合を代表する代表記号を1
つ又は複数個持ち、複数の属性が対応する単語又は単語
列の部分を複数の代表記号を複合した形式で表現したイ
ディオムの見出し語と訳語を登録するイディオム登録手
段2と、イディオムの登録と翻訳処理に必要な辞書及び
処理結果を記憶する記憶手段9と、入力単語列を形態素
に分解し、かつ文法解析を行う辞書引き・形態素解析手
段3と、入力文字列あるいはその一部分と登録されたイ
ディオムの見出し語とを同定し、同定されたイディオム
の見出し語に対応する文字列の訳語を生成するイディオ
ム翻訳手段4と、構文解析手段5と、構文変換手段6
と、翻訳文生成手段7と、翻訳文を出力する出力手段8
とを備え、イディオム登録手段2が、複数の代表記号か
らなるイディオムを登録する場合に、イディオム全体の
品詞を代表する中心語に対応する代表記号を指定した形
式で登録することを特徴とするイディオム登録機能を持
つ機械翻訳装置を提供するものである。
【0011】また、前記記憶手段9は、入力された文字
列の翻訳を行うための文法および訳語情報を持つ辞書メ
モリ9aと、訳語生成に至るまでの処理の結果を記憶す
るバッファメモリ9bと、前記イディオム登録手段2に
よって登録されたイディオムを記憶するイディオム登録
メモリ9cとから構成することが好ましい。
【0012】前記辞書引き・形態素解析手段3は、入力
された文字列を単語に分解し各単語の品詞情報を生成す
る品詞抽出部3aと、各単語の訳語の候補を生成する訳
語抽出部3bとから構成することが好ましい。
【0013】前記イディオム翻訳手段4は、前記イディ
オム登録メモリを検索し分解された単語列と表現形式が
一致可能なイディオムの見出語の候補を選択するイディ
オム検索部4aと、イディオムの中の代表記号の位置に
相当する単語又は単語列の属性が、代表記号に与えられ
た属性に一致するイディオムの見出語をイディオム候補
の中から一つに特定するイディオム同定部4bと、代表
記号に対応する単語又は単語列の構文を解析しイディオ
ム全体の文構成を生成するイディオム解析部4cと、イ
ディオムの文構成を基に、入力された単語列のイディオ
ム部の訳語を生成するイディオム訳語生成部4dとから
構成することが好ましい。
【0014】複数の代表記号からなるイディオムを登録
する場合に、イディオム全体の品詞を代表する中心語に
対応する代表記号を指定してもよい。
【0015】
【作用】イディオムの見出語および訳語を登録する場
合、同定された単語とイディオムの可変部分に相当する
単語の属性を区別するあらかじめ定義された代表記号を
用いてイディオムの見出語と訳語をイディオム登録メモ
リに登録する。これにより、表現形式が同じで可変部分
の属性が共通する複数個のイディオムの見出語を1つの
見出語として登録することができる。
【0016】入力された文字列を単語に分解し、分解さ
れた単語列の一部の表現形式と一致可能なイディオムの
見出語の候補を検索し、さらにその見出語の中に含まれ
る代表記号の位置に相当する単語又は単語列の属性が代
表記号に与えられた属性に一致するかどうかを検査する
ことによって、イディオムを特定する。
【0017】さらに、イディオムの代表記号に対応する
単語又は単語列の構文を解析し、単語間のかかり受け関
係を基に入力された文字列のイディオムに相当する部分
の訳語を生成する。また、このときイディオムの中心語
に対応する代表記号が指定されている場合には、この代
表記号が意味する品詞を参照して訳語を生成する。
【0018】次に、入力された文字列全体の構文解析を
行い、単語間のかかり受け関係を基に、文字列全体の訳
語を生成し言語表現に必要な用語を補って翻訳文を生成
する。
【0019】以上のように、この発明によれば、イディ
オムにおける可変部分を代表記号で表わすことにより、
イディオム中に可変部分が複数存在する場合や、可変部
分に単語だけでなく句が入る場合でも、イディオムを簡
単に登録及び検索することができ、イディオムを含む入
力文の適切な翻訳文を生成することができる。
【0020】なお、イディオム全体の品詞を代表する中
心語に対応する代表記号を指定することによって、イデ
ィオムの登録が簡単になり、さらにイディオムを含む入
力文の適切な翻訳文を生成することができる。
【0021】
【実施例】以下、図に示す実施例に基づいて、この発明
を詳述する。なお、これによってこの発明が限定される
ものではない。実施例の説明の前に、機械翻訳の概念に
ついて簡単に説明する。図2を参照して、機械翻訳にお
いて行なわれる解析処理には、様々な解析レベルがあ
る。機械翻訳は、図2の左上に示されるソース言語が入
力されると、各レベルの処理を順に行なって最終的に図
2の右側に示されるターゲット言語を得るための処理で
ある。たとえばソース言語が入力されると、まずレベル
L1の辞書引き処理、レベルL2の形態素解析処理、レ
ベルL3の構文解析処理、…と処理が進められ、最終的
にレベルL10の形態素生成処理が行なわれてターゲッ
ト言語が生成される。
【0022】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の2つに分けられる。第1
は、レベルL6に示される中間言語まで解析し、そこか
らターゲット言語を生成していくピボット方式である。
第2は、上述のレベルL2〜レベルL5のいずれかまで
解析を行なってソース言語の内部構造を得、次に、得ら
れたソース言語の内部構造と同じレベルのターゲット言
語の内部構造に変換した後、ターゲット言語を生成する
トランスファ方式である。
【0023】ピボット方式において用いられる中間言語
とは、ソース言語およびターゲット言語のどちらにも依
存しない概念である。したがってソース言語の解析処理
を一度行なって中間言語を得れば、この中間言語から複
数の言語を生成することができるため、多言語間翻訳に
有利であるとされる。しかし、このようなピボット方式
では、その基本的概念である中間言語を本当に設定でき
るかどうかという点が未解決である。
【0024】トランスファ方式はピボット方式のこのよ
うな問題に対する妥協案であって、現在の多くのシステ
ムはこのトランスファ方式を採っている。以下の説明は
トランスファ方式についてのものであり、後述する実施
例の機械翻訳装置もトランスファ方式を用いたものであ
る。
【0025】以下、図2に示される各解析処理の内容に
ついて説明する。 (1) 辞書引き、形態素解析 この処理においては、入力された文章に対して、形態素
が格納された辞書を参照しながらたとえば最長一致法な
どを用いて形態素列(単語列)に分割する処理がまず行
なわれる。そして、得られた各単語に対する品詞などの
文法情報および訳語を得、さらに時制・人称・数などを
解析する処理が行なわれる。
【0026】(2) 構文解析 この処理においては、品詞・変化形などに基づき、単語
間のかかり受けなどの文章の構造(構造解析木)を組立
て、決定する処理が行なわれる。この処理においては、
得られた文章の構造が正しい意味を表わすかどうかにつ
いての判断は行なわれない。
【0027】(3) 意味解析 構文解析処理の結果得られた複数の構造解析木から、意
味的に正しいものとそうでないものとを判別し、正しい
もののみを採用する処理が行なわれる。
【0028】(4) 文脈解析 文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。
【0029】次に、図3に示すこの発明の一実施例であ
る機械翻訳装置のブロック図について説明する。この機
械翻訳装置は、メインCPU(中央処理装置)31と、
メインCPU31が接続されたバス37と、バス37に
接続されたメインメモリ32と、バス37に接続された
CRT(陰極線管)やLCD(液晶表示装置)などから
なる表示装置33と、キーボード34と、バス37に接
続された翻訳モジュール35と翻訳モジュール35に接
続された翻訳用の辞書・文法規則および木変換構造規則
などの知識ベースを格納している辞書メモリ36とを含
む。
【0030】翻訳モジュール35は、ソース言語の文章
が入力されると、それを所定の手順で翻訳してターゲッ
ト言語を出力するためのものである。図4に翻訳モジュ
ール5のブロック図を示す。
【0031】翻訳モジュール35は、バス37に接続さ
れ、バス37を介して入力されるソース言語(本実施例
の場合には英語)を、所定の翻訳プログラムに従って翻
訳してターゲット言語(本実施例の場合には日本語)と
してバス37に出力するための翻訳CPU45と、バス
37に接続され、翻訳CPU45で実行される翻訳プロ
グラムを格納するための翻訳プログラムメモリ46と、
入力されたソース言語の原文を各単語ごとに格納するた
めのバッファA(40)と、バッファA(40)に格納
された各単語につき、辞書メモリ36に含まれる辞書を
参照して得た各単語の品詞、訳語などの情報を格納する
ためのバッファB(41)と、ソース言語の構造解析木
に関する情報を格納するためのバッファC(42)と、
バッファC(42)に格納されたソース言語の構造解析
木が変換されたターゲット言語の構造解析木を格納する
ためのバッファD(43)と、バッファD(43)に格
納された日本語の構造解析木に適切な助詞や助動詞など
を補充して、日本語の形として整えられた文章を格納す
るためのバッファE(44)とを含む。以上のような構
成を持つ翻訳モジュールにおいて、図2に示したレベル
L3までの解析処理を行うものとする。
【0032】図5に翻訳モジュールの処理構造を示す。
同図において、51はソース言語に対して辞書引き・形
態素解析処理を行なうための辞書引き・形態素解析部で
あり、52はソース言語中にイディオムが存在する場合
にイディオムの同定、解析及び訳語を生成するイディオ
ム翻訳部、53は形態素解析された入力文章に対して構
文解析を行なうための構文解析部、54は構文解析の結
果を変換してターゲット言語の構造解析木を生成するた
めの構文変換部、55は構文変換部54によって生成さ
れたターゲット言語の構造解析木に基づき、ターゲット
言語の翻訳文を生成するための翻訳文生成部である。
【0033】辞書引き・形態素解析部51は、入力され
た文字列を単語に分解し、各単語の品詞情報を生成する
品詞抽出部51aと、各単語の訳語の候補を生成する訳
語抽出部51bとからなる。
【0034】イディオム翻訳部52は、辞書引き・形態
素解析部51によって分解された単語列と表現形式が一
致可能なイディオム見出語の候補をあらかじめ登録され
ているイディオムの中から選択するイディオム検索部5
2aと、イディオム検索部52aで選択されたイディオ
ム候補の中から、イディオムの見出語を1つに特定する
イディオム同定部52bと、1つに特定されたイディオ
ムと対応する単語列の構文を解析し、イディオム全体の
文構成を生成するイディオム解析部52cと、イディオ
ムの文構成をもとに、入力された単語列のイディオム部
分の訳語を生成するイディオム訳語生成部とからなる。
なお各部51〜55で行なわれる処理については、後に
詳述する。
【0035】以下、図3〜図10を参照して、本実施例
の機械翻訳装置による英日翻訳の動作を説明する。ここ
では、イディオムを含まない英文“This is a
pen.”を例にとって、この英文を日本文に翻訳す
る動作の概要を示す。
【0036】まず、読込まれた原文は形態素解析によっ
て形態素に分解され、図6に示されるようにバッファA
(40)(図4参照)に格納される。続いて翻訳プログ
ラムメモリ46に記憶されたプログラムに基づく翻訳C
PU45の制御の下に、図5に示される辞書引き・形態
素解析部51によって、バッファA(40)に格納され
た原文の各単語につき、辞書メモリ36に格納されてい
る辞書を参照することにより各単語の訳語や品詞情報な
どの情報が得られる。この情報は図4に示されるバッフ
ァB(41)に格納される。
【0037】これらの情報の一部として、各単語の品詞
情報が含まれるが、これら品詞情報は図7に示されるよ
うに格納される。すなわち“this”の多品詞語であ
って代名詞、指示形容詞の2つの品詞を持つ。また“i
s”の品詞は動詞である。同様に“a”、“pen”に
ついてもそれぞれの品詞がバッファB(41)に格納さ
れる。“this”は多品詞語であるが、文中の品詞が
何であるかについては、図5に示される構文解析部53
に相当する処理によって一意に決定される。
【0038】翻訳プログラムのうち図5に示される構文
解析部53に相当する処理においては、辞書メモリ36
に格納された辞書および文法規則に従って、各単語間の
かかり受け関係を示す構造解析木がたとえば図8に示さ
れるように決定される。この構文解析結果は図4のバッ
ファC(42)に格納される。
【0039】構造解析木の決定は次のようにして行なわ
れる。辞書メモリ36に格納された文法規則のうち、英
語に関する文法規則は次のようなものから成り立ってい
る。 文→主部、述部 主部→名詞句 述部→動詞、名詞句 名詞句→代名詞 名詞句→冠詞、名詞 この規則のうちたとえば1つ目の規則は、「文は主部と
述部からできている。」ということを表わす。他の規則
についても同様である。これらの規則に従って構造解析
木が決定される。なお、このような文法規則は同じよう
に日本語についても用意されており、英語の文法規則と
日本語の文法規則との間で対応づけがなされている。
【0040】翻訳プログラムのうち、図5に示される構
文変換部54に相当する処理においては、入力された英
文の構造解析木(図8参照)の構造が、図9に示される
日本文に対する構文解析木の構造に変換される。この変
換においては、上述の構文解析部53が利用したのと同
様に、辞書メモリ36に格納されている「木構造変換規
則」が用いられる。この変換は、図2でいえばレベルL
3からターゲット言語のレベルL9への変換に相当す
る。得られた結果は図4に示されるバッファD(43)
に格納される。この説明において用いられている例文
“This isa pen.”は、この変換によって
日本語文字列「これ ペン である」に変換されたこと
になる。
【0041】翻訳プログラムのうち図5の翻訳文生成部
55に相当する処理を行なう部分は、得られた日本語文
字列「これ ペン である」に適切な助詞「は」や助動
詞をつけることにより、図10に示されるような文法的
な日本語の形にし、図4に示されるバッファE(44)
に格納す。この処理は、図2に示されるレベルL9から
レベルL10への変換に相当する。得られた日本文「こ
れはペンである。」は、図3に示される翻訳モジュール
35から出力され、メインメモリ32に格納されるとと
もに、表示装置33に表示される。
【0042】次に、単語又は単語列を代表記号で表現し
たイディオムの登録について説明する。図11に、代表
記号のテーブルの例を示す。このテーブルは、辞書メモ
リ36の中にあらかじめ記憶されているものとする。同
図に示すように、代表記号は種々の品詞を表わすter
minal代表記号と、主として文・句・節と呼ばれる
単語列からなるnon−terminal代表記号に分
類することができる。
【0043】図12〜図16に、イディオムの登録例を
示す。図に示すように、登録されたイディオムは英単語
及びその品詞、訳語及びその品詞で構成され、これらは
すべて辞書メモリ36に記憶される。
【0044】図12は、〔as A as can b
e〕というイディオムを代表記号を利用して登録したも
のである。ここでの‘A’は単語、句又は文を表わすも
のとする。このイディオム例では、‘A’として対応す
るものは形容詞の一単語のみである。そこで、図11の
代表記号テーブルにおいて、形容詞を表す代表記号は*
aであるので、英単語の欄に〔as *a as ca
n be〕という形式で登録する。
【0045】続く品詞の欄はイディオムの品詞を登録す
るものであるが、この場合形容詞句であり、*aの形容
詞と同義であるので指定しない。このように指定しない
のは、今の場合代表記号に入るのが形容詞だけと特定で
きたが、形容詞か副詞が入るという場合、入った品詞に
よって、イディオムの品詞が変わるからである。例え
ば、副詞が入った時は、そのイディオムは副詞句とな
り、形容詞が入った時は形容詞句になるという様に指定
する。
【0046】続いて訳語を「この上もなく*a」のよう
に、*aが日本語のどの部分に当たるのかを明確にして
おく。最後の品詞の欄は訳語の品詞指定であるが、訳語
が*aのように代表記号で終っており、*aの活用によ
って変わるので品詞は特定できない。そこで何も指定し
ないのであるが、訳語の品詞は後の処理で特定される。
【0047】次に図13は〔as A as B〕で
‘A’が形容詞、‘B’にto不定詞が入るイディオム
である。形容詞の一単語は代表記号テーブルを参照して
*aであり、to不定詞は*Iである。そこで図12と
同じように登録するが、代表記号が2つあり、次の項目
の品詞指定で品詞を指定しなくてもよいようにするた
め、どちらが中心語であるかを指定する。ここでは、*
aが中心語となるので、*の記号を付け加えて、**a
とし、英単語の項目に〔as **a as *I〕と
登録する。
【0048】続いて品詞については、このイディオムは
形容詞句であり、中心語の*aと一致するため指定しな
い。訳語は「*I[体:]ほど*a」とする。ここで、
‘*I[体:]’はto不定詞を訳す時に連体形にする
ように指定する記号である。最後の品詞は図12の時と
同様に*aで終っていて特定できないので書かない。
【0049】図14は、〔A through B〕と
いう形式のイディオムを登録したものである。このイデ
ィオムでは、‘A’には数詞又は名詞句が入るので、図
11の代表記号として*m又は*Nが対応する。このよ
うに複数個の代表記号が対応する時は、まとめて*mN
と書くことにする。この時の記号の順はtermina
l記号、non−terminal記号の順とし、te
rminal記号どうし、non−terminal記
号どうしの場合は順序を問わない。この順序は後の処理
の順序に関係し、先頭の代表記号の方、ここでは‘m’
の方が優先的に処理される。
【0050】また‘B’にも数詞又は名詞句が入り、
‘A’と同様に*mNとなるが、‘A’と‘B’の区別
をするために、*mN1,*mN2というように代表記
号のすぐ後に数字を振り当てて記述する。このように、
代表記号の列が複数個一致する時は1から順に数字を振
り当てる。また、この場合、品詞指定の項目で品詞を設
定するようにするので中心語を設定する必要はない。品
詞指定に関して、このイディオムでは代表記号の所に数
詞が入った場合でも、名詞句が入った場合でも、名詞句
として扱うのが望ましいと考えられるので名詞句と指定
する。
【0051】続く訳語に関しても、「*mN1から*m
N2まで」のように英単語の項目と同じように番号を明
確に表現して指定する。最後の品詞は、この場合訳語が
「〜まで」と活用しない形で終っているので、‘その
他’を指定する。
【0052】図15及び図16はどちらも〔A tim
es as B as C〕のイディオムを登録したも
のである。このように二つに分けて登録するのは、
‘C’の部分に文または名詞句が来る時と、人称代名詞
の主格+助動詞が来る場合では、代表記号に置き換えた
時に、一方は‘*CN’、他方は‘*3 *x’と表現
されこの部分の文法上の構造が異なり、また代表記号の
数が一致しないので、一つにまとめることはできないか
らである。しかしながらこのように複数にわけて書くこ
とを認めることにより、より多くのイディオムを登録可
能とし、様々なタイプの入力文に対応できる。
【0053】また図16の訳語で、「*m倍*C
[体:]Nより*ad」となっているが、これは、*C
の時は連体形で活用し、Nの時は活用しないことを示
す。このように複数のカテゴリーを指定する時で、活用
形があるときは、一つごとに指定する。例えば、一つの
可変部分に名詞句、形容詞句、又は副詞句が入り、形容
詞句は連体形で活用し、副詞句は終止形で活用する場合
は、*NA[体:]D[終:]と書くようにする。
【0054】次に図17に示すフローチャートを用いて
代表記号によって登録されたイディオムと入力文字列と
の同定処理及び訳語出力処理について説明する。イディ
オムの登録の例である図12〜図16のイディオムがす
でに辞書メモリ36の中に登録されているものとする。
【0055】図17は、代表記号によって登録されたイ
ディオムと入力文字列との同定から構文解析処理へのデ
ータの受渡しまでの処理を示したフローチャートであ
る。図18は文法規則の一部であり、実施例で使用され
るステップS6用の文法規則である。この文法規則はあ
らかじめ必要な数だけ辞書メモリ36に記憶しておく。
以下、[This apple is three t
imes as big as that orang
e.]という文が入力された場合を例にとり説明する。
【0056】まず、ステップS1で辞書引きが行なわれ
る。これにより品詞情報および、細分類の情報が翻訳モ
ジュール35の中の品詞バッファにセットされる。この
例文の品詞バッファのメモリ内容を表したものが図19
である。
【0057】ステップS2では、図11の代表記号テー
ブルと図12から図16に示す代表記号によって登録さ
れたイディオムが参照され、登録されたイディオムの中
に図19に示された品詞バッファの各語及び品詞とマッ
チできるものがあるかどうかを探索する。図19に示さ
れた品詞バッファを見て登録されたイディオムとマッチ
するものを捜す。
【0058】この例文の場合、まず品詞バッファ5の
‘times’が図15によって登録されたイディオム
の‘times’とマッチし、次に品詞バッファ6の
‘as’、品詞バッファ8の‘as’が図15のそれぞ
れの‘as’とマッチする。また、図16のイディオム
も同じ‘times’、‘as’、‘as’を持ってい
るのでマッチし、結局、図15及び図16とも入力文と
マッチする可能性のあるイディオムとなる。ここで、生
成されたイディオムバッファの数は2に設定される。
【0059】さらに、それぞれの代表記号が置き換えら
れる単語や句、文がイディオムバッファにセットされ
る。具体的に説明すると、図15のイディオムの*mに
当たるのが、‘three’であり、**adに当たる
のが‘big’、*3が‘that’,*xが‘ora
nge’となりイディオムバッファ1にセットされる
(図19参照)。
【0060】図16のイディオムの場合は、図15の対
応とほぼ同じであるが、最後の*CNの部分が‘tha
t orange’となる。それらを格納したのが図2
0のイディオムバッファ2である。なお、ステップS2
において、イディオムとマッチしなければ、通常のステ
ップS14の構文解析の処理に移る。
【0061】ステップS3では、カウンタ1の値を1に
初期化する。このカウンタ1は、イディオムバッファの
番号を処理するために利用する。ステップS4では、カ
ウンタ2の値を1に初期化する。このカウンタ2は、イ
ディオムバッファの内の代表記号の番号を処理するため
のものである。
【0062】ステップS5では、カウンタ1の値が指す
イディオムバッファの中にある代表記号のうちカウンタ
2が示す順番の代表記号に注目しterminal記号
かどうか判断する。この場合はカウンタ1の値は1であ
るので、イディオムバッファ1を注目し、その中でカウ
ンタ2が示す順番、つまりこの場合は1番目*mに注目
する。そしてその先頭の代表記号がterminal記
号かどうかを判断する。この場合、*mはtermin
al記号なので、ステップS8に処理を移す。
【0063】ステップS8では、代表記号と英単語がマ
ッチするかどうかを見る。この場合、注目されている英
単語は‘three’であり、図19の品詞バッファか
ら数詞、つまり代表記号の*mにマッチすることがわか
り、ステップS9に処理を移す。
【0064】もしステップS8でマッチしなければ、ス
テップS80に処理を移す。ステップS80では代表記
号文字列がnon−terminal記号を含むか判定
し、含む場合はステップS6に処理を移し、含まない時
はステップS12に処理を移す。
【0065】ステップS9では、カウンタ2の値を1増
やす。今は、カウンタ2は1であったので2になる。ス
テップS10は、カウンタ2の値がイディオムバッファ
の代表記号の数より大きいかどうか判定する。ここでカ
ウンタ2の値がイディオムバッファの数よりも大きけれ
ば、その候補のイディオムと完全にマッチしたことにな
る。今の場合は、カウンタ2の値は2であり、イディオ
ムバッファ内の代表記号の数は4であるので、失敗しス
テップS5に処理を移す。
【0066】ステップS5では、また注目する代表記号
がterminal記号であるかどうか判定するが、今
回は、カウンタ2の値は2となっているため、図15に
おける**ad、すなわち図20における*adが先頭
として注目される。*adは図11の代表記号テーブル
によればterminal記号であるため、ステップS
8に処理を移す。
【0067】ステップS8では、代表記号‘**ad’
と対応する英単語‘big’とがマッチするかどうかを
判定する。英単語‘big’は形容詞であるので、**
adの中の*aの方とマッチする。次にステップS9の
処理へ進む。
【0068】ステップS9の処理でカウンタ2の値が3
となり、ステップS10で判定に失敗し、ステップS5
に戻る。ステップS5では、注目するのは*3であり、
これはterminal記号であるのでステップS8に
処理が移る。
【0069】ステップS8で‘that’と*3がマッ
チするかどうかを判定するが、‘that’の品詞は図
19の品詞情報バッファにより、代名詞か限定詞か関係
代名詞であるので、*3の示す代名詞(主格)とマッチ
する。
【0070】次にステップS9で、カウンタ2の値が4
となり、ステップS10で判定に失敗し、ステップS5
に戻る。ステップS5で、注目するのは*xであり、こ
れはteiminal記号であるのでステップS8に処
理が移る。
【0071】ステップS8で‘orange’と*xが
マッチするかどうかを判定するが、‘orange’の
品詞は図19の品詞情報バッファによると、名詞であ
り、*xは助動詞であるためマッチしない。そこでS8
0に処理を移す。ステップS80では、今注目している
代表記号は*xであり、non−terminal記号
を含まないのでステップS12に処理を移す。もしここ
で注目している代表記号が、*aNのようなnon−t
erminal記号を含む場合はステップS6に処理を
移す。これはNの方がマッチする可能性があるので、そ
れを調べるためである。
【0072】ステップS12は、カウンタ1の値を1増
やす処理である。今、カウンタ1は1であったので2に
なる。この処理は注目していたイディオムバッファを次
のものに移すためのである。ステップS13は、カウン
タ1の値がイディオムバッファの数より大きくないかど
うかを判定する。これはカウンタ1の値がイディオムバ
ッファの数よりも大きければ、入力文とマッチする可能
性のあったイディオムはすべて調べたことになり、処理
をステップS14へ移す。今の場合は、カウンタ1の値
は2であり、かつイディオムバッファの数は2であるの
でステップS4に戻る。
【0073】ステップS4では、カウンタ2の値を1に
セットしなおす。これは今のままではカウンタ2の値は
3になっており、次の処理に進んだ時、イディオムバッ
ファの3番目の代表記号から処理が始まってしまうた
め、カウンタ2の値を1に初期化する。
【0074】再びステップS5の処理であるが、今注目
しているのが、イディオムバッファ2の一番目、*mで
ありteiminal記号であるので、ステップS8に
処理を移す。これ以降の処理においてカウンタ2の値が
3になり、代表記号*CNが注目されるまでの処理は前
記したイディオムバッファ1と同じ処理が繰り返される
ため、ここでは省略する。
【0075】今カウンタ2の値が3になりステップS5
の処理に入ったとする。代表記号は*CNであり、これ
はnon−terminal記号であるから、ステップ
S6に処理を移す。
【0076】ステップS6では、単語列を構文解析して
文または句にするものである。今注目されているのは、
イディオムバッファ2の3番目の英単語列‘that
orange’である。そこで19図の品詞バッファに
記憶された‘that orange’に対応する品詞
情報9,10に対して、図18に示す文法規則が適用さ
れる。ここで‘that’はDET(限定詞)、‘or
ange’はNOUN(名詞)と認識され、‘that
orange’は規則6がマッチングする。すなわ
ち、‘that orange’はNP(名詞句)と認
定される。
【0077】もしステップS6における構文解析が失敗
した時は、ステップS61において処理をステップS1
2へ移すが、今は成功したため、処理は次のステップS
7へ入る。ステップS7では、ステップS6で認定され
た名詞句に対応する訳語の生成を行なう。ここでの処理
は、図5における構文変換部54及び翻訳文生成部55
で行われるものを利用する。すなわち、‘that o
range’は「あのオレンジ」と訳される。
【0078】次に、ステップS81で代表記号とのマッ
チを行なう。今、図11により英単語‘that or
ange’はNP(名詞句)なので、代表記号*CNの
*Nとマッチする。S9でカウンタ2の値が4になる。
次にステップS10でカウンタ2の値(=4)はイディ
オムバッファ内の代表記号の数(=3)よりも多いので
ステップS11に移る。
【0079】ステップS11では入力文にマッチしたイ
ディオムを辞書バッファに登録する。登録は英単語列と
その品詞、訳語とその品詞である。英単語列には図16
に示すイディオムの代表記号を英単語で置き換えた[t
hree times asbig as that
orange]が入り、品詞には中心語が形容詞だった
ので形容詞句が入る。
【0080】訳語には図16の訳語のところの代表記号
をその各単語の訳語で置き換えたものが入る。この場合
は「3倍あのオレンジより大きい」が入る。訳語の品詞
は、イディオムの登録の際に述べたように、訳語の最後
の単語の品詞と活用によって決まり、この場合は「大き
い」なので、形容詞となる。この結果を示したものが図
22である。
【0081】次にステップS12でカウンタ1の値を1
増やすので、カウンタ1の値は3になる。ステップS1
3でカウンタ1の値が3であり、イディオムバッファの
数が2であるので成功し、辞書引きのすべての処理が終
ったことになる。
【0082】そしてこの辞書引きされた結果(図23に
示されたもの)がステップS14の通常の構文解析に渡
される。これ以下の処理は図6の例で示した[This
is a pen.]の処理と同様であり、入力文全
体の翻訳処理を実行後、最後に日本語文「このりんごは
3倍あのオレンジより大きい」が生成される。
【0083】以上のように、イディオムの中に存在する
複数の可変部分を代表記号で表わすことにより、イディ
オムを簡単に登録及び検索することができ、さらにイデ
ィオムを含む入力文の適切な翻訳文を生成することがで
きる。
【0084】
【発明の効果】この発明によれば、イディオムにおける
可変部分を代表記号で表わすことにより、イディオム中
に可変部分が複数存在する場合や可変部分に単語だけで
なく句が入る場合でも、イディオムを簡単に登録及び検
索することができる。また、この可変部分の表現形式で
ある代表記号が、1つの表現で、複数の単語の品詞や句
に対応できるように記述されるため、イディオムの可変
部分に対するあらゆるパターンを登録する必要はなく、
登録時間の短縮、翻訳労力の削減および情報記憶容量の
増大の防止ができる。また、イディオム全体の品詞を代
表する中心語に対応する代表記号を指定することによっ
て、イディオムの登録が簡単になり、さらにイディオム
を含む入力文の適切な翻訳文を生成することができる。
【図面の簡単な説明】
【図1】この発明の辞書検索装置の構成を示すブロック
図である。
【図2】機械翻訳の概念を模式的に示す図である。
【図3】この発明の辞書検索装置の一例を含む機械翻訳
装置のブロック図である。
【図4】図3に示される翻訳モジュール35のブロック
図である。
【図5】翻訳モジュールにおける入力文の解析から翻訳
文の生成までの処理構造を示す図である。
【図6】バッファAの格納内容を模式的に示す図であ
る。
【図7】バッファBの格納内容を模式的に示す図であ
る。
【図8】バッファCの格納内容を模式的に示す図であ
る。
【図9】バッファDの格納内容を模式的に示す図であ
る。
【図10】バッファEの格納内容を模式的に示す図であ
る。
【図11】イディオムの登録に使用する代表記号テーブ
ルの例を示す図である。
【図12】図11に示した代表記号を用いたイディオム
の登録例を示す図である。
【図13】図11に示した代表記号を用いたイディオム
の登録例を示す図である。
【図14】図11に示した代表記号を用いたイディオム
の登録例を示す図である。
【図15】図11に示した代表記号を用いたイディオム
の登録例を示す図である。
【図16】図11に示した代表記号を用いたイディオム
の登録例を示す図である。
【図17】代表記号によって登録されたイディオムと入
力文との同定処理及び訳語出力処理のフローチャートで
ある。
【図18】構文解析用の文法規則を示す図である。
【図19】入力文を辞書引きした後に生成される品詞バ
ッファの内容の一部を示す模式図である。
【図20】イディオムの代表記号と単語との対応関係を
記憶したイディオムバッファの内容を示す模式図であ
る。
【図21】イディオムの代表記号と単語との対応関係を
記憶したイディオムバッファの内容を示す模式図であ
る。
【図22】マッチングに成功した入力文のイディオム部
に関する情報の登録例を示す模式図である。
【図23】イディオム部分の翻訳が終了し入力文のすべ
ての辞書引きが完了した後に生成される結果を示す模式
図である。
【符号の説明】
1 入力手段 2 イディオム登録手段 3 辞書引き・形態素解析手段 3a 品詞抽出部 3b 訳語抽出部 4 イディオム翻訳手段 4a イディオム検索部 4b イディオム同定部 4c イディオム解析部 4d イディオム訳語生成部 5 構文解析手段 6 構文変換手段 7 翻訳文生成手段 8 出力手段 9 記憶手段 9a 辞書メモリ 9b バッファメモリ 9c イディオム登録メモリ 31 メインCPU 32 メインメモリ 33 表示装置 34 キーボード 35 翻訳モジュール 36 辞書メモリ 37 バス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 等 大阪府大阪市阿倍野区長池町22番22号 シャープ株式会社内 (56)参考文献 特開 昭58−92063(JP,A) 特開 昭58−40684(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 17/20 - 17/28

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字列および記号を入力する入力手段
    と、所定の属性を共有する単語又は単語列の集合を代表
    する代表記号を1つ又は複数個持ち、複数の属性が対応
    する単語又は単語列の部分を複数の代表記号を複合した
    形式で表現したイディオムの見出し語と訳語を登録する
    イディオム登録手段と、イディオムの登録と翻訳処理に
    必要な辞書及び処理結果を記憶する記憶手段と、入力単
    語列を形態素に分解し、かつ文法解析を行う辞書引き・
    形態素解析手段と、入力文字列あるいはその一部分と登
    録されたイディオムの見出し語とを同定し、同定された
    イディオムの見出し語に対応する文字列の訳語を生成す
    るイディオム翻訳手段と、構文解析手段と、構文変換手
    段と、翻訳文生成手段と、翻訳文を出力する出力手段と
    を備え、イディオム登録手段が、複数の代表記号からな
    るイディオムを登録する場合に、イディオム全体の品詞
    を代表する中心語に対応する代表記号を指定した形式で
    登録することを特徴とするイディオム登録機能を持つ機
    械翻訳装置。
JP4293372A 1992-10-26 1992-10-30 イディオム登録機能を持つ機械翻訳装置 Expired - Fee Related JP2839419B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP4293372A JP2839419B2 (ja) 1992-10-30 1992-10-30 イディオム登録機能を持つ機械翻訳装置
US08/142,778 US5541838A (en) 1992-10-26 1993-10-25 Translation machine having capability of registering idioms

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4293372A JP2839419B2 (ja) 1992-10-30 1992-10-30 イディオム登録機能を持つ機械翻訳装置

Publications (2)

Publication Number Publication Date
JPH06139272A JPH06139272A (ja) 1994-05-20
JP2839419B2 true JP2839419B2 (ja) 1998-12-16

Family

ID=17793932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4293372A Expired - Fee Related JP2839419B2 (ja) 1992-10-26 1992-10-30 イディオム登録機能を持つ機械翻訳装置

Country Status (1)

Country Link
JP (1) JP2839419B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS5892063A (ja) * 1981-11-27 1983-06-01 Hitachi Ltd イデイオム処理方式

Also Published As

Publication number Publication date
JPH06139272A (ja) 1994-05-20

Similar Documents

Publication Publication Date Title
JP3377290B2 (ja) イディオム処理機能を持つ機械翻訳装置
US6760695B1 (en) Automated natural language processing
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
JP3220560B2 (ja) 機械翻訳装置
US5541838A (en) Translation machine having capability of registering idioms
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
US5475586A (en) Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
JPS61163467A (ja) 機械翻訳システム
JP2004110835A (ja) 確認文を検索するための方法およびシステム
JP2815714B2 (ja) 翻訳装置
WO1997040453A1 (en) Automated natural language processing
JPH05120324A (ja) 言語処理方式
JPH0855123A (ja) イディオム登録機能を有する機械翻訳装置
Rimon et al. Advances in machine translation research in IBM
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP2839419B2 (ja) イディオム登録機能を持つ機械翻訳装置
Mota et al. Generating paraphrases of human intransitive adjective constructions with Port4NooJ
JP2003308319A (ja) 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム
JPH0561902A (ja) 機械翻訳システム
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JP2752025B2 (ja) 機械翻訳装置
JP2719453B2 (ja) 機械翻訳装置
Skadiņa et al. Comprehension Assistant for Languages of Baltic States
Balcha et al. Design and Development of Sentence Parser for Afan Oromo Language
JP3233800B2 (ja) 機械翻訳装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071016

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081016

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081016

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091016

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091016

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101016

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111016

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees