JP2839419B2

JP2839419B2 - イディオム登録機能を持つ機械翻訳装置

Info

Publication number: JP2839419B2
Application number: JP4293372A
Authority: JP
Inventors: 至幸小山; いち子佐田; 陽士福持; 等鈴木
Original assignee: Consejo Superior de Investigaciones Cientificas CSIC
Current assignee: Consejo Superior de Investigaciones Cientificas CSIC
Priority date: 1992-10-30
Filing date: 1992-10-30
Publication date: 1998-12-16
Anticipated expiration: 2013-12-16
Also published as: JPH06139272A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、電子化辞書あるいは
電子化辞書を搭載した情報検索装置あるいは電子化辞書
を搭載した機械翻訳装置に関し、特に、イディオムを登
録し検索・翻訳することのできるイディオム登録機能を
持つ辞書検索装置に関する。

【０００２】

【従来の技術】現在実用化されている言語処理装置に
は、人間の文書作成活動を支援するためのワードプロセ
ッサや、或る言語で書かれた文書を別の言語に翻訳する
ための機械翻訳装置などがある。これらの言語処理装置
には、それぞれの目的に応じた情報を納めた辞書が備え
られている。ここでいう辞書とは、言語処理装置で扱う
言語に関して、見出語とそれに付帯する各種の情報の組
とを１単位の項目としたものを多数統合し、見出語を用
いて所望の項目を容易に検索できるように系統立てて並
べたものである。

【０００３】辞書は、原則として機械可読な不揮発性の
媒体に機械可読な形式で記録される。このように機械可
読な不揮発性の媒体に機械可読な形式で記録された辞書
を、電子化辞書と呼ぶことにする。電子化辞書を機械翻
訳において用いる場合には、見出語としては原語（ソー
ス原語）の単語列（１単語のみのものも含む）が用いら
れ、その単語列に付帯する各種の情報は、その単語列の
品詞情報や翻訳語（ターゲット言語）の対応単語列など
を含む。

【０００４】このような言語処理装置を用いて利用者が
処理あるいは作成しようとしている文書に、この装置に
備えられた辞書に見出語として記載されていない単語が
含まれている場合には、作業効率が著しく低下してしま
う。そのために、辞書に収録する見出語は、より多いほ
うが好ましい。同様に、機械翻訳の場合には、原語の各
単語のみではなく、イディオムを見出語として採用し、
対応するターゲット言語の言い回し等をペアとして、こ
のようなペアをできるだけ多数登録しておくことが翻訳
効率の上では望ましい。ここで、イディオムは、通常可
変部分と固定部分とから構成される。可変部分とはたと
えば「ｆｒｏｍ〜ｔｏ…」における「〜」と「…」であ
り、ある文法特徴を共有する単語や句が入る部分であ
る。また、固定部分とは「ｆｒｏｍ」や「ｔｏ」など骨
格となる単語や単語列からなる部分である。

【０００５】

【発明が解決しようとする課題】しかし、たとえば見出
語としてイディオムなどを登録する場合、次のような問
題点がある。イディオムには、数詞、所有格代名詞、再
帰代名詞など、主語や他の語との関係でその形を変え得
る可変部分を含むものが多い。そのため、前述のように
翻訳効率を上げるためには、これら可変部分に具体的な
語を入れ替えた同一のイディオムを多数登録しなければ
ならない。そのために、辞書登録者に係る負担が大きく
なってしまう。また、見出語が増えれば増えるだけ辞書
の記憶媒体として必要な容量も増大するために、このよ
うな登録の方法は好ましいものではない。

【０００６】そこで、辞書の記憶容量の増大を防ぐため
に、たとえば、イディオム中の可変部分に入るべき１つ
の単語に対応する代表記号を導入し、登録するイディオ
ムの数を減らすことが考えられる。

【０００７】このような可変部分の表現形式として、１
つの単語のみが対応し、かつ同じ品詞の単語が対応し、
さらに、可変部分が１ヵ所しかないようなイディオムの
場合は、簡単に登録又は検索が可能であるが、イディオ
ムの中には可変部分そのものが複数個存在するものと
か、可変部分に形容詞又は副詞などのいくつかの品詞が
対応ししかも１つの単語だけでなく複数の単語からなる
単語列（句）が対応するものもある。

【０００８】これらの種々の表現形式を持つイディオム
を登録するために、可変部分の単語ごとに代表記号を導
入していたのでは、かえって登録するイディオムの数が
増加し、登録作業の負担もかかり、記録容量の減少とは
ならないおそれがある。

【０００９】そこでこの発明は、以上のような事情を考
慮してなされたもので、イディオムにおける可変部分を
代表記号で表わすことにより、イディオム中に可変部分
が複数存在する場合や可変部分に単語だけでなく句が入
る場合でも、イディオムを簡単に登録及び検索すること
ができ、登録時間の短縮、翻訳労力の削減および情報記
憶容量の増大の防止ができるイディオム登録機能を持つ
機械翻訳装置を提供するものである。

【００１０】

【課題を解決するための手段】図１に、この発明の構成
ブロック図を示す。同図に示すように、この発明は、文
字列および記号を入力する入力手段１と、所定の属性を
共有する単語又は単語列の集合を代表する代表記号を１
つ又は複数個持ち、複数の属性が対応する単語又は単語
列の部分を複数の代表記号を複合した形式で表現したイ
ディオムの見出し語と訳語を登録するイディオム登録手
段２と、イディオムの登録と翻訳処理に必要な辞書及び
処理結果を記憶する記憶手段９と、入力単語列を形態素
に分解し、かつ文法解析を行う辞書引き・形態素解析手
段３と、入力文字列あるいはその一部分と登録されたイ
ディオムの見出し語とを同定し、同定されたイディオム
の見出し語に対応する文字列の訳語を生成するイディオ
ム翻訳手段４と、構文解析手段５と、構文変換手段６
と、翻訳文生成手段７と、翻訳文を出力する出力手段８
とを備え、イディオム登録手段２が、複数の代表記号か
らなるイディオムを登録する場合に、イディオム全体の
品詞を代表する中心語に対応する代表記号を指定した形
式で登録することを特徴とするイディオム登録機能を持
つ機械翻訳装置を提供するものである。

【００１１】また、前記記憶手段９は、入力された文字
列の翻訳を行うための文法および訳語情報を持つ辞書メ
モリ９ａと、訳語生成に至るまでの処理の結果を記憶す
るバッファメモリ９ｂと、前記イディオム登録手段２に
よって登録されたイディオムを記憶するイディオム登録
メモリ９ｃとから構成することが好ましい。

【００１２】前記辞書引き・形態素解析手段３は、入力
された文字列を単語に分解し各単語の品詞情報を生成す
る品詞抽出部３ａと、各単語の訳語の候補を生成する訳
語抽出部３ｂとから構成することが好ましい。

【００１３】前記イディオム翻訳手段４は、前記イディ
オム登録メモリを検索し分解された単語列と表現形式が
一致可能なイディオムの見出語の候補を選択するイディ
オム検索部４ａと、イディオムの中の代表記号の位置に
相当する単語又は単語列の属性が、代表記号に与えられ
た属性に一致するイディオムの見出語をイディオム候補
の中から一つに特定するイディオム同定部４ｂと、代表
記号に対応する単語又は単語列の構文を解析しイディオ
ム全体の文構成を生成するイディオム解析部４ｃと、イ
ディオムの文構成を基に、入力された単語列のイディオ
ム部の訳語を生成するイディオム訳語生成部４ｄとから
構成することが好ましい。

【００１４】複数の代表記号からなるイディオムを登録
する場合に、イディオム全体の品詞を代表する中心語に
対応する代表記号を指定してもよい。

【００１５】

【作用】イディオムの見出語および訳語を登録する場
合、同定された単語とイディオムの可変部分に相当する
単語の属性を区別するあらかじめ定義された代表記号を
用いてイディオムの見出語と訳語をイディオム登録メモ
リに登録する。これにより、表現形式が同じで可変部分
の属性が共通する複数個のイディオムの見出語を１つの
見出語として登録することができる。

【００１６】入力された文字列を単語に分解し、分解さ
れた単語列の一部の表現形式と一致可能なイディオムの
見出語の候補を検索し、さらにその見出語の中に含まれ
る代表記号の位置に相当する単語又は単語列の属性が代
表記号に与えられた属性に一致するかどうかを検査する
ことによって、イディオムを特定する。

【００１７】さらに、イディオムの代表記号に対応する
単語又は単語列の構文を解析し、単語間のかかり受け関
係を基に入力された文字列のイディオムに相当する部分
の訳語を生成する。また、このときイディオムの中心語
に対応する代表記号が指定されている場合には、この代
表記号が意味する品詞を参照して訳語を生成する。

【００１８】次に、入力された文字列全体の構文解析を
行い、単語間のかかり受け関係を基に、文字列全体の訳
語を生成し言語表現に必要な用語を補って翻訳文を生成
する。

【００１９】以上のように、この発明によれば、イディ
オムにおける可変部分を代表記号で表わすことにより、
イディオム中に可変部分が複数存在する場合や、可変部
分に単語だけでなく句が入る場合でも、イディオムを簡
単に登録及び検索することができ、イディオムを含む入
力文の適切な翻訳文を生成することができる。

【００２０】なお、イディオム全体の品詞を代表する中
心語に対応する代表記号を指定することによって、イデ
ィオムの登録が簡単になり、さらにイディオムを含む入
力文の適切な翻訳文を生成することができる。

【００２１】

【実施例】以下、図に示す実施例に基づいて、この発明
を詳述する。なお、これによってこの発明が限定される
ものではない。実施例の説明の前に、機械翻訳の概念に
ついて簡単に説明する。図２を参照して、機械翻訳にお
いて行なわれる解析処理には、様々な解析レベルがあ
る。機械翻訳は、図２の左上に示されるソース言語が入
力されると、各レベルの処理を順に行なって最終的に図
２の右側に示されるターゲット言語を得るための処理で
ある。たとえばソース言語が入力されると、まずレベル
Ｌ１の辞書引き処理、レベルＬ２の形態素解析処理、レ
ベルＬ３の構文解析処理、…と処理が進められ、最終的
にレベルＬ１０の形態素生成処理が行なわれてターゲッ
ト言語が生成される。

【００２２】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の２つに分けられる。第１
は、レベルＬ６に示される中間言語まで解析し、そこか
らターゲット言語を生成していくピボット方式である。
第２は、上述のレベルＬ２〜レベルＬ５のいずれかまで
解析を行なってソース言語の内部構造を得、次に、得ら
れたソース言語の内部構造と同じレベルのターゲット言
語の内部構造に変換した後、ターゲット言語を生成する
トランスファ方式である。

【００２３】ピボット方式において用いられる中間言語
とは、ソース言語およびターゲット言語のどちらにも依
存しない概念である。したがってソース言語の解析処理
を一度行なって中間言語を得れば、この中間言語から複
数の言語を生成することができるため、多言語間翻訳に
有利であるとされる。しかし、このようなピボット方式
では、その基本的概念である中間言語を本当に設定でき
るかどうかという点が未解決である。

【００２４】トランスファ方式はピボット方式のこのよ
うな問題に対する妥協案であって、現在の多くのシステ
ムはこのトランスファ方式を採っている。以下の説明は
トランスファ方式についてのものであり、後述する実施
例の機械翻訳装置もトランスファ方式を用いたものであ
る。

【００２５】以下、図２に示される各解析処理の内容に
ついて説明する。（１）辞書引き、形態素解析この処理においては、入力された文章に対して、形態素
が格納された辞書を参照しながらたとえば最長一致法な
どを用いて形態素列（単語列）に分割する処理がまず行
なわれる。そして、得られた各単語に対する品詞などの
文法情報および訳語を得、さらに時制・人称・数などを
解析する処理が行なわれる。

【００２６】（２）構文解析この処理においては、品詞・変化形などに基づき、単語
間のかかり受けなどの文章の構造（構造解析木）を組立
て、決定する処理が行なわれる。この処理においては、
得られた文章の構造が正しい意味を表わすかどうかにつ
いての判断は行なわれない。

【００２７】（３）意味解析構文解析処理の結果得られた複数の構造解析木から、意
味的に正しいものとそうでないものとを判別し、正しい
もののみを採用する処理が行なわれる。

【００２８】（４）文脈解析文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。

【００２９】次に、図３に示すこの発明の一実施例であ
る機械翻訳装置のブロック図について説明する。この機
械翻訳装置は、メインＣＰＵ（中央処理装置）３１と、
メインＣＰＵ３１が接続されたバス３７と、バス３７に
接続されたメインメモリ３２と、バス３７に接続された
ＣＲＴ（陰極線管）やＬＣＤ（液晶表示装置）などから
なる表示装置３３と、キーボード３４と、バス３７に接
続された翻訳モジュール３５と翻訳モジュール３５に接
続された翻訳用の辞書・文法規則および木変換構造規則
などの知識ベースを格納している辞書メモリ３６とを含
む。

【００３０】翻訳モジュール３５は、ソース言語の文章
が入力されると、それを所定の手順で翻訳してターゲッ
ト言語を出力するためのものである。図４に翻訳モジュ
ール５のブロック図を示す。

【００３１】翻訳モジュール３５は、バス３７に接続さ
れ、バス３７を介して入力されるソース言語（本実施例
の場合には英語）を、所定の翻訳プログラムに従って翻
訳してターゲット言語（本実施例の場合には日本語）と
してバス３７に出力するための翻訳ＣＰＵ４５と、バス
３７に接続され、翻訳ＣＰＵ４５で実行される翻訳プロ
グラムを格納するための翻訳プログラムメモリ４６と、
入力されたソース言語の原文を各単語ごとに格納するた
めのバッファＡ（４０）と、バッファＡ（４０）に格納
された各単語につき、辞書メモリ３６に含まれる辞書を
参照して得た各単語の品詞、訳語などの情報を格納する
ためのバッファＢ（４１）と、ソース言語の構造解析木
に関する情報を格納するためのバッファＣ（４２）と、
バッファＣ（４２）に格納されたソース言語の構造解析
木が変換されたターゲット言語の構造解析木を格納する
ためのバッファＤ（４３）と、バッファＤ（４３）に格
納された日本語の構造解析木に適切な助詞や助動詞など
を補充して、日本語の形として整えられた文章を格納す
るためのバッファＥ（４４）とを含む。以上のような構
成を持つ翻訳モジュールにおいて、図２に示したレベル
Ｌ３までの解析処理を行うものとする。

【００３２】図５に翻訳モジュールの処理構造を示す。
同図において、５１はソース言語に対して辞書引き・形
態素解析処理を行なうための辞書引き・形態素解析部で
あり、５２はソース言語中にイディオムが存在する場合
にイディオムの同定、解析及び訳語を生成するイディオ
ム翻訳部、５３は形態素解析された入力文章に対して構
文解析を行なうための構文解析部、５４は構文解析の結
果を変換してターゲット言語の構造解析木を生成するた
めの構文変換部、５５は構文変換部５４によって生成さ
れたターゲット言語の構造解析木に基づき、ターゲット
言語の翻訳文を生成するための翻訳文生成部である。

【００３３】辞書引き・形態素解析部５１は、入力され
た文字列を単語に分解し、各単語の品詞情報を生成する
品詞抽出部５１ａと、各単語の訳語の候補を生成する訳
語抽出部５１ｂとからなる。

【００３４】イディオム翻訳部５２は、辞書引き・形態
素解析部５１によって分解された単語列と表現形式が一
致可能なイディオム見出語の候補をあらかじめ登録され
ているイディオムの中から選択するイディオム検索部５
２ａと、イディオム検索部５２ａで選択されたイディオ
ム候補の中から、イディオムの見出語を１つに特定する
イディオム同定部５２ｂと、１つに特定されたイディオ
ムと対応する単語列の構文を解析し、イディオム全体の
文構成を生成するイディオム解析部５２ｃと、イディオ
ムの文構成をもとに、入力された単語列のイディオム部
分の訳語を生成するイディオム訳語生成部とからなる。
なお各部５１〜５５で行なわれる処理については、後に
詳述する。

【００３５】以下、図３〜図１０を参照して、本実施例
の機械翻訳装置による英日翻訳の動作を説明する。ここ
では、イディオムを含まない英文“Ｔｈｉｓｉｓａ
ｐｅｎ．”を例にとって、この英文を日本文に翻訳す
る動作の概要を示す。

【００３６】まず、読込まれた原文は形態素解析によっ
て形態素に分解され、図６に示されるようにバッファＡ
（４０）（図４参照）に格納される。続いて翻訳プログ
ラムメモリ４６に記憶されたプログラムに基づく翻訳Ｃ
ＰＵ４５の制御の下に、図５に示される辞書引き・形態
素解析部５１によって、バッファＡ（４０）に格納され
た原文の各単語につき、辞書メモリ３６に格納されてい
る辞書を参照することにより各単語の訳語や品詞情報な
どの情報が得られる。この情報は図４に示されるバッフ
ァＢ（４１）に格納される。

【００３７】これらの情報の一部として、各単語の品詞
情報が含まれるが、これら品詞情報は図７に示されるよ
うに格納される。すなわち“ｔｈｉｓ”の多品詞語であ
って代名詞、指示形容詞の２つの品詞を持つ。また“ｉ
ｓ”の品詞は動詞である。同様に“ａ”、“ｐｅｎ”に
ついてもそれぞれの品詞がバッファＢ（４１）に格納さ
れる。“ｔｈｉｓ”は多品詞語であるが、文中の品詞が
何であるかについては、図５に示される構文解析部５３
に相当する処理によって一意に決定される。

【００３８】翻訳プログラムのうち図５に示される構文
解析部５３に相当する処理においては、辞書メモリ３６
に格納された辞書および文法規則に従って、各単語間の
かかり受け関係を示す構造解析木がたとえば図８に示さ
れるように決定される。この構文解析結果は図４のバッ
ファＣ（４２）に格納される。

【００３９】構造解析木の決定は次のようにして行なわ
れる。辞書メモリ３６に格納された文法規則のうち、英
語に関する文法規則は次のようなものから成り立ってい
る。文→主部、述部主部→名詞句述部→動詞、名詞句名詞句→代名詞名詞句→冠詞、名詞この規則のうちたとえば１つ目の規則は、「文は主部と
述部からできている。」ということを表わす。他の規則
についても同様である。これらの規則に従って構造解析
木が決定される。なお、このような文法規則は同じよう
に日本語についても用意されており、英語の文法規則と
日本語の文法規則との間で対応づけがなされている。

【００４０】翻訳プログラムのうち、図５に示される構
文変換部５４に相当する処理においては、入力された英
文の構造解析木（図８参照）の構造が、図９に示される
日本文に対する構文解析木の構造に変換される。この変
換においては、上述の構文解析部５３が利用したのと同
様に、辞書メモリ３６に格納されている「木構造変換規
則」が用いられる。この変換は、図２でいえばレベルＬ
３からターゲット言語のレベルＬ９への変換に相当す
る。得られた結果は図４に示されるバッファＤ（４３）
に格納される。この説明において用いられている例文
“Ｔｈｉｓｉｓａｐｅｎ．”は、この変換によって
日本語文字列「これペンである」に変換されたこと
になる。

【００４１】翻訳プログラムのうち図５の翻訳文生成部
５５に相当する処理を行なう部分は、得られた日本語文
字列「これペンである」に適切な助詞「は」や助動
詞をつけることにより、図１０に示されるような文法的
な日本語の形にし、図４に示されるバッファＥ（４４）
に格納す。この処理は、図２に示されるレベルＬ９から
レベルＬ１０への変換に相当する。得られた日本文「こ
れはペンである。」は、図３に示される翻訳モジュール
３５から出力され、メインメモリ３２に格納されるとと
もに、表示装置３３に表示される。

【００４２】次に、単語又は単語列を代表記号で表現し
たイディオムの登録について説明する。図１１に、代表
記号のテーブルの例を示す。このテーブルは、辞書メモ
リ３６の中にあらかじめ記憶されているものとする。同
図に示すように、代表記号は種々の品詞を表わすｔｅｒ
ｍｉｎａｌ代表記号と、主として文・句・節と呼ばれる
単語列からなるｎｏｎ−ｔｅｒｍｉｎａｌ代表記号に分
類することができる。

【００４３】図１２〜図１６に、イディオムの登録例を
示す。図に示すように、登録されたイディオムは英単語
及びその品詞、訳語及びその品詞で構成され、これらは
すべて辞書メモリ３６に記憶される。

【００４４】図１２は、〔ａｓＡａｓｃａｎｂ
ｅ〕というイディオムを代表記号を利用して登録したも
のである。ここでの‘Ａ’は単語、句又は文を表わすも
のとする。このイディオム例では、‘Ａ’として対応す
るものは形容詞の一単語のみである。そこで、図１１の
代表記号テーブルにおいて、形容詞を表す代表記号は＊
ａであるので、英単語の欄に〔ａｓ＊ａａｓｃａ
ｎｂｅ〕という形式で登録する。

【００４５】続く品詞の欄はイディオムの品詞を登録す
るものであるが、この場合形容詞句であり、＊ａの形容
詞と同義であるので指定しない。このように指定しない
のは、今の場合代表記号に入るのが形容詞だけと特定で
きたが、形容詞か副詞が入るという場合、入った品詞に
よって、イディオムの品詞が変わるからである。例え
ば、副詞が入った時は、そのイディオムは副詞句とな
り、形容詞が入った時は形容詞句になるという様に指定
する。

【００４６】続いて訳語を「この上もなく＊ａ」のよう
に、＊ａが日本語のどの部分に当たるのかを明確にして
おく。最後の品詞の欄は訳語の品詞指定であるが、訳語
が＊ａのように代表記号で終っており、＊ａの活用によ
って変わるので品詞は特定できない。そこで何も指定し
ないのであるが、訳語の品詞は後の処理で特定される。

【００４７】次に図１３は〔ａｓＡａｓＢ〕で
‘Ａ’が形容詞、‘Ｂ’にｔｏ不定詞が入るイディオム
である。形容詞の一単語は代表記号テーブルを参照して
＊ａであり、ｔｏ不定詞は＊Ｉである。そこで図１２と
同じように登録するが、代表記号が２つあり、次の項目
の品詞指定で品詞を指定しなくてもよいようにするた
め、どちらが中心語であるかを指定する。ここでは、＊
ａが中心語となるので、＊の記号を付け加えて、＊＊ａ
とし、英単語の項目に〔ａｓ＊＊ａａｓ＊Ｉ〕と
登録する。

【００４８】続いて品詞については、このイディオムは
形容詞句であり、中心語の＊ａと一致するため指定しな
い。訳語は「＊Ｉ［体：］ほど＊ａ」とする。ここで、
‘＊Ｉ［体：］’はｔｏ不定詞を訳す時に連体形にする
ように指定する記号である。最後の品詞は図１２の時と
同様に＊ａで終っていて特定できないので書かない。

【００４９】図１４は、〔ＡｔｈｒｏｕｇｈＢ〕と
いう形式のイディオムを登録したものである。このイデ
ィオムでは、‘Ａ’には数詞又は名詞句が入るので、図
１１の代表記号として＊ｍ又は＊Ｎが対応する。このよ
うに複数個の代表記号が対応する時は、まとめて＊ｍＮ
と書くことにする。この時の記号の順はｔｅｒｍｉｎａ
ｌ記号、ｎｏｎ−ｔｅｒｍｉｎａｌ記号の順とし、ｔｅ
ｒｍｉｎａｌ記号どうし、ｎｏｎ−ｔｅｒｍｉｎａｌ記
号どうしの場合は順序を問わない。この順序は後の処理
の順序に関係し、先頭の代表記号の方、ここでは‘ｍ’
の方が優先的に処理される。

【００５０】また‘Ｂ’にも数詞又は名詞句が入り、
‘Ａ’と同様に＊ｍＮとなるが、‘Ａ’と‘Ｂ’の区別
をするために、＊ｍＮ１，＊ｍＮ２というように代表記
号のすぐ後に数字を振り当てて記述する。このように、
代表記号の列が複数個一致する時は１から順に数字を振
り当てる。また、この場合、品詞指定の項目で品詞を設
定するようにするので中心語を設定する必要はない。品
詞指定に関して、このイディオムでは代表記号の所に数
詞が入った場合でも、名詞句が入った場合でも、名詞句
として扱うのが望ましいと考えられるので名詞句と指定
する。

【００５１】続く訳語に関しても、「＊ｍＮ１から＊ｍ
Ｎ２まで」のように英単語の項目と同じように番号を明
確に表現して指定する。最後の品詞は、この場合訳語が
「〜まで」と活用しない形で終っているので、‘その
他’を指定する。

【００５２】図１５及び図１６はどちらも〔Ａｔｉｍ
ｅｓａｓＢａｓＣ〕のイディオムを登録したも
のである。このように二つに分けて登録するのは、
‘Ｃ’の部分に文または名詞句が来る時と、人称代名詞
の主格＋助動詞が来る場合では、代表記号に置き換えた
時に、一方は‘＊ＣＮ’、他方は‘＊３＊ｘ’と表現
されこの部分の文法上の構造が異なり、また代表記号の
数が一致しないので、一つにまとめることはできないか
らである。しかしながらこのように複数にわけて書くこ
とを認めることにより、より多くのイディオムを登録可
能とし、様々なタイプの入力文に対応できる。

【００５３】また図１６の訳語で、「＊ｍ倍＊Ｃ
［体：］Ｎより＊ａｄ」となっているが、これは、＊Ｃ
の時は連体形で活用し、Ｎの時は活用しないことを示
す。このように複数のカテゴリーを指定する時で、活用
形があるときは、一つごとに指定する。例えば、一つの
可変部分に名詞句、形容詞句、又は副詞句が入り、形容
詞句は連体形で活用し、副詞句は終止形で活用する場合
は、＊ＮＡ［体：］Ｄ［終：］と書くようにする。

【００５４】次に図１７に示すフローチャートを用いて
代表記号によって登録されたイディオムと入力文字列と
の同定処理及び訳語出力処理について説明する。イディ
オムの登録の例である図１２〜図１６のイディオムがす
でに辞書メモリ３６の中に登録されているものとする。

【００５５】図１７は、代表記号によって登録されたイ
ディオムと入力文字列との同定から構文解析処理へのデ
ータの受渡しまでの処理を示したフローチャートであ
る。図１８は文法規則の一部であり、実施例で使用され
るステップＳ６用の文法規則である。この文法規則はあ
らかじめ必要な数だけ辞書メモリ３６に記憶しておく。
以下、［Ｔｈｉｓａｐｐｌｅｉｓｔｈｒｅｅｔ
ｉｍｅｓａｓｂｉｇａｓｔｈａｔｏｒａｎｇ
ｅ．］という文が入力された場合を例にとり説明する。

【００５６】まず、ステップＳ１で辞書引きが行なわれ
る。これにより品詞情報および、細分類の情報が翻訳モ
ジュール３５の中の品詞バッファにセットされる。この
例文の品詞バッファのメモリ内容を表したものが図１９
である。

【００５７】ステップＳ２では、図１１の代表記号テー
ブルと図１２から図１６に示す代表記号によって登録さ
れたイディオムが参照され、登録されたイディオムの中
に図１９に示された品詞バッファの各語及び品詞とマッ
チできるものがあるかどうかを探索する。図１９に示さ
れた品詞バッファを見て登録されたイディオムとマッチ
するものを捜す。

【００５８】この例文の場合、まず品詞バッファ５の
‘ｔｉｍｅｓ’が図１５によって登録されたイディオム
の‘ｔｉｍｅｓ’とマッチし、次に品詞バッファ６の
‘ａｓ’、品詞バッファ８の‘ａｓ’が図１５のそれぞ
れの‘ａｓ’とマッチする。また、図１６のイディオム
も同じ‘ｔｉｍｅｓ’、‘ａｓ’、‘ａｓ’を持ってい
るのでマッチし、結局、図１５及び図１６とも入力文と
マッチする可能性のあるイディオムとなる。ここで、生
成されたイディオムバッファの数は２に設定される。

【００５９】さらに、それぞれの代表記号が置き換えら
れる単語や句、文がイディオムバッファにセットされ
る。具体的に説明すると、図１５のイディオムの＊ｍに
当たるのが、‘ｔｈｒｅｅ’であり、＊＊ａｄに当たる
のが‘ｂｉｇ’、＊３が‘ｔｈａｔ’，＊ｘが‘ｏｒａ
ｎｇｅ’となりイディオムバッファ１にセットされる
（図１９参照）。

【００６０】図１６のイディオムの場合は、図１５の対
応とほぼ同じであるが、最後の＊ＣＮの部分が‘ｔｈａ
ｔｏｒａｎｇｅ’となる。それらを格納したのが図２
０のイディオムバッファ２である。なお、ステップＳ２
において、イディオムとマッチしなければ、通常のステ
ップＳ１４の構文解析の処理に移る。

【００６１】ステップＳ３では、カウンタ１の値を１に
初期化する。このカウンタ１は、イディオムバッファの
番号を処理するために利用する。ステップＳ４では、カ
ウンタ２の値を１に初期化する。このカウンタ２は、イ
ディオムバッファの内の代表記号の番号を処理するため
のものである。

【００６２】ステップＳ５では、カウンタ１の値が指す
イディオムバッファの中にある代表記号のうちカウンタ
２が示す順番の代表記号に注目しｔｅｒｍｉｎａｌ記号
かどうか判断する。この場合はカウンタ１の値は１であ
るので、イディオムバッファ１を注目し、その中でカウ
ンタ２が示す順番、つまりこの場合は１番目＊ｍに注目
する。そしてその先頭の代表記号がｔｅｒｍｉｎａｌ記
号かどうかを判断する。この場合、＊ｍはｔｅｒｍｉｎ
ａｌ記号なので、ステップＳ８に処理を移す。

【００６３】ステップＳ８では、代表記号と英単語がマ
ッチするかどうかを見る。この場合、注目されている英
単語は‘ｔｈｒｅｅ’であり、図１９の品詞バッファか
ら数詞、つまり代表記号の＊ｍにマッチすることがわか
り、ステップＳ９に処理を移す。

【００６４】もしステップＳ８でマッチしなければ、ス
テップＳ８０に処理を移す。ステップＳ８０では代表記
号文字列がｎｏｎ−ｔｅｒｍｉｎａｌ記号を含むか判定
し、含む場合はステップＳ６に処理を移し、含まない時
はステップＳ１２に処理を移す。

【００６５】ステップＳ９では、カウンタ２の値を１増
やす。今は、カウンタ２は１であったので２になる。ス
テップＳ１０は、カウンタ２の値がイディオムバッファ
の代表記号の数より大きいかどうか判定する。ここでカ
ウンタ２の値がイディオムバッファの数よりも大きけれ
ば、その候補のイディオムと完全にマッチしたことにな
る。今の場合は、カウンタ２の値は２であり、イディオ
ムバッファ内の代表記号の数は４であるので、失敗しス
テップＳ５に処理を移す。

【００６６】ステップＳ５では、また注目する代表記号
がｔｅｒｍｉｎａｌ記号であるかどうか判定するが、今
回は、カウンタ２の値は２となっているため、図１５に
おける＊＊ａｄ、すなわち図２０における＊ａｄが先頭
として注目される。＊ａｄは図１１の代表記号テーブル
によればｔｅｒｍｉｎａｌ記号であるため、ステップＳ
８に処理を移す。

【００６７】ステップＳ８では、代表記号‘＊＊ａｄ’
と対応する英単語‘ｂｉｇ’とがマッチするかどうかを
判定する。英単語‘ｂｉｇ’は形容詞であるので、＊＊
ａｄの中の＊ａの方とマッチする。次にステップＳ９の
処理へ進む。

【００６８】ステップＳ９の処理でカウンタ２の値が３
となり、ステップＳ１０で判定に失敗し、ステップＳ５
に戻る。ステップＳ５では、注目するのは＊３であり、
これはｔｅｒｍｉｎａｌ記号であるのでステップＳ８に
処理が移る。

【００６９】ステップＳ８で‘ｔｈａｔ’と＊３がマッ
チするかどうかを判定するが、‘ｔｈａｔ’の品詞は図
１９の品詞情報バッファにより、代名詞か限定詞か関係
代名詞であるので、＊３の示す代名詞（主格）とマッチ
する。

【００７０】次にステップＳ９で、カウンタ２の値が４
となり、ステップＳ１０で判定に失敗し、ステップＳ５
に戻る。ステップＳ５で、注目するのは＊ｘであり、こ
れはｔｅｉｍｉｎａｌ記号であるのでステップＳ８に処
理が移る。

【００７１】ステップＳ８で‘ｏｒａｎｇｅ’と＊ｘが
マッチするかどうかを判定するが、‘ｏｒａｎｇｅ’の
品詞は図１９の品詞情報バッファによると、名詞であ
り、＊ｘは助動詞であるためマッチしない。そこでＳ８
０に処理を移す。ステップＳ８０では、今注目している
代表記号は＊ｘであり、ｎｏｎ−ｔｅｒｍｉｎａｌ記号
を含まないのでステップＳ１２に処理を移す。もしここ
で注目している代表記号が、＊ａＮのようなｎｏｎ−ｔ
ｅｒｍｉｎａｌ記号を含む場合はステップＳ６に処理を
移す。これはＮの方がマッチする可能性があるので、そ
れを調べるためである。

【００７２】ステップＳ１２は、カウンタ１の値を１増
やす処理である。今、カウンタ１は１であったので２に
なる。この処理は注目していたイディオムバッファを次
のものに移すためのである。ステップＳ１３は、カウン
タ１の値がイディオムバッファの数より大きくないかど
うかを判定する。これはカウンタ１の値がイディオムバ
ッファの数よりも大きければ、入力文とマッチする可能
性のあったイディオムはすべて調べたことになり、処理
をステップＳ１４へ移す。今の場合は、カウンタ１の値
は２であり、かつイディオムバッファの数は２であるの
でステップＳ４に戻る。

【００７３】ステップＳ４では、カウンタ２の値を１に
セットしなおす。これは今のままではカウンタ２の値は
３になっており、次の処理に進んだ時、イディオムバッ
ファの３番目の代表記号から処理が始まってしまうた
め、カウンタ２の値を１に初期化する。

【００７４】再びステップＳ５の処理であるが、今注目
しているのが、イディオムバッファ２の一番目、＊ｍで
ありｔｅｉｍｉｎａｌ記号であるので、ステップＳ８に
処理を移す。これ以降の処理においてカウンタ２の値が
３になり、代表記号＊ＣＮが注目されるまでの処理は前
記したイディオムバッファ１と同じ処理が繰り返される
ため、ここでは省略する。

【００７５】今カウンタ２の値が３になりステップＳ５
の処理に入ったとする。代表記号は＊ＣＮであり、これ
はｎｏｎ−ｔｅｒｍｉｎａｌ記号であるから、ステップ
Ｓ６に処理を移す。

【００７６】ステップＳ６では、単語列を構文解析して
文または句にするものである。今注目されているのは、
イディオムバッファ２の３番目の英単語列‘ｔｈａｔ
ｏｒａｎｇｅ’である。そこで１９図の品詞バッファに
記憶された‘ｔｈａｔｏｒａｎｇｅ’に対応する品詞
情報９，１０に対して、図１８に示す文法規則が適用さ
れる。ここで‘ｔｈａｔ’はＤＥＴ（限定詞）、‘ｏｒ
ａｎｇｅ’はＮＯＵＮ（名詞）と認識され、‘ｔｈａｔ
ｏｒａｎｇｅ’は規則６がマッチングする。すなわ
ち、‘ｔｈａｔｏｒａｎｇｅ’はＮＰ（名詞句）と認
定される。

【００７７】もしステップＳ６における構文解析が失敗
した時は、ステップＳ６１において処理をステップＳ１
２へ移すが、今は成功したため、処理は次のステップＳ
７へ入る。ステップＳ７では、ステップＳ６で認定され
た名詞句に対応する訳語の生成を行なう。ここでの処理
は、図５における構文変換部５４及び翻訳文生成部５５
で行われるものを利用する。すなわち、‘ｔｈａｔｏ
ｒａｎｇｅ’は「あのオレンジ」と訳される。

【００７８】次に、ステップＳ８１で代表記号とのマッ
チを行なう。今、図１１により英単語‘ｔｈａｔｏｒ
ａｎｇｅ’はＮＰ（名詞句）なので、代表記号＊ＣＮの
＊Ｎとマッチする。Ｓ９でカウンタ２の値が４になる。
次にステップＳ１０でカウンタ２の値（＝４）はイディ
オムバッファ内の代表記号の数（＝３）よりも多いので
ステップＳ１１に移る。

【００７９】ステップＳ１１では入力文にマッチしたイ
ディオムを辞書バッファに登録する。登録は英単語列と
その品詞、訳語とその品詞である。英単語列には図１６
に示すイディオムの代表記号を英単語で置き換えた［ｔ
ｈｒｅｅｔｉｍｅｓａｓｂｉｇａｓｔｈａｔ
ｏｒａｎｇｅ］が入り、品詞には中心語が形容詞だった
ので形容詞句が入る。

【００８０】訳語には図１６の訳語のところの代表記号
をその各単語の訳語で置き換えたものが入る。この場合
は「３倍あのオレンジより大きい」が入る。訳語の品詞
は、イディオムの登録の際に述べたように、訳語の最後
の単語の品詞と活用によって決まり、この場合は「大き
い」なので、形容詞となる。この結果を示したものが図
２２である。

【００８１】次にステップＳ１２でカウンタ１の値を１
増やすので、カウンタ１の値は３になる。ステップＳ１
３でカウンタ１の値が３であり、イディオムバッファの
数が２であるので成功し、辞書引きのすべての処理が終
ったことになる。

【００８２】そしてこの辞書引きされた結果（図２３に
示されたもの）がステップＳ１４の通常の構文解析に渡
される。これ以下の処理は図６の例で示した［Ｔｈｉｓ
ｉｓａｐｅｎ．］の処理と同様であり、入力文全
体の翻訳処理を実行後、最後に日本語文「このりんごは
３倍あのオレンジより大きい」が生成される。

【００８３】以上のように、イディオムの中に存在する
複数の可変部分を代表記号で表わすことにより、イディ
オムを簡単に登録及び検索することができ、さらにイデ
ィオムを含む入力文の適切な翻訳文を生成することがで
きる。

【００８４】

【発明の効果】この発明によれば、イディオムにおける
可変部分を代表記号で表わすことにより、イディオム中
に可変部分が複数存在する場合や可変部分に単語だけで
なく句が入る場合でも、イディオムを簡単に登録及び検
索することができる。また、この可変部分の表現形式で
ある代表記号が、１つの表現で、複数の単語の品詞や句
に対応できるように記述されるため、イディオムの可変
部分に対するあらゆるパターンを登録する必要はなく、
登録時間の短縮、翻訳労力の削減および情報記憶容量の
増大の防止ができる。また、イディオム全体の品詞を代
表する中心語に対応する代表記号を指定することによっ
て、イディオムの登録が簡単になり、さらにイディオム
を含む入力文の適切な翻訳文を生成することができる。

【図面の簡単な説明】

【図１】この発明の辞書検索装置の構成を示すブロック
図である。

【図２】機械翻訳の概念を模式的に示す図である。

【図３】この発明の辞書検索装置の一例を含む機械翻訳
装置のブロック図である。

【図４】図３に示される翻訳モジュール３５のブロック
図である。

【図５】翻訳モジュールにおける入力文の解析から翻訳
文の生成までの処理構造を示す図である。

【図６】バッファＡの格納内容を模式的に示す図であ
る。

【図７】バッファＢの格納内容を模式的に示す図であ
る。

【図８】バッファＣの格納内容を模式的に示す図であ
る。

【図９】バッファＤの格納内容を模式的に示す図であ
る。

【図１０】バッファＥの格納内容を模式的に示す図であ
る。

【図１１】イディオムの登録に使用する代表記号テーブ
ルの例を示す図である。

【図１２】図１１に示した代表記号を用いたイディオム
の登録例を示す図である。

【図１３】図１１に示した代表記号を用いたイディオム
の登録例を示す図である。

【図１４】図１１に示した代表記号を用いたイディオム
の登録例を示す図である。

【図１５】図１１に示した代表記号を用いたイディオム
の登録例を示す図である。

【図１６】図１１に示した代表記号を用いたイディオム
の登録例を示す図である。

【図１７】代表記号によって登録されたイディオムと入
力文との同定処理及び訳語出力処理のフローチャートで
ある。

【図１８】構文解析用の文法規則を示す図である。

【図１９】入力文を辞書引きした後に生成される品詞バ
ッファの内容の一部を示す模式図である。

【図２０】イディオムの代表記号と単語との対応関係を
記憶したイディオムバッファの内容を示す模式図であ
る。

【図２１】イディオムの代表記号と単語との対応関係を
記憶したイディオムバッファの内容を示す模式図であ
る。

【図２２】マッチングに成功した入力文のイディオム部
に関する情報の登録例を示す模式図である。

【図２３】イディオム部分の翻訳が終了し入力文のすべ
ての辞書引きが完了した後に生成される結果を示す模式
図である。

【符号の説明】

１入力手段２イディオム登録手段３辞書引き・形態素解析手段３ａ品詞抽出部３ｂ訳語抽出部４イディオム翻訳手段４ａイディオム検索部４ｂイディオム同定部４ｃイディオム解析部４ｄイディオム訳語生成部５構文解析手段６構文変換手段７翻訳文生成手段８出力手段９記憶手段９ａ辞書メモリ９ｂバッファメモリ９ｃイディオム登録メモリ３１メインＣＰＵ３２メインメモリ３３表示装置３４キーボード３５翻訳モジュール３６辞書メモリ３７バス

───────────────────────────────────────────────────── フロントページの続き (72)発明者鈴木等大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内 (56)参考文献特開昭58−92063（ＪＰ，Ａ) 特開昭58−40684（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/20 - 17/28

Claims

(57)【特許請求の範囲】

【請求項１】文字列および記号を入力する入力手段
と、所定の属性を共有する単語又は単語列の集合を代表
する代表記号を１つ又は複数個持ち、複数の属性が対応
する単語又は単語列の部分を複数の代表記号を複合した
形式で表現したイディオムの見出し語と訳語を登録する
イディオム登録手段と、イディオムの登録と翻訳処理に
必要な辞書及び処理結果を記憶する記憶手段と、入力単
語列を形態素に分解し、かつ文法解析を行う辞書引き・
形態素解析手段と、入力文字列あるいはその一部分と登
録されたイディオムの見出し語とを同定し、同定された
イディオムの見出し語に対応する文字列の訳語を生成す
るイディオム翻訳手段と、構文解析手段と、構文変換手
段と、翻訳文生成手段と、翻訳文を出力する出力手段と
を備え、イディオム登録手段が、複数の代表記号からな
るイディオムを登録する場合に、イディオム全体の品詞
を代表する中心語に対応する代表記号を指定した形式で
登録することを特徴とするイディオム登録機能を持つ機
械翻訳装置。