JPS5892063A - イデイオム処理方式 - Google Patents

イデイオム処理方式

Info

Publication number
JPS5892063A
JPS5892063A JP56189326A JP18932681A JPS5892063A JP S5892063 A JPS5892063 A JP S5892063A JP 56189326 A JP56189326 A JP 56189326A JP 18932681 A JP18932681 A JP 18932681A JP S5892063 A JPS5892063 A JP S5892063A
Authority
JP
Japan
Prior art keywords
idiom
memory
word
information
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56189326A
Other languages
English (en)
Inventor
Fumiyuki Yamano
山野 文行
Atsushi Okajima
岡島 惇
Yoshihiko Nitta
義彦 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP56189326A priority Critical patent/JPS5892063A/ja
Publication of JPS5892063A publication Critical patent/JPS5892063A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の利用分野 本発明は、第1言詰から第2言飴へ翻訳する際第1百飴
において、友とえは、慣用句のように2個以上の単語か
ら構成され、本来の個々の単語の機能とは異なる動きを
する船群(以下、イディオムと呼ぶ)を効率よく認識し
、処理する方式に関するものである。
(2)  従来技術 従来から任意の百飴関の翻訳処理過程においては、イデ
ィオム辞書等に記載されているイディオム情報を参照す
ることにより、最長一致検索郷の手法を用いてイディオ
ムの1識が行なわれている。
この方法では、イディオムの有無にかかわらず、イディ
オム辞書を検索する必要がある。11文字列のパターン
マツチングであるため変化語句を含むイディオムについ
てはそれぞれの変化語についてイディオム辞書に登録す
る必要が生じ、イディオム辞書の容量も増大し、併せて
、最長一致検索の九めの処理時間も増えるという問題が
ある。
(3i  発明の目的 本発明の目的は、上記の間趙点を改善し次イディオム処
理方式を提供することにある。すなわ、ち本発明におい
ては、イディオム辞書と年給辞書を連動させ几辞書デー
タ構造にすることによシ、単詣辞書検索時に、検索した
単語がイディオムの構成要素となりうる場合のみイディ
オムの認識処理を行なうことによシ、イディオム処理効
率の向上を図っている。さらに、イディオムパターンを
記号を用いて表記することによシ、変化語句を含むイデ
ィオムパターンを各変化語句対応に登録しなくても済む
ようにして辞書容量を削減している。
さらに、少ないイディオムパターンの登録で広範囲に及
ぶイディオム記述部できるようにしている。
(4)実施例 以下、本発明を実施例を参照して詳細に説明する。
第1図において、1はプロセッサ、2は英和辞書メモリ
、3は固定部メモリ、4はイディオムテーブルメモリ、
5は単語テーブルメモリ、6はキーボード等の人力装置
、7はディスプレイ装置を表わしている。
英和辞書メモリ2内には、英飴の単語をキーとして、そ
の単語に灼応するイディオム情報、品詞情報、親柱情報
、日本語の訳語等が格納されている。辞書メモリ2内の
構成は、本願と同日付出願の籍願56−    (@子
辞書の構成方式)に開示され友ような形式で行なわれて
おシ、固定部情報と、可変部情報に大別される。可変部
情報については、さらに、イディオム記述部と品詞別絆
細情報記述部から構成されている。
以下、本発明に関係するイディオム記述部の構成につい
て説明する。
イディオムの記述は、英和辞をメモリ2内のキーとなる
英語の年給かイディオムの構成要素となる場合に行なわ
れる。さらに1キ一単語の変化レベルに対応して、イデ
ィオムは2つに分類される。
つまり、キー単語が特定の活用形のみしか許されない場
合と、活用語翅変化可能な場合に分類される。これらは
、それぞれ、−次イディオムと二次イディオムとして区
別して辞書登録される。イディオムのパターンを記述す
る際に、−次イディオムは、キー単語が*、本P、*P
P、*ING。
*SGで表記され、二次イディオムでは、キー単語か十
で表記される。ここで、各記号は、率はキー単語そのも
の、本Pはキー単語が動詞の場合に過去形であること、
*PPはキー単語が動詞の場合に過去分詞形であること
、*INGはキー単語が動詞の場合に現在分詞形である
こと、*SGはキー単語が動詞の場合に三人称単数形で
あるか、キー単語が名詞の場合に複数形であることを示
し、+はキー単語そのものを含めたキー単語の活用給地
変化飴でおることを示す。以上のようなキー単語の表記
管用いて、イディオムパターンを記述する。その記述部
、第2図に示す記述方式に従う。
第2図において、αは、上で説明したキー単語を示して
いる。第2図の2番目と3番目と5番目の式の右辺に現
われる縦棒LSiIilil埋式におけるOrt意味す
る。すなわち、第2式は、αが*、+。
*P、本PPe *ING、*SGのいずれかであるこ
とを示している。く品詞記号列〉は、!の後にN(名詞
)やV(動詞)のような品詞記号を表  □記し、さら
に、各品詞記号毎に設定される付加情報である〈8制細
分類〉、<執性1〉、〈酸性2〉。
〈域、性3〉、く属性4>を必要に応じて表記したもの
であシ、この表記に従えば、品詞レベル以下の任意の制
限範囲で、語句を限定表記することができる。例えは、
名詞句を限定する場合は!Nで任意の名詞句が表記でき
、さらに゛限定して、人物に関する名詞句を限定する場
合は、!N2と表記すればよい。さらに範囲を限定した
ければ、上述し次付加情報を用いて表記することができ
る。〈〈率給〉はく単語文字列〉か、またはく単語文字
列〉の前に■を付加したものでおり、く単語文字列〉は
、patentのような年給そのものを示す。
例えは、eng旧sh  、■have 、 slow
ly %は、く単語〉となる。ここで、■が付加されて
いるく率給〉は、く単語文字列〉である単語の品詞が動
詞でろシ、その動詞が、三人称単数形や過去形や過去分
詞形や現在分詞形に変化している本のまでも含むことを
示すものである。例えば、timeというキー単語に、
have a  good  time というイディ
オムを登録し几い場合、haveはhash。
had、 havingと変化しても構わないので、イ
ディオムパターンとしては、■have a good
 *(*はキー率飴timei示す)と表記すればよい
イディオムパターン中のキー単語が*で始まる記号(*
、*P、*Pp、*ING、*SG)で表記される場合
を一次イディオムとして、十で表記される場合を二次イ
ディオムとして、−次イディオム、二次イディオムの顔
に辞書金縁が行なわれる、つまり、イディオム記述部は
、−次イディオム記述部と、二次イディオム記述部から
構成されることになる。−次イディオム記述部と二次イ
ディオム記述部の違いは、上述したように、キー単語の
表記の違いだけなので、以下、−次イディオム記述部に
ついて、詳しく説明する。
英和辞書メモリ2内では、ナ記号と数字1文字からなる
O、■、・・・・・・(王j)で示される区切シ記号に
より各穫格納データを識別可能な形式にして登録してい
る。−次イディオム記述部では、まず、キー単語の持つ
一次イディオムの個数をOの次に記述する。引き続き、
ムパターンに関する登録を行なう。まず、■の次に、イ
ディオムパターンを記述し、■の次に、イディオムパタ
ーンのとυうる品MiF]記号(NやV等)を記述し、
■の次に、イディオムパターンのとシうる品詞細分at
記述し、(0〕の次に、訳語情報を記述する。このよう
にして、1つのイディオムの登録が行なわれ、複数個の
イディオムがある場合は、引き統Q以下の記述を繰り返
せばよい。イディオムがない場合は、(「工)の次に0
と記述するだけでよい。
以上説明した記述方式に従って、イディオム記述部は記
述される。第3図に、timedキー率藷とした場合の
辞書記述例を示す。第3図において、8はキー単語、9
は固定部情報、10は可変部情報、11はイディオム記
述部、12は品詞別詳細情報記述部を示している。固定
部情報9(5巨)全区切シ記号として記述されておシ、
すべての単語は、必ず固定部情報金有する。固定部情報
9は、最初の(5工)の直後にイディオムの有無情報(
1であればイディオムが存在し、O″t′アればイディ
オムが存在しないことを示す。)t−記述し、残りの5
個の■の直後にキー単語8のとりうる品詞を記述する。
第3図では、固定部情報9より、timeがイディオム
の構成要素となり、time!の品詞はN(名詞)のみ
であることかわ力する。
固定部情報9のイディオムの有無情報カニ〇であれば、
イディオム記述部11は記述する必要はない。time
の例では、イディオムか存在するので、イディオム記述
部11のように記述されも。つまp、timeは一次イ
ディオムとして7個のイディオムを持ち、二次イディオ
ムは持九ないことカニわかる。−次イディオムとしては
、from ip t。
time (副詞で「時々」という意味をもつ)や、■
have a good time  (動詞テ「楽シ
く過コス」という意味金もつ)や、!N4  *SG 
 (!N4の部分は、three  +sixのような
数8句に限定され、具体例として、zhree ttm
e  であれば、名詞で「3@」という意味をもつ)な
どがある。
timeは品詞としてはN(名詞)をもつので、品詞別
詳細情報記述部12に品詞以下、品詞細分類、さらに訳
語情報が記述されている。
以上、イディオム記述部11を中心にした英和辞書メモ
リの記述について説明した。
次に、上記で説明したイディオムノくターンを用いたイ
ディオム処理方式について述べる。ここでは、具体例と
して、英語から日本語への翻訳処理の場合を例にとって
説明する。
翻訳処理は、第4図に示さnるフローに従ってなされる
。まず、英文テキストの文字列カニ人力され(100)
 、文字列から単語を抽出し友後、英和年給辞書検索(
101)が行なわれ、検索結果得られたデータをもとに
構文解析か(103)なされ、構文がg識され良後、対
応する和文の構文に変換され(104)、各単語に該当
する訳語カニ付与されて構文が出来上がる。
これらの具体的な処理方法については、本発明□ 者ら
が先に発明し九%鵬昭56−   (自然言語間の自動
翻訳方式)に詳述されている。
ところで、構文解析処理においては、入力された英文テ
キストを1英飴の文法規則に従って、解析していくこと
になるか、イディオムについては必ずしも文法規則に従
っているとは限らないため特別な処理を施して、文法規
則に従うようにする必要かめる。そのため処理がイディ
オム処理(102)である。
入力装置6よシ入力された英文テキストは、プロセッサ
1により、単語単位に分割された後、英和辞書メモリ2
に対して辞書検索が行なわれる。
その結果、検索データは次のように各種テーブルに格納
される。固定部情報は、固定部メモリ3に格納され、イ
ディオム記述部は、イディオムテーブルメモリ4に格納
され、品詞別詳細情報記述部は、単語テーブルメモリ5
に格納される。さらに、固定部メモリ3には、単語テー
ブルメモリ5へのポインタ情報と、併せて、イディオム
が存在する場合は、イディオムテーブルメモリ44のポ
インタ情報がセットされる。
イディオム処理(102)は、固定部メモリ3にセット
されているイディオムテーブルメモリ4へのポインタ情
報をチェックしく200)、もしボイ/り情報がセット
されていれば、イディオムテーブルメモリ4に格納され
ているイディオムパターンと一致するものが入力英文テ
キスト中にあるかどうかをチェックする(201)。チ
ェックの際、イディオムパターン中の、第3図に示した
く単語〉に該当するものは、英文テキストとのパターン
マツチングによシチェックすれ、〈品詞記号列〉に該当
するものは、各品詞記号毎に用意されているチェックル
ーチン(例えば!Nで表わせる名詞句については、名詞
句かどうかを解析するルーチンが用意されている)を起
動することによりチェックが行なわれる。このようにし
て、イディオムパターンが英文テキスト中に検出されれ
ば、英文テキスト中のイディオムパターンを1つの単語
と同等に扱えるようにまとめてしまう(202)。
一方、検出されなければ、次の単語に関する固定部メモ
リ3内のイディオムテーブルメモリ4へのボイyり情報
をチェックすることによシ同じ処理金繰シ返す。以上の
フローを示したものが第5図である。英文テキスト中の
すべての単語について、第5図に示し次処理を施すこと
によりイディオム処理は終了する。従って、イディオム
処理後は、英文テキスト中から、イディオムは除去され
て、あたかもイディオムが存在しないテキストに変換さ
れ次ことになる。つまシ、変換され次テキストは、文法
規則に整然と従ったものとなり、これに構文解析処理を
施し、構文を認識した後、日本語の構文に変換し訳文が
生成される。
以上説明したごとく本発明によれば、固定部メモリ内に
イディオムテーブルメモリへのポインタ情報がセットさ
れている場合のみ、イディオムの認識処理が行なわれる
ことによシ、翻訳の処理効率が上がる。さらに、イディ
オムパターンの記述方式において、記号を用いることに
より、少ないイディオムパターンの登録で、広範囲に及
ぶイディオム記述部することができる。
【図面の簡単な説明】
第1図は、本発明の一実施例の構成を示し、図中、1は
プロセッサ、2は英和辞書メモリ、3は固定部メモリ、
4はイディオムテーブルメモリ、5は単語テーブルメモ
リ、6はキ′−ボード等の人力装置、7はディスプレイ
装置を表わしている。 第2図は、英和辞薔メモリ中に格納するイディオムパタ
ーンの記述方式を示したものである。第3図は、英和辞
誓メモリ中に格納される単語データの記述例を示したも
ので、図中、8はキー単語、9は固定部情報、10は可
変部情報、11はイディオム記述部、12は品詞別詳細
情報紀述部を表わしている。第4図は、翻訳処理過程?
説明するためのフローチャート図、第5因は、本発明の
−実施fllの動作を説明するためのフローチャート図
第 1  図 45 x Z 図 〈イテiオムバターン>  =   Sc<sd=  
= * I + 1.pl *PP I灯〜G l *
SGS  =**(<品詞記号り・l〉1〈単官合〉1
55[<、I、a4>、1 〈単語〉=<単語文字用> l @<中語交狗・1〉第
 3 m

Claims (1)

    【特許請求の範囲】
  1. 1、第1言語から第2言飴への変換用辞書をメモリに格
    納し、入力された第1言飴の文書にもとづいて、上記メ
    モリの格納データを検索し、第2言鉛の文章に変換する
    翻訳装置において、上記変換用辞書は固定部と可変部と
    よりなり、固定Sは少なくともキーとなる単語の品飼情
    報と、イディオムの構成要素となシ得るか否かを示す情
    報とを含み、可変部は記号を用いて記述されたイディオ
    ムパターンを含み、入力され次第1言飴の文章から単語
    を切り出し、上記変換用辞書の固定s′t−検索し、そ
    の単語に関するイディオムが有るときのみ可変部を検索
    してイディオムtkg識すること1に%徴とするイディ
    オム処理方式。
JP56189326A 1981-11-27 1981-11-27 イデイオム処理方式 Pending JPS5892063A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56189326A JPS5892063A (ja) 1981-11-27 1981-11-27 イデイオム処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56189326A JPS5892063A (ja) 1981-11-27 1981-11-27 イデイオム処理方式

Publications (1)

Publication Number Publication Date
JPS5892063A true JPS5892063A (ja) 1983-06-01

Family

ID=16239475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56189326A Pending JPS5892063A (ja) 1981-11-27 1981-11-27 イデイオム処理方式

Country Status (1)

Country Link
JP (1) JPS5892063A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6386071A (ja) * 1986-09-30 1988-04-16 Nippon Telegr & Teleph Corp <Ntt> 自然言語翻訳方式
JPS63168775A (ja) * 1987-01-07 1988-07-12 Nippon Telegr & Teleph Corp <Ntt> 自然言語慣用表現解析変換装置
JPH02133873A (ja) * 1988-11-15 1990-05-23 Ricoh Co Ltd イディオム処理装置を備えた英日機械翻訳システム
JPH05334339A (ja) * 1992-06-03 1993-12-17 Brother Ind Ltd 機械翻訳装置
JPH06139272A (ja) * 1992-10-30 1994-05-20 Sharp Corp イディオム登録機能を持つ機械翻訳装置
US5475586A (en) * 1992-05-08 1995-12-12 Sharp Kabushiki Kaisha Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms
US8165879B2 (en) 2007-01-11 2012-04-24 Casio Computer Co., Ltd. Voice output device and voice output program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6386071A (ja) * 1986-09-30 1988-04-16 Nippon Telegr & Teleph Corp <Ntt> 自然言語翻訳方式
JPS63168775A (ja) * 1987-01-07 1988-07-12 Nippon Telegr & Teleph Corp <Ntt> 自然言語慣用表現解析変換装置
JPH02133873A (ja) * 1988-11-15 1990-05-23 Ricoh Co Ltd イディオム処理装置を備えた英日機械翻訳システム
JP2967489B2 (ja) * 1988-11-15 1999-10-25 株式会社リコー 機械翻訳装置
US5475586A (en) * 1992-05-08 1995-12-12 Sharp Kabushiki Kaisha Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
JPH05334339A (ja) * 1992-06-03 1993-12-17 Brother Ind Ltd 機械翻訳装置
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms
JPH06139272A (ja) * 1992-10-30 1994-05-20 Sharp Corp イディオム登録機能を持つ機械翻訳装置
US8165879B2 (en) 2007-01-11 2012-04-24 Casio Computer Co., Ltd. Voice output device and voice output program

Similar Documents

Publication Publication Date Title
Shaalan et al. Challenges in Arabic natural language processing
KR101099177B1 (ko) 기계 번역기를 훈련하기 위한 방법 및 시스템
Fung Compiling bilingual lexicon entries from a non-parallel English-Chinese corpus
EP0262938B1 (en) Language translation system
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Dien et al. POS-tagger for English-Vietnamese bilingual corpus
Thet et al. Word segmentation for the Myanmar language
Megerdoomian Finite-state morphological analysis of Persian
JPH01217623A (ja) キーワード自動生成装置
JPS5892063A (ja) イデイオム処理方式
Bakay et al. A tree-based approach for English-to-Turkish translation
Oakes et al. Bilingual text alignment-an overview
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
Aikawa et al. Generation for multilingual MT
KR100650393B1 (ko) 한국어 발음 기호열 생성 시스템 및 그 방법 및 상기방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을수 있는 기록매체
Jaruskulchai An automatic indexing for Thai text retrieval
Moghadam et al. A Survey of Part of Speech Tagging of Latin and non-Latin Script Languages: A more vivid view on Persian
Knapp et al. Multiple use of content in a web-based language learning system
KR19990053161A (ko) 의미기반 정보검색을 위한 관련동사의 검색방법
Megerdoomian Low-density language strategies for Persian and Armenian
Nojoumian Towards the development of an automatic diacritizer for the Persian orthography based on the Xerox finite state transducer
JPS63109572A (ja) 派生語処理方式
Simming et al. A survey on Bi-Directional Machine translation (MT) approaches of English/Arabic Languages: Contributions and Limitations
JPS62251873A (ja) イデイオムデ−タ処理方式
JPS6389976A (ja) 言語解析装置