JPH08185405A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH08185405A
JPH08185405A JP6326088A JP32608894A JPH08185405A JP H08185405 A JPH08185405 A JP H08185405A JP 6326088 A JP6326088 A JP 6326088A JP 32608894 A JP32608894 A JP 32608894A JP H08185405 A JPH08185405 A JP H08185405A
Authority
JP
Japan
Prior art keywords
text
tag
markup
symbol
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6326088A
Other languages
English (en)
Inventor
Hidezo Kugimiya
秀造 釘宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP6326088A priority Critical patent/JPH08185405A/ja
Publication of JPH08185405A publication Critical patent/JPH08185405A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 タグ記号を含む文書の機械翻訳を効率よくす
る。 【構成】 機械翻訳装置は、原文をタグ記号とテキスト
本体とに分離するとともに、原文内で複数の文に跨がっ
ているタグ記号が存在するときに、各文ごとに対応のタ
グ記号が含まれるようにタグ記号を補充するタグ記号判
別補充部101と、各タグ記号を単語と関連づけて記憶
する記憶部17と、ソース言語の構造解析木を作成する
部分11、12と、構造解析木をターゲット言語に変換
する変換部13と、ターゲット言語の構造解析木と記憶
部17の記憶内容とに基づき、原文においてタグ記号が
付されていた単語に対応する訳語に、不要なタグ記号は
排除しつつ等価なタグ記号を付してターゲット言語のテ
キストを生成する翻訳文生成部14およびタグ記号復元
部104とを含む。構文解析において、タグ記号で挟ま
れた部分を句として解析してもよい。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は機械翻訳装置に関し、
特に、RTF(Rich Text Format)、SGML(Standa
rd Generalized Markup Langage )、TeX等を含むマ
ークアップ記号等を含む文書を他の言語に翻訳すること
が可能な機械翻訳装置に関する。
【0002】
【従来の技術】従来から機械翻訳装置として次のような
ものが実用化されている。従来の機械翻訳装置は、たと
えばキーボードなどから入力されたソース言語の文書
を、CPU(中央演算処理装置)の制御により翻訳モジ
ュールに入力する。翻訳モジュールは、入力されたソー
ス言語のテキストを、メモリに記憶されている基本辞書
や、ユーザの登録によって準備されるユーザ辞書からな
る辞書群と、文法規則とを用いて解析し、構造解析木を
生成する。同様に、メモリに予め記憶されている、ソー
ス言語からターゲット言語への木構造変換規則を利用し
て、ソース言語のテキストの構造解析木をターゲット言
語の構造解析木に変換した上、各単語に適切な訳語を割
当て、さらに必要な部分を補ってターゲット言語のテキ
ストを生成する。
【0003】一方、最近では、小型のコンピュータを用
いて印刷の版下までも作成するようなDTP(Desk Top
Puplishing )機能を持った文書編集システムが普及し
てきている。そのため、文章からなるテキスト以外に図
や表を含む文書が多く作成されるようになっている。ま
た、TeXのように、テキスト中に、書体やフォントの
サイズ等の組版のための指定など、印刷のための付随情
報が含まれている場合がある。そのような情報は、たと
えばタイトルとそれ以外の部分との指定、使用する書
体、フォントのサイズなどの指定、索引として採用すべ
き語の指定情報などを含む。
【0004】これらの情報は、マークアップ記号とし
て、処理の対象となる文書の本文中にテキスト本体と混
在している。文書中にこのようなマークアップ記号を含
ませておくことにより、そのマークアップ情報に従った
体裁、書体、フォントのサイズなどを用いて自動的にそ
の文書を印刷することができる。また、索引用語の指定
を行なった場合には、そのようなマークアップ記号が付
された単語または単語群を検索していくことにより容易
に索引を作成することができる。
【0005】このようなマークアップ記号の体系として
マークアップ言語があり、ISO(国際標準化機構)で
制定されたSGMLがその一例である。SGMLは、文
書の論理的な構造、たとえば章立て、段落、箇条書きな
どといった論理的な構成の指定を行なうためのものであ
る。実際にSGMLによって作成された文書を印刷する
際には、より具体的にフォーマットを決定するためのマ
ークアップ言語を用いることが多い。そのようなマーク
アップ言語の一例がTeXと呼ばれるものである。
【0006】このようにマークアップ言語を用いて印刷
の指定がされた文書の数が増大した結果、これらの文書
を他の言語に翻訳する技術に対する需要が増大してい
る。
【0007】これに対応して、RTF、SGML、Te
X等のように文中にマークアップ記号を含む特別な原文
の場合でも、マークアップ記号を含まない通常の原文と
同様な翻訳をし、さらにタグ記号を翻訳結果に復元でき
る機械翻訳装置も実現されつつある。
【0008】
【発明が解決しようとする課題】しかし、上述のような
マークアップ記号を含む文書を従来の機械翻訳装置で翻
訳しようとすれば、ソース言語とは異質のマークアップ
記号が文書に含まれているために、翻訳が適正に行なわ
れず、翻訳不能となったり、あるいは誤訳などが発生し
たりしてしまう。そのため従来は、機械翻訳装置にテキ
ストを入力する前に、エディタ等によりその入力テキス
トにマークアップ記号が含まれているか否かを手操作で
調べ、含まれている場合には1つ1つ削除し、その後に
機械翻訳装置に入力する必要があった。このため、従来
の機械翻訳装置でマークアップ記号を含む文書を翻訳す
る場合の効率は非常に悪かった。
【0009】このような問題を解決するために、文書に
含まれる形式情報などの非言語データを意識せずに行な
うための文書処理システムが、特開平4−259057
号公報に開示されている。この公報に開示されたシステ
ムでは、非言語データと言語データとが混在する文書デ
ータから言語データのみが抽出され、この抽出された言
語データに対して所定の編集処理が行なわれる。さら
に、この編集処理により編集された言語データと、元々
入力された文書データ中の言語データとが比較対照さ
れ、それぞれの対応箇所が決定される。そして、入力文
書データの言語データを、編集後の言語データの対応す
るものにより置換える。このようにすることにより、非
言語データの存在を意識せずに、言語データと形式情報
とが混在する文書データの編集を行なうことができる、
とされている。
【0010】ところが、マークアップ記号を含む文の翻
訳において、単に原文でマークアップ記号の付いていた
単語に対応する翻訳結果の訳語の各々に、対応のマーク
アップ記号を付加して出力するだけでは、訳文中にマー
クアップ記号が多くなりすぎて訳文が読みにくくなって
しまうという問題がある。また同時に、そうした無駄な
情報が増える結果余分なメモリや表示スペースを使用す
るため、システムとして効率が悪いという問題点があ
る。
【0011】また、現在の翻訳システムの多くは、翻訳
は1文を単位として行なわれている。そのため前の文の
情報が次の文に引き継がれることはない。対となるマー
クアップ記号が複数の文に跨がっている場合、それらマ
ークアップ記号の情報が翻訳文から欠落してしまい、マ
ークアップ情報を正確に反映した翻訳に失敗するという
問題点がある。たとえば連続する複数の文のうち最初の
文にマークアップ情報の開始を示す記号のみがあって終
了を示す記号がなく、最後の文にはマークアップ情報の
開始を示す記号がなく終了の記号のみがある場合、これ
ら複数の文の先頭と最後については正しく訳すことがで
きず翻訳に失敗してしまうという問題がある。
【0012】また、これらマークアップ情報が付されて
いる部分は、テキスト原文の構造上一定のまとまりがあ
る部分であると考えられる。そうした情報は翻訳の1段
階としての原文の構造解析上有用であると考えられるの
で、マークアップ情報をも含んだ形で翻訳処理を行なう
ことが望ましい。
【0013】それゆえに本発明の目的は、ソース言語の
入力テキストにマークアップ記号が含まれる場合でも、
従来よりさらに効率よく翻訳を行なうことができる機械
翻訳装置を提供することである。
【0014】請求項2に記載の発明の目的は、マークア
ップ記号を含むテキスト原文を、通常のテキスト原文と
同様に、より効率よく、かつより正確に原文内のマーク
アップ記号を反映して翻訳することができる機械翻訳装
置を提供することである。
【0015】請求項3に記載の発明の目的は、マークア
ップ記号を含むテキスト原文を、通常のテキスト原文と
同様に、より効率よく、より高速に、かつより正確に原
文内のマークアップ記号を反映して翻訳することができ
る機械翻訳装置を提供することである。
【0016】
【課題を解決するための手段】本発明に係る機械翻訳装
置は、マークアップ記号を含む第1の言語のテキスト原
文を、第2の言語のテキストに翻訳するための機械翻訳
装置である。この機械翻訳装置は、テキスト原文をマー
クアップ記号とマークアップ記号を含まないテキスト本
体とに分離するための分離手段と、各マークアップ記号
を、各マークアップ記号が付されていた単語と関連づけ
て記憶するための記憶手段と、分離手段によりマークア
ップ記号と分離されたテキスト本体に所定の文法処理を
行なって、テキスト本体に対応する第1の言語の構造解
析木を作成するための手段と、第1の言語の構造解析木
を、予め準備された変換規則を用いて第2の言語の構造
解析木に変換するための手段と、第2の構造解析木と記
憶手段の記憶内容とに基づいて、テキスト原文において
マークアップ記号が付されていた単語に対応する訳語
に、該訳語に付されていたマークアップ記号と等価なマ
ークアップ記号を付した第2の言語のテキストを生成す
るためのテキスト生成手段とを含む。テキスト生成手段
は、生成されるテキスト内において、互いに相殺し合う
マークアップ記号のシーケンスを検出する手段と、検出
されたマークアップ記号のシーケンスを除外して第2の
言語のテキストを生成するための手段とを含む。
【0017】請求項2に記載の発明に係る機械翻訳装置
は、請求項1に記載の装置であって、テキスト原文内に
おいて、対となるマークアップ記号が異なる文内に配置
されていることを判別する手段と、対となるマークアッ
プ記号が異なる文内に配置されていると判別されたこと
に応答して、対となるマークアップ記号のうちの第1の
マークアップ記号が含まれる文の所定位置に、対となる
マークアップ記号のうちの第2のマークアップ記号を補
充し、第2のマークアップ記号が含まれる文の所定位置
に、第1のマークアップ記号を補充して、記憶手段に記
憶させるためのマークアップ記号補充手段と、テキスト
生成手段によるテキストの生成において、マークアップ
記号補充手段により補充されたマークアップ記号を、生
成されるテキスト内の、マークアップ記号が補充された
位置によって定まる位置にさらに補充して生成する手段
とをさらに含む。
【0018】請求項3に記載の発明に係る機械翻訳装置
は、請求項1または2に記載の装置であって、構造解析
木を作成するための手段は、テキスト原文の、記憶手段
に記憶された対となるマークアップ記号に挟まれた部分
を1つのフレーズと仮定して構造解析木の作成を行なう
ことを特徴とする。
【0019】
【作用】本発明に係る機械翻訳装置では、分離手段がテ
キスト原文をマークアップ記号とマークアップ記号を含
まないテキスト本体とに分離する。記憶手段は、各マー
クアップ記号を記憶する。各マークアップ記号は、それ
が付されていた単語と互いに関連づけられる。構造解析
木を作成するための手段がテキスト本体に所定の文法処
理を行なって、第1の言語の構造解析木を作成する。変
換手段がこの構造解析木を第2の言語の構造解析木に変
換する。そして、生成手段が、第2の構造解析木と記憶
手段の記憶内容とに基づいて、第2の言語のテキストを
生成する。生成されるテキストでは、テキスト原文にお
いてマークアップ記号が付されていた単語に対応する訳
語には、該訳語に付されていたマークアップ記号と等価
なマークアップ記号がテキスト生成手段により付され
る。このときテキスト生成手段は、生成されるテキスト
内において、互いに相殺し合うマークアップ記号のシー
ケンスを検出し、検出されたマークアップ記号のシーケ
ンスを除外して第2の言語のテキストを生成する。相互
に相殺し合って何の効果ももたらさないマークアップ記
号のシーケンスは第2の言語のテキスト内には生成され
ない。
【0020】請求項2に記載の発明に係る機械翻訳装置
においては、テキスト原文内において、対となるマーク
アップ記号が異なる文内に配置されていると判別される
と、対となるマークアップ記号のうちの第1のマークア
ップ記号が含まれる文の所定位置に、対となるマークア
ップ記号のうちの第2のマークアップ記号が補充され、
第2のマークアップ記号が含まれる文の所定位置に、第
1のマークアップ記号が補充される。第2の言語のテキ
ストの生成においては、生成されるテキスト内の、マー
クアップ記号が補充された位置によって定まる位置に、
対応のマークアップ記号が補充される。必要なマークア
ップ記号が、原文において異なる文内に配置されている
ため、翻訳文において復元されない、ということがな
い。
【0021】請求項3に記載の発明に係る機械翻訳装置
においては、テキスト原文の、対となるマークアップ記
号に挟まれた部分が1つのフレーズであると仮定して構
造解析木の作成を行なうので、テキスト原文の解析がよ
り正確かつ高速に行なえる。
【0022】
【実施例】以下、本発明の一実施例の機械翻訳装置を図
を参照しながら説明する。以下の実施例の機械翻訳装置
は英語から日本語への英日機械翻訳装置が例として示さ
れる。しかし本発明はこれには限定されず、他のいかな
る言語間の機械翻訳装置に対しても適用できる。また以
下の説明では、本発明をマークアップ記号としてTeX
というマークアップ言語に用いられるマークアップ記号
(「タグ記号」と呼ばれる)を例にとって説明するが、
本発明はこの言語には限定されず、一般的にマークアッ
プ記号を用いる言語に対して適用可能である。
【0023】実施例の説明の前に、機械翻訳の概念につ
いて簡単に説明する。図1を参照して、機械翻訳におい
て行なわれる解析処理には、様々な解析レベルがある。
機械翻訳は、図1の左上に示されるソース言語が入力さ
れると、各レベルの処理を順に行なって最終的に図1の
右側に示されるターゲット言語を得るための処理であ
る。たとえばソース言語のテキストが入力されると、ま
ずレベルL1の辞書引き処理、レベルL2の形態素解析
処理、レベルL3の構文解析処理、…と処理が進めら
れ、最終的にレベルL10の形態素生成処理が行なわれ
てターゲット言語のテキストが生成される。
【0024】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の2つに分けられる。第1
は、レベルL6に示される中間言語まで解析し、そこか
らターゲット言語のテキストを生成していくピボット方
式である。第2は、上述のレベルL2〜レベルL5のい
ずれかまで解析を行なってソース言語の内部構造を得、
次に、得られたソース言語の内部構造と同じレベルのタ
ーゲット言語の内部構造に変換した後、ターゲット言語
のテキストを生成するトランスファ方式である。
【0025】ピボット方式において用いられる中間言語
とは、ソース言語およびターゲット言語のどちらにも依
存しない概念である。したがってソース言語の解析処理
を一度行なって中間言語を得れば、この中間言語から複
数の言語を生成することができるため、多言語間翻訳に
有利であるとされる。しかし、このようなピボット方式
では、その基本的概念である中間言語を本当に設定でき
るかどうかという点が未解決である。
【0026】トランスファ方式はピボット方式のこのよ
うな問題に対する妥協案であって、現在の多くのシステ
ムはこのトランスファ方式を採っている。以下の説明は
トランスファ方式についてのものであり、後述する実施
例の機械翻訳装置もトランスファ方式を用いたものであ
る。
【0027】以下、図1に示される各解析処理の内容に
ついて説明する。 (1) 辞書引き、形態素解析 この処理においては、入力された文章に対して、形態素
が格納された辞書を参照しながらたとえば最長一致法な
どを用いて形態素列(単語列)に分割する処理がまず行
なわれる。そして、得られた各単語に対する品詞などの
文法情報および訳語を得、さらに時制・人称・数などを
解析する処理が行なわれる。
【0028】(2) 構文解析 この処理においては、品詞・変化形などに基づき、単語
間のかかり受けなどの文章の構造(構造解析木)を組立
て、決定する処理が行なわれる。この処理においては、
得られた文章の構造が正しい意味を表わすかどうかにつ
いての判断は行なわれない。
【0029】(3) 意味解析 構文解析処理の結果得られた複数の構造解析木から、意
味的に正しいものとそうでないものとを判別し、正しい
もののみを採用する処理が行なわれる。
【0030】(4) 文脈解析 文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。
【0031】以下で説明する本発明の一実施例の機械翻
訳装置の翻訳モジュールにおいては、レベルL3までの
解析処理を行なうものとする。すなわち、本実施例の機
械翻訳装置の翻訳モジュールは、図2に示されるような
構造を有する。この翻訳モジュールは、図2を参照し
て、ソース言語のテキスト原文を、タグ記号とテキスト
自体に分離するとともに、後述するようにテキスト原文
において異なる文内に開始タグ記号と終了タグ記号とが
含まれている場合に、開始タグ記号が含まれている文の
最終部分に終了タグ記号を補充し、終了タグ記号が含ま
れている文の先頭部分に開始タグ記号を補充するための
タグ記号判別補充部101と、タグ記号をそれが付され
ていた単語と関連づけて記憶するための記憶部17と、
テキスト本体に対して辞書引き・形態素解析処理を行な
うための辞書引き・形態素解析部11と、形態素解析さ
れた入力文章に対して構文解析を行なうための構文解析
部12と、構文解析の結果を変換してターゲット言語の
構造解析木を生成するための変換部13と、変換部13
によって生成されたターゲット言語の構造解析木に基づ
き、かつ記憶部17の内容を参照して、タグ記号が挿入
されたターゲット言語の翻訳文を生成するための翻訳文
生成部14とを含む。
【0032】さらにこの翻訳モジュールは、辞書引き・
形態素解析部11による解析の結果からタグ記号を抽出
して記憶部17に格納するタグ記号抽出部102と、同
様に辞書引き・形態素解析部11の解析結果に対してタ
グ情報を適用し翻訳に有用な情報を記憶部17に格納す
るためのタグ情報適用部103と、記憶部17の格納内
容を参照して、翻訳文生成部14における翻訳文内に必
要なタグ記号を復元するためのタグ記号復元部104と
を含む。各部で行なわれる処理については、実施例にお
いて詳しく説明する。
【0033】図3は、この発明の一実施例の機械翻訳装
置のブロック図である。図3を参照して、この機械翻訳
装置は、メインCPU(中央処理装置)1と、メインC
PU1が接続されたバス7と、バス7に接続されたメイ
ンメモリ2と、バス7に接続されたCRT(陰極線管)
やLCD(液晶表示装置)などからなる表示装置3と、
キーボード4と、バス7に接続された翻訳モジュール5
と、翻訳モジュール5に接続された翻訳用の辞書・文法
規則および木変換構造規則などの知識ベースを格納して
いるメモリ6とを含む。
【0034】翻訳モジュール5は、ソース言語のテキス
トが入力されると、それを所定の手順で翻訳してターゲ
ット言語のテキストを出力するためのものである。図4
を参照して、翻訳モジュール5は、バス7に接続され、
バス7を介して入力されるソース言語(本実施例の場合
には英語)のテキストを、所定の翻訳プログラムに従っ
て翻訳してターゲット言語(本実施例の場合には日本
語)のテキストとしてバス7に出力するための翻訳CP
U15と、バス7に接続され、翻訳CPU15で実行さ
れる翻訳プログラムを格納するための翻訳プログラムメ
モリ16と、入力されたソース言語のテキスト原文を各
単語ごとに格納するためのバッファAと、バッファAに
格納された各単語につき、メモリ6に含まれる辞書を参
照して得た各単語の品詞、訳語などの情報を格納するた
めのバッファBと、ソース言語の構造解析木に関する情
報を格納するためのバッファCと、バッファCに格納さ
れたソース言語の構造解析木が変換されたターゲット言
語の構造解析木を格納するためのバッファDと、バッフ
ァDに格納された日本語の構造解析木に適切な助詞を助
動詞などを補充して、日本語の形として整えられた文章
を格納するためのバッファEと、後述するタグ除去処理
の際に用いられる、タグや、そのタグが付されている単
語数等を記憶するためのバッファFと、図2に示すタグ
記号判別補充部101で使用されるスタック19とを含
む。これらバッファが記憶部17(図2)に相当する。
【0035】以下、図2〜図9を参照して、本実施例の
機械翻訳装置による英日翻訳の動作を説明する。なお、
翻訳CPU15で実行される翻訳プログラムの詳細につ
いては後に具体例を用いて詳述する。
【0036】まず、読込まれたテキスト原文は形態素解
析によって形態素に分解され、タグ記号判別補充部10
1(図2)により、タグ記号とそれ以外のテキスト本体
とに分離される。テキスト本体は図5に示されるように
バッファA(図4参照)に格納される。タグ記号はバッ
ファFに格納される。なおこのときタグ記号判別補充部
101は、テキスト原文において異なる文内に対となる
タグ記号が含まれているか否かを判別する。そして異な
る文内に対となるタグ記号が含まれていると判別された
場合には、それらの文のそれぞれに、マークアップ記号
を補充する。どのようにしてマークアップ記号を補充す
るかについては、図23〜図25などを参照して後述す
る。
【0037】続いて翻訳プログラム16に基づく翻訳C
PU15の制御の下に、図2に示される辞書引き・形態
素解析部11が、バッファAに格納された原文の各単語
につき、メモリ6に格納されている辞書を参照すること
により各単語の訳語や品詞情報などの情報を得る。この
情報は図4に示されるバッファBに格納される。これら
の情報の一部として、各単語の品詞情報が含まれるが、
これら品詞情報は図6に示されるように格納される。す
なわち“this”は多品詞語であって代名詞、指示形
容詞の2つの品詞を持つ。また“is”の品詞は動詞で
ある。同様に“a”、“pen”についてもそれぞれの
品詞がバッファBに格納される。“this”は多品詞
語であるが、文中の品詞が何であるかについては、図2
に示される構文解析部12に相当する処理によって一意
に決定される。
【0038】翻訳プログラムのうち図2に示される構文
解析部12に相当する処理においては、メモリ6に格納
された辞書および文法規則に従って、各単語間の修飾・
被修飾関係を示す構造解析木がたとえば図7に示される
ように決定される。この構文解析結果は図4のバッファ
Cに格納される。
【0039】構造解析木の決定は次のようにして行なわ
れる。メモリ6に格納された文法規則のうち、英語に関
する文法規則は次のようなものから成り立っている。
【0040】文→主部、述部 主部→名詞句 述部→動詞、名詞句 名詞句→代名詞 名詞句→冠詞、名詞 この規則のうちたとえば1つ目の規則は、「文は主部と
述部からできている。」ということを表わす。他の規則
についても同様である。これらの規則に従って構造解析
木が決定されるのである。なお、このような文法規則は
同じように日本語についても用意されており、英語の文
法規則と日本語の文法規則との間で対応づけがなされて
いる。なおこの構造解析において、タグ情報を用いてい
るが、詳細は後述する。
【0041】翻訳プログラムのうち、図2に示される変
換部13に相当する処理においては、入力された英文の
構造解析木(図7参照)の構造が、図8に示される日本
文に対する構文解析木の構造に変換される。この変換に
おいては、上述の構文解析部12が利用したのと同様
に、メモリ6に格納されている「木構造変換規則」が用
いられる。この変換は、図1でいえばレベルL3からタ
ーゲット言語のレベルL9への変換に相当する。得られ
た結果は図4に示されるバッファDに格納される。この
説明において用いられている例文“This is a
pen”は、この変換によって日本語文字列「これ
ペン である」に変換されたことになる。
【0042】翻訳プログラムのうち図2の翻訳文生成部
14に相当する処理を行なう部分は、得られた日本語文
字列「これ ペン である」に適切な助詞「は」や助動
詞をつけることにより、図9に示されるような文法的な
日本語の形にし、図4に示されるバッファEに格納す
る。この処理は、図1に示されるレベルL9からレベル
L10への変換に相当する。得られた日本文「これはペ
ンである。」は、図4に示される翻訳モジュール5から
出力され、メインメモリ2に格納されるとともに、表示
装置3に表示される。
【0043】次に、図10〜図18を用いて、タグ記号
を含む原文を翻訳する際の処理の詳細を示す。この処理
は、翻訳に先立って、原文に含まれるタグ記号を除去
し、タグ記号を除去した原文を翻訳モジュールの入力と
することに特徴がある。除去したタグ記号は、原文の、
そのタグ記号が付加されていた単語と関連付けて記憶し
ておき、翻訳後の文の、原単語に対応する単語にさらに
この除去されたタグ記号を付加する。
【0044】図11は、SGML文書で使用されるタグ
記号の一例を示す。各タグ記号は、開始タグと終了タグ
との組からなり、開始タグと終了タグとによって挟まれ
る単語群をマークアップする。
【0045】図11に示されるタグ記号<term><
\term>は、このタグ記号に挟まれた単語群が、特
定の用途に用いられる単語群、たとえば索引として採用
される単語群であることを示す。またタグ記号<emp
h><\emph>は、このタグ記号に挟まれる単語群
を、強調して印刷することを示す。たとえば、このタグ
記号に挟まれる単語群は、印刷時にはボールド体などで
印刷される。
【0046】なおタグ記号は文書の形式によって異な
る。たとえば前述のRTFは文書データ交換のためのフ
ォーマットであるが、RTF形式の文書では、開始タグ
は「{\」で始まる文字列であり、終了タグは「}」で
ある。TeX文書においてもタグ記号は同様である。
【0047】図12は、以下の説明で翻訳対象となる英
語のテキスト原文の一例である。この原文は、図4およ
び図5に示すバッファAに格納される。図12に示され
る原文においては、タグ記号<term><\term
>に挟まれた単語または単語群としては、“Tag”と
“table chart”とがある。この2つの単語
または単語群は、たとえばこの文を含む文書についての
索引を作成する際の見出し語となる。かつこのタグ記号
によって挟まれて出現する部分が、索引における各単語
群の出現ページとして記録される。またタグ記号<em
ph><\emph>で挟まれた2つの単語“prod
uce”と“specifying”とは、ともに印刷
時には他の部分と異なる字体、たとえば前述のようなボ
ールド体で印刷される。
【0048】図10は、図3に示される翻訳モジュール
5の分離部10および辞書引き形態素解析部11(図
2)によって行なわれる、タグ記号処理の詳細なフロー
チャートである。図10を参照して、まずステップS0
1で、図12に示される入力文がバッファA(図4、5
参照)に格納される。
【0049】ステップS02で、バッファA内に格納さ
れた原文の処理対象となる単語位置を示す単語位置ポイ
ンタが0にセットされる。これにより単語位置ポインタ
によって指し示される原文単語は、“One”である。
【0050】ステップS03では、図11に示されるよ
うなタグ記号のテーブルを参照しながら、現在単語位置
ポインタがポイントしている単語の先頭が開始タグか否
かについての判断が行なわれる。開始タグでないと判断
されれば処理はステップS04に進み、開始タグと判断
された場合には処理はステップS09に進む。
【0051】ステップS03で開始タグではないと判断
された場合、ステップS04では、単語位置ポインタに
よってポイントしている単語が終了タグか否かについて
の判断が行なわれる。終了タグであれば処理はステップ
S08に進み,終了タグでない場合は処理はステップS
05に進む。
【0052】単語位置ポインタによってポイントされて
いる単語が開始タグでも終了タグでもない場合にはステ
ップS05で、現在単語位置ポインタによってポイント
されている単語をバッファB(図4参照)に格納する処
理が行なわれ、処理はステップS06に進む。終了タグ
であると判断された場合にはステップS08で、その終
了タグを削除したうえ単語位置ポインタによってポイン
トされている単語をバッファBに格納する処理が行なわ
れて処理はステップS06に進む。
【0053】一方、ステップS03で単語位置ポインタ
によってポイントされている単語の先頭が開始タグであ
ると判断された場合には、ステップS09でその開始タ
グをバッファF(図4参照)に格納する処理が行なわれ
る。
【0054】そしてステップS10で、この開始タグが
検出された文中の単語位置(すなわち単語位置ポインタ
の値)を、ステップS09で格納された開始タグに関連
付けてバッファFに格納する処理が行なわれる。
【0055】ステップS11では、終了タグがあるかど
うかについての判断が行なわれる。終了タグが存在する
場合には処理はステップS12に進み、存在しない場合
には処理はステップS14に進む。
【0056】ステップS12では、単語数「1」を、ス
テップS09で格納された開始タグに関連付けてバッフ
ァFに格納する処理が行なわれる。
【0057】さらにステップS13では、入力原文の、
単語位置ポインタによって指定された単語に付加されて
いる開始タグおよび終了タグを削除した上、バッファB
に格納する処理が行なわれ、処理はステップS06に進
む。
【0058】一方、ステップS14に処理が進んだ場
合、まず終了タグまでの単語数をカウントする処理が行
なわれる。カウントされた単語数はステップS09でバ
ッファFに格納された開始タグに関連付けて、同様にバ
ッファFに格納される。
【0059】さらにステップS15で、単語位置ポイン
タによって指し示される単語に付加されている開始タグ
を削除した上この単語をバッファBに格納する処理が行
なわれる。処理はステップS06に進む。
【0060】ステップS06では、バッファA内に次の
単語が存在しているか否かについての判断が行なわれ
る。存在する場合には処理はステップS07に進み、そ
れ以外の場合には処理はステップS16に進む。
【0061】ステップS07では、単語位置ポインタを
インクリメントする処理が行なわれ、処理はステップS
03に戻る。以下、上述した処理が繰返し行なわれる。
そしてバッファA内に処理対象の単語が存在しなくなる
と処理がステップS16に進む。
【0062】ステップS16では、バッファBに格納さ
れている各見出し語に対して辞書引き処理が行なわれ
る。この結果、各見出し語に対して品詞および単語数の
情報がバッファB内に格納される。
【0063】さらにステップS17では、辞書引き処理
が行なわれたバッファBの結果に、さらにバッファFに
格納されているタグ記号についての情報を付加する処理
が行なわれる。このタグ記号の付加は、各見出し語のう
ち、原文内でタグ記号が付加されていた見出し語に、そ
の付加されていたタグ記号を示す情報を付加する処理で
ある。
【0064】以下、図12に示される原文につき、図1
0に示される処理を行なった場合の処理の経過について
説明する。まず、単語位置ポインタを0にセットするこ
とにより単語“One”が単語位置ポインタによってポ
イントされる。ステップS03、ステップS04の判断
の結果はいずれも“NO”となるため、ステップS05
でこの単語“One”がバッファBに格納される。ステ
ップS06では、次の単語が存在するために判断の答は
YESとなり処理はステップS07に進む。単語位置ポ
インタの値が1インクリメントされるため、単語位置ポ
インタによってポイントされる単語は次の単語“of”
となる。
【0065】以下、単語“of”〜“this”まで、
上述と同様の処理が繰返され、バッファBにはこれらの
単語が順にその単語位置とともに格納される。
【0066】単語位置ポインタが8となった場合、ステ
ップS03における判断の答かYESとなり、処理はス
テップS09に進む。ステップS09では、検出された
開始タグ(この場合<term>)をバッファFに格納
する処理が行なわれ、さらにステップS10で、その単
語位置も同様にバッファFに格納される。ステップS1
1の判断はYESとなるため、ステップS12の処理に
より単語数「1」がバッファFに格納される。この結
果、バッファFに格納される、単語“Tag”に関する
タグ記号情報は、図13の第1行目に示されるものとな
る。さらにステップS13では、開始タグおよび終了タ
グを削除した上、単語“Tag”をバッファBに格納す
る処理が行なわれる。
【0067】以下このように単語位置ポインタをインク
リメントしながら各単語につき開始タグ、終了タグの有
無を判断し、タグ記号を除去しながら各単語をバッファ
Bに格納していく。これにより、バッファBには図14
に示される情報が得られる。またバッファFには、図1
3に示されるようなタグ記号に関する情報が得られる。
【0068】図13および図14を参照して、単語位置
8の単語、すなわち単語“Tag”には、タグ記号<t
erm>が付加されており、このタグ記号によって挟ま
れている単語はこの一語のみであることがわかる。同様
に単語“produce”にもタグ記号<emph>が
付加されている。また単語群“table char
t”は、この2語の前後をタグ記号<term><\t
erm>で挟まれている。さらに単語位置25の単語
“specifying”も、その前後をタグ記号<e
mph><\emph>で挟まれている。
【0069】さらにステップS16において行なわれる
辞書引き処理により、バッファBの格納内容は図15に
示されるようになる。すなわち各見出し語には、辞書引
き処理によって得られた品詞および単語数に関する情報
が付加される。ただし、図15においては各見出し語に
付加される品詞および単語数の具体的な内容については
図の簡単化のために省略している。
【0070】ステップS17では、図13に示されるバ
ッファFの内容を、バッファB内の各見出し語に付加す
る処理が行なわれる。この処理は、図13のバッファF
の単語位置によって示されるバッファB内の単語に、バ
ッファFに保存されているタグ記号を付加することによ
って行なわれる。すなわち、第8番目の単語“Tag”
にはタグ記号<term>が付加される。同様に単語位
置14の単語“produce”にはタグ記号<emp
h>が付加される。また単語位置15番目から始まる2
つの単語“table chart”にも各々タグ記号
<term>が付加される。この図13に示されるバッ
ファFの情報において、単語位置15から始まる2つの
単語にタグ記号<term>を付加することが示されて
いるからである。また単語位置25の単語“speci
fying”にも、タグ記号<emph>が付加され
る。
【0071】以下、バッファBに格納されている各見出
し語と、その品詞、単語数などに基づいて図3の構文解
析部12、変換部13によって通常どおりの翻訳処理が
行なわれる。そして最終的に生成部14によって訳文が
生成される。
【0072】このとき、生成部14は、生成しようとす
る単語に対応する入力部の単語がタグの情報をもつ場合
には、その訳語の前後に、図16に示されるバッファB
の内容によって示される開始タグおよび終了タグを生成
する。対応する単語にタグの情報がない場合には通常ど
おり訳語だけが生成される。
【0073】この生成処理につき、図17および図18
を参照して以下に説明する。図17に示されるステップ
S21〜S27の処理は、構造解析木の「葉」の部分の
各単語について行なわれる。まずステップS21で、或
る単語につき、バッファB内のその単語に対応する「タ
グ情報」の欄(図16参照)を調べ、タグ情報が存在す
るか否かについての判断を行なう。存在する場合には制
御はステップS22に、そうでない場合には制御はステ
ップS26にそれぞれ進む。
【0074】ステップS22では、バッファBに格納さ
れていた開始タグをまずバッファEに格納する処理が行
なわれる。
【0075】続いてステップS23で、処理中の単語に
対応する訳語をバッファBからバッファEに格納する処
理が行なわれる。
【0076】続いてステップS24で、終了タグをバッ
ファBからバッファEに格納する処理が行なわれる。
【0077】ステップS24の後ステップS25で、こ
の訳語に付加するべき適当な助詞が選ばれ、バッファE
に格納される。ステップS25の後、制御はステップS
27に進む。
【0078】一方、ステップS21でバッファBにタグ
情報が存在しないと判断された場合、制御はステップS
26に進む。ステップS26では、タグ情報に関する処
理は行なわれない。すなわちステップS22、S24に
対応する処理は行なわれず、単に訳語をバッファBから
バッファEに格納する処理が行なわれる。ステップS2
6の後、制御はステップS25に進む。
【0079】ステップS27では、処理対象となってい
る構造解析木の最後の単語まで到達したかどうかについ
ての判断が行なわれる。到達していない場合には制御は
ステップS21に戻り、ステップS21以下の処理が繰
返し行なわれる。もし終了であればこの生成処理も終了
する。
【0080】このようにして生成されたバッファEの内
容を図18に示す。この図18に示される翻訳文は、図
12に示される原文に対応するものである。なお、連続
する複数個の単語について同一のタグ情報が付されてい
る場合には、その先頭の単語に対応する訳語の前に開始
タグを、最後の単語の後に終了タグをそれぞれ付加す
る。図18はそのようにして得られたものである。
【0081】図9は、本発明の機械翻訳装置の構成を示
すブロック図であり、概略は図2を参照して既に述べた
とおりである。なおタグ記号判別補充部101は、入力
されるテキスト原文内の異なる文に対となるタグ記号が
存在するか否かを判別するためのタグ記号判別部101
aと、タグ記号判別部101aにより、テキスト原文の
異なる文内に、対となるタグ記号が存在していると判別
された場合に、必要なタグ記号を補充するためのタグ記
号補充部101bとを含む。
【0082】記憶部17は、タグ記号を記憶するタグ記
号記憶部171とタグ情報を記憶するタグ情報記憶部1
72とを含む。
【0083】ソース言語のテキスト原文は入力部31に
よりタグ記号判別補充部101に与えられる。またター
ゲット言語の翻訳文は翻訳モジュール5から出力部32
に与えられる。
【0084】図20および図21は、図17の生成処理
にさらに改良を加えた、本発明の実施例に従う生成処理
のフローチャートである。このフローチャートに従った
生成処理を行なうことにより、タグ記号を含む文の翻訳
で翻訳結果の訳語ごとにタグ記号を復元する場合に、同
じタグ記号が連続する場合には中間のタグ記号を省略し
て出力することができる。この場合同じタグ記号が連続
するとは、たとえば同一種類のタグ記号のタグ終了記号
とタグ開始記号とが連続して含まれるような場合、相互
にその効果を相殺できるような場合をいう。
【0085】まずステップS201でタグフラグを0に
セットする。この場合のタグフラグとは、タグ記号を復
元するか省略するかを後で判断するためのフラグであ
る。
【0086】続いてステップS202で、訳語ポインタ
を木変換バッファDの先頭にセットする。
【0087】さらにステップS203で、訳語ポインタ
の指す訳語が、バッファBに対応のタグ情報を持ってい
るかどうかを判別する。すなわちバッファBの、訳語ポ
インタの指す訳語に対応するタグ部分にタグがあるか、
あるいは空白かを判断する。
【0088】タグ情報がない場合には通常と同じくステ
ップS213で訳語をバッファBから読出してバッファ
Eに格納する。この後制御は図21のステップS214
に続くが、その部分は後述する。
【0089】一方タグ情報が存在する場合には、ステッ
プS204でタグフラグが1かどうかを判別する。タグ
フラグとは後述するように、現在の訳語がタグを持って
いて、次の訳語もタグを持っていて、かつ両方のタグが
同じものであるときに1になる。これについてはステッ
プS211を参照して後述する。タグフラグが1であれ
ばタグ記号を省略し、1でなければ該当のタグ符号を復
元すればよい。
【0090】タグフラグが1でなければステップS20
5でタグをバッファBから取出し、バッファEに格納す
る。最初にこの処理を行なう場合にはタグフラグは0で
あるので必ずタグが復元されることになる。
【0091】一方ステップS204でタグフラグが1で
あればタグをバッファBから読出してバッファEに格納
することなく、単にタグフラグを0にセットする。ステ
ップS205およびS206の後制御はステップS20
7に進む。
【0092】ステップS207では、訳語をバッファB
からバッファEに格納する処理を行なう。
【0093】続いて図21のステップS208を参照し
て、次の訳語がバッファBにタグを持っているかどうか
についての判別を行なう。タグがあれば、現在の訳語が
持っているタグと、次の訳語が持っているタグとが等し
いかどうかをステップS209で判別する。両者が等し
くなければ制御はステップS210に進む。両者が等し
ければ制御はステップS211に進む。
【0094】ステップS210には、次の訳語がタグを
持っていない場合、または次の訳語がタグを持ってはい
るが現在の訳語が持っているタグとは等しくない場合に
制御が進む。この場合には現在の訳語が持っているタグ
に対応する終了タグを対応表(図11)から求める。
【0095】続いてステップS212で、求められた終
了タグをバッファEに格納して制御はステップS214
に進む。
【0096】一方ステップS211ではタグフラグに1
をセットする。すなわち次の訳語がタグを持っていて、
かつ現在の訳語を持っているタグと次の訳語が持ってい
るタグとが等しい場合に、タグフラグが1にセットされ
る。このときタグ記号はバッファEには格納されない。
ステップS211の後制御はステップS214に進む。
ステップS214では、適当な助詞をバッファEに格納
する。
【0097】続いてステップS215で訳語ポインタを
1つ進める。さらにステップS216では、1つ進めら
れた訳語ポインタの指す場所にデータ(訳語)が存在す
るかどうかを判別する。データがあれば再び図20のス
テップS203に制御を戻し、上述の処理を繰返し行な
う。訳語が存在しなければこの処理を終了する。
【0098】このようにして得られた翻訳結果のバッフ
ァEの内容を示すのが図22である。図18に示した、
改良前のタグ記号復元処理では、図18に示したように
「<term>テーブル<\term><term>チ
ャート<\term>」の部分で同じタグ記号が繰返し
現れている。しかし第22図に示される本発明の結果で
は、改行部分は「<term>テーブルチャート<\t
erm>」となっており、タグ記号が省略されているこ
とがわかる。
【0099】以上のように、タグ記号を含む文の翻訳
で、翻訳結果の訳語ごとにタグ記号を復元するとき、同
じタグ記号が連続する場合には中間のタグ記号を省略し
て出力することができる。このように中間のタグ記号を
省略して出力しても、得られる翻訳結果には、元のタグ
記号が正しく反映されていると考えられる。しかも余分
なタグ記号が省略されているので、記憶領域が節約でき
るとともに、処理の高速化を図ることができる。
【0100】続いてタグ記号判別補充部101の動作を
図23〜図25を参照して説明する。図23〜図25
は、タグ記号判別補充部101で行なわれる処理の内容
を示す。
【0101】まずステップS221で文ポインタを1に
セットする。文ポインタとは、文書内の1文ごとを指す
ポインタである。
【0102】図26に入力文書の一例を示す。この入力
文書では、開始タグ1と終了タグ1、開始タグ2と終了
タグ2がそれぞれ対応するものとする。文ポインタはま
ず最初の文にセットされる。
【0103】再び図23を参照して、ステップS222
で、単語ポインタを1にセットする。単語ポインタと
は、1文内の単語を先頭から文末まで順に指していくポ
インタである。
【0104】ステップS223でスタックポインタを1
にセットする。このスタックは図4に示されるスタック
19である。スタック19にはタグ記号がスタックさ
れ、これを参照することによりタグが複数の文に跨がっ
ているか否かが判断される。
【0105】ステップS224で、単語ポインタが指す
単語位置にあるものが開始タグかどうかを判別する。開
始タグである場合にはステップS225でタグをスタッ
クへ入れ、ステップS226でスタックポインタを1加
算してステップS233に進む。
【0106】図27にスタックの一例を簡略に示す。ス
テップS224で、単語ポインタが指す位置に存在する
ものが開始タグではないと判断された場合、制御は図2
4のステップS227に進む。ステップS227では、
単語ポインタが指す位置に終了タグが存在するかどうか
についての判断が行なわれる。終了タグでない場合には
制御は図23のステップS233に進む。
【0107】終了タグである場合には、ステップS22
8でスタック内に開始タグが存在するかどうかを判別す
る。スタックに開始タグがある場合にはその開始タグを
ステップS229で取出し、ステップS230でスタッ
クポインタを1減算する。ステップS230の後制御は
ステップS233(図23)に進む。
【0108】一方ステップS228でスタック内に開始
タグがないと判断された場合、制御はステップS231
に進み、終了タグをスタックへコピーし、ステップS2
32でスタックポインタを1加算して図23のステップ
S233に進む。
【0109】ステップS233では、単語ポインタを1
加算する。続いてステップS234で、単語ポインタが
指す場所に単語があれば制御をステップS224に戻
し、以下ステップS224〜S234の処理を繰返す。
【0110】単語ポインタが進んで文末までくると処理
は図25のステップS235に進む。ステップS235
では、スタックにタグがあるかどうかを判別する。タグ
がなければ制御はステップS244に進む。タグがなけ
れば制御はステップS236に進む。
【0111】ステップS236では、そのタグが開始タ
グかどうかについての判別を行なう。そのタグが開始タ
グであれば制御はステップS237に進む。
【0112】ステップS237では、その開始タグに対
応する終了タグを図11の対応表から求める処理が行な
われる。
【0113】続いてステップS238でこの終了タグを
文末に付加する処理が行なわれる。たとえば図26に示
される例では、2番目の文が開始タグ2だけを含むため
に、このステップS237、S238の処理が行なわれ
る。ここでステップS238で終了タグを文末に付加し
た結果が図29の2番目の文である。
【0114】続いてステップS239で開始タグをスタ
ックから取出し、この開始タグをステップS240でタ
グ記憶バッファに保存する。この状態を図28に示す。
【0115】さらにステップS241でスタックポイン
タを1減算して制御はステップS244に進む。
【0116】一方ステップS236でスタックにあるタ
グが開始タグでないと判断された場合制御はステップS
242に進む。この場合スタックには終了タグが存在し
ている。ステップS242ではタグ記憶バッファに保存
していた開始タグを取出し、その開始タグを文頭に付加
する(ステップS243)。この結果が図29の3番目
の文に示されている。ステップS243の後制御はステ
ップS244に進む。
【0117】ステップS244では文ポインタを1加算
し、ステップS245でさらに処理すべき文があるかど
うかについての判断を行なう。文があれば制御は図23
のステップS222に戻り、以上の処理を繰返し行な
う。処理対象となる文が無くなればこの処理は終了す
る。
【0118】以上のようにして図26に示される入力文
書を処理した結果が図29に示されている。入力文書に
おいてタグが複数の文に跨がっている場合、以上の処理
により個々の文で開始タグと終了タグとの対応が取れる
ようにタグが補充される。そのようにタグが補充された
文に対して翻訳処理が行なわれる。したがってタグが複
数の文に跨がっている場合にも、タグの情報を失うこと
なく翻訳文にタグ情報を復元して翻訳文を生成すること
ができる。図30に、図2の辞書引き形態素解析部11
で行なわれる処理において、タグ情報を抽出し利用する
ことにより、構文解析部12で行なわれる構文解析をよ
り正確かつ高速に行なう処理である。図30はタグ情報
適用部103で行なわれる処理を示すフローチャートで
ある。
【0119】まずステップS271でタグ記号記憶バッ
ファを読込む処理が行なわれる。この場合タグ記号記憶
バッファとしては図13に示すバッファFが対応する。
【0120】ステップS272でバッファポインタを1
にセットする。バッファポインタはバッファFの先頭か
らのデータを順に指定するポインタである。
【0121】ステップS273でバッファポインタの指
すデータの単語数が1より大きいかどうかを判別する。
1より大きければ制御はステップS274に進み、さも
なければ制御はステップS275に進む。
【0122】ステップS274では、単語数、単語位置
をタグ情報記憶バッファに格納する。続いてステップS
275でバッファポインタを1加算する。単語数が1で
ある場合にはバッファポインタを1加算する処理以外は
何も行なわない。
【0123】続いてステップS276でバッファポイン
タの指す場所にデータがあるかどうかを判別する。デー
タがあれば制御をステップS273に戻し、データがな
くなるまで上記の処理を繰返し行なう。データがなくな
ればこの処理を終了する。
【0124】このようにして図13に示されるタグ記号
記憶バッファを処理した結果、図31に示されるような
タグ情報記憶バッファが得られる。
【0125】辞書引き形態素解析処理が終了した後、図
2に示される構文解析部12は、図31に示されるタグ
情報記憶バッファを参照しながら、辞書と文法規則とを
用いて構文を解析する。文法規則の適用に当たっては、
タグ情報記憶バッファの「単語位置」から数えて「単語
数」分の単語には、この部分を1まとまりの「フレー
ズ」(句)とする文法規則を優先して適用するようにす
る。1まとまりの複合語のようなものをタグ記号で挟む
ことが多いため、こうすることにより正しい構文解析結
果が早く得られる可能性が高くなる。
【0126】このように本発明によれば、原文にタグ記
号などのマークアップ記号が挿入されていても、タグ記
号を一旦除去して自動的に翻訳することができる。さら
に本実施例のように訳文にも等価なタグ記号を付加する
ことにより、タグ記号が挿入されている原文をそのまま
翻訳処理することができる。その結果、翻訳に先立って
人間によりタグ記号を手作業で除去する処理が不要とな
り、効率よく翻訳を行なうことができる。しかも、不要
なタグ記号まで翻訳文内に復元することがないため、記
憶領域を節減でき、処理が高速になる。また異なる文に
タグ記号が跨がって使用されていても、翻訳文内にはそ
れに対応するタグ記号を正しく復元できる。さらに原文
内に含まれているタグ記号を構文解析にも使用すること
により、構文解析がより正しく、かつ高速に行なえるよ
うになる。
【0127】
【発明の効果】以上のようにこの発明に係る機械翻訳装
置では、テキスト本体は自動的にマークアップ記号と分
離され、その分離されたテキスト本体に基づいて従来と
同様に第1の言語の構造解析木が作成される。その第1
の言語の構造解析木は、従来と同様に第2の言語の構造
解析木に変換される。一方各マークアップ記号は、それ
が付されていた単語と関連づけて記憶される。第2の言
語の構造解析木から第2の言語のテキストが生成される
ときには、テキスト原文においてマークアップ記号が付
されていた単語に対応する訳語には、該単語に付されて
いたマークアップ記号と等価なマークアップ記号が付さ
れる。そのため、マークアップ記号が適切な位置に付さ
れることになる。マークアップ記号をテキスト原文から
手操作により削除したり、翻訳結果のテキストにマーク
アップ記号を手操作により挿入する必要がなく、かつ入
力テキストに対応したマークアップ記号を含む翻訳結果
を得ることができる。しかも、相互に相殺し合って何の
効果ももたらさないマークアップ記号のシーケンスは第
2の言語のテキスト内には生成されない。その結果、マ
ークアップ記号を含むテキスト原文を、通常のテキスト
原文と同様に、かつより効率よく翻訳することができる
機械翻訳装置を提供できる。
【0128】請求項2に記載の発明に係る機械翻訳装置
によれば、請求項1に記載の発明の効果に加え、テキス
ト原文内において、対となるマークアップ記号が異なる
文内に配置されている場合であっても、第2の言語のテ
キストの生成に当たっては、生成されるテキスト内の各
文の、マークアップ記号が補充された位置によって定ま
る位置に、対応のマークアップ記号が挿入される。その
ため必要なマークアップ記号が、原文において異なる文
内に配置されていても、翻訳文に確実に復元される。そ
の結果、マークアップ記号を含むテキスト原文を、通常
のテキスト原文と同様に、より効率よく、かつより正確
に原文内のマークアップ記号を反映して翻訳することが
できる機械翻訳装置を提供できる。
【0129】請求項3に記載の発明に係る機械翻訳装置
によれば、請求項1または2に記載の発明の効果に加
え、テキスト原文の、対となるマークアップ記号に挟ま
れた部分が1つのフレーズであると仮定して構造解析木
の作成を行なうので、テキスト原文の解析がより正確か
つ高速に行なえる。その結果、マークアップ記号を含む
テキスト原文を、通常のテキスト原文と同様に、より効
率よく、より高速に、かつより正確に原文内のマークア
ップ記号を反映して翻訳することができる機械翻訳装置
を提供できる。
【図面の簡単な説明】
【図1】機械翻訳の概念を模式的に示す図である。
【図2】トランスファ方式による機械翻訳の構成を示す
模式図である。
【図3】本発明の一実施例の機械翻訳装置のブロック図
である。
【図4】図3に示される翻訳モジュール5の詳細なブロ
ック図である。
【図5】バッファAの格納内容を模式的に示す図であ
る。
【図6】バッファBの格納内容を模式的に示す図であ
る。
【図7】バッファCの格納内容を模式的に示す図であ
る。
【図8】バッファDの格納内容を模式的に示す図であ
る。
【図9】バッファEの格納内容を模式的に示す図であ
る。
【図10】タグ記号処理のフローチャートである。
【図11】SGML言語におけるタグ記号の例を示す模
式図である。
【図12】バッファAに格納された入力テキスト原文を
示す模式図である。
【図13】バッファFの格納内容を示す模式図である。
【図14】バッファBの格納内容を示す模式図である。
【図15】辞書引き処理後のバッファBの格納内容を示
す模式図である。
【図16】タグ記号情報付加後のバッファBの格納内容
を示す模式図である。
【図17】生成処理のサブルーチンプログラムのフロー
チャートである。
【図18】生成処理後のバッファEの格納内容を示す模
式図である。
【図19】本発明の一実施例の機械翻訳装置のブロック
図である。
【図20】本発明の一実施例におけるタグ記号復元処理
のフローチャートである。
【図21】本発明の一実施例におけるタグ記号復元処理
のフローチャートである。
【図22】翻訳結果のバッファの内容を示す図である。
【図23】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。
【図24】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。
【図25】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。
【図26】入力文書の一例を示す模式図である。
【図27】タグ記号判別補充部で使用するスタックを模
式的に示す図である。
【図28】タグ記号判別補充部で使用するタグ記憶バッ
ファの模式図である。
【図29】図26に示される入力文書を処理した後の出
力文書を模式的に示す図である。
【図30】本発明の一実施例に係るタグ情報適用部で行
なわれる処理を示すフローチャートである。
【図31】図13のタグ記号記憶バッファを処理した結
果のタグ情報記憶バッファを模式的に示す図である。
【符号の説明】
1 メインCPU 2 メインメモリ 3 表示装置 4 キーボード 5 翻訳モジュール 6 メモリ 11 辞書引き・形態素解析部 12 構文解析部 13 変換部 14 翻訳文生成部 15 翻訳CPU 16 翻訳プログラムメモリ 17 記憶部 101 タグ記号判別補充部 102 タグ記号抽出部 103 タグ情報適用部 104 タグ記号復元部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 マークアップ記号を含む第1の言語のテ
    キスト原文を、第2の言語のテキストに翻訳するための
    機械翻訳装置であって、 テキスト原文をマークアップ記号とマークアップ記号を
    含まないテキスト本体とに分離するための分離手段と、 各マークアップ記号を、各マークアップ記号が付されて
    いた単語と関連づけて記憶するための記憶手段と、 前記分離手段によりマークアップ記号と分離された前記
    テキスト本体に所定の文法処理を行なって、前記テキス
    ト本体に対応する前記第1の言語の構造解析木を作成す
    るための手段と、 前記第1の言語の構造解析木を、予め準備された変換規
    則を用いて前記第2の言語の構造解析木に変換するため
    の手段と、 前記第2の構造解析木と前記記憶手段の記憶内容とに基
    づいて、前記テキスト原文においてマークアップ記号が
    付されていた単語に対応する訳語に、前記訳語に付され
    ていた前記マークアップ記号と等価なマークアップ記号
    を付して前記第2の言語のテキストを生成するためのテ
    キスト生成手段とを含み、 前記テキスト生成手段は、生成されるテキスト内におい
    て、互いに相殺し合うマークアップ記号のシーケンスを
    検出する手段と、 検出されたマークアップ記号のシーケンスを除外して前
    記第2の言語のテキストを生成するための手段とを含
    む、機械翻訳装置。
  2. 【請求項2】 テキスト原文内において、対となるマー
    クアップ記号が異なる文内に配置されていることを判別
    する手段と、 対となるマークアップ記号が異なる文内に配置されてい
    ると判別されたことに応答して、前記対となるマークア
    ップ記号のうちの第1のマークアップ記号が含まれる文
    の所定位置に、前記対となるマークアップ記号のうちの
    第2のマークアップ記号を補充し、前記対となるマーク
    アップ記号のうちの前記第2のマークアップ記号が含ま
    れる文の所定位置に、前記第1のマークアップ記号を補
    充して、前記記憶手段に記憶させるためのマークアップ
    記号補充手段と、 前記テキスト生成手段によるテキストの生成において、
    前記マークアップ記号補充手段により補充されたマーク
    アップ記号を、生成されるテキスト内の、前記マークア
    ップ記号が補充された位置によって定まる位置にさらに
    補充する手段とをさらに含む、請求項1に記載の機械翻
    訳装置。
  3. 【請求項3】 構造解析木を作成する前記手段は、前記
    テキスト原文の、前記記憶手段に記憶された対となるマ
    ークアップ記号に挟まれた部分を1つのフレーズと仮定
    して構造解析木の作成を行なうことを特徴とする、請求
    項1または2に記載の機械翻訳装置。
JP6326088A 1994-12-27 1994-12-27 機械翻訳装置 Pending JPH08185405A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6326088A JPH08185405A (ja) 1994-12-27 1994-12-27 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6326088A JPH08185405A (ja) 1994-12-27 1994-12-27 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH08185405A true JPH08185405A (ja) 1996-07-16

Family

ID=18183977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6326088A Pending JPH08185405A (ja) 1994-12-27 1994-12-27 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH08185405A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266085A (ja) * 2004-03-17 2005-09-29 Advanced Telecommunication Research Institute International 音声合成装置及び文字割当装置並びにコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266085A (ja) * 2004-03-17 2005-09-29 Advanced Telecommunication Research Institute International 音声合成装置及び文字割当装置並びにコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
McKeown Paraphrasing questions using given and new information
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP3377290B2 (ja) イディオム処理機能を持つ機械翻訳装置
Planas et al. Formalizing translation memories
JPH0782498B2 (ja) 機械翻訳システム
JPH05314166A (ja) 電子化辞書および辞書検索装置
Gakis et al. Design and construction of the Greek grammar checker
WO2003079224A1 (fr) Procede et dispositif de generation de texte
JPH05120324A (ja) 言語処理方式
Baldwin et al. EAGLE: An Extensible Architecture for General Linguistic Engineering.
JPH0855123A (ja) イディオム登録機能を有する機械翻訳装置
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
JP3876014B2 (ja) 機械翻訳装置
JP3300142B2 (ja) 自然言語処理装置
WO1997048058A9 (en) Automated translation of annotated text
JPH08185405A (ja) 機械翻訳装置
JPH052605A (ja) 機械翻訳方式
Krstev et al. Morpho-Syntactic Descriptions in MULTEXT-East-the Case of Serbian.
JP3136973B2 (ja) 言語解析システムおよび方法
Bamutura Ry/Rk-Lex: A Computational Lexicon for Runyankore and Rukiga Languages
Vasuki et al. English to Tamil machine translation system using parallel corpus
JP3233800B2 (ja) 機械翻訳装置
Watanabe et al. Improving natural language processing by linguistic document annotation
JPS62267872A (ja) 言語解析装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020827