JPH08185405A

JPH08185405A - 機械翻訳装置

Info

Publication number: JPH08185405A
Application number: JP6326088A
Authority: JP
Inventors: Hidezo Kugimiya; 秀造釘宮
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1994-12-27
Filing date: 1994-12-27
Publication date: 1996-07-16

Abstract

(57)【要約】【目的】タグ記号を含む文書の機械翻訳を効率よくす
る。【構成】機械翻訳装置は、原文をタグ記号とテキスト
本体とに分離するとともに、原文内で複数の文に跨がっ
ているタグ記号が存在するときに、各文ごとに対応のタ
グ記号が含まれるようにタグ記号を補充するタグ記号判
別補充部１０１と、各タグ記号を単語と関連づけて記憶
する記憶部１７と、ソース言語の構造解析木を作成する
部分１１、１２と、構造解析木をターゲット言語に変換
する変換部１３と、ターゲット言語の構造解析木と記憶
部１７の記憶内容とに基づき、原文においてタグ記号が
付されていた単語に対応する訳語に、不要なタグ記号は
排除しつつ等価なタグ記号を付してターゲット言語のテ
キストを生成する翻訳文生成部１４およびタグ記号復元
部１０４とを含む。構文解析において、タグ記号で挟ま
れた部分を句として解析してもよい。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は機械翻訳装置に関し、
特に、ＲＴＦ（Rich Text Format）、ＳＧＭＬ（Standa
rd Generalized Markup Langage ）、ＴｅＸ等を含むマ
ークアップ記号等を含む文書を他の言語に翻訳すること
が可能な機械翻訳装置に関する。

【０００２】

【従来の技術】従来から機械翻訳装置として次のような
ものが実用化されている。従来の機械翻訳装置は、たと
えばキーボードなどから入力されたソース言語の文書
を、ＣＰＵ（中央演算処理装置）の制御により翻訳モジ
ュールに入力する。翻訳モジュールは、入力されたソー
ス言語のテキストを、メモリに記憶されている基本辞書
や、ユーザの登録によって準備されるユーザ辞書からな
る辞書群と、文法規則とを用いて解析し、構造解析木を
生成する。同様に、メモリに予め記憶されている、ソー
ス言語からターゲット言語への木構造変換規則を利用し
て、ソース言語のテキストの構造解析木をターゲット言
語の構造解析木に変換した上、各単語に適切な訳語を割
当て、さらに必要な部分を補ってターゲット言語のテキ
ストを生成する。

【０００３】一方、最近では、小型のコンピュータを用
いて印刷の版下までも作成するようなＤＴＰ（Desk Top
Puplishing ）機能を持った文書編集システムが普及し
てきている。そのため、文章からなるテキスト以外に図
や表を含む文書が多く作成されるようになっている。ま
た、ＴｅＸのように、テキスト中に、書体やフォントの
サイズ等の組版のための指定など、印刷のための付随情
報が含まれている場合がある。そのような情報は、たと
えばタイトルとそれ以外の部分との指定、使用する書
体、フォントのサイズなどの指定、索引として採用すべ
き語の指定情報などを含む。

【０００４】これらの情報は、マークアップ記号とし
て、処理の対象となる文書の本文中にテキスト本体と混
在している。文書中にこのようなマークアップ記号を含
ませておくことにより、そのマークアップ情報に従った
体裁、書体、フォントのサイズなどを用いて自動的にそ
の文書を印刷することができる。また、索引用語の指定
を行なった場合には、そのようなマークアップ記号が付
された単語または単語群を検索していくことにより容易
に索引を作成することができる。

【０００５】このようなマークアップ記号の体系として
マークアップ言語があり、ＩＳＯ（国際標準化機構）で
制定されたＳＧＭＬがその一例である。ＳＧＭＬは、文
書の論理的な構造、たとえば章立て、段落、箇条書きな
どといった論理的な構成の指定を行なうためのものであ
る。実際にＳＧＭＬによって作成された文書を印刷する
際には、より具体的にフォーマットを決定するためのマ
ークアップ言語を用いることが多い。そのようなマーク
アップ言語の一例がＴｅＸと呼ばれるものである。

【０００６】このようにマークアップ言語を用いて印刷
の指定がされた文書の数が増大した結果、これらの文書
を他の言語に翻訳する技術に対する需要が増大してい
る。

【０００７】これに対応して、ＲＴＦ、ＳＧＭＬ、Ｔｅ
Ｘ等のように文中にマークアップ記号を含む特別な原文
の場合でも、マークアップ記号を含まない通常の原文と
同様な翻訳をし、さらにタグ記号を翻訳結果に復元でき
る機械翻訳装置も実現されつつある。

【０００８】

【発明が解決しようとする課題】しかし、上述のような
マークアップ記号を含む文書を従来の機械翻訳装置で翻
訳しようとすれば、ソース言語とは異質のマークアップ
記号が文書に含まれているために、翻訳が適正に行なわ
れず、翻訳不能となったり、あるいは誤訳などが発生し
たりしてしまう。そのため従来は、機械翻訳装置にテキ
ストを入力する前に、エディタ等によりその入力テキス
トにマークアップ記号が含まれているか否かを手操作で
調べ、含まれている場合には１つ１つ削除し、その後に
機械翻訳装置に入力する必要があった。このため、従来
の機械翻訳装置でマークアップ記号を含む文書を翻訳す
る場合の効率は非常に悪かった。

【０００９】このような問題を解決するために、文書に
含まれる形式情報などの非言語データを意識せずに行な
うための文書処理システムが、特開平４−２５９０５７
号公報に開示されている。この公報に開示されたシステ
ムでは、非言語データと言語データとが混在する文書デ
ータから言語データのみが抽出され、この抽出された言
語データに対して所定の編集処理が行なわれる。さら
に、この編集処理により編集された言語データと、元々
入力された文書データ中の言語データとが比較対照さ
れ、それぞれの対応箇所が決定される。そして、入力文
書データの言語データを、編集後の言語データの対応す
るものにより置換える。このようにすることにより、非
言語データの存在を意識せずに、言語データと形式情報
とが混在する文書データの編集を行なうことができる、
とされている。

【００１０】ところが、マークアップ記号を含む文の翻
訳において、単に原文でマークアップ記号の付いていた
単語に対応する翻訳結果の訳語の各々に、対応のマーク
アップ記号を付加して出力するだけでは、訳文中にマー
クアップ記号が多くなりすぎて訳文が読みにくくなって
しまうという問題がある。また同時に、そうした無駄な
情報が増える結果余分なメモリや表示スペースを使用す
るため、システムとして効率が悪いという問題点があ
る。

【００１１】また、現在の翻訳システムの多くは、翻訳
は１文を単位として行なわれている。そのため前の文の
情報が次の文に引き継がれることはない。対となるマー
クアップ記号が複数の文に跨がっている場合、それらマ
ークアップ記号の情報が翻訳文から欠落してしまい、マ
ークアップ情報を正確に反映した翻訳に失敗するという
問題点がある。たとえば連続する複数の文のうち最初の
文にマークアップ情報の開始を示す記号のみがあって終
了を示す記号がなく、最後の文にはマークアップ情報の
開始を示す記号がなく終了の記号のみがある場合、これ
ら複数の文の先頭と最後については正しく訳すことがで
きず翻訳に失敗してしまうという問題がある。

【００１２】また、これらマークアップ情報が付されて
いる部分は、テキスト原文の構造上一定のまとまりがあ
る部分であると考えられる。そうした情報は翻訳の１段
階としての原文の構造解析上有用であると考えられるの
で、マークアップ情報をも含んだ形で翻訳処理を行なう
ことが望ましい。

【００１３】それゆえに本発明の目的は、ソース言語の
入力テキストにマークアップ記号が含まれる場合でも、
従来よりさらに効率よく翻訳を行なうことができる機械
翻訳装置を提供することである。

【００１４】請求項２に記載の発明の目的は、マークア
ップ記号を含むテキスト原文を、通常のテキスト原文と
同様に、より効率よく、かつより正確に原文内のマーク
アップ記号を反映して翻訳することができる機械翻訳装
置を提供することである。

【００１５】請求項３に記載の発明の目的は、マークア
ップ記号を含むテキスト原文を、通常のテキスト原文と
同様に、より効率よく、より高速に、かつより正確に原
文内のマークアップ記号を反映して翻訳することができ
る機械翻訳装置を提供することである。

【００１６】

【課題を解決するための手段】本発明に係る機械翻訳装
置は、マークアップ記号を含む第１の言語のテキスト原
文を、第２の言語のテキストに翻訳するための機械翻訳
装置である。この機械翻訳装置は、テキスト原文をマー
クアップ記号とマークアップ記号を含まないテキスト本
体とに分離するための分離手段と、各マークアップ記号
を、各マークアップ記号が付されていた単語と関連づけ
て記憶するための記憶手段と、分離手段によりマークア
ップ記号と分離されたテキスト本体に所定の文法処理を
行なって、テキスト本体に対応する第１の言語の構造解
析木を作成するための手段と、第１の言語の構造解析木
を、予め準備された変換規則を用いて第２の言語の構造
解析木に変換するための手段と、第２の構造解析木と記
憶手段の記憶内容とに基づいて、テキスト原文において
マークアップ記号が付されていた単語に対応する訳語
に、該訳語に付されていたマークアップ記号と等価なマ
ークアップ記号を付した第２の言語のテキストを生成す
るためのテキスト生成手段とを含む。テキスト生成手段
は、生成されるテキスト内において、互いに相殺し合う
マークアップ記号のシーケンスを検出する手段と、検出
されたマークアップ記号のシーケンスを除外して第２の
言語のテキストを生成するための手段とを含む。

【００１７】請求項２に記載の発明に係る機械翻訳装置
は、請求項１に記載の装置であって、テキスト原文内に
おいて、対となるマークアップ記号が異なる文内に配置
されていることを判別する手段と、対となるマークアッ
プ記号が異なる文内に配置されていると判別されたこと
に応答して、対となるマークアップ記号のうちの第１の
マークアップ記号が含まれる文の所定位置に、対となる
マークアップ記号のうちの第２のマークアップ記号を補
充し、第２のマークアップ記号が含まれる文の所定位置
に、第１のマークアップ記号を補充して、記憶手段に記
憶させるためのマークアップ記号補充手段と、テキスト
生成手段によるテキストの生成において、マークアップ
記号補充手段により補充されたマークアップ記号を、生
成されるテキスト内の、マークアップ記号が補充された
位置によって定まる位置にさらに補充して生成する手段
とをさらに含む。

【００１８】請求項３に記載の発明に係る機械翻訳装置
は、請求項１または２に記載の装置であって、構造解析
木を作成するための手段は、テキスト原文の、記憶手段
に記憶された対となるマークアップ記号に挟まれた部分
を１つのフレーズと仮定して構造解析木の作成を行なう
ことを特徴とする。

【００１９】

【作用】本発明に係る機械翻訳装置では、分離手段がテ
キスト原文をマークアップ記号とマークアップ記号を含
まないテキスト本体とに分離する。記憶手段は、各マー
クアップ記号を記憶する。各マークアップ記号は、それ
が付されていた単語と互いに関連づけられる。構造解析
木を作成するための手段がテキスト本体に所定の文法処
理を行なって、第１の言語の構造解析木を作成する。変
換手段がこの構造解析木を第２の言語の構造解析木に変
換する。そして、生成手段が、第２の構造解析木と記憶
手段の記憶内容とに基づいて、第２の言語のテキストを
生成する。生成されるテキストでは、テキスト原文にお
いてマークアップ記号が付されていた単語に対応する訳
語には、該訳語に付されていたマークアップ記号と等価
なマークアップ記号がテキスト生成手段により付され
る。このときテキスト生成手段は、生成されるテキスト
内において、互いに相殺し合うマークアップ記号のシー
ケンスを検出し、検出されたマークアップ記号のシーケ
ンスを除外して第２の言語のテキストを生成する。相互
に相殺し合って何の効果ももたらさないマークアップ記
号のシーケンスは第２の言語のテキスト内には生成され
ない。

【００２０】請求項２に記載の発明に係る機械翻訳装置
においては、テキスト原文内において、対となるマーク
アップ記号が異なる文内に配置されていると判別される
と、対となるマークアップ記号のうちの第１のマークア
ップ記号が含まれる文の所定位置に、対となるマークア
ップ記号のうちの第２のマークアップ記号が補充され、
第２のマークアップ記号が含まれる文の所定位置に、第
１のマークアップ記号が補充される。第２の言語のテキ
ストの生成においては、生成されるテキスト内の、マー
クアップ記号が補充された位置によって定まる位置に、
対応のマークアップ記号が補充される。必要なマークア
ップ記号が、原文において異なる文内に配置されている
ため、翻訳文において復元されない、ということがな
い。

【００２１】請求項３に記載の発明に係る機械翻訳装置
においては、テキスト原文の、対となるマークアップ記
号に挟まれた部分が１つのフレーズであると仮定して構
造解析木の作成を行なうので、テキスト原文の解析がよ
り正確かつ高速に行なえる。

【００２２】

【実施例】以下、本発明の一実施例の機械翻訳装置を図
を参照しながら説明する。以下の実施例の機械翻訳装置
は英語から日本語への英日機械翻訳装置が例として示さ
れる。しかし本発明はこれには限定されず、他のいかな
る言語間の機械翻訳装置に対しても適用できる。また以
下の説明では、本発明をマークアップ記号としてＴｅＸ
というマークアップ言語に用いられるマークアップ記号
（「タグ記号」と呼ばれる）を例にとって説明するが、
本発明はこの言語には限定されず、一般的にマークアッ
プ記号を用いる言語に対して適用可能である。

【００２３】実施例の説明の前に、機械翻訳の概念につ
いて簡単に説明する。図１を参照して、機械翻訳におい
て行なわれる解析処理には、様々な解析レベルがある。
機械翻訳は、図１の左上に示されるソース言語が入力さ
れると、各レベルの処理を順に行なって最終的に図１の
右側に示されるターゲット言語を得るための処理であ
る。たとえばソース言語のテキストが入力されると、ま
ずレベルＬ１の辞書引き処理、レベルＬ２の形態素解析
処理、レベルＬ３の構文解析処理、…と処理が進めら
れ、最終的にレベルＬ１０の形態素生成処理が行なわれ
てターゲット言語のテキストが生成される。

【００２４】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の２つに分けられる。第１
は、レベルＬ６に示される中間言語まで解析し、そこか
らターゲット言語のテキストを生成していくピボット方
式である。第２は、上述のレベルＬ２〜レベルＬ５のい
ずれかまで解析を行なってソース言語の内部構造を得、
次に、得られたソース言語の内部構造と同じレベルのタ
ーゲット言語の内部構造に変換した後、ターゲット言語
のテキストを生成するトランスファ方式である。

【００２５】ピボット方式において用いられる中間言語
とは、ソース言語およびターゲット言語のどちらにも依
存しない概念である。したがってソース言語の解析処理
を一度行なって中間言語を得れば、この中間言語から複
数の言語を生成することができるため、多言語間翻訳に
有利であるとされる。しかし、このようなピボット方式
では、その基本的概念である中間言語を本当に設定でき
るかどうかという点が未解決である。

【００２６】トランスファ方式はピボット方式のこのよ
うな問題に対する妥協案であって、現在の多くのシステ
ムはこのトランスファ方式を採っている。以下の説明は
トランスファ方式についてのものであり、後述する実施
例の機械翻訳装置もトランスファ方式を用いたものであ
る。

【００２７】以下、図１に示される各解析処理の内容に
ついて説明する。（１）辞書引き、形態素解析この処理においては、入力された文章に対して、形態素
が格納された辞書を参照しながらたとえば最長一致法な
どを用いて形態素列（単語列）に分割する処理がまず行
なわれる。そして、得られた各単語に対する品詞などの
文法情報および訳語を得、さらに時制・人称・数などを
解析する処理が行なわれる。

【００２８】（２）構文解析この処理においては、品詞・変化形などに基づき、単語
間のかかり受けなどの文章の構造（構造解析木）を組立
て、決定する処理が行なわれる。この処理においては、
得られた文章の構造が正しい意味を表わすかどうかにつ
いての判断は行なわれない。

【００２９】（３）意味解析構文解析処理の結果得られた複数の構造解析木から、意
味的に正しいものとそうでないものとを判別し、正しい
もののみを採用する処理が行なわれる。

【００３０】（４）文脈解析文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。

【００３１】以下で説明する本発明の一実施例の機械翻
訳装置の翻訳モジュールにおいては、レベルＬ３までの
解析処理を行なうものとする。すなわち、本実施例の機
械翻訳装置の翻訳モジュールは、図２に示されるような
構造を有する。この翻訳モジュールは、図２を参照し
て、ソース言語のテキスト原文を、タグ記号とテキスト
自体に分離するとともに、後述するようにテキスト原文
において異なる文内に開始タグ記号と終了タグ記号とが
含まれている場合に、開始タグ記号が含まれている文の
最終部分に終了タグ記号を補充し、終了タグ記号が含ま
れている文の先頭部分に開始タグ記号を補充するための
タグ記号判別補充部１０１と、タグ記号をそれが付され
ていた単語と関連づけて記憶するための記憶部１７と、
テキスト本体に対して辞書引き・形態素解析処理を行な
うための辞書引き・形態素解析部１１と、形態素解析さ
れた入力文章に対して構文解析を行なうための構文解析
部１２と、構文解析の結果を変換してターゲット言語の
構造解析木を生成するための変換部１３と、変換部１３
によって生成されたターゲット言語の構造解析木に基づ
き、かつ記憶部１７の内容を参照して、タグ記号が挿入
されたターゲット言語の翻訳文を生成するための翻訳文
生成部１４とを含む。

【００３２】さらにこの翻訳モジュールは、辞書引き・
形態素解析部１１による解析の結果からタグ記号を抽出
して記憶部１７に格納するタグ記号抽出部１０２と、同
様に辞書引き・形態素解析部１１の解析結果に対してタ
グ情報を適用し翻訳に有用な情報を記憶部１７に格納す
るためのタグ情報適用部１０３と、記憶部１７の格納内
容を参照して、翻訳文生成部１４における翻訳文内に必
要なタグ記号を復元するためのタグ記号復元部１０４と
を含む。各部で行なわれる処理については、実施例にお
いて詳しく説明する。

【００３３】図３は、この発明の一実施例の機械翻訳装
置のブロック図である。図３を参照して、この機械翻訳
装置は、メインＣＰＵ（中央処理装置）１と、メインＣ
ＰＵ１が接続されたバス７と、バス７に接続されたメイ
ンメモリ２と、バス７に接続されたＣＲＴ（陰極線管）
やＬＣＤ（液晶表示装置）などからなる表示装置３と、
キーボード４と、バス７に接続された翻訳モジュール５
と、翻訳モジュール５に接続された翻訳用の辞書・文法
規則および木変換構造規則などの知識ベースを格納して
いるメモリ６とを含む。

【００３４】翻訳モジュール５は、ソース言語のテキス
トが入力されると、それを所定の手順で翻訳してターゲ
ット言語のテキストを出力するためのものである。図４
を参照して、翻訳モジュール５は、バス７に接続され、
バス７を介して入力されるソース言語（本実施例の場合
には英語）のテキストを、所定の翻訳プログラムに従っ
て翻訳してターゲット言語（本実施例の場合には日本
語）のテキストとしてバス７に出力するための翻訳ＣＰ
Ｕ１５と、バス７に接続され、翻訳ＣＰＵ１５で実行さ
れる翻訳プログラムを格納するための翻訳プログラムメ
モリ１６と、入力されたソース言語のテキスト原文を各
単語ごとに格納するためのバッファＡと、バッファＡに
格納された各単語につき、メモリ６に含まれる辞書を参
照して得た各単語の品詞、訳語などの情報を格納するた
めのバッファＢと、ソース言語の構造解析木に関する情
報を格納するためのバッファＣと、バッファＣに格納さ
れたソース言語の構造解析木が変換されたターゲット言
語の構造解析木を格納するためのバッファＤと、バッフ
ァＤに格納された日本語の構造解析木に適切な助詞を助
動詞などを補充して、日本語の形として整えられた文章
を格納するためのバッファＥと、後述するタグ除去処理
の際に用いられる、タグや、そのタグが付されている単
語数等を記憶するためのバッファＦと、図２に示すタグ
記号判別補充部１０１で使用されるスタック１９とを含
む。これらバッファが記憶部１７（図２）に相当する。

【００３５】以下、図２〜図９を参照して、本実施例の
機械翻訳装置による英日翻訳の動作を説明する。なお、
翻訳ＣＰＵ１５で実行される翻訳プログラムの詳細につ
いては後に具体例を用いて詳述する。

【００３６】まず、読込まれたテキスト原文は形態素解
析によって形態素に分解され、タグ記号判別補充部１０
１（図２）により、タグ記号とそれ以外のテキスト本体
とに分離される。テキスト本体は図５に示されるように
バッファＡ（図４参照）に格納される。タグ記号はバッ
ファＦに格納される。なおこのときタグ記号判別補充部
１０１は、テキスト原文において異なる文内に対となる
タグ記号が含まれているか否かを判別する。そして異な
る文内に対となるタグ記号が含まれていると判別された
場合には、それらの文のそれぞれに、マークアップ記号
を補充する。どのようにしてマークアップ記号を補充す
るかについては、図２３〜図２５などを参照して後述す
る。

【００３７】続いて翻訳プログラム１６に基づく翻訳Ｃ
ＰＵ１５の制御の下に、図２に示される辞書引き・形態
素解析部１１が、バッファＡに格納された原文の各単語
につき、メモリ６に格納されている辞書を参照すること
により各単語の訳語や品詞情報などの情報を得る。この
情報は図４に示されるバッファＢに格納される。これら
の情報の一部として、各単語の品詞情報が含まれるが、
これら品詞情報は図６に示されるように格納される。す
なわち“ｔｈｉｓ”は多品詞語であって代名詞、指示形
容詞の２つの品詞を持つ。また“ｉｓ”の品詞は動詞で
ある。同様に“ａ”、“ｐｅｎ”についてもそれぞれの
品詞がバッファＢに格納される。“ｔｈｉｓ”は多品詞
語であるが、文中の品詞が何であるかについては、図２
に示される構文解析部１２に相当する処理によって一意
に決定される。

【００３８】翻訳プログラムのうち図２に示される構文
解析部１２に相当する処理においては、メモリ６に格納
された辞書および文法規則に従って、各単語間の修飾・
被修飾関係を示す構造解析木がたとえば図７に示される
ように決定される。この構文解析結果は図４のバッファ
Ｃに格納される。

【００３９】構造解析木の決定は次のようにして行なわ
れる。メモリ６に格納された文法規則のうち、英語に関
する文法規則は次のようなものから成り立っている。

【００４０】文→主部、述部主部→名詞句述部→動詞、名詞句名詞句→代名詞名詞句→冠詞、名詞この規則のうちたとえば１つ目の規則は、「文は主部と
述部からできている。」ということを表わす。他の規則
についても同様である。これらの規則に従って構造解析
木が決定されるのである。なお、このような文法規則は
同じように日本語についても用意されており、英語の文
法規則と日本語の文法規則との間で対応づけがなされて
いる。なおこの構造解析において、タグ情報を用いてい
るが、詳細は後述する。

【００４１】翻訳プログラムのうち、図２に示される変
換部１３に相当する処理においては、入力された英文の
構造解析木（図７参照）の構造が、図８に示される日本
文に対する構文解析木の構造に変換される。この変換に
おいては、上述の構文解析部１２が利用したのと同様
に、メモリ６に格納されている「木構造変換規則」が用
いられる。この変換は、図１でいえばレベルＬ３からタ
ーゲット言語のレベルＬ９への変換に相当する。得られ
た結果は図４に示されるバッファＤに格納される。この
説明において用いられている例文“Ｔｈｉｓｉｓａ
ｐｅｎ”は、この変換によって日本語文字列「これ
ペンである」に変換されたことになる。

【００４２】翻訳プログラムのうち図２の翻訳文生成部
１４に相当する処理を行なう部分は、得られた日本語文
字列「これペンである」に適切な助詞「は」や助動
詞をつけることにより、図９に示されるような文法的な
日本語の形にし、図４に示されるバッファＥに格納す
る。この処理は、図１に示されるレベルＬ９からレベル
Ｌ１０への変換に相当する。得られた日本文「これはペ
ンである。」は、図４に示される翻訳モジュール５から
出力され、メインメモリ２に格納されるとともに、表示
装置３に表示される。

【００４３】次に、図１０〜図１８を用いて、タグ記号
を含む原文を翻訳する際の処理の詳細を示す。この処理
は、翻訳に先立って、原文に含まれるタグ記号を除去
し、タグ記号を除去した原文を翻訳モジュールの入力と
することに特徴がある。除去したタグ記号は、原文の、
そのタグ記号が付加されていた単語と関連付けて記憶し
ておき、翻訳後の文の、原単語に対応する単語にさらに
この除去されたタグ記号を付加する。

【００４４】図１１は、ＳＧＭＬ文書で使用されるタグ
記号の一例を示す。各タグ記号は、開始タグと終了タグ
との組からなり、開始タグと終了タグとによって挟まれ
る単語群をマークアップする。

【００４５】図１１に示されるタグ記号＜ｔｅｒｍ＞＜
＼ｔｅｒｍ＞は、このタグ記号に挟まれた単語群が、特
定の用途に用いられる単語群、たとえば索引として採用
される単語群であることを示す。またタグ記号＜ｅｍｐ
ｈ＞＜＼ｅｍｐｈ＞は、このタグ記号に挟まれる単語群
を、強調して印刷することを示す。たとえば、このタグ
記号に挟まれる単語群は、印刷時にはボールド体などで
印刷される。

【００４６】なおタグ記号は文書の形式によって異な
る。たとえば前述のＲＴＦは文書データ交換のためのフ
ォーマットであるが、ＲＴＦ形式の文書では、開始タグ
は「｛＼」で始まる文字列であり、終了タグは「｝」で
ある。ＴｅＸ文書においてもタグ記号は同様である。

【００４７】図１２は、以下の説明で翻訳対象となる英
語のテキスト原文の一例である。この原文は、図４およ
び図５に示すバッファＡに格納される。図１２に示され
る原文においては、タグ記号＜ｔｅｒｍ＞＜＼ｔｅｒｍ
＞に挟まれた単語または単語群としては、“Ｔａｇ”と
“ｔａｂｌｅｃｈａｒｔ”とがある。この２つの単語
または単語群は、たとえばこの文を含む文書についての
索引を作成する際の見出し語となる。かつこのタグ記号
によって挟まれて出現する部分が、索引における各単語
群の出現ページとして記録される。またタグ記号＜ｅｍ
ｐｈ＞＜＼ｅｍｐｈ＞で挟まれた２つの単語“ｐｒｏｄ
ｕｃｅ”と“ｓｐｅｃｉｆｙｉｎｇ”とは、ともに印刷
時には他の部分と異なる字体、たとえば前述のようなボ
ールド体で印刷される。

【００４８】図１０は、図３に示される翻訳モジュール
５の分離部１０および辞書引き形態素解析部１１（図
２）によって行なわれる、タグ記号処理の詳細なフロー
チャートである。図１０を参照して、まずステップＳ０
１で、図１２に示される入力文がバッファＡ（図４、５
参照）に格納される。

【００４９】ステップＳ０２で、バッファＡ内に格納さ
れた原文の処理対象となる単語位置を示す単語位置ポイ
ンタが０にセットされる。これにより単語位置ポインタ
によって指し示される原文単語は、“Ｏｎｅ”である。

【００５０】ステップＳ０３では、図１１に示されるよ
うなタグ記号のテーブルを参照しながら、現在単語位置
ポインタがポイントしている単語の先頭が開始タグか否
かについての判断が行なわれる。開始タグでないと判断
されれば処理はステップＳ０４に進み、開始タグと判断
された場合には処理はステップＳ０９に進む。

【００５１】ステップＳ０３で開始タグではないと判断
された場合、ステップＳ０４では、単語位置ポインタに
よってポイントしている単語が終了タグか否かについて
の判断が行なわれる。終了タグであれば処理はステップ
Ｓ０８に進み，終了タグでない場合は処理はステップＳ
０５に進む。

【００５２】単語位置ポインタによってポイントされて
いる単語が開始タグでも終了タグでもない場合にはステ
ップＳ０５で、現在単語位置ポインタによってポイント
されている単語をバッファＢ（図４参照）に格納する処
理が行なわれ、処理はステップＳ０６に進む。終了タグ
であると判断された場合にはステップＳ０８で、その終
了タグを削除したうえ単語位置ポインタによってポイン
トされている単語をバッファＢに格納する処理が行なわ
れて処理はステップＳ０６に進む。

【００５３】一方、ステップＳ０３で単語位置ポインタ
によってポイントされている単語の先頭が開始タグであ
ると判断された場合には、ステップＳ０９でその開始タ
グをバッファＦ（図４参照）に格納する処理が行なわれ
る。

【００５４】そしてステップＳ１０で、この開始タグが
検出された文中の単語位置（すなわち単語位置ポインタ
の値）を、ステップＳ０９で格納された開始タグに関連
付けてバッファＦに格納する処理が行なわれる。

【００５５】ステップＳ１１では、終了タグがあるかど
うかについての判断が行なわれる。終了タグが存在する
場合には処理はステップＳ１２に進み、存在しない場合
には処理はステップＳ１４に進む。

【００５６】ステップＳ１２では、単語数「１」を、ス
テップＳ０９で格納された開始タグに関連付けてバッフ
ァＦに格納する処理が行なわれる。

【００５７】さらにステップＳ１３では、入力原文の、
単語位置ポインタによって指定された単語に付加されて
いる開始タグおよび終了タグを削除した上、バッファＢ
に格納する処理が行なわれ、処理はステップＳ０６に進
む。

【００５８】一方、ステップＳ１４に処理が進んだ場
合、まず終了タグまでの単語数をカウントする処理が行
なわれる。カウントされた単語数はステップＳ０９でバ
ッファＦに格納された開始タグに関連付けて、同様にバ
ッファＦに格納される。

【００５９】さらにステップＳ１５で、単語位置ポイン
タによって指し示される単語に付加されている開始タグ
を削除した上この単語をバッファＢに格納する処理が行
なわれる。処理はステップＳ０６に進む。

【００６０】ステップＳ０６では、バッファＡ内に次の
単語が存在しているか否かについての判断が行なわれ
る。存在する場合には処理はステップＳ０７に進み、そ
れ以外の場合には処理はステップＳ１６に進む。

【００６１】ステップＳ０７では、単語位置ポインタを
インクリメントする処理が行なわれ、処理はステップＳ
０３に戻る。以下、上述した処理が繰返し行なわれる。
そしてバッファＡ内に処理対象の単語が存在しなくなる
と処理がステップＳ１６に進む。

【００６２】ステップＳ１６では、バッファＢに格納さ
れている各見出し語に対して辞書引き処理が行なわれ
る。この結果、各見出し語に対して品詞および単語数の
情報がバッファＢ内に格納される。

【００６３】さらにステップＳ１７では、辞書引き処理
が行なわれたバッファＢの結果に、さらにバッファＦに
格納されているタグ記号についての情報を付加する処理
が行なわれる。このタグ記号の付加は、各見出し語のう
ち、原文内でタグ記号が付加されていた見出し語に、そ
の付加されていたタグ記号を示す情報を付加する処理で
ある。

【００６４】以下、図１２に示される原文につき、図１
０に示される処理を行なった場合の処理の経過について
説明する。まず、単語位置ポインタを０にセットするこ
とにより単語“Ｏｎｅ”が単語位置ポインタによってポ
イントされる。ステップＳ０３、ステップＳ０４の判断
の結果はいずれも“ＮＯ”となるため、ステップＳ０５
でこの単語“Ｏｎｅ”がバッファＢに格納される。ステ
ップＳ０６では、次の単語が存在するために判断の答は
ＹＥＳとなり処理はステップＳ０７に進む。単語位置ポ
インタの値が１インクリメントされるため、単語位置ポ
インタによってポイントされる単語は次の単語“ｏｆ”
となる。

【００６５】以下、単語“ｏｆ”〜“ｔｈｉｓ”まで、
上述と同様の処理が繰返され、バッファＢにはこれらの
単語が順にその単語位置とともに格納される。

【００６６】単語位置ポインタが８となった場合、ステ
ップＳ０３における判断の答かＹＥＳとなり、処理はス
テップＳ０９に進む。ステップＳ０９では、検出された
開始タグ（この場合＜ｔｅｒｍ＞）をバッファＦに格納
する処理が行なわれ、さらにステップＳ１０で、その単
語位置も同様にバッファＦに格納される。ステップＳ１
１の判断はＹＥＳとなるため、ステップＳ１２の処理に
より単語数「１」がバッファＦに格納される。この結
果、バッファＦに格納される、単語“Ｔａｇ”に関する
タグ記号情報は、図１３の第１行目に示されるものとな
る。さらにステップＳ１３では、開始タグおよび終了タ
グを削除した上、単語“Ｔａｇ”をバッファＢに格納す
る処理が行なわれる。

【００６７】以下このように単語位置ポインタをインク
リメントしながら各単語につき開始タグ、終了タグの有
無を判断し、タグ記号を除去しながら各単語をバッファ
Ｂに格納していく。これにより、バッファＢには図１４
に示される情報が得られる。またバッファＦには、図１
３に示されるようなタグ記号に関する情報が得られる。

【００６８】図１３および図１４を参照して、単語位置
８の単語、すなわち単語“Ｔａｇ”には、タグ記号＜ｔ
ｅｒｍ＞が付加されており、このタグ記号によって挟ま
れている単語はこの一語のみであることがわかる。同様
に単語“ｐｒｏｄｕｃｅ”にもタグ記号＜ｅｍｐｈ＞が
付加されている。また単語群“ｔａｂｌｅｃｈａｒ
ｔ”は、この２語の前後をタグ記号＜ｔｅｒｍ＞＜＼ｔ
ｅｒｍ＞で挟まれている。さらに単語位置２５の単語
“ｓｐｅｃｉｆｙｉｎｇ”も、その前後をタグ記号＜ｅ
ｍｐｈ＞＜＼ｅｍｐｈ＞で挟まれている。

【００６９】さらにステップＳ１６において行なわれる
辞書引き処理により、バッファＢの格納内容は図１５に
示されるようになる。すなわち各見出し語には、辞書引
き処理によって得られた品詞および単語数に関する情報
が付加される。ただし、図１５においては各見出し語に
付加される品詞および単語数の具体的な内容については
図の簡単化のために省略している。

【００７０】ステップＳ１７では、図１３に示されるバ
ッファＦの内容を、バッファＢ内の各見出し語に付加す
る処理が行なわれる。この処理は、図１３のバッファＦ
の単語位置によって示されるバッファＢ内の単語に、バ
ッファＦに保存されているタグ記号を付加することによ
って行なわれる。すなわち、第８番目の単語“Ｔａｇ”
にはタグ記号＜ｔｅｒｍ＞が付加される。同様に単語位
置１４の単語“ｐｒｏｄｕｃｅ”にはタグ記号＜ｅｍｐ
ｈ＞が付加される。また単語位置１５番目から始まる２
つの単語“ｔａｂｌｅｃｈａｒｔ”にも各々タグ記号
＜ｔｅｒｍ＞が付加される。この図１３に示されるバッ
ファＦの情報において、単語位置１５から始まる２つの
単語にタグ記号＜ｔｅｒｍ＞を付加することが示されて
いるからである。また単語位置２５の単語“ｓｐｅｃｉ
ｆｙｉｎｇ”にも、タグ記号＜ｅｍｐｈ＞が付加され
る。

【００７１】以下、バッファＢに格納されている各見出
し語と、その品詞、単語数などに基づいて図３の構文解
析部１２、変換部１３によって通常どおりの翻訳処理が
行なわれる。そして最終的に生成部１４によって訳文が
生成される。

【００７２】このとき、生成部１４は、生成しようとす
る単語に対応する入力部の単語がタグの情報をもつ場合
には、その訳語の前後に、図１６に示されるバッファＢ
の内容によって示される開始タグおよび終了タグを生成
する。対応する単語にタグの情報がない場合には通常ど
おり訳語だけが生成される。

【００７３】この生成処理につき、図１７および図１８
を参照して以下に説明する。図１７に示されるステップ
Ｓ２１〜Ｓ２７の処理は、構造解析木の「葉」の部分の
各単語について行なわれる。まずステップＳ２１で、或
る単語につき、バッファＢ内のその単語に対応する「タ
グ情報」の欄（図１６参照）を調べ、タグ情報が存在す
るか否かについての判断を行なう。存在する場合には制
御はステップＳ２２に、そうでない場合には制御はステ
ップＳ２６にそれぞれ進む。

【００７４】ステップＳ２２では、バッファＢに格納さ
れていた開始タグをまずバッファＥに格納する処理が行
なわれる。

【００７５】続いてステップＳ２３で、処理中の単語に
対応する訳語をバッファＢからバッファＥに格納する処
理が行なわれる。

【００７６】続いてステップＳ２４で、終了タグをバッ
ファＢからバッファＥに格納する処理が行なわれる。

【００７７】ステップＳ２４の後ステップＳ２５で、こ
の訳語に付加するべき適当な助詞が選ばれ、バッファＥ
に格納される。ステップＳ２５の後、制御はステップＳ
２７に進む。

【００７８】一方、ステップＳ２１でバッファＢにタグ
情報が存在しないと判断された場合、制御はステップＳ
２６に進む。ステップＳ２６では、タグ情報に関する処
理は行なわれない。すなわちステップＳ２２、Ｓ２４に
対応する処理は行なわれず、単に訳語をバッファＢから
バッファＥに格納する処理が行なわれる。ステップＳ２
６の後、制御はステップＳ２５に進む。

【００７９】ステップＳ２７では、処理対象となってい
る構造解析木の最後の単語まで到達したかどうかについ
ての判断が行なわれる。到達していない場合には制御は
ステップＳ２１に戻り、ステップＳ２１以下の処理が繰
返し行なわれる。もし終了であればこの生成処理も終了
する。

【００８０】このようにして生成されたバッファＥの内
容を図１８に示す。この図１８に示される翻訳文は、図
１２に示される原文に対応するものである。なお、連続
する複数個の単語について同一のタグ情報が付されてい
る場合には、その先頭の単語に対応する訳語の前に開始
タグを、最後の単語の後に終了タグをそれぞれ付加す
る。図１８はそのようにして得られたものである。

【００８１】図９は、本発明の機械翻訳装置の構成を示
すブロック図であり、概略は図２を参照して既に述べた
とおりである。なおタグ記号判別補充部１０１は、入力
されるテキスト原文内の異なる文に対となるタグ記号が
存在するか否かを判別するためのタグ記号判別部１０１
ａと、タグ記号判別部１０１ａにより、テキスト原文の
異なる文内に、対となるタグ記号が存在していると判別
された場合に、必要なタグ記号を補充するためのタグ記
号補充部１０１ｂとを含む。

【００８２】記憶部１７は、タグ記号を記憶するタグ記
号記憶部１７１とタグ情報を記憶するタグ情報記憶部１
７２とを含む。

【００８３】ソース言語のテキスト原文は入力部３１に
よりタグ記号判別補充部１０１に与えられる。またター
ゲット言語の翻訳文は翻訳モジュール５から出力部３２
に与えられる。

【００８４】図２０および図２１は、図１７の生成処理
にさらに改良を加えた、本発明の実施例に従う生成処理
のフローチャートである。このフローチャートに従った
生成処理を行なうことにより、タグ記号を含む文の翻訳
で翻訳結果の訳語ごとにタグ記号を復元する場合に、同
じタグ記号が連続する場合には中間のタグ記号を省略し
て出力することができる。この場合同じタグ記号が連続
するとは、たとえば同一種類のタグ記号のタグ終了記号
とタグ開始記号とが連続して含まれるような場合、相互
にその効果を相殺できるような場合をいう。

【００８５】まずステップＳ２０１でタグフラグを０に
セットする。この場合のタグフラグとは、タグ記号を復
元するか省略するかを後で判断するためのフラグであ
る。

【００８６】続いてステップＳ２０２で、訳語ポインタ
を木変換バッファＤの先頭にセットする。

【００８７】さらにステップＳ２０３で、訳語ポインタ
の指す訳語が、バッファＢに対応のタグ情報を持ってい
るかどうかを判別する。すなわちバッファＢの、訳語ポ
インタの指す訳語に対応するタグ部分にタグがあるか、
あるいは空白かを判断する。

【００８８】タグ情報がない場合には通常と同じくステ
ップＳ２１３で訳語をバッファＢから読出してバッファ
Ｅに格納する。この後制御は図２１のステップＳ２１４
に続くが、その部分は後述する。

【００８９】一方タグ情報が存在する場合には、ステッ
プＳ２０４でタグフラグが１かどうかを判別する。タグ
フラグとは後述するように、現在の訳語がタグを持って
いて、次の訳語もタグを持っていて、かつ両方のタグが
同じものであるときに１になる。これについてはステッ
プＳ２１１を参照して後述する。タグフラグが１であれ
ばタグ記号を省略し、１でなければ該当のタグ符号を復
元すればよい。

【００９０】タグフラグが１でなければステップＳ２０
５でタグをバッファＢから取出し、バッファＥに格納す
る。最初にこの処理を行なう場合にはタグフラグは０で
あるので必ずタグが復元されることになる。

【００９１】一方ステップＳ２０４でタグフラグが１で
あればタグをバッファＢから読出してバッファＥに格納
することなく、単にタグフラグを０にセットする。ステ
ップＳ２０５およびＳ２０６の後制御はステップＳ２０
７に進む。

【００９２】ステップＳ２０７では、訳語をバッファＢ
からバッファＥに格納する処理を行なう。

【００９３】続いて図２１のステップＳ２０８を参照し
て、次の訳語がバッファＢにタグを持っているかどうか
についての判別を行なう。タグがあれば、現在の訳語が
持っているタグと、次の訳語が持っているタグとが等し
いかどうかをステップＳ２０９で判別する。両者が等し
くなければ制御はステップＳ２１０に進む。両者が等し
ければ制御はステップＳ２１１に進む。

【００９４】ステップＳ２１０には、次の訳語がタグを
持っていない場合、または次の訳語がタグを持ってはい
るが現在の訳語が持っているタグとは等しくない場合に
制御が進む。この場合には現在の訳語が持っているタグ
に対応する終了タグを対応表（図１１）から求める。

【００９５】続いてステップＳ２１２で、求められた終
了タグをバッファＥに格納して制御はステップＳ２１４
に進む。

【００９６】一方ステップＳ２１１ではタグフラグに１
をセットする。すなわち次の訳語がタグを持っていて、
かつ現在の訳語を持っているタグと次の訳語が持ってい
るタグとが等しい場合に、タグフラグが１にセットされ
る。このときタグ記号はバッファＥには格納されない。
ステップＳ２１１の後制御はステップＳ２１４に進む。
ステップＳ２１４では、適当な助詞をバッファＥに格納
する。

【００９７】続いてステップＳ２１５で訳語ポインタを
１つ進める。さらにステップＳ２１６では、１つ進めら
れた訳語ポインタの指す場所にデータ（訳語）が存在す
るかどうかを判別する。データがあれば再び図２０のス
テップＳ２０３に制御を戻し、上述の処理を繰返し行な
う。訳語が存在しなければこの処理を終了する。

【００９８】このようにして得られた翻訳結果のバッフ
ァＥの内容を示すのが図２２である。図１８に示した、
改良前のタグ記号復元処理では、図１８に示したように
「＜ｔｅｒｍ＞テーブル＜＼ｔｅｒｍ＞＜ｔｅｒｍ＞チ
ャート＜＼ｔｅｒｍ＞」の部分で同じタグ記号が繰返し
現れている。しかし第２２図に示される本発明の結果で
は、改行部分は「＜ｔｅｒｍ＞テーブルチャート＜＼ｔ
ｅｒｍ＞」となっており、タグ記号が省略されているこ
とがわかる。

【００９９】以上のように、タグ記号を含む文の翻訳
で、翻訳結果の訳語ごとにタグ記号を復元するとき、同
じタグ記号が連続する場合には中間のタグ記号を省略し
て出力することができる。このように中間のタグ記号を
省略して出力しても、得られる翻訳結果には、元のタグ
記号が正しく反映されていると考えられる。しかも余分
なタグ記号が省略されているので、記憶領域が節約でき
るとともに、処理の高速化を図ることができる。

【０１００】続いてタグ記号判別補充部１０１の動作を
図２３〜図２５を参照して説明する。図２３〜図２５
は、タグ記号判別補充部１０１で行なわれる処理の内容
を示す。

【０１０１】まずステップＳ２２１で文ポインタを１に
セットする。文ポインタとは、文書内の１文ごとを指す
ポインタである。

【０１０２】図２６に入力文書の一例を示す。この入力
文書では、開始タグ１と終了タグ１、開始タグ２と終了
タグ２がそれぞれ対応するものとする。文ポインタはま
ず最初の文にセットされる。

【０１０３】再び図２３を参照して、ステップＳ２２２
で、単語ポインタを１にセットする。単語ポインタと
は、１文内の単語を先頭から文末まで順に指していくポ
インタである。

【０１０４】ステップＳ２２３でスタックポインタを１
にセットする。このスタックは図４に示されるスタック
１９である。スタック１９にはタグ記号がスタックさ
れ、これを参照することによりタグが複数の文に跨がっ
ているか否かが判断される。

【０１０５】ステップＳ２２４で、単語ポインタが指す
単語位置にあるものが開始タグかどうかを判別する。開
始タグである場合にはステップＳ２２５でタグをスタッ
クへ入れ、ステップＳ２２６でスタックポインタを１加
算してステップＳ２３３に進む。

【０１０６】図２７にスタックの一例を簡略に示す。ス
テップＳ２２４で、単語ポインタが指す位置に存在する
ものが開始タグではないと判断された場合、制御は図２
４のステップＳ２２７に進む。ステップＳ２２７では、
単語ポインタが指す位置に終了タグが存在するかどうか
についての判断が行なわれる。終了タグでない場合には
制御は図２３のステップＳ２３３に進む。

【０１０７】終了タグである場合には、ステップＳ２２
８でスタック内に開始タグが存在するかどうかを判別す
る。スタックに開始タグがある場合にはその開始タグを
ステップＳ２２９で取出し、ステップＳ２３０でスタッ
クポインタを１減算する。ステップＳ２３０の後制御は
ステップＳ２３３（図２３）に進む。

【０１０８】一方ステップＳ２２８でスタック内に開始
タグがないと判断された場合、制御はステップＳ２３１
に進み、終了タグをスタックへコピーし、ステップＳ２
３２でスタックポインタを１加算して図２３のステップ
Ｓ２３３に進む。

【０１０９】ステップＳ２３３では、単語ポインタを１
加算する。続いてステップＳ２３４で、単語ポインタが
指す場所に単語があれば制御をステップＳ２２４に戻
し、以下ステップＳ２２４〜Ｓ２３４の処理を繰返す。

【０１１０】単語ポインタが進んで文末までくると処理
は図２５のステップＳ２３５に進む。ステップＳ２３５
では、スタックにタグがあるかどうかを判別する。タグ
がなければ制御はステップＳ２４４に進む。タグがなけ
れば制御はステップＳ２３６に進む。

【０１１１】ステップＳ２３６では、そのタグが開始タ
グかどうかについての判別を行なう。そのタグが開始タ
グであれば制御はステップＳ２３７に進む。

【０１１２】ステップＳ２３７では、その開始タグに対
応する終了タグを図１１の対応表から求める処理が行な
われる。

【０１１３】続いてステップＳ２３８でこの終了タグを
文末に付加する処理が行なわれる。たとえば図２６に示
される例では、２番目の文が開始タグ２だけを含むため
に、このステップＳ２３７、Ｓ２３８の処理が行なわれ
る。ここでステップＳ２３８で終了タグを文末に付加し
た結果が図２９の２番目の文である。

【０１１４】続いてステップＳ２３９で開始タグをスタ
ックから取出し、この開始タグをステップＳ２４０でタ
グ記憶バッファに保存する。この状態を図２８に示す。

【０１１５】さらにステップＳ２４１でスタックポイン
タを１減算して制御はステップＳ２４４に進む。

【０１１６】一方ステップＳ２３６でスタックにあるタ
グが開始タグでないと判断された場合制御はステップＳ
２４２に進む。この場合スタックには終了タグが存在し
ている。ステップＳ２４２ではタグ記憶バッファに保存
していた開始タグを取出し、その開始タグを文頭に付加
する（ステップＳ２４３）。この結果が図２９の３番目
の文に示されている。ステップＳ２４３の後制御はステ
ップＳ２４４に進む。

【０１１７】ステップＳ２４４では文ポインタを１加算
し、ステップＳ２４５でさらに処理すべき文があるかど
うかについての判断を行なう。文があれば制御は図２３
のステップＳ２２２に戻り、以上の処理を繰返し行な
う。処理対象となる文が無くなればこの処理は終了す
る。

【０１１８】以上のようにして図２６に示される入力文
書を処理した結果が図２９に示されている。入力文書に
おいてタグが複数の文に跨がっている場合、以上の処理
により個々の文で開始タグと終了タグとの対応が取れる
ようにタグが補充される。そのようにタグが補充された
文に対して翻訳処理が行なわれる。したがってタグが複
数の文に跨がっている場合にも、タグの情報を失うこと
なく翻訳文にタグ情報を復元して翻訳文を生成すること
ができる。図３０に、図２の辞書引き形態素解析部１１
で行なわれる処理において、タグ情報を抽出し利用する
ことにより、構文解析部１２で行なわれる構文解析をよ
り正確かつ高速に行なう処理である。図３０はタグ情報
適用部１０３で行なわれる処理を示すフローチャートで
ある。

【０１１９】まずステップＳ２７１でタグ記号記憶バッ
ファを読込む処理が行なわれる。この場合タグ記号記憶
バッファとしては図１３に示すバッファＦが対応する。

【０１２０】ステップＳ２７２でバッファポインタを１
にセットする。バッファポインタはバッファＦの先頭か
らのデータを順に指定するポインタである。

【０１２１】ステップＳ２７３でバッファポインタの指
すデータの単語数が１より大きいかどうかを判別する。
１より大きければ制御はステップＳ２７４に進み、さも
なければ制御はステップＳ２７５に進む。

【０１２２】ステップＳ２７４では、単語数、単語位置
をタグ情報記憶バッファに格納する。続いてステップＳ
２７５でバッファポインタを１加算する。単語数が１で
ある場合にはバッファポインタを１加算する処理以外は
何も行なわない。

【０１２３】続いてステップＳ２７６でバッファポイン
タの指す場所にデータがあるかどうかを判別する。デー
タがあれば制御をステップＳ２７３に戻し、データがな
くなるまで上記の処理を繰返し行なう。データがなくな
ればこの処理を終了する。

【０１２４】このようにして図１３に示されるタグ記号
記憶バッファを処理した結果、図３１に示されるような
タグ情報記憶バッファが得られる。

【０１２５】辞書引き形態素解析処理が終了した後、図
２に示される構文解析部１２は、図３１に示されるタグ
情報記憶バッファを参照しながら、辞書と文法規則とを
用いて構文を解析する。文法規則の適用に当たっては、
タグ情報記憶バッファの「単語位置」から数えて「単語
数」分の単語には、この部分を１まとまりの「フレー
ズ」（句）とする文法規則を優先して適用するようにす
る。１まとまりの複合語のようなものをタグ記号で挟む
ことが多いため、こうすることにより正しい構文解析結
果が早く得られる可能性が高くなる。

【０１２６】このように本発明によれば、原文にタグ記
号などのマークアップ記号が挿入されていても、タグ記
号を一旦除去して自動的に翻訳することができる。さら
に本実施例のように訳文にも等価なタグ記号を付加する
ことにより、タグ記号が挿入されている原文をそのまま
翻訳処理することができる。その結果、翻訳に先立って
人間によりタグ記号を手作業で除去する処理が不要とな
り、効率よく翻訳を行なうことができる。しかも、不要
なタグ記号まで翻訳文内に復元することがないため、記
憶領域を節減でき、処理が高速になる。また異なる文に
タグ記号が跨がって使用されていても、翻訳文内にはそ
れに対応するタグ記号を正しく復元できる。さらに原文
内に含まれているタグ記号を構文解析にも使用すること
により、構文解析がより正しく、かつ高速に行なえるよ
うになる。

【０１２７】

【発明の効果】以上のようにこの発明に係る機械翻訳装
置では、テキスト本体は自動的にマークアップ記号と分
離され、その分離されたテキスト本体に基づいて従来と
同様に第１の言語の構造解析木が作成される。その第１
の言語の構造解析木は、従来と同様に第２の言語の構造
解析木に変換される。一方各マークアップ記号は、それ
が付されていた単語と関連づけて記憶される。第２の言
語の構造解析木から第２の言語のテキストが生成される
ときには、テキスト原文においてマークアップ記号が付
されていた単語に対応する訳語には、該単語に付されて
いたマークアップ記号と等価なマークアップ記号が付さ
れる。そのため、マークアップ記号が適切な位置に付さ
れることになる。マークアップ記号をテキスト原文から
手操作により削除したり、翻訳結果のテキストにマーク
アップ記号を手操作により挿入する必要がなく、かつ入
力テキストに対応したマークアップ記号を含む翻訳結果
を得ることができる。しかも、相互に相殺し合って何の
効果ももたらさないマークアップ記号のシーケンスは第
２の言語のテキスト内には生成されない。その結果、マ
ークアップ記号を含むテキスト原文を、通常のテキスト
原文と同様に、かつより効率よく翻訳することができる
機械翻訳装置を提供できる。

【０１２８】請求項２に記載の発明に係る機械翻訳装置
によれば、請求項１に記載の発明の効果に加え、テキス
ト原文内において、対となるマークアップ記号が異なる
文内に配置されている場合であっても、第２の言語のテ
キストの生成に当たっては、生成されるテキスト内の各
文の、マークアップ記号が補充された位置によって定ま
る位置に、対応のマークアップ記号が挿入される。その
ため必要なマークアップ記号が、原文において異なる文
内に配置されていても、翻訳文に確実に復元される。そ
の結果、マークアップ記号を含むテキスト原文を、通常
のテキスト原文と同様に、より効率よく、かつより正確
に原文内のマークアップ記号を反映して翻訳することが
できる機械翻訳装置を提供できる。

【０１２９】請求項３に記載の発明に係る機械翻訳装置
によれば、請求項１または２に記載の発明の効果に加
え、テキスト原文の、対となるマークアップ記号に挟ま
れた部分が１つのフレーズであると仮定して構造解析木
の作成を行なうので、テキスト原文の解析がより正確か
つ高速に行なえる。その結果、マークアップ記号を含む
テキスト原文を、通常のテキスト原文と同様に、より効
率よく、より高速に、かつより正確に原文内のマークア
ップ記号を反映して翻訳することができる機械翻訳装置
を提供できる。

【図面の簡単な説明】

【図１】機械翻訳の概念を模式的に示す図である。

【図２】トランスファ方式による機械翻訳の構成を示す
模式図である。

【図３】本発明の一実施例の機械翻訳装置のブロック図
である。

【図４】図３に示される翻訳モジュール５の詳細なブロ
ック図である。

【図５】バッファＡの格納内容を模式的に示す図であ
る。

【図６】バッファＢの格納内容を模式的に示す図であ
る。

【図７】バッファＣの格納内容を模式的に示す図であ
る。

【図８】バッファＤの格納内容を模式的に示す図であ
る。

【図９】バッファＥの格納内容を模式的に示す図であ
る。

【図１０】タグ記号処理のフローチャートである。

【図１１】ＳＧＭＬ言語におけるタグ記号の例を示す模
式図である。

【図１２】バッファＡに格納された入力テキスト原文を
示す模式図である。

【図１３】バッファＦの格納内容を示す模式図である。

【図１４】バッファＢの格納内容を示す模式図である。

【図１５】辞書引き処理後のバッファＢの格納内容を示
す模式図である。

【図１６】タグ記号情報付加後のバッファＢの格納内容
を示す模式図である。

【図１７】生成処理のサブルーチンプログラムのフロー
チャートである。

【図１８】生成処理後のバッファＥの格納内容を示す模
式図である。

【図１９】本発明の一実施例の機械翻訳装置のブロック
図である。

【図２０】本発明の一実施例におけるタグ記号復元処理
のフローチャートである。

【図２１】本発明の一実施例におけるタグ記号復元処理
のフローチャートである。

【図２２】翻訳結果のバッファの内容を示す図である。

【図２３】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。

【図２４】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。

【図２５】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。

【図２６】入力文書の一例を示す模式図である。

【図２７】タグ記号判別補充部で使用するスタックを模
式的に示す図である。

【図２８】タグ記号判別補充部で使用するタグ記憶バッ
ファの模式図である。

【図２９】図２６に示される入力文書を処理した後の出
力文書を模式的に示す図である。

【図３０】本発明の一実施例に係るタグ情報適用部で行
なわれる処理を示すフローチャートである。

【図３１】図１３のタグ記号記憶バッファを処理した結
果のタグ情報記憶バッファを模式的に示す図である。

【符号の説明】

１メインＣＰＵ２メインメモリ３表示装置４キーボード５翻訳モジュール６メモリ１１辞書引き・形態素解析部１２構文解析部１３変換部１４翻訳文生成部１５翻訳ＣＰＵ１６翻訳プログラムメモリ１７記憶部１０１タグ記号判別補充部１０２タグ記号抽出部１０３タグ情報適用部１０４タグ記号復元部

Claims

【特許請求の範囲】

【請求項１】マークアップ記号を含む第１の言語のテ
キスト原文を、第２の言語のテキストに翻訳するための
機械翻訳装置であって、テキスト原文をマークアップ記号とマークアップ記号を
含まないテキスト本体とに分離するための分離手段と、各マークアップ記号を、各マークアップ記号が付されて
いた単語と関連づけて記憶するための記憶手段と、前記分離手段によりマークアップ記号と分離された前記
テキスト本体に所定の文法処理を行なって、前記テキス
ト本体に対応する前記第１の言語の構造解析木を作成す
るための手段と、前記第１の言語の構造解析木を、予め準備された変換規
則を用いて前記第２の言語の構造解析木に変換するため
の手段と、前記第２の構造解析木と前記記憶手段の記憶内容とに基
づいて、前記テキスト原文においてマークアップ記号が
付されていた単語に対応する訳語に、前記訳語に付され
ていた前記マークアップ記号と等価なマークアップ記号
を付して前記第２の言語のテキストを生成するためのテ
キスト生成手段とを含み、前記テキスト生成手段は、生成されるテキスト内におい
て、互いに相殺し合うマークアップ記号のシーケンスを
検出する手段と、検出されたマークアップ記号のシーケンスを除外して前
記第２の言語のテキストを生成するための手段とを含
む、機械翻訳装置。
【請求項２】テキスト原文内において、対となるマー
クアップ記号が異なる文内に配置されていることを判別
する手段と、対となるマークアップ記号が異なる文内に配置されてい
ると判別されたことに応答して、前記対となるマークア
ップ記号のうちの第１のマークアップ記号が含まれる文
の所定位置に、前記対となるマークアップ記号のうちの
第２のマークアップ記号を補充し、前記対となるマーク
アップ記号のうちの前記第２のマークアップ記号が含ま
れる文の所定位置に、前記第１のマークアップ記号を補
充して、前記記憶手段に記憶させるためのマークアップ
記号補充手段と、前記テキスト生成手段によるテキストの生成において、
前記マークアップ記号補充手段により補充されたマーク
アップ記号を、生成されるテキスト内の、前記マークア
ップ記号が補充された位置によって定まる位置にさらに
補充する手段とをさらに含む、請求項１に記載の機械翻
訳装置。
【請求項３】構造解析木を作成する前記手段は、前記
テキスト原文の、前記記憶手段に記憶された対となるマ
ークアップ記号に挟まれた部分を１つのフレーズと仮定
して構造解析木の作成を行なうことを特徴とする、請求
項１または２に記載の機械翻訳装置。