JP3302260B2 - 文書処理システム - Google Patents

文書処理システム

Info

Publication number
JP3302260B2
JP3302260B2 JP12592896A JP12592896A JP3302260B2 JP 3302260 B2 JP3302260 B2 JP 3302260B2 JP 12592896 A JP12592896 A JP 12592896A JP 12592896 A JP12592896 A JP 12592896A JP 3302260 B2 JP3302260 B2 JP 3302260B2
Authority
JP
Japan
Prior art keywords
translation
processing
information
document
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12592896A
Other languages
English (en)
Other versions
JPH09305605A (ja
Inventor
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP12592896A priority Critical patent/JP3302260B2/ja
Publication of JPH09305605A publication Critical patent/JPH09305605A/ja
Application granted granted Critical
Publication of JP3302260B2 publication Critical patent/JP3302260B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書処理システムに
関し、特に、SGML(Standard Generalized Markup
Language)、HTML(Hypertext Markup Language
)、Texのように、文書を表示したり印刷したりす
るときの形式を指定するようなタグ情報が付与されたタ
グ付き文書を翻訳する機械翻訳システムに適用して好適
なものである。
【0002】
【従来の技術】タグ付き文書は、原言語の文書における
タグ情報を目的言語の文書も保持する必要があるが、一
般的な機械翻訳システムではタグ情報が付与された原言
語の文書を翻訳することに対応できておらず、形態素解
析や構文解析等でタグ情報の部分を正しく扱うことがで
きず、翻訳品質を劣化させる。かかる不都合を解決する
従来技術には、下記文献に開示されるものがある。
【0003】文献『石川直太、檜山正幸共著、「タグ付
き文書の英日機械翻訳支援システム」、CALS Japan '9
4, S2-1』 この文献記載の翻訳方法は、タグ付き文書を翻訳する際
に、原文を文章部分とタグ情報部分とに分離し、文章部
分を文章ファイルに、タグ情報とそのタグ情報の文章中
での位置情報とをタグ情報ファイルに保存し、文章ファ
イルだけを翻訳して訳文ファイルを生成し、タグ情報フ
ァイルと合成することにより、タグ情報を損なうことな
く翻訳処理を行なうものである。
【0004】この翻訳方法では、タグ情報が一定のパタ
ーンに従って記述されていることを利用し、翻訳対象と
なる文書に対してパターンマッチングを行なって、非翻
訳部分(タグ情報部分)と翻訳部分(タグ情報以外)を
判別している。
【0005】
【発明が解決しようとする課題】ところで、上述したタ
グ付き文書用の機械翻訳システムを含め、従来の機械翻
訳システムには、ユーザ辞書や専門辞書のように翻訳内
容に合わせて適切な辞書を選択する機能や、文型や適用
する翻訳規則を指定する機能が備えられている。こうし
た機能を用いることにより、ユーザの要求に応じた翻訳
品質が得られるようになっている。
【0006】ここで、どのような辞書を適用するか、ど
のような文型や翻訳規則を適用するかが翻訳品質を高め
る上で重要になる。しかし、従来では、このような選択
可能な翻訳条件を、例えば、ユーザが指定したり、辞書
選択については、キーワードを予め定めておいてキーワ
ード検索による検索個数の結果に基づいて選択したりし
ており、操作性の面や、処理速度及び適用精度の面で必
ずしも十分なものではなかった。
【0007】このような処理結果の品質を高められる選
択可能な処理条件の選択に関する課題は、機械翻訳シス
テムだけでなく、他の文書処理システムにおいても同様
に生じている。
【0008】そのため、処理結果の品質を高められる選
択可能な処理条件の選択を、ユーザの操作性を低下させ
ることなく、高速に実行できる文書処理システムが望ま
れている。
【0009】
【課題を解決するための手段】かかる課題を解決するた
め、第1の本発明においては、表示、印刷出力時の形式
を指定する形式指定情報を伴なう文書を処理する文書処
理システムにおいて、(1) 形式指定情報が有する形式情
報に基づいて、複数の中から選択可能ないずれかの処理
条件を選択し、その形式指定情報と選択した処理条件と
を対応付けて格納している処理条件設定記憶手段と、
(2) 処理対象の文書に含まれている形式指定情報を取出
して、処理条件設定記憶手段に記憶されている形式指定
情報の種類と照合する照合手段と、(3) その照合結果が
一致している形式指定情報の種類があれば、その形式指
定情報の種類に対応している、処理条件設定記憶手段に
記憶されている処理条件を適用して、処理対象の文書に
おける形式指定情報で形式が指定されている文章部分に
対する処理を実行する処理手段とを有することを特徴と
する。
【0010】これにより、形式指定情報の内容に合わせ
て最適な処理結果を高速に得ることができる。
【0011】また、第2の本発明においては、表示、印
刷出力時の形式を指定する形式指定情報を伴なう文書を
処理する文書処理システムにおいて、(1) 形式指定情報
が有する形式情報に基づいて、複数の中から選択可能な
いずれかの処理条件を選択し、その形式指定情報の種類
と、選択した処理条件と、1又は複数の形式指定情報の
種類がどのような場合に上記処理条件を適用するかを規
定する適用条件とを組情報として格納している処理条件
設定記憶手段と、 (2) 処理対象の文書に含まれている
形式指定情報を取出して、処理条件設定記憶手段に記憶
されている形式指定情報の種類と照合すると共に、その
適用条件を満足するかを判定する照合手段と、(3) その
判定結果が満足している形式指定情報の種類があれば、
その形式指定情報の種類に対応している、処理条件設定
記憶手段に記憶されている処理条件を適用して、処理対
象の文書における上記形式指定情報で形式が指定されて
いる文章部分に対する処理を実行する処理手段とを有す
ることを特徴とする。
【0012】これにより、形式指定情報の内容に合わせ
て最適な処理結果を高速に得ることができ、また、柔軟
かつ正確な処理条件の指定を行なうことができる。
【0013】
【発明の実施の形態】
(A)第1の実施形態 以下、本発明による文書処理システムを、タグ付き文書
を対象とした機械翻訳システムに適用した第1の実施形
態を図面を参照しながら詳述する。
【0014】この第1の実施形態の機械翻訳システム
は、タグ情報が有する以下の性質に着目してなされたも
のである。
【0015】タグ情報は、タグ情報(オープンタグ及び
クローズタグ)で囲まれた範囲の文書の出力形式を規定
するという本来の働きを持つだけでなく、範囲内の内容
を規定するという付随的な働きをも持っている。例え
ば、HTMLタグにおいて、<TITLE>と</TI
TLE>で囲まれた範囲は、タイトル用の表示、印刷が
実行される文字列範囲を表しているだけでなく、その範
囲内の文字列が文書のタイトル部分であることを表して
いる。
【0016】この付随的な働きによる情報は、文のスタ
イルの決定や訳語選択等を行なうことに適用可能であ
り、かつ、極めて有用な情報である。すなわち、上述の
ように、機械翻訳システムには、ユーザ辞書や専門辞書
のように翻訳内容に合わせて適切な辞書を選択する機能
や、文型や適用する翻訳規則を指定する機能が備えられ
ているが、辞書選択等にこのようなタグ情報が有する付
随的な情報を利用したならば、ユーザによる選択指定を
不要にでき、しかも、容易かつ適切に最適な選択対象を
選択することができる。
【0017】この第1の実施形態の機械翻訳システム
は、以上のようなタグ情報の性質に基づき、タグ情報と
翻訳条件の対応関係を記述したテーブルを備え、タグ付
き文書を翻訳する際に、タグ情報の規定する内容(付随
的情報)に従って翻訳規則や辞書といった翻訳条件を選
択することにより、最適な翻訳結果を得ようとしたもの
である。
【0018】(A−1)第1の実施形態の構成 図1は、この第1の実施形態の機械翻訳システムの全体
構成を示すブロック図である。この機械翻訳システム
は、実際上、ワークステーション等の情報処理装置上に
構成される。
【0019】図1において、この機械翻訳システムは、
入出力装置1、処理装置4及び記憶装置(補助記憶装置
を含む概念)8を有している。
【0020】入力装置1は、テキストの入力、翻訳結果
の表示等を行なう機能を有するものであり、キーボード
やマウスや受信装置やディスクアクセス装置等でなる、
原言語のタグ付き文書(入力ファイル)を取り込んだり
ユーザの指定を取り込んだりする入力部2と、ディスプ
レイやプリンタや送信装置やディスクアクセス装置等で
なる、目的言語のタグ付き文書(出力ファイル)を表
示、印刷、送信出力させたりユーザへの入力を促すガイ
ダンスメッセージを表示させたりする出力部3とを有す
る。
【0021】処理装置4は、タグ付き文書の翻訳を行な
うための各種処理を実行するものであり、CPU(中央
処理ユニット)やそれが実行するソフトウェアが該当す
るものである。処理装置4は、機能的には、入力ファイ
ル(原言語のタグ付き文書)を、タグ情報部分とそれ以
外の部分(原文ファイル)とに分離する原文分割処理部
5と、タグ情報部分が除去された原文ファイルを、後述
する翻訳条件設定テーブル10の格納内容を参照して定
まった翻訳条件に従って目的言語へ翻訳する翻訳処理部
6と、この翻訳により得られた訳文ファイルに、上記原
文分割処理部5で除去されたタグ情報を合成するマージ
処理部7とから構成されている。なお、図1において
は、各種辞書情報や翻訳規則を、翻訳処理部6が内蔵し
ているように表記している。
【0022】記憶装置8は、入力されたテキストや、各
段階の処理結果を保存する機能を有するものである。記
憶装置8には、翻訳対象の原言語のタグ付き文書である
入力ファイル9、後で詳述する翻訳条件設定テーブル1
0、タグ付き文書のタグ情報とそのタグ情報の文書中で
の出現位置を保存するタグ情報ファイル12、タグ付き
文書中の文章部分(タグ情報部分以外)を保存する原文
ファイル13、原文の翻訳結果を保存する訳文ファイル
14、及び、訳文ファイル14とタグ情報ファイル12
を合成した目的言語のタグ付き文書である出力ファイル
11が記憶される。
【0023】図2は、翻訳条件設定テーブル10の構成
例を示すものである。翻訳条件設定テーブル10は、翻
訳条件の適用対象となるタグ情報の種類(以下、タグi
dと呼ぶ)を記述するタグid部21と、翻訳条件を記
述する翻訳条件部22とからなる。タグidには、入力
ファイル9の文章中において、文字列を挟み込んでいる
タグ情報(開始タグ及び終了タグ)の種類を示すもので
ある。翻訳条件は、翻訳規則や辞書の種類に対応してい
るものである。
【0024】例えば、タグidが「著者情報」であれば
人名辞典を適用することが翻訳条件として記述された
り、タグidが「章題」であれば項目文翻訳規則を適用
することが翻訳条件として記述されたりする。
【0025】(A−2)第1の実施形態の動作 次に、以上のような構成を有する第1の実施形態の機械
翻訳システムの動作を図面を参照しながら説明する。
【0026】図3は、第1の実施形態の機械翻訳システ
ムの処理過程を示すフローチャートである。
【0027】ここでは、まず、入出力装置1を介したユ
ーザとのデータ授受により、翻訳条件設定テーブル10
にタグidと適用したい翻訳条件とを記述(新規登録又
は編集)する(ステップs30)。このステップs30
による翻訳条件設定テーブル10の記述処理は、ステッ
プs31以降の処理と切り離された独立した処理ルーチ
ンとして実行しても良い。なお、テーブル情報をユーザ
が設定し、システムがそれを取込む処理は、既存のいず
れかの方法を適用すれば良い。
【0028】また、入出力装置1の入力部2を介したテ
キスト(原言語のタグ付き文書)の入力処理が実行さ
れ、入力ファイル9に格納される(ステップs31)。
【0029】次に、原文分割処理部5によって、入力さ
れたテキストを入力ファイル9から読み込み、タグ情報
部分とそれ以外の文章部分に分割して、タグ情報ファイ
ル12にタグ情報とそのタグ情報の文書中での出現位置
とを格納し、原文ファイル13に文章部分を格納する
(ステップs32)。このステップs32の原文分割処
理は、例えば、従来技術で述べた文献に記載された方法
により行なう。この第1の実施形態では、タグ情報ファ
イル12には、文での位置を示す文番号と、タグ情報と
が格納され、原文ファイル13には、タグidと、文番
号と、文章とが格納されるものとする。複数のタグ情報
が入れ子構造となっている場合には、範囲内の文章に複
数のタグidが付与される。
【0030】ステップs32で得られた原文ファイル1
3に対して、翻訳処理部6が、翻訳条件設定テーブル1
0の記述内容を参照して、テーブル10に記述されてい
る翻訳条件、又は、システムがデフォルトとして用意し
ている汎用の翻訳条件を適用しながら翻訳処理を行なう
(ステップs33)。この翻訳処理については、図4を
用いて後述する。翻訳処理によって得られた翻訳結果を
訳文ファイル14は格納される。
【0031】その後、マージ処理部7が、タグ情報ファ
イル12と訳文ファイル14から、タグ付き訳文を生成
するマージ処理を行なう(ステップs34)。これは、
タグ情報ファイル12の文番号位置に、その文番号に対
応する訳文ファイル14中の文を挿入することにより実
現できる。
【0032】最後に、マージ処理部7が得たステップs
34の処理結果を出力ファイル11に出力する(ステッ
プs35)。このような出力ファイル11が、出力部3
によって、適宜に表示されたり印刷されたりする。
【0033】次に、翻訳処理部6が実行するステップs
33の翻訳処理の詳細を説明する。ここで、図4がこの
翻訳処理の詳細を示すフローチャートである。
【0034】翻訳処理部6は、翻訳処理を開始するとま
ず、文パラメータiを初期値1にセットする(ステップ
s41)。
【0035】その後、原文ファイル13から、文パラメ
ータiで規定される1文を読み込む(ステップs4
2)。読み込まれる1文の情報は、タグid、文番号及
び文章である。次に、翻訳条件設定テーブル10のタグ
id部21を参照し、入力文のタグidとタグid部2
1のタグidとを照合し(ステップs43)、一致する
タグidがテーブル10中にあるか否か、すなわち、翻
訳条件設定テーブル10の翻訳条件を適用すべきか否か
を調べる(ステップs44)。
【0036】入力文のタグidがタグid部21のいず
れかのタグidとマッチする場合には、タグid部21
内のそのタグidに対応した翻訳条件部22の記述内容
(翻訳条件)を、翻訳時に適用するものとしてセットし
た後(ステップs45)、入力文のタグidがタグid
部21のどのタグidともマッチしない場合には、翻訳
条件をセットすることなく翻訳処理を行なう(ステップ
s46)。これにより、翻訳は、翻訳条件がセットされ
ている場合にはその翻訳条件が適用されて実行され、翻
訳条件がセットされていない場合にはシステムのデフォ
ルトの汎用の翻訳条件が適用されて実行される。そし
て、文番号と翻訳により得られた訳文を訳文ファイル1
4に出力する(ステップs47)。
【0037】そして、最後の文に対する翻訳を終了して
いないことを確認し(ステップs48)、文パラメータ
iを1インクリメントしてから(ステップs49)、上
述したステップs42の1文の読み込み処理に戻る。
【0038】このようなステップs42〜s49の処理
を繰り返すことにより、最後の文の翻訳も終了したとき
には、翻訳処理部6による処理が終了し、図3に示した
ステップs34のマージ処理部7によるマージ処理に移
行する。
【0039】以下、第1の実施形態の機械翻訳システム
の動作を具体例を用いて説明する。以下の説明は、翻訳
条件を使用辞書条件とし、タグ情報を利用して最適辞書
を選択して翻訳する場合として行なう。すなわち、文書
中の特定のタグ情報で挟まれた範囲(文字列)に対し
て、ユーザ辞書、専門用語辞書等の選択して適用する場
合の例について説明する。
【0040】図5は、以下の説明で用いるタグつき文書
の例である。この例で、タグ情報には開始タグと終了タ
グがある。開始タグは、右カッコ「<」、タグid、左
カッコ「>」で構成されており、終了タグは、右カッコ
「<」と、開始タグと同一のタグidとの間にスラッシ
ュ「/」がある以外は開始タグと同じである。同じタグ
idを持つ開始タグと終了タグで挟まれたテキスト(文
字列)がタグ情報の作用する範囲になる。
【0041】このようなタグ付き文書を機械翻訳システ
ムで処理するにあたり、著者情報部分にのみ、人名辞書
を適用したい場合の処理の流れを説明する。
【0042】翻訳条件設定テーブル10に、タグidと
して「著者情報」を、翻訳条件として「適用する辞書が
人名辞書であること」を記述する(ステップs30)。
この結果、図6に示す翻訳条件設定テーブル10が作成
される。
【0043】次に、入力部2を用いて、図5に示すタグ
付き文書の入力を行なう(ステップs31)。この結
果、図5に示すタグ付き文書が入力ファイル9に格納さ
れる。
【0044】原文分割処理部5が、この入力ファイル9
を読み込んで、原文分割処理を行なう(ステップs3
2)。この結果、得られたタグ情報ファイル12の内容
は図7に示すようになり、原文ファイル13の内容は図
8に示すようになる。
【0045】次に、翻訳処理部6が、原文ファイル13
に格納された各文章に対して、翻訳処理を行なう(ステ
ップs33)。
【0046】まず、1文目の文(s01)を読み込み
(ステップs42)、入力文のタグidと、翻訳条件設
定テーブル10のタグidのマッチングを行なう(ステ
ップs43)。1文目におけるタグid「ヘッダー」及
び「タイトル」は、いずれも翻訳条件設定テーブル10
のタグid部21に記述されていないため翻訳条件はな
いと判断され、文章「タグつき文書の翻訳」に対して、
デフォルトの翻訳条件による(一般辞書を使用した)汎
用の翻訳処理が行なわれる(ステップs44、s4
6)。その後、文番号(s01)と、汎用辞書を適用し
た翻訳結果(訳文)「Translation of
tagged documents」とが訳文ファイル
14に出力される(ステップs47)。
【0047】次に、2文目の文(s02)を読み込み
(ステップs42)、入力文のタグidと、翻訳条件設
定テーブル10のタグidのマッチングを行なう(ステ
ップs43)。このとき、「著者情報」がマッチし(ス
テップs44)、「著者情報」の翻訳条件「人名辞書適
用」がセットされ(ステップs45)、文章「山田太
郎」に対して人名辞書を使った翻訳処理が行なわれる
(ステップs46)。その後、文番号(s02)と、人
名辞書を適用した翻訳結果「Taro Yamada」
が訳文ファイル14に出力される(ステップs47)。
【0048】同様な各文毎の翻訳処理(ステップs42
〜s47)を最後の文まで繰り返し行なう。この例の場
合、翻訳処理が終了したときの訳文ファイル14の内容
は、図9に示すようになる。
【0049】その後、マージ処理部7が、図7に示すタ
グ情報ファイル12と、図9に示す訳文ファイル14と
のマージ処理を行なってタグ付き訳文を生成し(ステッ
プs34)、最後に、マージ処理部7が得たタグ付き訳
文を出力ファイル11に出力する(ステップs35)。
このときの出力ファイル11は、図10に示すようにな
る。
【0050】(A−3)第1の実施形態の効果 第1の実施形態によれば、タグ情報から得られる付随的
情報を積極的に利用して、適用辞書や適用翻訳規則のよ
うな翻訳条件を動的に変化させて翻訳処理を行なうよう
にしたので、タグ情報の内容に合わせて最適な翻訳結果
を得ることができる。
【0051】ここで、一度、翻訳条件設定テーブル10
に記述した内容を他のタグ付き文書の翻訳時にも適用で
き、このような翻訳条件を最適に選択させるためのユー
ザの入力操作を簡単なものとすることができる。
【0052】また、どの翻訳条件を適用するかの確認処
理が、翻訳条件設定テーブル10のタグidと、タグ情
報ファイル12のタグidとの照合によっているので、
処理を高速に実行させることができる。
【0053】(B)第2の実施形態 次に、本発明による文書処理システムを機械翻訳システ
ムに適用した第2の実施形態を図面を参照しながら詳述
する。
【0054】この第2の実施形態の機械翻訳システム
も、タグ情報の性質に基づき、タグ情報と翻訳条件の対
応関係を記述したテーブルを備え、タグ付き文書を翻訳
する際に、タグ情報の規定する内容に従って翻訳規則や
辞書といった翻訳条件を選択することにより、最適な翻
訳結果を得ようとしたものである。
【0055】これに加えて、この第2の実施形態の機械
翻訳システムは、複数のタグ情報で同じ翻訳条件を指定
する場合に1個のデータとしてテーブルに記述したり、
複数のタグ情報の組み合わせで成立する翻訳条件をテー
ブルに記述したりできるようにし、より柔軟かつ正確な
翻訳条件の指定をできるようにしたものである。
【0056】(B−1)第2の実施形態の構成 この第2の実施形態の機械翻訳システムも、全体構成を
ブロック図で表した場合には、上述した図1で表すこと
ができる。
【0057】しかし、翻訳条件設定テーブル10の内部
構成は、第1の実施形態と異なっており、これにより、
翻訳処理部6の翻訳処理も異なっている。
【0058】翻訳処理部6の翻訳処理は、後述する動作
説明で明らかにすることとし、以下では、第2の実施形
態の翻訳条件設定テーブル10の構成を説明する。ここ
で、図11が、第2の実施形態の翻訳条件設定テーブル
10の構成例を示す説明図である。
【0059】翻訳条件設定テーブル10は、タグ情報の
種類を記述するタグid部111と、適用条件を記述す
る適用条件部112と、翻訳条件を記述する翻訳条件部
113とからなっている。
【0060】タグid部111は、文章がは挟まれてい
たタグ情報の種類を示すタグidが1又は複数記述され
るものである。
【0061】適用条件部112は、翻訳条件を適用する
際のタグ情報の状態を規定するものである。例えば、タ
グ情報Aとタグ情報Bが同時に成立する場合にのみ翻訳
条件Cを適用したい場合には、タグid部111にタグ
情報A及びタグ情報Bを併記し、適用条件部112に
「and」を記述する(図13参照)。また、タグ情報
Aとタグ情報Bのうちどちらかが成立する場合に翻訳条
件Cを適用したい場合には、タグid部111にタグ情
報Aとタグ情報Bを併記し、適用条件部112に「o
r」と記述する(図13参照)。なお、タグid部11
1に1個のタグ情報が記述されている場合には、この適
用条件部112にはなんらの適用条件も記述されない。
【0062】翻訳条件部113は、翻訳する際に優先す
る翻訳規則や辞書の種類等を指定する翻訳条件が記述さ
れるものである。
【0063】(B−2)第2の実施形態の動作 次に、第2の実施形態の機械翻訳システムの動作を図面
を参照しながら説明する。
【0064】この第2の実施形態の機械翻訳システムの
全体処理も、第1の実施形態に係る図3のフローチャー
トと同様である。但し、上述したように、翻訳条件設定
テーブル10の記述内容が異なっているために、翻訳処
理の詳細等が第1の実施形態と異なっている。
【0065】以下、上述した図3を参照しながら、第2
の実施形態の機械翻訳システムの全体処理を説明する。
【0066】まず、入出力装置1を介したユーザとのデ
ータ授受により、翻訳条件設定テーブル10にタグid
と適用条件と翻訳条件を記述(新規登録又は編集)する
(ステップs30)。
【0067】次に、第1の実施形態と同様に、入力処理
及び原文分割処理を行ない(ステップs31、s3
2)、タグ情報ファイル12と原文ファイル13とを作
成する。この第2の実施形態においても、タグ情報ファ
イル12には、文の位置を示す文番号とタグ情報が格納
され、原文ファイル13には、タグidと文番号と文章
とが格納される。
【0068】その後、翻訳処理部6が、ステップs32
で得られた原文ファイル13に対して翻訳処理を行なう
(ステップS33)。第2の実施形態における翻訳処理
の詳細を図12に示しており、後述する。
【0069】次に、第1の実施形態と同様に、マージ処
理部7が、タグ情報ファイル12と訳文ファイル14か
ら、タグ付き訳文を生成するマージ処理を行なう(ステ
ップs34)。これは、タグ情報ファイル12の文番号
位置に、その文番号に対応する訳文ファイル14中の文
を挿入することにより実現される。
【0070】最後に、ステップs34の結果を出力ファ
イル11に出力する(ステップS35)。
【0071】次に、第2の実施形態の翻訳処理部6が実
行するステップs33の翻訳処理の詳細を説明する。こ
こで、図12が、第2の実施形態における翻訳処理の詳
細を示すフローチャートである。
【0072】翻訳処理部6は、翻訳処理を開始するとま
ず、文パラメータiを初期値1にセットする(ステップ
s131)。
【0073】その後、原文ファイル13から、文パラメ
ータiで規定される1文を読み込む(ステップs13
2)。読み込まれる1文の情報は、タグid、文番号、
文章である。次に、翻訳条件設定テーブル10のタグi
d部111及び適用条件部112を参照し、翻訳条件設
定テーブルのタグidと適用条件が入力文とマッチする
かどうか、すなわち、翻訳条件設定テーブル10の翻訳
条件を適用すべきか否かを調べる(ステップs133、
S134)。
【0074】マッチした場合は、対応する翻訳条件部1
13の記述内容(翻訳条件)を、翻訳時に適用するもの
としてセットした後(ステップs135)、マッチしな
ければ、条件を指定せずに(従って汎用の翻訳条件が適
用される)、翻訳処理を行なう(ステップs136)。
そして、文番号と訳文を訳文ファイル14に出力する
(ステップs137)。
【0075】そして、最後の文に対する翻訳を終了して
いないことを確認し(ステップs138)、文パラメー
タiを1インクリメントしてから(ステップs13
9)、上述したステップs132の1文の読み込み処理
に戻る。
【0076】このようなステップs132〜s139の
処理を繰り返すことにより、最後の文の翻訳も終了した
ときには、翻訳処理部6による処理が終了し、図3に示
したステップs34のマージ処理部7によるマージ処理
に移行する。
【0077】以下、第2の実施形態の機械翻訳システム
の動作を具体例を用いて説明する。以下の説明は、翻訳
条件を翻訳規則の使用条件とし、タグ情報を利用して最
適な翻訳規則を選択して翻訳する場合として行なう。す
なわち、文書中の特定のタグ情報で挟まれた範囲(文字
列)に対して、翻訳規則を選択して適用する場合の例に
ついて説明する。
【0078】ここでは、上述した図5に示すようなタグ
付き文書を第2の実施形態の機械翻訳システムで処理す
るにあたり、ヘッダー中のタイトル部分と、章題及び小
項目部分に「項目文翻訳規則」を適用して翻訳を行ない
たい場合の処理の流れを説明する。
【0079】なお、タイトル等の項目文は、名詞が連続
したり体言止めになっていたりして、読点で区切られる
一般の文章とは異なっており、このようなタイトル等を
考慮した項目文翻訳規則が、汎用の翻訳規則の他に翻訳
処理部6内に用意されている機械翻訳システムは多く存
在している。
【0080】翻訳条件設定テーブル10にタグidと適
用条件と適用したい翻訳規則を記述する(ステップs3
0)。上述したように、適用条件部112では、複数の
タグidの全てが成立しなければならない場合を「an
d」で、複数のタグidのうちどれか1つが成立すれば
よい場合を「or」で記述する。
【0081】ヘッダー中のタイトル部分は、「ヘッダ
ー」と「タイトル」タグで挟まれた部分、すなわち、2
つのタグ情報が同時に成立する場合であるので、タグi
d部111には、「ヘッダー」と「タイトル」を併記
し、適用条件部112には「and」を記述する。ま
た、章題及びおよび小項目部分は、「章題」又は「小項
目」タグで挟まれた部分を示すので、タグid部111
には、「章題」と「小項目」を併記し、適用条件部11
2には「or」を記述する。翻訳条件部113にはいず
れも「項目文翻訳規則を適用すること」と記述する。こ
の場合の翻訳条件設定テーブル10の格納内容は、図1
3に示すようになる。
【0082】次に、文書の入力処理及び原文分割処理を
順次行なう(ステップs31、s32)。上述したよう
に、これらの処理は、第1の実施形態と同様であるの
で、図5に示すタグ付き文書を入力し、その入力ファイ
ル9に対して原文分割処理を実行して得たタグ情報ファ
イル12の内容は、上述した図7に示すようになり、原
文ファイル13の内容は、図8に示すようになる。
【0083】次に、原文ファイル13に格納された各文
に対して、翻訳処理を行なう(ステップs132)。
【0084】まず、1文目の文(s01)を読み込み
(s132)、そのタグidと、翻訳条件設定テーブル
10のタグid及び適用条件とのマッチングを行なう
(ステップs133)。1文目のタグid「ヘッダー」
及び「タイトル」は、翻訳条件設定テーブル10の第1
組のデータ131にマッチするため(ステップs13
4)、汎用の翻訳規則ではなく、翻訳条件に記述されて
いる「項目文翻訳規則」が適用されてその文章「タグつ
き文書の翻訳」に対する翻訳処理が行なわれる(ステッ
プs135、s136)。その後、文番号(s01)
と、「項目文翻訳規則」を適用した翻訳結果(訳文)
「Translation of taggeddoc
uments」とが訳文ファイル14に出力される(ス
テップs137)。
【0085】次に、2文目の文(s02)を読み込み
(ステップs132)、その文に係るタグidと翻訳条
件設定テーブル10のタグid及び適用条件とのマッチ
ングを行なう(ステップs133)。その文のタグid
「ヘッダー」及び「著者情報」にはマッチするものが翻
訳条件設定テーブル10にないため(ステップs13
4)、汎用の翻訳規則を適用した翻訳処理が実行され
(ステップs136)、文番号(s02)と、汎用の翻
訳規則を適用した翻訳結果「Taro Yamada」
が訳文ファイル14に出力される(ステップs13
7)。
【0086】3文目及び5文目の文も同様に汎用の翻訳
規則を適用した翻訳処理が実行される。4文目の文では
そのタグid「章題」が、6〜8文目の文ではそのタグ
id「小項目」がそれぞれ翻訳条件設定テーブル10の
第2組のデータ132にマッチして、「項目文翻訳規
則」が適用された翻訳処理が行なわれる。
【0087】同様な各文毎の翻訳処理(ステップs13
2〜s137)を最後の文まで繰り返し行なう。この例
の場合、翻訳処理が終了したときの訳文ファイル14の
内容は、第1の実施形態と同様に図9に示すようになっ
たとする。
【0088】その後、マージ処理部7が、図7に示すタ
グ情報ファイル12と、図9に示す訳文ファイル14と
のマージ処理を行なってタグ付き訳文を生成し(ステッ
プs34)、最後に、マージ処理部7が得たタグ付き訳
文を出力ファイル11に出力する(ステップs35)。
このときの出力ファイル11は、図10に示すようにな
る。
【0089】(B−3)第2の実施形態の効果 第2の実施形態によっても、タグ情報から得られる付随
的情報を積極的に利用して、適用辞書や適用翻訳規則の
ような翻訳条件を動的に変化させて翻訳処理を行なうよ
うにしたので、タグ情報の内容に合わせて最適な翻訳結
果を得ることができる。また、一度、翻訳条件設定テー
ブル10に記述した内容を他のタグ付き文書の翻訳時に
も適用でき、このような翻訳条件を最適に選択させるた
めのユーザの入力操作を簡単なものとすることができ
る。さらに、どの翻訳条件を適用するかの確認処理が、
翻訳条件設定テーブル10のタグid及び適用条件と、
タグ情報ファイル12のタグid(文のタグid)との
照合によっているので、キーワード照合等に比べて照合
数を小さく押さえることができ、処理を高速に実行させ
ることができる。
【0090】以上のような第1の実施形態と同様な効果
に加えて、この第2の実施形態によれば、翻訳条件設定
テーブル10に適用条件を記述しているので、複数のタ
グ情報で同じ翻訳条件を指定する場合に1個のデータと
してテーブルに記述でき、また、複数のタグ情報の組み
合わせで成立する翻訳条件をテーブルに記述でき、より
柔軟かつ正確な翻訳条件の指定を行なうことができると
いう効果も奏する。
【0091】(C)他の実施形態 なお、上記実施形態においては、翻訳条件が適用辞書や
適用翻訳規則を示したが、他の翻訳条件であっても良
い。例えば、翻訳の実行を禁止することを表すものであ
っても良い。また、例えば、「タイトル」というタグi
dに対して、タイトル中の大文字部分だけで抽出して翻
訳させるような、より具体的な翻訳条件を設定するよう
にしても良い。さらに、翻訳条件以外の処理条件を記述
するようにしても良い。例えば、翻訳条件に、その対象
文を消失させるような記述を行ない、翻訳結果からその
文を消失させて要約した翻訳結果を得るようなこともで
きる。すなわち、本発明は、タグ情報の内容に応じて、
複数の選択肢がある処理条件の内のいずれかを設定する
ことに特徴があり、それが翻訳条件に限定されるもので
はない。
【0092】また、上記実施形態においては、翻訳条件
設定テーブル10の1組のデータにおける翻訳条件が1
個のものを示したが、1組のデータに複数の翻訳条件
(例えば適用辞書及び適用翻訳規則)を記述するように
しても良い。
【0093】さらに、上記実施形態においては、原言語
と目的言語とで同じ翻訳条件を設定するものを示した
が、言語別に翻訳条件を設定できるようにしても良く、
また、双方向の機械翻訳システムであれば、いずれが原
言語になるかによって、異なる翻訳条件設定テーブル1
0を適用するようにしても良い。
【0094】さらにまた、上記実施形態の説明では、文
章中の文字列部分に対する字体修飾等を表すいわゆるイ
ンラインタグが適用する翻訳条件の選定に利用されてい
ないように行なったが、インラインタグについても、翻
訳条件設定テーブル10に所定データを記述するように
しても良い。
【0095】また、上記実施形態においては、翻訳条件
設定テーブル10としてユーザが登録編集できるものを
示したが、システムが固定的に備えるものであっても良
く、また、ユーザ編集が可能なものとシステム固定のも
のとを備えるようにしても良い。
【0096】さらに、上記実施形態においては、タグ付
き文書を対象とした機械翻訳システムを示したが、文章
部分と同様なテキストデータ列でなるタグ情報とは異な
っていても、タグ付き文書におけるタグ情報と同様な機
能を果たす出力形式を規定する情報を伴う文書を機械翻
訳するものであれば、本発明の技術思想を適用すること
ができる。
【0097】さらにまた、上記実施形態においては、本
発明を機械翻訳システムに適用したものを示したが、他
の文書処理システムに本発明を適用することができる。
文書処理システム(自然言語処理システム)の中には、
目的言語への変換は実行しなくても、機械翻訳システム
と同様な解析処理を実行するものは多く、このようなの
文書処理システムに本発明を適用できることは勿論であ
る。
【0098】また、上記第2の実施形態においては、適
用条件が「and」及び「or」であるものを示した
が、「not」や「nor」や「nand」でも良く、
さらには、タグid部に記述された3個のタグidを
A、B、Cとした場合に、「(AandB)orC」の
ように論理的な組み合わせによるものであっても良い。
【0099】
【発明の効果】以上のように、第1の本発明によれば、
(1) 形式指定情報が有する形式情報に基づいて、複数の
中から選択可能ないずれかの処理条件を選択し、その形
式指定情報と選択した処理条件とを対応付けて格納して
いる処理条件設定記憶手段と、(2) 処理対象の文書に含
まれている形式指定情報を取出して、処理条件設定記憶
手段に記憶されている形式指定情報の種類と照合する照
合手段と、(3) その照合結果が一致している形式指定情
報の種類があれば、その形式指定情報の種類に対応して
いる、処理条件設定記憶手段に記憶されている処理条件
を適用して、処理対象の文書における形式指定情報で形
式が指定されている文章部分に対する処理を実行する処
理手段とを有するので、形式指定情報から得られる情報
を利用して、処理条件を動的に変化させて処理を行なう
ことができ、形式指定情報の内容に合わせて最適な処理
結果を高速に得ることができる。
【0100】また、第2の本発明においては、(1) 形式
指定情報が有する形式情報に基づいて、複数の中から選
択可能ないずれかの処理条件を選択し、その形式指定情
報の種類と、選択した処理条件と、1又は複数の形式指
定情報の種類がどのような場合に上記処理条件を適用す
るかを規定する適用条件とを組情報として格納している
処理条件設定記憶手段と、 (2) 処理対象の文書に含ま
れている形式指定情報を取出して、処理条件設定記憶手
段に記憶されている形式指定情報の種類と照合すると共
に、その適用条件を満足するかを判定する照合手段と、
(3) その判定結果が満足している形式指定情報の種類が
あれば、その形式指定情報の種類に対応している、処理
条件設定記憶手段に記憶されている処理条件を適用し
て、処理対象の文書における上記形式指定情報で形式が
指定されている文章部分に対する処理を実行する処理手
段とを有するので、形式指定情報から得られる情報を利
用して、処理条件を動的に変化させて処理を行なうこと
ができ、形式指定情報の内容に合わせて最適な処理結果
を高速に得ることができ、また、柔軟かつ正確な処理条
件の指定を行なうことができる。
【図面の簡単な説明】
【図1】第1の実施形態の全体構成を示すブロック図で
ある。
【図2】第1の実施形態の翻訳条件設定テーブルの構成
を示す説明図である。
【図3】第1の実施形態の全体処理を示すフローチャー
トである。
【図4】第1の実施形態の翻訳処理を示すフローチャー
トである。
【図5】第1の実施形態の具体的動作の説明に用いる文
書を示す図面である。
【図6】第1の実施形態の翻訳条件設定テーブルの設定
内容例を示す説明図である。
【図7】第1の実施形態のタグ情報ファイル例(図5に
対応)を示す説明図である。
【図8】第1の実施形態の原文ファイル例(図5に対
応)を示す説明図である。
【図9】第1の実施形態の訳文ファイル例(図5に対
応)を示す説明図である。
【図10】第1の実施形態の出力ファイル例(図5に対
応)を示す説明図である。
【図11】第2の実施形態の翻訳条件設定テーブルの構
成を示す説明図である。
【図12】第2の実施形態の翻訳処理を示すフローチャ
ートである。
【図13】第2の実施形態の翻訳条件設定テーブルの設
定内容例を示す説明図である。
【符号の説明】
1…入出力装置、2…入力部、3…出力部、4…処理装
置、5…原文分割処理部、6…翻訳処理部、7…マージ
処理部、8…記憶装置、9…入力ファイル、10…翻訳
条件設定テーブル、11…出力ファイル、12…タグ情
報ファイル、13…原文ファイル、14…訳文ファイ
ル、21、111…タグid部、22、113…翻訳条
件部、112…適用条件部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/28 G06F 12/00

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 表示、印刷出力時の形式を指定する形式
    指定情報を伴なう文書を処理する文書処理システムにお
    いて、形式指定情報が有する形式情報に基づいて、複数の中か
    ら選択可能ないずれかの処理条件を選択し、その形式指
    定情報と選択した処理条件と を対応付けて格納している
    処理条件設定記憶手段と、 処理対象の文書に含まれている形式指定情報を取出し
    て、上記処理条件設定記憶手段に記憶されている形式指
    定情報の種類と照合する照合手段と、 その照合結果が一致している形式指定情報の種類があれ
    ば、その形式指定情報の種類に対応している、上記処理
    条件設定記憶手段に記憶されている処理条件を適用し
    て、処理対象の文書における上記形式指定情報で形式が
    指定されている文章部分に対する処理を実行する処理手
    段とを有することを特徴とする文書処理システム。
  2. 【請求項2】 表示、印刷出力時の形式を指定する形式
    指定情報を伴なう文書を処理する文書処理システムにお
    いて、形式指定情報が有する形式情報に基づいて、複数の中か
    ら選択可能ないずれかの処理条件を選択し、その形式指
    定情報の種類と、選択した処理条件と、 1又は複数の形
    式指定情報の種類がどのような場合に上記処理条件を適
    用するかを規定する適用条件とを組情報として格納して
    いる処理条件設定記憶手段と、 処理対象の文書に含まれている形式指定情報を取出し
    て、上記処理条件設定記憶手段に記憶されている形式指
    定情報の種類と照合すると共に、その適用条件を満足す
    るかを判定する照合手段と、 その判定結果が満足している形式指定情報の種類があれ
    ば、その形式指定情報の種類に対応している、上記処理
    条件設定記憶手段に記憶されている処理条件を適用し
    て、処理対象の文書における上記形式指定情報で形式が
    指定されている文章部分に対する処理を実行する処理手
    段とを有することを特徴とする文書処理システム。
  3. 【請求項3】 上記文書が、表示、印刷出力時の形式を
    規定するタグ情報を含むタグ付文書であることを特徴と
    する請求項1又は2に記載の文書処理システム。
  4. 【請求項4】 上記処理手段が原言語の文書を目的言語
    の文書に翻訳する翻訳手段であり、上記処理条件設定記
    憶手段に格納されている処理条件が、適用する辞書の種
    類及び又は適用する翻訳規則及び又は翻訳実行の有無を
    定めている翻訳条件であることを特徴とする請求項1〜
    3のいずれかに記載の文書処理システム。
JP12592896A 1996-05-21 1996-05-21 文書処理システム Expired - Fee Related JP3302260B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12592896A JP3302260B2 (ja) 1996-05-21 1996-05-21 文書処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12592896A JP3302260B2 (ja) 1996-05-21 1996-05-21 文書処理システム

Publications (2)

Publication Number Publication Date
JPH09305605A JPH09305605A (ja) 1997-11-28
JP3302260B2 true JP3302260B2 (ja) 2002-07-15

Family

ID=14922431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12592896A Expired - Fee Related JP3302260B2 (ja) 1996-05-21 1996-05-21 文書処理システム

Country Status (1)

Country Link
JP (1) JP3302260B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100292983A1 (en) * 2008-01-10 2010-11-18 Takashi Onishi Machine translation apparatus and machine translation method
JP2012230460A (ja) * 2011-04-25 2012-11-22 Toshiba Corp 機械翻訳システム、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日経エレクトロニクス,日本,1983年 8月29日,No.324,p.250−p.271

Also Published As

Publication number Publication date
JPH09305605A (ja) 1997-11-28

Similar Documents

Publication Publication Date Title
US6138129A (en) Method and apparatus for providing automated searching and linking of electronic documents
US7069501B2 (en) Structured document processing system and structured document processing method
US7506247B2 (en) Method for capturing document style by example
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
US7707139B2 (en) Method and apparatus for searching and displaying structured document
EP0645720B1 (en) Dictionary creation supporting system
US5583762A (en) Generation and reduction of an SGML defined grammer
US20030115552A1 (en) Method and system for automatic creation of multilingual immutable image files
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
JP2004265423A (ja) 文書翻訳方法
JPH0830620A (ja) 構造検索装置
EP0384986A2 (en) Method for displaying online information
JPH0484271A (ja) 文書内情報検索装置
US11301441B2 (en) Information processing system and information processing method
JP3302260B2 (ja) 文書処理システム
KR20020052142A (ko) 다른 지역간 문서 변환 방법
US7058883B1 (en) Document link description/generation method, apparatus and computer program product
JPH0877196A (ja) 文書情報抽出装置
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2838984B2 (ja) 汎用参照装置
JP2922701B2 (ja) 言語変換方式
JPH09265431A (ja) ドキュメント編集方法及び装置と、ドキュメント編集装置を含むクライアント装置
JP3239845B2 (ja) 全文検索装置および方法
JPH08263490A (ja) 法規文書更新システム
JP2002183134A (ja) 翻訳装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080426

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090426

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090426

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100426

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees