JPH04259057A - 文書編集方法及び機械翻訳方法 - Google Patents

文書編集方法及び機械翻訳方法

Info

Publication number
JPH04259057A
JPH04259057A JP3041307A JP4130791A JPH04259057A JP H04259057 A JPH04259057 A JP H04259057A JP 3041307 A JP3041307 A JP 3041307A JP 4130791 A JP4130791 A JP 4130791A JP H04259057 A JPH04259057 A JP H04259057A
Authority
JP
Japan
Prior art keywords
data
document
language
linguistic
language data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3041307A
Other languages
English (en)
Inventor
Etsuo Ito
悦雄 伊藤
Kimito Takeda
武田 公人
Koichi Hasebe
浩一 長谷部
Hideki Hirakawa
秀樹 平川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3041307A priority Critical patent/JPH04259057A/ja
Publication of JPH04259057A publication Critical patent/JPH04259057A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、言語データと非言語デ
ータの混在する文書データの編集や翻訳などの文書処理
に適用される文書処理システムに関するものである。
【0002】
【従来の技術】最近のコンピュータ技術の進歩は目覚ま
しいものがあり、文書データの編集や翻訳などの文書処
理に適用される文書処理システムに対するコンピュータ
化も盛んに進められている。
【0003】しかして、従来この種の文書処理システム
として、読み情報を入力することにより文書情報を出力
するワードプロセッサなどで代表される文書編集システ
ムが開発されている。そして、かかる文書編集システム
にあっては、ワードプロセッサの発達とともに、作成さ
れ、あるいは編集される文書は、文字列のみならず下線
やマルチフォントなどの属性や文書レイアウト、図形・
表などが付加されたものも可能になっている。つまり、
このような文書は、属性やレイアウト情報(以下、形式
情報)などの非言語データが文章を形成する言語データ
と混在する形式を取るものが多く用いられるようになっ
ている。
【0004】ところが、従来の文書編集システムでは、
言語データと非言語データの混在する文書データを扱う
には、ビットマップディスプレイなどを用いてWYSW
YG状態で編集するか、TeXなどに見られるように言
語データと非言語データが混在した状態で編集を行うよ
うにしている。このため、文書の編集に際しては、特定
の機器を使用するか、あるいは非言語情報を意識しなが
ら編集を進めなければならないなど、かかる作業に多く
の労力を必要とする傾向があった。
【0005】そこで、このような問題を解消するため、
元の文書から言語データのみを抽出して編集するような
ことも行われているが、これだと原文書の非言語データ
に相当する形式情報が欠落することになるため、オペレ
ータが原文書を参照しながら編集後の文書に形式情報を
付加することが必要となり、オペレータに多大の労力を
強いいる欠点があった。
【0006】一方、最近、文書生成システムとしてコン
ピュータ技術を用いて翻訳処理を自動的に行う機械翻訳
処理システムの開発も盛んに行われるようになっている
。この種の機械翻訳処理システムでは、原文を翻訳する
とともに、原文と翻訳結果を一文ずつ対応付けて記録し
、これら原文と翻訳結果の対応を付けたまま翻訳結果の
編集を行ったりすることを可能にしたものがある。また
、翻訳の精度を向上させるため、翻訳する前に原文に対
しテクニカルライトと呼ばれる修正をすることも多く行
われている。
【0007】ところで、このような機械翻訳システムで
も、文字列のみならず下線やマルチフォントなどの属性
や、文書レイアウトなどが付加された文書を取り扱う場
合が多くなっている。つまり、このような文書では形式
情報が文書を形成する言語データと混在する形式を取る
ものである。
【0008】ところが、従来の機械翻訳システムは、入
力データとして扱うことができるのは言語データのみで
あるため、非言語データが混在した文書を翻訳すること
ができなかった。そこで、非言語データと言語データの
混在した文書データの中から言語データのみを抽出し、
この言語データについてのみ翻訳することが考えられる
が、これだと現文書の非言語データに相当する形式情報
が欠落することになるため、オペレータが原文書を参照
しながら編集後の文書に形式情報を付加することが必要
となり、オペレータに多大の労力を強いる欠点があった
【0009】
【発明が解決しようとする課題】このように従来の文書
処理システムでは、文書編集システムの場合、編集する
文書が言語データと非言語データが混在すると、特定の
機器を使用するか、あるいは非言語情報を意識しながら
編集しなければならず多くの労力を必要とし、これらの
不都合を避けるため元の文書から言語データのみを抽出
して編集を行うと、原文書の非言語データに相当する形
式情報が欠落することから、オペレータが原文を参照し
ながら編集後の文書に形式情報を付加することになり、
オペレータに多くの労力を強いいる問題点があった。一
方、機械翻訳システムの場合には、翻訳する原文書に言
語データと非言語データが混在すると、そのままでは翻
訳を行うことができないため、言語データのみを抽出し
た翻訳を行い、後からオペレータが非言語データに相当
する形式情報を付加するようになり、この場合もオペレ
ータに多大の労力を強いいる問題点があった。
【0010】本発明は、上記事情に鑑みてなされたもの
で、言語データと非言語データが混在する文書データに
対する編集や翻訳などの処理を簡単に実行できる文書処
理システムを提供することを目的とする。
【0011】
【課題を解決するための手段】本発明の文書処理システ
ムは、非言語データと言語データの混在する文書データ
より言語データを抽出する言語データ抽出手段、この言
語データ抽出手段により抽出された言語データに対して
所定の処理を実行する処理実行手段、この処理実行手段
により処理された言語データと上記文書データ中の言語
データとを比較し対応箇所を決定する対応箇所決定手段
、この対応箇所決定手段により対応箇所を決定された上
記文書データの言語データを上記処理実行手段で処理さ
れた言語データに置き換える置換手段により構成してい
る。
【0012】また、本発明の文書編集システムは、非言
語データと言語データの混在する文書データより言語デ
ータを抽出する言語データ抽出手段、この言語データ抽
出手段により抽出された言語データに対して編集処理を
実行する編集処理手段、この編集処理手段により編集さ
れた言語データと上記文書データ中の言語データとを比
較し対応箇所を決定する対応箇所決定手段、この対応箇
所決定手段により対応箇所を決定された上記文書データ
の言語データを上記編集処理手段で編集された言語デー
タに置き換える置換手段により構成している。
【0013】さらに、本発明の機械翻訳システムは、非
言語データと言語データの混在する文書データより言語
データを抽出する言語データ抽出手段、この言語データ
抽出手段により抽出された言語データに対して翻訳処理
を実行する翻訳処理手段、この翻訳処理手段により翻訳
された言語データに対応する原文データと上記文書デー
タ中の言語データとを比較し対応箇所を決定する対応箇
所決定手段、この対応箇所決定手段により対応箇所を決
定された上記文書データの言語データを上記翻訳処理手
段で翻訳された言語データに置き換える置換手段により
構成している。
【0014】
【作用】この結果、本発明によれば、形式情報などの非
言語データと文章を形成する言語データが混在する文書
データに対して編集や翻訳などの所定の処理を行う際、
言語データを抽出し、この言語データについて編集や翻
訳などの処理を実行した後、処理済みデータと元の文書
データ中の言語データを比較し対応箇所を決定するとと
もに、この対応箇所を決定された文書データの言語デー
タを編集や翻訳などの処理された言語データに置き換え
るようになり、形式情報を意識せずに編集や翻訳などの
処理を実行することができ、オペレータの労力の軽減を
可能にしている。
【0015】
【実施例】以下、本発明の一実施例を図面にしたがい説
明する。
【0016】図1は、本発明を文書編集システムに適用
した概略構成を示すブロック図である。図において、1
は入力部で、この入力部1の入力データは、制御部2に
送られる。この制御部2はシステム全体を制御するため
のもので、ここでは、文書記憶部3、言語データ抽出部
4、編集部5、対応箇所決定部6、対応文置換部7およ
び表示部8を制御するようになっている。
【0017】入力部1は文書データの入力を始め、編集
処理のための文字データの入力の他に各種コマンドの入
力を可能にしたもので、キーボードが使用される。この
場合、文書の入力には、OCRなどによる入力も考えら
れる。文書記録部3は、入力部1から入力された文書や
、図示しないコンピュータで作成された形式情報を有す
る文書データなどを記録するためのものである。言語デ
ータ抽出部4は、文書記録部3に記録されている形式情
報を有する文書データから言語データを抽出するための
ものである。編集部5は、入力部1から入力された文書
データ、文書記録部3に記録されている文書データある
いは言語データ抽出部4により抽出された言語データを
編集するためのものである。対応箇所決定部6は、編集
部5によって編集された文書データが文書記録部3に記
録されている文書データのどの部分に対応するかを判定
するものである。対応文置換部7は、編集部5によって
編集された結果を対応箇所決定部6で決定された対応箇
所と置換するものである。そして、表示部8は入力部1
より入力された文書データや編集部5によって編集され
た文書データを表示したり、文書記録部3に記録されて
いる文書データを表示したりするためのものである。 この場合、表示部8としては、文字や下線などの属性マ
ルチフォレントやレイアウトなどの文書形式情報の可視
表示可能なもの、例えばビッマップディスプレイなどが
使用される。
【0018】図2は、入力部1のキー配列の具体例を示
すものである。この場合、入力部1は、文書入力用の文
字キー201の他に、指示キー202、編集キー203
、機能キー204、カーソルキー205およびその他の
キーを備えている。
【0019】次に、このように構成した実施例の動作を
説明する。
【0020】まず、図3は、本文書編集システムにおけ
る非言語データと言語データが混在する文書(以下、D
TP文書)を編集する場合のデータの流れを簡単に説明
するための図である。
【0021】この場合、文書記録部3に記録されたDT
P文書(301)から言語データ抽出部4によって文字
列のみからなる言語データを抽出する(302)。この
結果、編集処理の可能な文字列のみの言語データが得ら
れる(303)。次に、この言語データを編集部5に転
送し編集処理を行う(304)。そして、この編集処理
された言語データ(305)を対応箇所決定部6に転送
し、DTP文書(301)中の対応箇所を決定する(3
06)。次いで、この対応箇所の決定に基づいて編集処
理された言語データ(305)をDTP文書中の対応文
の箇所に置換することで(307)、形式情報を保持し
た編集済みのDTP文書(308)を得るようになる。
【0022】次に、図4は言語データ抽出部4の動作を
説明するためのフローチャートである。この場合、言語
データ抽出部4は、まず編集すべきDTP文書Aのデー
タを文書記録部3から読み込む(ステップ401)。次
に、この読み込んだデータから最初の1データを取りだ
し、これをBとする(ステップ402)。
【0023】そして、このBが言語データであるかを判
別する(ステップ403)。ここで、言語データである
か否かの判別は読み込んだDTP文書Aの形式によって
異なる。例えば、文書AがTeXで作成されたデータの
場合は、「\(バックスラッシュ)」から開始する部分
は、非言語データであり、また、Frae−maker
で作成されたデータの場合は、「<sting」で開始
する部分が言語データである。
【0024】ステップ403でBが言語データであると
判定した場合は、Bを出力ファイルCに書き込む(ステ
ップ404)。一方、ステップ403でBが言語データ
でないと判定した場合は、DTP文書Aに、まだデータ
があるか判断する(ステップ405)。ここで、DTP
文書Aに次のデータがあれば次の1データを取り込み、
これをBとして(ステップ406)、ステップ403に
戻り、再び、Bが言語データであるかを判別する。
【0025】以下、ステップ403以降の処理をステッ
プ405で、DTP文書Aに次のデータがないと判断さ
れるまで繰り返し実行し、言語データと判定されたBの
みを出力ファイルCに書き込んで行くようにする(ステ
ップ404)。
【0026】次に、図5は対応箇所決定部6の動作を説
明するためのフローチャートである。この場合、対応箇
所決定部6は、編集部5での編集結果を読み込み、これ
をDとする(ステップ501)。次に、編集を行う前の
言語データと非言語データの混在するDTP文書Aを読
み込む(ステップ502)。そして、i=1として(ス
テップ503)、Dの編集結果の1番目の文を取りだし
、これをEとする(ステップ504)。
【0027】次に、EがDTP文書A中のどの箇所に対
応するかを検索し、その対応関係を記録する(ステップ
505)。この対応関係の検索方法については後述する
ことにする。
【0028】次いで、Eが編集結果Dの最後の文かを判
断する(ステップ506)。ここで、編集結果D中に次
の文があれば、iをi+1として(ステップ507)、
今度は、編集結果Dの2番目の文を取りだし、これをE
とし(ステップ504)、このEがDTP文書A中のど
の部分に相当するかを検索し、その対応関係を記録する
(ステップ505)。
【0029】以下、上述した処理をステップ506でE
が最後の文と判断されるまで繰り返して実行し、編集結
果D全体のDTP文書Aに対する関係を記録していく。
【0030】次に、図6は、対応箇所決定部6での対応
関係の検索方法を説明するためのフローチャートである
。この場合、まず、編集結果の内の対応箇所を求める文
をEとする(ステップ601)。次に、元になる検索対
象のDTP文書Aを読み込む(ステップ602)。この
場合、文Eに対応するDTP文書Aの検索は、文単位で
行うものとすると、最初にDTP文書Aの1番目の文に
着目し、これをFとする(ステップ603)。
【0031】そして、EとFが一致するか比較する(ス
テップ604)。ここで、両者が一致する場合は、Eと
対応する文はFであると判断し(ステップ605)処理
を終了する。一方、両者が一致しない場合は、文の削除
や連結によって文の対応ががずれていることが予想され
るので、Fの近辺にEと一致する文があるか否かを検査
する(ステップ606)。
【0032】ここで、Fの近辺にEと一致する文が存在
する場合には、この一致する文を新たな文Fとし(ステ
ップ607)、この文FがEと対応があると判断し(ス
テップ605)、処理を終了する。一方、Fの近辺にも
Eと一致する文が存在しないと判断された場合は、文全
体が一致することはない。このために条件を緩和してE
とFが同一のキーワードを持つか否かの判断を行う(ス
テップ608)。
【0033】ここで、同一のキーワードが両者に含まれ
ている場合には、文Eは文Fを修正したものであると考
えられるため、FとEの間に対応があるとし(ステップ
605)、処理を終了する。一方、ステップ608にお
いて同一キーワードが検出されなかった場合には、文の
削除や連結によって文がずれていることが予想されるの
で、Fの近辺にEと同一のキーワードを持つ文があるか
否かの判断を行う(ステップ609)。
【0034】ここで、Fの近辺にEと同一のキーワード
を持った文がある場合には、この文を新たな文Fとし(
ステップ610)、この文FとEの間に対応があるとし
て(ステップ605)処理を終了する。一方、ここまで
の判定で対応する文がない場合には、文FとEの文字列
同志の比較では対応関係が得られないので、パラグラフ
境界などの文書形式情報を利用して対応を決定する。 まず、Eがパラグラフ先頭であるか否かの判断を行う(
ステップ611)。
【0035】ここで、パラグラフ先頭であれば対応する
DTP文書A中の文もパラグラフ先頭であると考えられ
るため、Fがパラグラフ先頭であるか否かを判断する(
ステップ614)。そして、Fがパラグラフ先頭である
場合には、EとFとの間に対応があると判断し(ステッ
プ605)処理を終了する。一方、Fがパラグラフ先頭
でない場合には、文の削除や連結によって文がずれてい
ることが予想されるのでFの付近にパラグラフ境界があ
るか検査する(ステップ613)。Fの近辺にパラグラ
フ境界がある場合には、パラグラフ先頭の文を新たなF
とし(ステップ614)、この文FがEと対応あるとし
て(ステップ605)、処理を終了する。
【0036】パラグラフ情報を利用しても対応関係が得
られない場合には、付近にある対応関係がとれた文から
対応関係を予想する。ここでは、Eの付近に対応関係が
得られる文があるか検査し(ステップ615)、対応関
係が得られる文がある場合は、これをE´、F´とする
。EからE´間での距離例えば文数や単語数を測定し、
これをGとする(ステップ616)。そして、F´から
Gだけ離れた文を新たな文Fとし(ステップ617)、
この文FをEと対応あるとして(ステップ605)処理
を終了する。
【0037】以上の処理において対応関係が得られない
場合には、文EをEの前文の一部と見なして対応関係を
とるようにする(ステップ618)。
【0038】なお、上述のテップ608で使用するキー
ワードとしては、1.文の主語、述語など文の骨格をな
す語句。
【0039】2.DTP文書において他の部分とフォン
トが異なるなどの特殊情報が付加された語句。
【0040】3.接続詞などの機能語。などである。こ
れらの語句がキーワードとして使用されるのは、これら
語句が文おいて重要な役割を果たすため、修正などによ
って削除されることが少ないからである。
【0041】ちなみに、このような文書編集システムを
用いて編集を行った場合を図面を用いて説明すると、い
ま、図7に示すように属性やレイアウト情報などの形式
情報からなる非言語データが文章を形成する言語データ
と混在する形式をとるDTP文書を編集するものとする
と、文書データとしては図8に示すように言語データと
非言語データが混在する形で記録される。そして、この
ように文書データから言語データ抽出部3を用いて言語
データのみを抽出すると、図9に示す結果が得られる。 そして、この言語データのみからなる文書データに対し
て編集を行ったところ、図10に示す編集文書が得られ
たとすると、この図10に示す編集文書に対して上述し
た対応箇所決定部6、対応文置換部7の動作により対応
箇所の決定、対応文の置換動作が実行され、オペレータ
をわずらわせることなく図11に示す文書が編集結果と
して得られことになる。
【0042】したがって、このように構成した文書編集
システムによれば、属性やレイアウト情報などの形式情
報からなる非言語データが、文章を形成する言語データ
と混在する形式をとる文書を編集する場合に、言語デー
タのみを抽出するとともに、この言語データについて編
集し、この編集された言語データについて、非言語デー
タが混在する元の文書データとを比較して対応箇所を決
定し、これら対応箇所について元の文書の言語データを
編集された言語データに置換することにより、最初の形
式情報を保持したまま編集を行うことができるようにな
り、編集作業を著しく簡単なものにできる。また、この
システムでは、言語データのみを抽出して編集するため
、文字列の編集を行えるシステムが限定されず、オペレ
ータも手慣れたシステムで編集ができるためオペレータ
の労力を大幅に軽減することも可能になる。
【0043】なお、上述した実施例では、編集結果を元
にDTP文書中の対応箇所を決定しているが、DTP文
書中の文字列を元に編集結果を対応させてもよい。また
、上述の実施例では、対応箇所を決定し、記録してから
編集結果と置換したが、対応箇所が決定された直後に置
換してもよい。さらに対応箇所を求める方法についてパ
ラグラフ情報のほか、箇条書きや番号付きの部分などの
特徴を利用することができる。さらに、編集部分は同一
システムでなく他のシステムを用いることも可能である
【0044】次に、本発明の他の実施例を説明する。
【0045】図12は、本発明を日英翻訳のための機械
翻訳システムに適用した概略構成を示すブロック図であ
る。図において、11は入力部で、この入力部11の入
力データは、制御部12に送られる。この制御部12は
システム全体を制御するためのもので、ここでは、翻訳
文書記憶部13、言語データ抽出部14、翻訳部15、
対応箇所決定部16、対応文置換部17および表示部1
8を制御するようになっている。
【0046】入力部11は翻訳対象となる原文(この場
合日本語)の入力を始め、各種コマンドの入力を可能に
したもので、キーボードが使用される。この場合、原文
の入力には、OCRなどによる入力も考えられる。翻訳
文書記録部13は入力部11から入力された原文や、計
算機上で作成された形式情報を有する文書などを記録す
る他、第1言語である日本語の文章と第2言語である英
語の文章のそれぞれのデータを別々に記録したり、日本
語のデータとその翻訳結果である英文を対応付けて記録
するためのものである。言語データ抽出部14は翻訳文
書記録部3に記録されている形式情報を有する文書から
翻訳部15によって処理可能な言語データのみを抽出す
るものである。翻訳部15は入力部11から入力された
原文データや翻訳文書記録部13に記録されているデー
タあるいは言語データ抽出部14によって抽出された言
語データを翻訳するためのものである。対応箇所決定部
16は翻訳部15によって訳出された英語と対応する日
本語が翻訳文書記録部13に記録されている文書のどの
部分に対応するかを判定するものである。対応文置換部
17は、翻訳部15によって翻訳された結果である英文
を対応箇所決定部16で決定された対応する日本語文と
置換するものである。そして、表示部18は入力部11
より入力した原文や翻訳部15によって訳出された英文
を表示したり、翻訳文書記録部13に記録されている文
書を表示したりするためのものである。この場合、表示
部18としては、文字や下線などの属性マルチフォレン
トやレイアウトなどの文書形式情報の可視表示可能なも
の、例えばビッマットプディスプレイなどが使用される
【0047】図13は、入力部11のキー配列の一例を
示すものである。この場合、入力部11は英文・和文入
力用の文字キー1301の他に、翻訳指示キー1302
、編集キー1303、機能キー1304、カーソルキー
1305およびその他のキーを備えている。
【0048】図14は、翻訳時における表示部18の画
面レイアウトの一例を示す図である。この場合、翻訳す
る原文は、画面左側の現部表示領域1401に表示され
、翻訳処理の結果得られた訳文は、画面右側の訳文表示
領域1402に表示される。また、画面上部の編集領域
1403は各種編集に必要な情報を表示するために用い
られるようになっている。
【0049】次に、図15は、機械翻訳システムにおけ
る非言語データと言語データが混在する文書(以下、D
TP文書)を機械翻訳する場合のデータの流れを簡単に
説明するための図である。
【0050】この場合、翻訳文書記録部13に記録され
ているDTP文書(1501)から言語データ抽出部4
によって文字列のみからなる言語データを抽出する(1
502)。この結果、翻訳処理の可能な文字列のみの言
語データが得られる(1503)。次に、このデータに
対して必要があれば修正やテクニカルライトを行う(1
504)。そして、修正が加えられた原文データ(15
05)を翻訳部15に転送し翻訳を行う(1506)。 この翻訳により対応関係が取れている原文と訳文が生成
される(1507)、(1508)。そして、訳文と対
応関係がある原文(1508)を対応箇所決定部16に
転送し、DTP文書(1501)中の対応箇所を決定す
る(1509)。次いで、この対応箇所の決定に基づき
翻訳結果(1507)をDTP文書中の対応文の箇所に
置換することで(1510)、元のDTP文書(150
1)の形式情報を保持した翻訳結果(1511)を得る
ようになる。
【0051】次に、図16は言語データ抽出部14の動
作を説明するためのフローチャートである。この場合、
言語データ抽出部14は、まず、翻訳するDTP文書A
を翻訳文書記録部13から読み込む(ステップ1601
)。次に読み込んだデータから最初の1データを取りだ
し、これをBとする(ステップ1602)。
【0052】そして、Bが言語データであるかを判別す
る(ステップ1603)。ここで、言語データであるか
否かの判別は読み込んだDTP文書Aの形式によって異
なる。例えば、文書AがTeXで作成されたデータの場
合は、「\(バックスラッシュ)」から開始する部分は
、非言語データであり、また、Frmae−maker
で作成されたデータの場合は「<sting」で開始す
る部分が言語データである。
【0053】ステップ1603によってBが言語データ
であると判定した場合は、Bを出力ファイルCに書き込
む(ステップ1604)。一方、ステップ1603でB
が言語データでないと判定した場合は、DTP文書Aに
、まだデータがあるか判断する(ステップ1605)。 ここで、DTP文書Aに次のデータがあれば次の1デー
タを取り込み、これをBとして(ステップ1606)、
ステップ1603に戻り、再び、Bが言語データである
かを判別する。
【0054】以下、ステップ1603以降の処理をステ
ップ1605で、DTP文書Aに次のデータがないと判
断されるまで繰り返し実行し、言語データと判定された
Bのみを出力ファイルCに書き込んで行くようにする(
ステップ1604)。
【0055】次に、図17は対応箇所決定部6の動作の
一例を示すフローチャートである。対応箇所決定部16
は、まず翻訳部15での翻訳結果を読み込み、これをD
とする(ステップ1701)。次に、翻訳を行う前の原
文言語データと非言語データの混在するDPT文書Aを
読み込む(ステップ1702)。そして、i=1として
(ステップ1003)、Dの翻訳結果の1番目の文をを
取り出し、Eとする(ステップ1704)。
【0056】次に、EがDTP文書A中のどの箇所に対
応するかを検索し、その対応関係を記録する(ステップ
1705)。この対応関係の検索方法については後述す
ることにする。
【0057】次いで、Eが編集結果Dの最後の文かを判
断する(ステップ1706)。ここで、翻訳結果D中に
次の文があれば、iをi+1として(ステップ1707
)、今度は、翻訳結果Dの2番目の文を取りだし、これ
をEとし(ステップ1704)、このEがDTP文書A
中のどの部分に相当するかを検索し、その対応関係を記
録する(ステップ1705)。
【0058】以下、上述した処理をステップ1706で
Eが最後の文と判断されるまで繰り返して実行し、編集
結果D全体のDTP文書Aに対する関係を記録していく
。これらの処理ステップ604、605をDの最後の文
まで繰り返すステップ607、607ことによりD全体
の対応関係を記録する。
【0059】次に、図18は、対応箇所決定部16での
対応関係の検索方法を説明するためのフローチャートで
ある。この場合、図18における対応関係の判定基準は
次のように設定されている。
【0060】1.文同志が一致する場合は対応する文で
ある。
【0061】2.同一のキーワードが含まれる文は対応
する文である。
【0062】3.パラグラフの先頭の文同志は対応する
文である。
【0063】4.対応が取れた文から同一距離にある文
は対応する。
【0064】この状態から、まず、翻訳結果の原文内の
対応箇所を求める文をEとする(ステップ1801)。 次に、元になるDTP文書Aを読み込む(ステップ18
02)。このばあい、文Eに対するDTP文書Aの検索
は、第1文から順次行うものとすると、最初にDTP文
書の1番目の文に着目し、これをFとする(ステップ1
803)。
【0065】そして、EとFが一致するか比較する(ス
テップ1804)。ここで、両者が一致する場合は、E
と対応する文はFであると判断し(ステップ1805)
、処理を終了する。一方、両者が一致しない場合は、文
の削除や連結によって文の対応がずれていることが予想
されるので、Fの近辺にEと一致する文があるか否かを
検査する(ステップ1806)。
【0066】ここで、Fの近辺にEと一致する文が存在
する場合には、この一致する文を新たな文Fとし(ステ
ップ1807)、この文FがEと対応があると判断し(
ステップ1805)、処理を終了する。一方、Fの近辺
にもEと一致する文が存在しないと判断された場合は、
文全体が一致することはない。このために条件を緩和し
てEとFが同一のキーワードを持つか否かの判断を行う
(ステップ1808)。
【0067】ここで、同一のキーワードが両者に含まれ
ている場合には、文Eは文Fを修正したものであると考
えられるため、FとEの間に対応があるとし(ステップ
1805)、処理を終了する。一方、ステップ1808
において同一キーワードが検出されなかった場合には、
文の削除や連結によって文がずれていることが予想され
るので、Fの近辺にEと同一のキーワードを持つ文があ
るか否かの判断を行う(ステップ1809)。
【0068】ここで、Fの近辺にEと同一のキーワード
を持った文がある場合には、この文を新たな文Fとし(
ステップ1810)、この文FとEの間に対応があると
して(ステップ1805)処理を終了する。一方、ここ
までの判定で対応する文がない場合には、文FとEの文
字列同志の比較では対応関係が得られないので、パラグ
ラフ境界などの文書情報を利用して対応を決定する。 まず、Eがパラグラフ先頭であるか否かの判断を行う(
ステップ1811)。
【0069】ここで、パラグラフ先頭であれば対応する
DTP文書A中の文もパラグラフ先頭であると考えられ
るため、Fがパラグラフ先頭であるか否かを判断する(
ステップ1814)。そして、Fがパラグラフ先頭であ
る場合には、EとFとの間に対応があると判断し(ステ
ップ1805)処理を終了する。一方、Fがパラグラフ
先頭でない場合には、文の削除や連結によって文がずれ
ていることが予想されるのでFの付近にパラグラフ境界
があるか検査する(ステップ1813)。Fの近辺にパ
ラグラフ境界がある場合には、パラグラフ先頭の文を新
たなFとし(ステップ1814)、この文FがEと対応
あるとして(ステップ1805)、処理を終了する。
【0070】パラグラフ情報を利用しても対応関係が得
られない場合には、付近にある対応関係がとれた文から
対応関係を予想する。ここでは、Eの付近に対応関係が
得られる文があるか検査し(ステップ1815)、対応
関係が得られる文がある場合は、これをE´、F´とす
る。EからE´間での距離例えば文数や単語数を測定し
、これをGとする(ステップ1816)。そして、F´
からGだけ離れた文を新たな文Fとし(ステップ181
7)、この文FをEと対応あるとして(ステップ180
5)処理を終了する。
【0071】以上の処理において対応関係が得られない
場合には、文EをEの前文の一部と見なして対応関係を
とるようにする(ステップ1818)。
【0072】なお、上述のステップ1808で使用する
キーワードとしては、1.文の主語、述語など文の骨格
をなす語句。
【0073】2.DTP文書において他の部分とフォン
トが異なるなどの特殊情報が付加された語句。
【0074】3.接続詞などの機能語。などである。こ
れらの語句がキーワードとして使用されるのは、これら
語句が文おいて重要な役割を果たすため、修正などによ
って削除されることが少ないからである。
【0075】ちなみに、このような機械翻訳システムを
用いて翻訳を行った場合を図面を用いてで説明すると、
いま、上述の図7に示す属性やレイアウト情報などの形
式情報からなる非言語データが文章を形成する言語デー
タと混在する形式をとるDTP文書を機械翻訳するもの
とすると、文書データとして、上述の図8に示すように
言語データと非言語データが混在する形で記録される。 そして、このように文書データから言語データ抽出部1
4を用いて言語データのみを抽出すると、図19に示す
結果が得られる。これに対し必要であれば修正を加えな
がら翻訳を行うことになるが、この場合の翻訳途中での
表示部18での表示画面は図20に示すようになる。こ
の翻訳の結果は、非言語データが欠落したものとなり図
21に示すようなものとなる。そして、この図21に示
す翻訳文書に対して上述した対応箇所決定部16、対応
文置換部17の動作により対応箇所の決定、対応文の置
換動作が実行され、オペレータをわずらわせることなく
図22に示す文書が翻訳結果として得られことになる。
【0076】したがって、このように構成した機械翻訳
システムによれば、属性やレイアウト情報などの形式情
報からなる非言語データが、文章を形成する第1の言語
データと混在する形式を取る文書を翻訳する場合に、第
1の言語データのみを抽出するとともに、この第1の言
語データについて翻訳を行い、この翻訳により得られた
第2の言語データに対応する第1の言語データについて
、非言語データが混在する元の文書データとを比較して
対応箇所を決定し、これら対応箇所について元の文書の
言語データを翻訳された第2の言語データに置換するこ
とにより、最初の形式情報を保持したまま翻訳を行うこ
とができるようになり、翻訳作業を著しく簡単なものに
できるとともに、オペレータの労力を大幅に軽減するこ
とも可能になる。
【0077】なお、上述の実施例では、翻訳結果に対応
する原文を元にDTP文書中の対応箇所を決定したが、
DTP文書中の文字列を元に翻訳結果を対応させてもよ
い。また、言語データ抽出部より抽出した言語データを
編集処理したのち、この編集された言語データに対して
翻訳処理を実行するとともに、この翻訳された言語デー
タに対応する原文データと編集処理された文書データ中
の言語データとを比較し対応箇所を決定し、この対応箇
所を決定された上記文書データの言語データを翻訳処理
された言語データに置き換えるようにしてもよい。さら
に、上述の実施例では、対応箇所を決定し、記録してか
ら翻訳結果と置換したが、対応箇所が決定された直後に
置換してもよい。さらに対応箇所を求める方法について
パラグラフ情報のほか、箇条書きや番号付きの部分など
の特徴を利用することができる。また、上述した実施例
では日英翻訳を例にしているが、他の言語対の翻訳につ
いても同様に適用することが可能である。
【0078】
【発明の効果】本発明によれば、形式情報などの非言語
データと文章を形成する言語データが混在する文書デー
タに対して編集や翻訳などの所定の処理を行う際、言語
データを抽出し、この言語データについて編集や翻訳な
どの処理を実行した後、処理済みデータと元の文書デー
タ中の言語データを比較し対応箇所を決定するとともに
、この対応箇所を決定された文書データの言語データを
編集や翻訳などの処理された言語データに置き換えるよ
うにしたので、最初の形式情報を保持したまま、しかも
形式情報を意識せずに編集や翻訳などの処理を行うこと
ができ、これらの作業を著しく簡単なものにできるとと
もに、オペレータの労力を大幅に軽減することができる
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示すブロック図
【図2】図1の実施例に用いられる入力部のキー配列を
示す図。
【図3】図1の実施例の非言語データと言語データが混
在する文書を編集する場合のデータの流れを説明するた
めの図。
【図4】図1の実施例に用いられる言語データ抽出部の
動作を説明するためのフローチャート。
【図5】図1の実施例に用いられる対応箇所決定部の動
作を説明するためのフローチャート。
【図6】図1の実施例に用いられる対応箇所決定部での
対応関係の検索方法を説明するためのフローチャート。
【図7】図1の実施例により編集処理されるDTP文書
の一例を示す図。
【図8】図7に示すDTP文書を文書データとして記録
する場合の記録例を示す図。
【図9】図8に示す文書データより言語データのみを抽
出して得られた文書データの一例を示す図。
【図10】図9に示す文書データに対して編集処理した
結果得られた文書データの一例を示す図。
【図11】DTP文書の編集処理後の状態を示す図。
【図12】本発明の他の実施例の概略構成を示すブロッ
ク図。
【図13】図12の他の実施例に用いられる入力部のキ
ー配列を示す図。
【図14】図12の他の実施例に用いられる表示部の画
面レイアウトの一例を示す図。
【図15】図12の他の実施例の非言語データと言語デ
ータが混在する文書を翻訳する場合のデータの流れを説
明するための図。
【図16】図2の他の実施例に用いられる言語データ抽
出部の動作を説明するためのフローチャート。
【図17】図2の他の実施例に用いられる対応箇所決定
部の動作を説明するためのフローチャート。
【図18】図2の他の実施例に用いられる対応箇所決定
部での対応関係の検索方法を説明するためのフローチャ
ート。
【図19】図8に示す文書データより言語データのみを
抽出して得られた文書データの一例を示す図。
【図20】翻訳中の表示部での画面出力の例を示す図。
【図21】図19に示す文書データに対して翻訳処理し
た結果得られた文書データの一例を示す図。
【図22】DTP文書の翻訳処理後の状態を示す図。
【符号の説明】
1、11…入力部、2、12…制御部、3…文書記憶部
、4、14…言語データ抽出部、5…編集部、6、16
…対応箇所決定部、7、17…対応文置換部、8、18
…表示部、13…翻訳文書記憶部、15…翻訳部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】  非言語データと言語データの混在する
    文書データより言語データを抽出する言語データ抽出手
    段と、この言語データ抽出手段により抽出された言語デ
    ータに対して所定の処理を実行する処理実行手段と、こ
    の処理実行手段により処理された言語データと上記文書
    データ中の言語データとを比較し対応箇所を決定する対
    応箇所決定手段と、この対応箇所決定手段により対応箇
    所を決定された上記文書データの言語データを上記処理
    実行手段で処理された言語データに置き換える置換手段
    とを具備したことを特徴とする文書処理システム。
  2. 【請求項2】  対応箇所決定手段は、処理実行手段に
    より処理された言語データと上記文書データ中の言語デ
    ータの一致により対応箇所を決定することを特徴とする
    請求項1記載の文書処理システム。
  3. 【請求項3】  対応箇所決定手段は、処理実行手段に
    より処理された言語データと上記文書データ中の言語デ
    ータの所定のキーワードの一致により対応箇所を決定す
    ることを特徴とする請求項1記載の文書処理システム。
  4. 【請求項4】  対応箇所決定手段は、処理実行手段に
    より処理された言語データと上記文書データ中の言語デ
    ータの文の数、単語数、文字数の少なくとも一つの一致
    により対応箇所を決定することを特徴とする請求項1記
    載の文書処理システム。
  5. 【請求項5】  対応箇所決定手段は、処理実行手段に
    より処理された言語データと上記文書データ中の言語デ
    ータの文書形式情報の一致により対応箇所を決定するこ
    とを特徴とする請求項1記載の文書処理システム。
  6. 【請求項6】  非言語データと言語データの混在する
    文書データより言語データを抽出する言語データ抽出手
    段と、この言語データ抽出手段により抽出された言語デ
    ータに対して編集処理を実行する編集処理手段と、この
    編集処理手段により編集された言語データと上記文書デ
    ータ中の言語データとを比較し対応箇所を決定する対応
    箇所決定手段と、この対応箇所決定手段により対応箇所
    を決定された上記文書データの言語データを上記編集処
    理手段で編集された言語データに置き換える置換手段と
    を具備したことを特徴とする文書編集システム。
  7. 【請求項7】  非言語データと言語データの混在する
    文書データより言語データを抽出する言語データ抽出手
    段と、この言語データ抽出手段により抽出された言語デ
    ータに対して翻訳処理を実行する翻訳処理手段と、この
    翻訳処理手段により翻訳された言語データに対応する原
    文データと上記文書データ中の言語データとを比較し対
    応箇所を決定する対応箇所決定手段と、この対応箇所決
    定手段により対応箇所を決定された上記文書データの言
    語データを上記翻訳処理手段で翻訳された言語データに
    置き換える置換手段とを具備したことを特徴とする機械
    翻訳システム。
  8. 【請求項8】  非言語データと言語データの混在する
    文書データより言語データを抽出する言語データ抽出手
    段と、この言語データ抽出手段により抽出された言語デ
    ータに対して編集処理を実行する編集処理手段と、この
    編集処理手段により編集された言語データに対して翻訳
    処理を実行する翻訳処理手段と、この翻訳処理手段によ
    り翻訳された言語データに対応する原文データと上記編
    集処理手段により編集された文書データ中の言語データ
    とを比較し対応箇所を決定する対応箇所決定手段と、こ
    の対応箇所決定手段により対応箇所を決定された上記文
    書データの言語データを上記翻訳処理手段で翻訳された
    言語データに置き換える置換手段とを具備したことを特
    徴とする機械翻訳システム。
JP3041307A 1991-02-13 1991-02-13 文書編集方法及び機械翻訳方法 Pending JPH04259057A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3041307A JPH04259057A (ja) 1991-02-13 1991-02-13 文書編集方法及び機械翻訳方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3041307A JPH04259057A (ja) 1991-02-13 1991-02-13 文書編集方法及び機械翻訳方法

Publications (1)

Publication Number Publication Date
JPH04259057A true JPH04259057A (ja) 1992-09-14

Family

ID=12604840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3041307A Pending JPH04259057A (ja) 1991-02-13 1991-02-13 文書編集方法及び機械翻訳方法

Country Status (1)

Country Link
JP (1) JPH04259057A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5587902A (en) * 1992-05-26 1996-12-24 Sharp Kabushiki Kaisha Translating system for processing text with markup signs

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5587902A (en) * 1992-05-26 1996-12-24 Sharp Kabushiki Kaisha Translating system for processing text with markup signs

Similar Documents

Publication Publication Date Title
US4962452A (en) Language translator which automatically recognizes, analyzes, translates and reinserts comments in a sentence
US20110093254A1 (en) Method and System for Using Alignment Means in Matching Translation
JP3352799B2 (ja) 機械翻訳方法及び機械翻訳装置
JPH0442704B2 (ja)
JPH04259057A (ja) 文書編集方法及び機械翻訳方法
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法
JPH0883280A (ja) 文書処理装置
JP2838984B2 (ja) 汎用参照装置
JP3131432B2 (ja) 機械翻訳方法及び機械翻訳装置
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法
JP3964910B2 (ja) 機械翻訳装置
JPS62203268A (ja) 機械翻訳システム
JP4087829B2 (ja) 結合価辞書拡張装置、方法、およびプログラム
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体
JP2000029882A (ja) 要約文作成装置
JP2924955B2 (ja) 翻訳方法および翻訳装置
JPH11203281A (ja) 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体
JPH05324647A (ja) 文章作成装置
JPH10134054A (ja) 文作成支援装置
JP3204517B2 (ja) 未知語認定方法
JPH04167052A (ja) 文書編集装置
JPH05189421A (ja) 古文かな漢字変換装置及び方法
JPH04158477A (ja) 機械翻訳装置
JPH0227473A (ja) 文書編集方法
JP2005165652A (ja) 翻訳メモリシステム、翻訳方法、および翻訳メモリシステム用プログラム