JPH04259057A

JPH04259057A - 文書編集方法及び機械翻訳方法

Info

Publication number: JPH04259057A
Application number: JP3041307A
Authority: JP
Inventors: Etsuo Ito; 悦雄伊藤; Kimito Takeda; 武田　公人; Koichi Hasebe; 浩一長谷部; Hideki Hirakawa; 秀樹平川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1991-02-13
Filing date: 1991-02-13
Publication date: 1992-09-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、言語データと非言語デ
ータの混在する文書データの編集や翻訳などの文書処理
に適用される文書処理システムに関するものである。

【０００２】

【従来の技術】最近のコンピュータ技術の進歩は目覚ま
しいものがあり、文書データの編集や翻訳などの文書処
理に適用される文書処理システムに対するコンピュータ
化も盛んに進められている。

【０００３】しかして、従来この種の文書処理システム
として、読み情報を入力することにより文書情報を出力
するワードプロセッサなどで代表される文書編集システ
ムが開発されている。そして、かかる文書編集システム
にあっては、ワードプロセッサの発達とともに、作成さ
れ、あるいは編集される文書は、文字列のみならず下線
やマルチフォントなどの属性や文書レイアウト、図形・
表などが付加されたものも可能になっている。つまり、
このような文書は、属性やレイアウト情報（以下、形式
情報）などの非言語データが文章を形成する言語データ
と混在する形式を取るものが多く用いられるようになっ
ている。

【０００４】ところが、従来の文書編集システムでは、
言語データと非言語データの混在する文書データを扱う
には、ビットマップディスプレイなどを用いてＷＹＳＷ
ＹＧ状態で編集するか、ＴｅＸなどに見られるように言
語データと非言語データが混在した状態で編集を行うよ
うにしている。このため、文書の編集に際しては、特定
の機器を使用するか、あるいは非言語情報を意識しなが
ら編集を進めなければならないなど、かかる作業に多く
の労力を必要とする傾向があった。

【０００５】そこで、このような問題を解消するため、
元の文書から言語データのみを抽出して編集するような
ことも行われているが、これだと原文書の非言語データ
に相当する形式情報が欠落することになるため、オペレ
ータが原文書を参照しながら編集後の文書に形式情報を
付加することが必要となり、オペレータに多大の労力を
強いいる欠点があった。

【０００６】一方、最近、文書生成システムとしてコン
ピュータ技術を用いて翻訳処理を自動的に行う機械翻訳
処理システムの開発も盛んに行われるようになっている
。この種の機械翻訳処理システムでは、原文を翻訳する
とともに、原文と翻訳結果を一文ずつ対応付けて記録し
、これら原文と翻訳結果の対応を付けたまま翻訳結果の
編集を行ったりすることを可能にしたものがある。また
、翻訳の精度を向上させるため、翻訳する前に原文に対
しテクニカルライトと呼ばれる修正をすることも多く行
われている。

【０００７】ところで、このような機械翻訳システムで
も、文字列のみならず下線やマルチフォントなどの属性
や、文書レイアウトなどが付加された文書を取り扱う場
合が多くなっている。つまり、このような文書では形式
情報が文書を形成する言語データと混在する形式を取る
ものである。

【０００８】ところが、従来の機械翻訳システムは、入
力データとして扱うことができるのは言語データのみで
あるため、非言語データが混在した文書を翻訳すること
ができなかった。そこで、非言語データと言語データの
混在した文書データの中から言語データのみを抽出し、
この言語データについてのみ翻訳することが考えられる
が、これだと現文書の非言語データに相当する形式情報
が欠落することになるため、オペレータが原文書を参照
しながら編集後の文書に形式情報を付加することが必要
となり、オペレータに多大の労力を強いる欠点があった
。

【０００９】

【発明が解決しようとする課題】このように従来の文書
処理システムでは、文書編集システムの場合、編集する
文書が言語データと非言語データが混在すると、特定の
機器を使用するか、あるいは非言語情報を意識しながら
編集しなければならず多くの労力を必要とし、これらの
不都合を避けるため元の文書から言語データのみを抽出
して編集を行うと、原文書の非言語データに相当する形
式情報が欠落することから、オペレータが原文を参照し
ながら編集後の文書に形式情報を付加することになり、
オペレータに多くの労力を強いいる問題点があった。一
方、機械翻訳システムの場合には、翻訳する原文書に言
語データと非言語データが混在すると、そのままでは翻
訳を行うことができないため、言語データのみを抽出し
た翻訳を行い、後からオペレータが非言語データに相当
する形式情報を付加するようになり、この場合もオペレ
ータに多大の労力を強いいる問題点があった。

【００１０】本発明は、上記事情に鑑みてなされたもの
で、言語データと非言語データが混在する文書データに
対する編集や翻訳などの処理を簡単に実行できる文書処
理システムを提供することを目的とする。

【００１１】

【課題を解決するための手段】本発明の文書処理システ
ムは、非言語データと言語データの混在する文書データ
より言語データを抽出する言語データ抽出手段、この言
語データ抽出手段により抽出された言語データに対して
所定の処理を実行する処理実行手段、この処理実行手段
により処理された言語データと上記文書データ中の言語
データとを比較し対応箇所を決定する対応箇所決定手段
、この対応箇所決定手段により対応箇所を決定された上
記文書データの言語データを上記処理実行手段で処理さ
れた言語データに置き換える置換手段により構成してい
る。

【００１２】また、本発明の文書編集システムは、非言
語データと言語データの混在する文書データより言語デ
ータを抽出する言語データ抽出手段、この言語データ抽
出手段により抽出された言語データに対して編集処理を
実行する編集処理手段、この編集処理手段により編集さ
れた言語データと上記文書データ中の言語データとを比
較し対応箇所を決定する対応箇所決定手段、この対応箇
所決定手段により対応箇所を決定された上記文書データ
の言語データを上記編集処理手段で編集された言語デー
タに置き換える置換手段により構成している。

【００１３】さらに、本発明の機械翻訳システムは、非
言語データと言語データの混在する文書データより言語
データを抽出する言語データ抽出手段、この言語データ
抽出手段により抽出された言語データに対して翻訳処理
を実行する翻訳処理手段、この翻訳処理手段により翻訳
された言語データに対応する原文データと上記文書デー
タ中の言語データとを比較し対応箇所を決定する対応箇
所決定手段、この対応箇所決定手段により対応箇所を決
定された上記文書データの言語データを上記翻訳処理手
段で翻訳された言語データに置き換える置換手段により
構成している。

【００１４】

【作用】この結果、本発明によれば、形式情報などの非
言語データと文章を形成する言語データが混在する文書
データに対して編集や翻訳などの所定の処理を行う際、
言語データを抽出し、この言語データについて編集や翻
訳などの処理を実行した後、処理済みデータと元の文書
データ中の言語データを比較し対応箇所を決定するとと
もに、この対応箇所を決定された文書データの言語デー
タを編集や翻訳などの処理された言語データに置き換え
るようになり、形式情報を意識せずに編集や翻訳などの
処理を実行することができ、オペレータの労力の軽減を
可能にしている。

【００１５】

【実施例】以下、本発明の一実施例を図面にしたがい説
明する。

【００１６】図１は、本発明を文書編集システムに適用
した概略構成を示すブロック図である。図において、１
は入力部で、この入力部１の入力データは、制御部２に
送られる。この制御部２はシステム全体を制御するため
のもので、ここでは、文書記憶部３、言語データ抽出部
４、編集部５、対応箇所決定部６、対応文置換部７およ
び表示部８を制御するようになっている。

【００１７】入力部１は文書データの入力を始め、編集
処理のための文字データの入力の他に各種コマンドの入
力を可能にしたもので、キーボードが使用される。この
場合、文書の入力には、ＯＣＲなどによる入力も考えら
れる。文書記録部３は、入力部１から入力された文書や
、図示しないコンピュータで作成された形式情報を有す
る文書データなどを記録するためのものである。言語デ
ータ抽出部４は、文書記録部３に記録されている形式情
報を有する文書データから言語データを抽出するための
ものである。編集部５は、入力部１から入力された文書
データ、文書記録部３に記録されている文書データある
いは言語データ抽出部４により抽出された言語データを
編集するためのものである。対応箇所決定部６は、編集
部５によって編集された文書データが文書記録部３に記
録されている文書データのどの部分に対応するかを判定
するものである。対応文置換部７は、編集部５によって
編集された結果を対応箇所決定部６で決定された対応箇
所と置換するものである。そして、表示部８は入力部１
より入力された文書データや編集部５によって編集され
た文書データを表示したり、文書記録部３に記録されて
いる文書データを表示したりするためのものである。この場合、表示部８としては、文字や下線などの属性マ
ルチフォレントやレイアウトなどの文書形式情報の可視
表示可能なもの、例えばビッマップディスプレイなどが
使用される。

【００１８】図２は、入力部１のキー配列の具体例を示
すものである。この場合、入力部１は、文書入力用の文
字キー２０１の他に、指示キー２０２、編集キー２０３
、機能キー２０４、カーソルキー２０５およびその他の
キーを備えている。

【００１９】次に、このように構成した実施例の動作を
説明する。

【００２０】まず、図３は、本文書編集システムにおけ
る非言語データと言語データが混在する文書（以下、Ｄ
ＴＰ文書）を編集する場合のデータの流れを簡単に説明
するための図である。

【００２１】この場合、文書記録部３に記録されたＤＴ
Ｐ文書（３０１）から言語データ抽出部４によって文字
列のみからなる言語データを抽出する（３０２）。この
結果、編集処理の可能な文字列のみの言語データが得ら
れる（３０３）。次に、この言語データを編集部５に転
送し編集処理を行う（３０４）。そして、この編集処理
された言語データ（３０５）を対応箇所決定部６に転送
し、ＤＴＰ文書（３０１）中の対応箇所を決定する（３
０６）。次いで、この対応箇所の決定に基づいて編集処
理された言語データ（３０５）をＤＴＰ文書中の対応文
の箇所に置換することで（３０７）、形式情報を保持し
た編集済みのＤＴＰ文書（３０８）を得るようになる。

【００２２】次に、図４は言語データ抽出部４の動作を
説明するためのフローチャートである。この場合、言語
データ抽出部４は、まず編集すべきＤＴＰ文書Ａのデー
タを文書記録部３から読み込む（ステップ４０１）。次
に、この読み込んだデータから最初の１データを取りだ
し、これをＢとする（ステップ４０２）。

【００２３】そして、このＢが言語データであるかを判
別する（ステップ４０３）。ここで、言語データである
か否かの判別は読み込んだＤＴＰ文書Ａの形式によって
異なる。例えば、文書ＡがＴｅＸで作成されたデータの
場合は、「＼（バックスラッシュ）」から開始する部分
は、非言語データであり、また、Ｆｒａｅ−ｍａｋｅｒ
で作成されたデータの場合は、「＜ｓｔｉｎｇ」で開始
する部分が言語データである。

【００２４】ステップ４０３でＢが言語データであると
判定した場合は、Ｂを出力ファイルＣに書き込む（ステ
ップ４０４）。一方、ステップ４０３でＢが言語データ
でないと判定した場合は、ＤＴＰ文書Ａに、まだデータ
があるか判断する（ステップ４０５）。ここで、ＤＴＰ
文書Ａに次のデータがあれば次の１データを取り込み、
これをＢとして（ステップ４０６）、ステップ４０３に
戻り、再び、Ｂが言語データであるかを判別する。

【００２５】以下、ステップ４０３以降の処理をステッ
プ４０５で、ＤＴＰ文書Ａに次のデータがないと判断さ
れるまで繰り返し実行し、言語データと判定されたＢの
みを出力ファイルＣに書き込んで行くようにする（ステ
ップ４０４）。

【００２６】次に、図５は対応箇所決定部６の動作を説
明するためのフローチャートである。この場合、対応箇
所決定部６は、編集部５での編集結果を読み込み、これ
をＤとする（ステップ５０１）。次に、編集を行う前の
言語データと非言語データの混在するＤＴＰ文書Ａを読
み込む（ステップ５０２）。そして、ｉ＝１として（ス
テップ５０３）、Ｄの編集結果の１番目の文を取りだし
、これをＥとする（ステップ５０４）。

【００２７】次に、ＥがＤＴＰ文書Ａ中のどの箇所に対
応するかを検索し、その対応関係を記録する（ステップ
５０５）。この対応関係の検索方法については後述する
ことにする。

【００２８】次いで、Ｅが編集結果Ｄの最後の文かを判
断する（ステップ５０６）。ここで、編集結果Ｄ中に次
の文があれば、ｉをｉ＋１として（ステップ５０７）、
今度は、編集結果Ｄの２番目の文を取りだし、これをＥ
とし（ステップ５０４）、このＥがＤＴＰ文書Ａ中のど
の部分に相当するかを検索し、その対応関係を記録する
（ステップ５０５）。

【００２９】以下、上述した処理をステップ５０６でＥ
が最後の文と判断されるまで繰り返して実行し、編集結
果Ｄ全体のＤＴＰ文書Ａに対する関係を記録していく。

【００３０】次に、図６は、対応箇所決定部６での対応
関係の検索方法を説明するためのフローチャートである
。この場合、まず、編集結果の内の対応箇所を求める文
をＥとする（ステップ６０１）。次に、元になる検索対
象のＤＴＰ文書Ａを読み込む（ステップ６０２）。この
場合、文Ｅに対応するＤＴＰ文書Ａの検索は、文単位で
行うものとすると、最初にＤＴＰ文書Ａの１番目の文に
着目し、これをＦとする（ステップ６０３）。

【００３１】そして、ＥとＦが一致するか比較する（ス
テップ６０４）。ここで、両者が一致する場合は、Ｅと
対応する文はＦであると判断し（ステップ６０５）処理
を終了する。一方、両者が一致しない場合は、文の削除
や連結によって文の対応ががずれていることが予想され
るので、Ｆの近辺にＥと一致する文があるか否かを検査
する（ステップ６０６）。

【００３２】ここで、Ｆの近辺にＥと一致する文が存在
する場合には、この一致する文を新たな文Ｆとし（ステ
ップ６０７）、この文ＦがＥと対応があると判断し（ス
テップ６０５）、処理を終了する。一方、Ｆの近辺にも
Ｅと一致する文が存在しないと判断された場合は、文全
体が一致することはない。このために条件を緩和してＥ
とＦが同一のキーワードを持つか否かの判断を行う（ス
テップ６０８）。

【００３３】ここで、同一のキーワードが両者に含まれ
ている場合には、文Ｅは文Ｆを修正したものであると考
えられるため、ＦとＥの間に対応があるとし（ステップ
６０５）、処理を終了する。一方、ステップ６０８にお
いて同一キーワードが検出されなかった場合には、文の
削除や連結によって文がずれていることが予想されるの
で、Ｆの近辺にＥと同一のキーワードを持つ文があるか
否かの判断を行う（ステップ６０９）。

【００３４】ここで、Ｆの近辺にＥと同一のキーワード
を持った文がある場合には、この文を新たな文Ｆとし（
ステップ６１０）、この文ＦとＥの間に対応があるとし
て（ステップ６０５）処理を終了する。一方、ここまで
の判定で対応する文がない場合には、文ＦとＥの文字列
同志の比較では対応関係が得られないので、パラグラフ
境界などの文書形式情報を利用して対応を決定する。まず、Ｅがパラグラフ先頭であるか否かの判断を行う（
ステップ６１１）。

【００３５】ここで、パラグラフ先頭であれば対応する
ＤＴＰ文書Ａ中の文もパラグラフ先頭であると考えられ
るため、Ｆがパラグラフ先頭であるか否かを判断する（
ステップ６１４）。そして、Ｆがパラグラフ先頭である
場合には、ＥとＦとの間に対応があると判断し（ステッ
プ６０５）処理を終了する。一方、Ｆがパラグラフ先頭
でない場合には、文の削除や連結によって文がずれてい
ることが予想されるのでＦの付近にパラグラフ境界があ
るか検査する（ステップ６１３）。Ｆの近辺にパラグラ
フ境界がある場合には、パラグラフ先頭の文を新たなＦ
とし（ステップ６１４）、この文ＦがＥと対応あるとし
て（ステップ６０５）、処理を終了する。

【００３６】パラグラフ情報を利用しても対応関係が得
られない場合には、付近にある対応関係がとれた文から
対応関係を予想する。ここでは、Ｅの付近に対応関係が
得られる文があるか検査し（ステップ６１５）、対応関
係が得られる文がある場合は、これをＥ´、Ｆ´とする
。ＥからＥ´間での距離例えば文数や単語数を測定し、
これをＧとする（ステップ６１６）。そして、Ｆ´から
Ｇだけ離れた文を新たな文Ｆとし（ステップ６１７）、
この文ＦをＥと対応あるとして（ステップ６０５）処理
を終了する。

【００３７】以上の処理において対応関係が得られない
場合には、文ＥをＥの前文の一部と見なして対応関係を
とるようにする（ステップ６１８）。

【００３８】なお、上述のテップ６０８で使用するキー
ワードとしては、１．文の主語、述語など文の骨格をな
す語句。

【００３９】２．ＤＴＰ文書において他の部分とフォン
トが異なるなどの特殊情報が付加された語句。

【００４０】３．接続詞などの機能語。などである。こ
れらの語句がキーワードとして使用されるのは、これら
語句が文おいて重要な役割を果たすため、修正などによ
って削除されることが少ないからである。

【００４１】ちなみに、このような文書編集システムを
用いて編集を行った場合を図面を用いて説明すると、い
ま、図７に示すように属性やレイアウト情報などの形式
情報からなる非言語データが文章を形成する言語データ
と混在する形式をとるＤＴＰ文書を編集するものとする
と、文書データとしては図８に示すように言語データと
非言語データが混在する形で記録される。そして、この
ように文書データから言語データ抽出部３を用いて言語
データのみを抽出すると、図９に示す結果が得られる。そして、この言語データのみからなる文書データに対し
て編集を行ったところ、図１０に示す編集文書が得られ
たとすると、この図１０に示す編集文書に対して上述し
た対応箇所決定部６、対応文置換部７の動作により対応
箇所の決定、対応文の置換動作が実行され、オペレータ
をわずらわせることなく図１１に示す文書が編集結果と
して得られことになる。

【００４２】したがって、このように構成した文書編集
システムによれば、属性やレイアウト情報などの形式情
報からなる非言語データが、文章を形成する言語データ
と混在する形式をとる文書を編集する場合に、言語デー
タのみを抽出するとともに、この言語データについて編
集し、この編集された言語データについて、非言語デー
タが混在する元の文書データとを比較して対応箇所を決
定し、これら対応箇所について元の文書の言語データを
編集された言語データに置換することにより、最初の形
式情報を保持したまま編集を行うことができるようにな
り、編集作業を著しく簡単なものにできる。また、この
システムでは、言語データのみを抽出して編集するため
、文字列の編集を行えるシステムが限定されず、オペレ
ータも手慣れたシステムで編集ができるためオペレータ
の労力を大幅に軽減することも可能になる。

【００４３】なお、上述した実施例では、編集結果を元
にＤＴＰ文書中の対応箇所を決定しているが、ＤＴＰ文
書中の文字列を元に編集結果を対応させてもよい。また
、上述の実施例では、対応箇所を決定し、記録してから
編集結果と置換したが、対応箇所が決定された直後に置
換してもよい。さらに対応箇所を求める方法についてパ
ラグラフ情報のほか、箇条書きや番号付きの部分などの
特徴を利用することができる。さらに、編集部分は同一
システムでなく他のシステムを用いることも可能である
。

【００４４】次に、本発明の他の実施例を説明する。

【００４５】図１２は、本発明を日英翻訳のための機械
翻訳システムに適用した概略構成を示すブロック図であ
る。図において、１１は入力部で、この入力部１１の入
力データは、制御部１２に送られる。この制御部１２は
システム全体を制御するためのもので、ここでは、翻訳
文書記憶部１３、言語データ抽出部１４、翻訳部１５、
対応箇所決定部１６、対応文置換部１７および表示部１
８を制御するようになっている。

【００４６】入力部１１は翻訳対象となる原文（この場
合日本語）の入力を始め、各種コマンドの入力を可能に
したもので、キーボードが使用される。この場合、原文
の入力には、ＯＣＲなどによる入力も考えられる。翻訳
文書記録部１３は入力部１１から入力された原文や、計
算機上で作成された形式情報を有する文書などを記録す
る他、第１言語である日本語の文章と第２言語である英
語の文章のそれぞれのデータを別々に記録したり、日本
語のデータとその翻訳結果である英文を対応付けて記録
するためのものである。言語データ抽出部１４は翻訳文
書記録部３に記録されている形式情報を有する文書から
翻訳部１５によって処理可能な言語データのみを抽出す
るものである。翻訳部１５は入力部１１から入力された
原文データや翻訳文書記録部１３に記録されているデー
タあるいは言語データ抽出部１４によって抽出された言
語データを翻訳するためのものである。対応箇所決定部
１６は翻訳部１５によって訳出された英語と対応する日
本語が翻訳文書記録部１３に記録されている文書のどの
部分に対応するかを判定するものである。対応文置換部
１７は、翻訳部１５によって翻訳された結果である英文
を対応箇所決定部１６で決定された対応する日本語文と
置換するものである。そして、表示部１８は入力部１１
より入力した原文や翻訳部１５によって訳出された英文
を表示したり、翻訳文書記録部１３に記録されている文
書を表示したりするためのものである。この場合、表示
部１８としては、文字や下線などの属性マルチフォレン
トやレイアウトなどの文書形式情報の可視表示可能なも
の、例えばビッマットプディスプレイなどが使用される
。

【００４７】図１３は、入力部１１のキー配列の一例を
示すものである。この場合、入力部１１は英文・和文入
力用の文字キー１３０１の他に、翻訳指示キー１３０２
、編集キー１３０３、機能キー１３０４、カーソルキー
１３０５およびその他のキーを備えている。

【００４８】図１４は、翻訳時における表示部１８の画
面レイアウトの一例を示す図である。この場合、翻訳す
る原文は、画面左側の現部表示領域１４０１に表示され
、翻訳処理の結果得られた訳文は、画面右側の訳文表示
領域１４０２に表示される。また、画面上部の編集領域
１４０３は各種編集に必要な情報を表示するために用い
られるようになっている。

【００４９】次に、図１５は、機械翻訳システムにおけ
る非言語データと言語データが混在する文書（以下、Ｄ
ＴＰ文書）を機械翻訳する場合のデータの流れを簡単に
説明するための図である。

【００５０】この場合、翻訳文書記録部１３に記録され
ているＤＴＰ文書（１５０１）から言語データ抽出部４
によって文字列のみからなる言語データを抽出する（１
５０２）。この結果、翻訳処理の可能な文字列のみの言
語データが得られる（１５０３）。次に、このデータに
対して必要があれば修正やテクニカルライトを行う（１
５０４）。そして、修正が加えられた原文データ（１５
０５）を翻訳部１５に転送し翻訳を行う（１５０６）。この翻訳により対応関係が取れている原文と訳文が生成
される（１５０７）、（１５０８）。そして、訳文と対
応関係がある原文（１５０８）を対応箇所決定部１６に
転送し、ＤＴＰ文書（１５０１）中の対応箇所を決定す
る（１５０９）。次いで、この対応箇所の決定に基づき
翻訳結果（１５０７）をＤＴＰ文書中の対応文の箇所に
置換することで（１５１０）、元のＤＴＰ文書（１５０
１）の形式情報を保持した翻訳結果（１５１１）を得る
ようになる。

【００５１】次に、図１６は言語データ抽出部１４の動
作を説明するためのフローチャートである。この場合、
言語データ抽出部１４は、まず、翻訳するＤＴＰ文書Ａ
を翻訳文書記録部１３から読み込む（ステップ１６０１
）。次に読み込んだデータから最初の１データを取りだ
し、これをＢとする（ステップ１６０２）。

【００５２】そして、Ｂが言語データであるかを判別す
る（ステップ１６０３）。ここで、言語データであるか
否かの判別は読み込んだＤＴＰ文書Ａの形式によって異
なる。例えば、文書ＡがＴｅＸで作成されたデータの場
合は、「＼（バックスラッシュ）」から開始する部分は
、非言語データであり、また、Ｆｒｍａｅ−ｍａｋｅｒ
で作成されたデータの場合は「＜ｓｔｉｎｇ」で開始す
る部分が言語データである。

【００５３】ステップ１６０３によってＢが言語データ
であると判定した場合は、Ｂを出力ファイルＣに書き込
む（ステップ１６０４）。一方、ステップ１６０３でＢ
が言語データでないと判定した場合は、ＤＴＰ文書Ａに
、まだデータがあるか判断する（ステップ１６０５）。ここで、ＤＴＰ文書Ａに次のデータがあれば次の１デー
タを取り込み、これをＢとして（ステップ１６０６）、
ステップ１６０３に戻り、再び、Ｂが言語データである
かを判別する。

【００５４】以下、ステップ１６０３以降の処理をステ
ップ１６０５で、ＤＴＰ文書Ａに次のデータがないと判
断されるまで繰り返し実行し、言語データと判定された
Ｂのみを出力ファイルＣに書き込んで行くようにする（
ステップ１６０４）。

【００５５】次に、図１７は対応箇所決定部６の動作の
一例を示すフローチャートである。対応箇所決定部１６
は、まず翻訳部１５での翻訳結果を読み込み、これをＤ
とする（ステップ１７０１）。次に、翻訳を行う前の原
文言語データと非言語データの混在するＤＰＴ文書Ａを
読み込む（ステップ１７０２）。そして、ｉ＝１として
（ステップ１００３）、Ｄの翻訳結果の１番目の文をを
取り出し、Ｅとする（ステップ１７０４）。

【００５６】次に、ＥがＤＴＰ文書Ａ中のどの箇所に対
応するかを検索し、その対応関係を記録する（ステップ
１７０５）。この対応関係の検索方法については後述す
ることにする。

【００５７】次いで、Ｅが編集結果Ｄの最後の文かを判
断する（ステップ１７０６）。ここで、翻訳結果Ｄ中に
次の文があれば、ｉをｉ＋１として（ステップ１７０７
）、今度は、翻訳結果Ｄの２番目の文を取りだし、これ
をＥとし（ステップ１７０４）、このＥがＤＴＰ文書Ａ
中のどの部分に相当するかを検索し、その対応関係を記
録する（ステップ１７０５）。

【００５８】以下、上述した処理をステップ１７０６で
Ｅが最後の文と判断されるまで繰り返して実行し、編集
結果Ｄ全体のＤＴＰ文書Ａに対する関係を記録していく
。これらの処理ステップ６０４、６０５をＤの最後の文
まで繰り返すステップ６０７、６０７ことによりＤ全体
の対応関係を記録する。

【００５９】次に、図１８は、対応箇所決定部１６での
対応関係の検索方法を説明するためのフローチャートで
ある。この場合、図１８における対応関係の判定基準は
次のように設定されている。

【００６０】１．文同志が一致する場合は対応する文で
ある。

【００６１】２．同一のキーワードが含まれる文は対応
する文である。

【００６２】３．パラグラフの先頭の文同志は対応する
文である。

【００６３】４．対応が取れた文から同一距離にある文
は対応する。

【００６４】この状態から、まず、翻訳結果の原文内の
対応箇所を求める文をＥとする（ステップ１８０１）。次に、元になるＤＴＰ文書Ａを読み込む（ステップ１８
０２）。このばあい、文Ｅに対するＤＴＰ文書Ａの検索
は、第１文から順次行うものとすると、最初にＤＴＰ文
書の１番目の文に着目し、これをＦとする（ステップ１
８０３）。

【００６５】そして、ＥとＦが一致するか比較する（ス
テップ１８０４）。ここで、両者が一致する場合は、Ｅ
と対応する文はＦであると判断し（ステップ１８０５）
、処理を終了する。一方、両者が一致しない場合は、文
の削除や連結によって文の対応がずれていることが予想
されるので、Ｆの近辺にＥと一致する文があるか否かを
検査する（ステップ１８０６）。

【００６６】ここで、Ｆの近辺にＥと一致する文が存在
する場合には、この一致する文を新たな文Ｆとし（ステ
ップ１８０７）、この文ＦがＥと対応があると判断し（
ステップ１８０５）、処理を終了する。一方、Ｆの近辺
にもＥと一致する文が存在しないと判断された場合は、
文全体が一致することはない。このために条件を緩和し
てＥとＦが同一のキーワードを持つか否かの判断を行う
（ステップ１８０８）。

【００６７】ここで、同一のキーワードが両者に含まれ
ている場合には、文Ｅは文Ｆを修正したものであると考
えられるため、ＦとＥの間に対応があるとし（ステップ
１８０５）、処理を終了する。一方、ステップ１８０８
において同一キーワードが検出されなかった場合には、
文の削除や連結によって文がずれていることが予想され
るので、Ｆの近辺にＥと同一のキーワードを持つ文があ
るか否かの判断を行う（ステップ１８０９）。

【００６８】ここで、Ｆの近辺にＥと同一のキーワード
を持った文がある場合には、この文を新たな文Ｆとし（
ステップ１８１０）、この文ＦとＥの間に対応があると
して（ステップ１８０５）処理を終了する。一方、ここ
までの判定で対応する文がない場合には、文ＦとＥの文
字列同志の比較では対応関係が得られないので、パラグ
ラフ境界などの文書情報を利用して対応を決定する。まず、Ｅがパラグラフ先頭であるか否かの判断を行う（
ステップ１８１１）。

【００６９】ここで、パラグラフ先頭であれば対応する
ＤＴＰ文書Ａ中の文もパラグラフ先頭であると考えられ
るため、Ｆがパラグラフ先頭であるか否かを判断する（
ステップ１８１４）。そして、Ｆがパラグラフ先頭であ
る場合には、ＥとＦとの間に対応があると判断し（ステ
ップ１８０５）処理を終了する。一方、Ｆがパラグラフ
先頭でない場合には、文の削除や連結によって文がずれ
ていることが予想されるのでＦの付近にパラグラフ境界
があるか検査する（ステップ１８１３）。Ｆの近辺にパ
ラグラフ境界がある場合には、パラグラフ先頭の文を新
たなＦとし（ステップ１８１４）、この文ＦがＥと対応
あるとして（ステップ１８０５）、処理を終了する。

【００７０】パラグラフ情報を利用しても対応関係が得
られない場合には、付近にある対応関係がとれた文から
対応関係を予想する。ここでは、Ｅの付近に対応関係が
得られる文があるか検査し（ステップ１８１５）、対応
関係が得られる文がある場合は、これをＥ´、Ｆ´とす
る。ＥからＥ´間での距離例えば文数や単語数を測定し
、これをＧとする（ステップ１８１６）。そして、Ｆ´
からＧだけ離れた文を新たな文Ｆとし（ステップ１８１
７）、この文ＦをＥと対応あるとして（ステップ１８０
５）処理を終了する。

【００７１】以上の処理において対応関係が得られない
場合には、文ＥをＥの前文の一部と見なして対応関係を
とるようにする（ステップ１８１８）。

【００７２】なお、上述のステップ１８０８で使用する
キーワードとしては、１．文の主語、述語など文の骨格
をなす語句。

【００７３】２．ＤＴＰ文書において他の部分とフォン
トが異なるなどの特殊情報が付加された語句。

【００７４】３．接続詞などの機能語。などである。こ
れらの語句がキーワードとして使用されるのは、これら
語句が文おいて重要な役割を果たすため、修正などによ
って削除されることが少ないからである。

【００７５】ちなみに、このような機械翻訳システムを
用いて翻訳を行った場合を図面を用いてで説明すると、
いま、上述の図７に示す属性やレイアウト情報などの形
式情報からなる非言語データが文章を形成する言語デー
タと混在する形式をとるＤＴＰ文書を機械翻訳するもの
とすると、文書データとして、上述の図８に示すように
言語データと非言語データが混在する形で記録される。そして、このように文書データから言語データ抽出部１
４を用いて言語データのみを抽出すると、図１９に示す
結果が得られる。これに対し必要であれば修正を加えな
がら翻訳を行うことになるが、この場合の翻訳途中での
表示部１８での表示画面は図２０に示すようになる。こ
の翻訳の結果は、非言語データが欠落したものとなり図
２１に示すようなものとなる。そして、この図２１に示
す翻訳文書に対して上述した対応箇所決定部１６、対応
文置換部１７の動作により対応箇所の決定、対応文の置
換動作が実行され、オペレータをわずらわせることなく
図２２に示す文書が翻訳結果として得られことになる。

【００７６】したがって、このように構成した機械翻訳
システムによれば、属性やレイアウト情報などの形式情
報からなる非言語データが、文章を形成する第１の言語
データと混在する形式を取る文書を翻訳する場合に、第
１の言語データのみを抽出するとともに、この第１の言
語データについて翻訳を行い、この翻訳により得られた
第２の言語データに対応する第１の言語データについて
、非言語データが混在する元の文書データとを比較して
対応箇所を決定し、これら対応箇所について元の文書の
言語データを翻訳された第２の言語データに置換するこ
とにより、最初の形式情報を保持したまま翻訳を行うこ
とができるようになり、翻訳作業を著しく簡単なものに
できるとともに、オペレータの労力を大幅に軽減するこ
とも可能になる。

【００７７】なお、上述の実施例では、翻訳結果に対応
する原文を元にＤＴＰ文書中の対応箇所を決定したが、
ＤＴＰ文書中の文字列を元に翻訳結果を対応させてもよ
い。また、言語データ抽出部より抽出した言語データを
編集処理したのち、この編集された言語データに対して
翻訳処理を実行するとともに、この翻訳された言語デー
タに対応する原文データと編集処理された文書データ中
の言語データとを比較し対応箇所を決定し、この対応箇
所を決定された上記文書データの言語データを翻訳処理
された言語データに置き換えるようにしてもよい。さら
に、上述の実施例では、対応箇所を決定し、記録してか
ら翻訳結果と置換したが、対応箇所が決定された直後に
置換してもよい。さらに対応箇所を求める方法について
パラグラフ情報のほか、箇条書きや番号付きの部分など
の特徴を利用することができる。また、上述した実施例
では日英翻訳を例にしているが、他の言語対の翻訳につ
いても同様に適用することが可能である。

【００７８】

【発明の効果】本発明によれば、形式情報などの非言語
データと文章を形成する言語データが混在する文書デー
タに対して編集や翻訳などの所定の処理を行う際、言語
データを抽出し、この言語データについて編集や翻訳な
どの処理を実行した後、処理済みデータと元の文書デー
タ中の言語データを比較し対応箇所を決定するとともに
、この対応箇所を決定された文書データの言語データを
編集や翻訳などの処理された言語データに置き換えるよ
うにしたので、最初の形式情報を保持したまま、しかも
形式情報を意識せずに編集や翻訳などの処理を行うこと
ができ、これらの作業を著しく簡単なものにできるとと
もに、オペレータの労力を大幅に軽減することができる
。

【図面の簡単な説明】

【図１】本発明の一実施例の概略構成を示すブロック図
。

【図２】図１の実施例に用いられる入力部のキー配列を
示す図。

【図３】図１の実施例の非言語データと言語データが混
在する文書を編集する場合のデータの流れを説明するた
めの図。

【図４】図１の実施例に用いられる言語データ抽出部の
動作を説明するためのフローチャート。

【図５】図１の実施例に用いられる対応箇所決定部の動
作を説明するためのフローチャート。

【図６】図１の実施例に用いられる対応箇所決定部での
対応関係の検索方法を説明するためのフローチャート。

【図７】図１の実施例により編集処理されるＤＴＰ文書
の一例を示す図。

【図８】図７に示すＤＴＰ文書を文書データとして記録
する場合の記録例を示す図。

【図９】図８に示す文書データより言語データのみを抽
出して得られた文書データの一例を示す図。

【図１０】図９に示す文書データに対して編集処理した
結果得られた文書データの一例を示す図。

【図１１】ＤＴＰ文書の編集処理後の状態を示す図。

【図１２】本発明の他の実施例の概略構成を示すブロッ
ク図。

【図１３】図１２の他の実施例に用いられる入力部のキ
ー配列を示す図。

【図１４】図１２の他の実施例に用いられる表示部の画
面レイアウトの一例を示す図。

【図１５】図１２の他の実施例の非言語データと言語デ
ータが混在する文書を翻訳する場合のデータの流れを説
明するための図。

【図１６】図２の他の実施例に用いられる言語データ抽
出部の動作を説明するためのフローチャート。

【図１７】図２の他の実施例に用いられる対応箇所決定
部の動作を説明するためのフローチャート。

【図１８】図２の他の実施例に用いられる対応箇所決定
部での対応関係の検索方法を説明するためのフローチャ
ート。

【図１９】図８に示す文書データより言語データのみを
抽出して得られた文書データの一例を示す図。

【図２０】翻訳中の表示部での画面出力の例を示す図。

【図２１】図１９に示す文書データに対して翻訳処理し
た結果得られた文書データの一例を示す図。

【図２２】ＤＴＰ文書の翻訳処理後の状態を示す図。

【符号の説明】

１、１１…入力部、２、１２…制御部、３…文書記憶部
、４、１４…言語データ抽出部、５…編集部、６、１６
…対応箇所決定部、７、１７…対応文置換部、８、１８
…表示部、１３…翻訳文書記憶部、１５…翻訳部。

Claims

【特許請求の範囲】

【請求項１】　　非言語データと言語データの混在する
文書データより言語データを抽出する言語データ抽出手
段と、この言語データ抽出手段により抽出された言語デ
ータに対して所定の処理を実行する処理実行手段と、こ
の処理実行手段により処理された言語データと上記文書
データ中の言語データとを比較し対応箇所を決定する対
応箇所決定手段と、この対応箇所決定手段により対応箇
所を決定された上記文書データの言語データを上記処理
実行手段で処理された言語データに置き換える置換手段
とを具備したことを特徴とする文書処理システム。
【請求項２】　　対応箇所決定手段は、処理実行手段に
より処理された言語データと上記文書データ中の言語デ
ータの一致により対応箇所を決定することを特徴とする
請求項１記載の文書処理システム。
【請求項３】　　対応箇所決定手段は、処理実行手段に
より処理された言語データと上記文書データ中の言語デ
ータの所定のキーワードの一致により対応箇所を決定す
ることを特徴とする請求項１記載の文書処理システム。
【請求項４】　　対応箇所決定手段は、処理実行手段に
より処理された言語データと上記文書データ中の言語デ
ータの文の数、単語数、文字数の少なくとも一つの一致
により対応箇所を決定することを特徴とする請求項１記
載の文書処理システム。
【請求項５】　　対応箇所決定手段は、処理実行手段に
より処理された言語データと上記文書データ中の言語デ
ータの文書形式情報の一致により対応箇所を決定するこ
とを特徴とする請求項１記載の文書処理システム。
【請求項６】　　非言語データと言語データの混在する
文書データより言語データを抽出する言語データ抽出手
段と、この言語データ抽出手段により抽出された言語デ
ータに対して編集処理を実行する編集処理手段と、この
編集処理手段により編集された言語データと上記文書デ
ータ中の言語データとを比較し対応箇所を決定する対応
箇所決定手段と、この対応箇所決定手段により対応箇所
を決定された上記文書データの言語データを上記編集処
理手段で編集された言語データに置き換える置換手段と
を具備したことを特徴とする文書編集システム。
【請求項７】　　非言語データと言語データの混在する
文書データより言語データを抽出する言語データ抽出手
段と、この言語データ抽出手段により抽出された言語デ
ータに対して翻訳処理を実行する翻訳処理手段と、この
翻訳処理手段により翻訳された言語データに対応する原
文データと上記文書データ中の言語データとを比較し対
応箇所を決定する対応箇所決定手段と、この対応箇所決
定手段により対応箇所を決定された上記文書データの言
語データを上記翻訳処理手段で翻訳された言語データに
置き換える置換手段とを具備したことを特徴とする機械
翻訳システム。
【請求項８】　　非言語データと言語データの混在する
文書データより言語データを抽出する言語データ抽出手
段と、この言語データ抽出手段により抽出された言語デ
ータに対して編集処理を実行する編集処理手段と、この
編集処理手段により編集された言語データに対して翻訳
処理を実行する翻訳処理手段と、この翻訳処理手段によ
り翻訳された言語データに対応する原文データと上記編
集処理手段により編集された文書データ中の言語データ
とを比較し対応箇所を決定する対応箇所決定手段と、こ
の対応箇所決定手段により対応箇所を決定された上記文
書データの言語データを上記翻訳処理手段で翻訳された
言語データに置き換える置換手段とを具備したことを特
徴とする機械翻訳システム。