JPH0765002A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH0765002A
JPH0765002A JP5240400A JP24040093A JPH0765002A JP H0765002 A JPH0765002 A JP H0765002A JP 5240400 A JP5240400 A JP 5240400A JP 24040093 A JP24040093 A JP 24040093A JP H0765002 A JPH0765002 A JP H0765002A
Authority
JP
Japan
Prior art keywords
node
document
logical
embedding
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5240400A
Other languages
English (en)
Inventor
Makoto Murata
真 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP5240400A priority Critical patent/JPH0765002A/ja
Priority to US08/297,742 priority patent/US5694609A/en
Publication of JPH0765002A publication Critical patent/JPH0765002A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 論理構造と割付構造の両方についての処理を
簡単に行なえるとともに、複数のストリームを含む文書
の処理も可能とした文書処理装置を提供する。 【構成】 文書保持部1には、論理構造及び割付構造を
有する書式付き処理可能形式の文書であって、後述する
ように、単位論理ノードとその直上の論理ノードとの間
に挿入され単位論理ノードと単位割付ノードとの対応関
係を表わすエンベディングノードと、単位割付ノードの
代わりに設けられるモールドノードを用いて関係付けら
れた文書が保持される。文書処理部2は、文書の論理構
造の記述のみを抜き出す論理構造抽出部3、文書の割付
構造の記述のみを抜き出す割付構造抽出部4、文書から
与えられた条件を満たす部分構造のみを抜き出すエンベ
ディング抽出部5などを有し、文書保持部1に保持され
ている文書を処理する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、計算機を利用して構造
化文書を処理する文書処理装置に関するものである。
【0002】
【従来の技術】近年、文書エディタ、文書フォーマッタ
の発展とともに、文書の表現形式も、文字列のみからな
るフラットテキストから、より多くの情報を表現できる
ものへと発展してきた。最近では、構造化文書が、文書
を表現するのに有効であることが広く認められつつあ
る。構造化文書とは、文書に構造を導入して、文書の構
築、レイアウト、検索、再利用などの処理を容易にした
ものである。文書の表現形式の国際規格であるODA
(ISO 8613)やSGML(ISO 8879)
は、この構造化文書の考え方に基づいて制定されてい
る。
【0003】構造化文書の基本的な構造は、論理構造と
割付構造である。この2つの構造について次に説明す
る。論理構造とは、章、節、段落、脚注、図などの論理
的な要素からなる木構造である。論理構造中の要素を、
論理ノードと呼ぶ。文書に論理構造を導入する利点は、
文書処理の可能性が広がることにある。例えば、目次の
自動生成や、章、節等の番号の自動採番、文書群からの
文書見出しリストの生成などの処理が可能になる。ま
た、論理的なまとまりに対して、レイアウトの指示を与
えることにより、複雑なレイアウトの指示を容易に行な
うことができる。
【0004】論理構造の末端ノードは、文字、ビットマ
ップ等であり、文書が表示、印刷されたときに、目に見
える部分である。構造化文書とは、文書を論理構造によ
って分割したものであるということができる。
【0005】論理構造を有する文書を、ODAに倣い、
処理可能形式の文書とよぶことにする。処理可能形式の
文書は、編集、割付等、様々の処理が可能である。しか
し、ページ、カラムなどのレイアウト情報を持たないの
で、表示、印刷することはできない。
【0006】図2は、文書の一例の説明図、図3は、文
書の一例における論理構造の説明図である。図2に示し
た文書は、2つの章から構成され、それぞれ、見出しを
有している。最初の章は、2つの段落を、次の章は1つ
の段落を有している。2つの章は、それぞれ、章ノード
によって表現される。各章の見出は、見出しノードによ
って表現される。どちらの見出しノードも、章番号を表
す章番号ノードと、見出しテキストを表す見出しテキス
トノードを持つ。各段落はそれぞれ段落ノードによって
表現される。各段落ノードは、いくつかの末端ノード
(文字)を有する。
【0007】割付構造とは、ページ、カラム、ブロック
などの矩形領域からなる木構造である。割付構造中の要
素を、割付ノードと呼ぶ。割付構造を持つ文書は、表
示、印刷することができる。論理構造のときと同じよう
に、割付構造の末端ノードは、文字、ビットマップ等で
あり、文書が表示、印刷されたときに、目に見える部分
である。割付構造からなる文書を、ODAに倣い、書式
付き形式の文書と呼ぶことにする。書式付き形式の文書
は、レイアウト情報を持つので、表示、印刷することが
できる。しかし、論理構造が存在しないので、再編集、
再割付することはできない。
【0008】図4は、文書の一例における割付構造の説
明図、図5は、文書の一例における論理構造と割付構造
の関係の説明図である。図4、図5とも、図2に示した
文書の割付構造、および、論理構造と割付構造の対応関
係を示している。図2に示すように、文書は2ページか
ら構成され、各ページは左カラムと右カラムによって表
現されている。1ページ目の左カラムと2ページ目の左
カラムには、見出しがレイアウトされている。見出し部
分において、章番号は1行のみからなり、見出しテキス
トは2行から構成されている。最初の章の1番目の段落
は、1ページ目の左カラムと右カラムに分割されてい
る。最初の章の2番目の段落は、1ページ目の右カラム
に割り付けられている。また、次の章の1番目の段落
は、2ページ目の左カラムに割り付けられている。
【0009】文書の各2ページは、それぞれ、ページノ
ードによって表現される。各ページの版面領域は、版面
枠ノードによって表現される。各ページの左カラムと右
カラムは、それぞれ左カラムノードと右カラムノードに
よって表現される。1ページ目の左カラムと2ページ目
の左カラムにレイアウトされている見出しが占める領域
は、見出しフレームノードで表現される。見出しを構成
する章番号と見出しテキストは、それぞれ、ブロックノ
ードで表現される。章番号の方のブロックノードは1つ
の行ノードのみを持ち、見出しテキストの方のブロック
ノードは2つの行ノードを持つ。最初の章の1番目の段
落が左カラムにおいて占める領域は、1個のブロックノ
ードで表現され、右カラムにおいて占める領域は、もう
1個のブロックノードで表現される。最初の章の2番目
の段落が占める領域を表わすブロックノードは、1ペー
ジ目の右カラムに割り付けられている。また、次の章の
1番目の段落が占める領域を表わすブロックノードは、
2ページ目の左カラムに割り付けられている。各ブロッ
クノードは、いくつかの行ノードから構成されている。
図4、図5では簡単のため、どちらのブロックも2つの
行ノードのみを示している。各行ノードは、いくつかの
末端ノード(文字)を有している。
【0010】1つの文書が、論理構造とレイアウト構造
の両方を持つことができる。両方の構造を持つ文書を、
書式付き処理可能形式の文書という。書式付き処理可能
形式は、処理可能形式と書式付き形式の両方の利点を併
せ持ち、編集、割付、表示、印刷などの処理に適してい
る。書式付き処理可能形式の文書では、論理構造の末端
ノードと割付構造の末端ノードは等しい。すなわち、文
字、ビットマップなどは、論理構造の末端ノードであ
り、割付構造の末端ノードでもある。ただし、割付処理
によって作成されるページ番号などの末端ノードは、割
付構造のみに属し、論理構造には属さない。
【0011】論理ノードには、どんな部分割付構造に割
り付けられるかが、あらかじめ決まっているものがあ
る。例えば、章見出しを表す論理ノードは、章見出し枠
を表す部分割付構造に割り付けられることが、あらかじ
め決まっている。また、図(キャプションも含む)を表
す論理ノードは、図枠を表す部分割付構造に割り付けら
れることが、あらかじめ決まっている。さらに、段落を
表す論理ノードは、行の並びからなるテキストブロック
に割り付けられることが、あらかじめ決まっている。ま
た、文書全体を表す論理ノード(論理根ノード)は、文
書全体を表す割付ノード(割付根ノード)に割り付けら
れることが、あらかじめ決まっている。このような論理
ノードを、単位論理ノードと呼ぶ。単位論理ノードは、
システムが文書の割付を行なう際の、基本的な処理単位
となる。
【0012】単位論理ノードを割り付けるために生成さ
れた部分割付構造を考える。その頂点となるノードを単
位割付ノードと呼ぶ。単位論理ノードと単位割付ノード
の間には、直接的な対応関係が存在する。例えば、章見
出しを表す単位論理ノード1個は、章見出し枠を表す単
位割付ノード1個に対応する。また、図を表す単位論理
ノード1個は、図枠を表す単位割付ノード1個に対応す
る。単位論理ノードを頂点とする部分論理構造は、単位
割付ノードを頂点とする部分割付構造の中に全てレイア
ウトされる。また、論理構造の他の部分は、この部分割
付構造の中にはレイアウトされない。例えば、章見出し
を表す部分論理構造は、章見出し枠を表す部分割付構造
にレイアウトされ、他の部分はここにはレイアウトされ
ない。
【0013】1個の単位論理ノードに、複数の単位割付
ノードが対応することがある。これは、ページ境界やカ
ラム境界によって分割が起こったときに限られる。例え
ば、1個の段落がページ境界によって2つのテキストブ
ロックに分割されているとする。この段落を表す単位論
理ノードには、分割された2つの単位割付ノード(テキ
ストブロック)が対応する。この場合も、単位論理ノー
ドを頂点とする部分論理構造(1個の木)は、単位割付
ノードを頂点とする部分割付構造(複数の木)の中に全
てレイアウトされる。
【0014】図6は、文書の一例における単位論理ノー
ドと単位割付ノードの関係の説明図である。図6は、図
2に示した文書における単位論理ノードと単位割付ノー
ドの対応関係を示している。論理根ノード,見出しノー
ド,章番号ノード,見出しテキストノード,段落ノード
が単位論理ノードである。単位割付ノードは、割付根ノ
ード,見出しフレームノード,ブロックノードである。
論理根ノードは割付根ノードに、見出しノードは見出し
フレームノードに対応する。それ以外の単位論理ノード
はブロックノードに対応する。例えば、最初の章の1番
目の段落を表す段落ノードは、2つのブロックノードに
対応する。
【0015】ある単位論理ノードに従属する単位論理ノ
ードのうち、他の単位論理ノードを介さずに従属してい
るものを考える。これらを深さ優先順に並べたものをス
トリームと呼ぶ。図2に示した文書では、単位論理ノー
ドである論理根ノードに従属する単位論理ノードのう
ち、他の単位論理ノードを介さずに従属しているもの、
すなわち、最初の章の見出しノード、最初の章の1番目
の段落ノード、2番目の段落ノード、2番目の章の見出
しノード、2番目の章の段落ノードを並べたものがスト
リームである。このとき、章番号ノードは、単位論理ノ
ードではあるが、他の単位論理ノード、すなわち、見出
しノードを介して論理根ノードに従属しているので、こ
のストリームには入らない。しかし、見出しノードに従
属した単位論理ノード、すなわち、最初の章の章番号ノ
ードと見出しテキストノードを並べたもの、2番目章の
章番号ノードと見出しテキストノードを並べたものは、
それぞれが別のストリームである。図3において、スト
リームを太線で示している。
【0016】まず、1個の単位論理ノードの下には1個
しかストリームがない場合を考える。このような文書を
単一ストリームの文書という。単一ストリームの文書で
は、単位割付ノードが割付構造で出現する順は、対応す
る単位論理ノードがストリーム中で出現する順に等し
い。図2に示した文書では、図3乃至図5に示すよう
に、最初の章の1番目の段落ノードに対応する2つのブ
ロックノードのあとに、2番目の段落ノードが対応する
ブロックノードが出現している。単位論理ノードも単位
割付ノードも入れ子をなしているが、入れ子のどのレベ
ルでもこの原則が成り立つ。したがって、論理構造にお
いて末端ノードが出現する順と、割付構造において末端
ノードが出現する順が常に等しい。言い換えると、論理
構造において、末端ノードAが末端ノードBより先に出
現するなら、割付構造においても末端ノードAが末端ノ
ードBより先に出現する。
【0017】次に、1個の単位論理ノードの下に複数の
ストリームがある場合を考える。すなわち、1個の単位
論理ノードに、他の単位論理ノードを介さずに従属する
単位論理ノードが、全て1個のストリームに属するので
はなく、複数のストリームに分かれる場合がある。複数
のストリームに分かれる場合、各単位論理ノードがどの
ストリームに属するかは、そのノードの「ストリーム属
性」によってあらかじめ指定されている。このような文
書を複数ストリームの文書という。複数ストリームの文
書では、論理構造において末端ノードが出現する順と、
割付構造において末端ノードが出現する順とは異なる。
【0018】図7は、複数ストリーム文書の一例の説明
図である。図7では、複数ストリームを持つ文書の例と
して、日英対訳の文書を示している。この文書では、英
語段落は左カラムに、日本語段落は右カラムにレイアウ
トされている。この文書は、2つの英語段落と2つの日
本語段落を持っている。
【0019】図8は、図7に示した複数ストリーム文書
の一例における論理構造の説明図である。この文書の論
理構造は、2つの英語段落に対応した2つの英語段落ノ
ードと、2つの日本語段落に対応した2つの日本語段落
ノードによって表現される。各段落ノードは、末端ノー
ド(文字)をいくつか有している。英語段落ノードは
「ストリーム属性」として‘E’を指定し、日本語段落
ノードは‘J’を指定する。したがって、この文書は、
2つの英語段落ノードからなるストリームと、2つの日
本語段落ノードからなるストリームの2つを持つ。図8
において、各ストリームは太線で示されている。
【0020】図9は、図7に示した複数ストリーム文書
の一例における割付構造の説明図である。図7に示すよ
うに、この文書は2ページからなり、どちらもページノ
ードによって表現される。各ページの版面領域は、版面
枠ノードによって表現される。各ページの左カラムと右
カラムは、それぞれ左カラムノードと右カラムノードに
よって表現される。1ページ目の左カラムと2ページ目
の左カラムには、英語段落のストリームがレイアウトさ
れている。1番目の英語段落が占める領域は、1個の英
語ブロックノードで表現される。この英語ブロックノー
ドは1ページ目の左カラムノードに従属する。2番目の
英語段落は2つに分割され、2個の英語ブロックノード
によって表現される。最初の英語ブロックノードは、1
ページ目の左カラムノードに従属し、次の英語ブロック
ノードは2ページ目の左カラムノードに従属する。
【0021】1ページ目の右カラムと2ページ目の右カ
ラムには、日本語段落のストリームがレイアウトされて
いる。1番目の日本語段落が占める領域は、1個の日本
語ブロックノードで表現される。この日本語ブロックノ
ードは、1ページ目の右カラムノードに従属する。2番
目の日本語段落は2つに分割され、2個の日本語ブロッ
クノードによって表現される。最初の日本語ブロックノ
ードは1ページ目の右カラムノードに従属し、次の日本
語ブロックノードは2ページ目の右カラムノードに従属
する。各ブロックノードは、いくつかの行ノードから構
成されている。簡単のため、図9では、どちらのブロッ
クノードとも2行のみを示している。各行は各ノードに
よって表現される。
【0022】図10は、図7に示した複数ストリーム文
書の一例における論理構造と割付構造の関係の説明図で
ある。論理構造において末端ノードが出現する順と、割
付構造において末端ノードが出現する順が異なっている
ことがわかる。1番目の日本語段落に属する日本語文字
は、割付構造においては1ページ目の右カラムに出現し
ている。一方、2番目の英語段落の先頭の英語文字は、
論理構造においてはこの日本語段落の後に出現するが、
割付構造においては、1ページ目の左カラムに出現し、
1番目の日本語段落よりも前に出現している。
【0023】図11は、図7に示した複数ストリーム文
書の一例における単位論理ノードと単位割付ノードの関
係の説明図である。日本語段落ノードは単位論理ノード
であり、対応する単位割付ノードは日本語ブロックノー
ドである。同様に、英語段落ノードは単位論理ノードで
あり、対応する単位割付ノードは英語ブロックノードで
ある。2つの日本語段落ノードのうち、ストリーム中で
先に出現する方のノードは、対応する日本語ブロックノ
ードも、割付構造中で先に出現する。同様に、2つの英
語段落ノードのうち、ストリーム中で先に出現する方の
ノードは、対応する英語ブロックノードも、割付構造中
で先に出現する。一方、1番目の日本語段落ノードと2
番目の英語段落ノードとでは、1番目の日本語段落ノー
ドが論理構造中で先に出現するが、2番目の英語段落ノ
ードに対応する英語ブロックノードの方が割付構造中で
は先に出現する。この例から分かるように、論理構造中
での出現順が割付構造でも保存されるのは、同一のスト
リームに属するものの間に限られる。ストリームが違え
ば、出現順は保存されるとは限らない。したがって、末
端ノードの出現順は、論理構造と割付構造で異なること
がある。
【0024】複数ストリームの文書のもう1つの例とし
て、脚注付きの文書を例にして説明する。図12は、脚
注付き文書の一例の説明図、図13は、図12に示した
脚注付き文書の一例における論理構造の説明図である。
図12に示した文書は、2つの段落と2つの脚注を持
ち、それらは段落ノードと脚注ノードによって表現され
る。段落ノードも脚注ノードも、末端ノード(文字)を
いくつか有している。段落ノードは「ストリーム属性」
として例えば‘P’を指定し、脚注ノードは例えば
‘F’を指定する。したがって、この文書は、2つの段
落からなるストリームと、2つの脚注からなるストリー
ムを持つ。図13において、各ストリームは、太線で示
されている。
【0025】図14は、図12に示した脚注付き文書の
一例における割付構造の説明図である。図12に示した
文書は1ページのみからなる。ページとその版面領域は
ページノードと版面枠ノードによってそれぞれ表現され
る。版面領域は、カラムと脚注領域からなる。カラムは
カラムノードによって、脚注領域は脚注領域ノードによ
って表現される。カラムには、段落のストリームがレイ
アウトされている。1番目の段落が占める領域と2番目
の段落が占める領域は、それぞれブロックノードによっ
て表現される。どちらのブロックノードもカラムノード
に従属する。脚注領域には、脚注のストリームがレイア
ウトされている。1番目の脚注が占める領域と2番目の
脚注が占める領域は、それぞれ脚注ブロックノードによ
って表現される。どちらの脚注ブロックノードも、脚注
領域ノードに従属する。各ブロックノードはいくつかの
行ノードから構成されている。簡単のため、図14で
は、どちらのブロックノードも、2つの行ノードのみを
示している。
【0026】図15は、図12に示した脚注付き文書の
一例における論理構造と割付構造の関係の説明図であ
る。論理構造においては、最初の段落の次に最初の脚注
が出現するが、割付構造においては、最初の段落の次
に、次の段落が出現する。このように、論理構造におい
て末端ノードが出現する順と、割付構造において末端ノ
ードが出現する順が異なっている。
【0027】図16は、図12に示した脚注付き文書の
一例における単位論理ノードと単位割付ノードの関係の
説明図である。段落ノードは単位論理ノードであり、対
応する単位割付ノードは ブロックノードである。同様
に、脚注ノードは単位論理ノードであり、対応する単位
割付ノードは脚注ブロックノードである。対応するノー
ドを太線で示している。
【0028】今日、文書処理方式の主流を占めるWYS
IWYG(What you see is what
you get)エディタは、内部的には書式付き処
理可能形式で文書を表現している。すなわち、計算機の
主メモリ上において、論理構造と割付構造の両方を保持
している。したがって、編集、割付、表示、印刷を含む
全ての処理のための情報を表現することが可能である。
しかし、より効率よく、処理しやすい形でこれら全ての
情報を表現するのは容易ではない。特に、ファイルや通
信回線上のデータとして保持するのは難しい。以下、従
来提案されてきた表現方式について説明する。なお、以
下の説明では、図2乃至図4に示した文書を例として用
いる。
【0029】まず、処理可能形式で文書が表現される場
合を考える。この表現方式は、今日、最も普通に用いら
れている。処理可能形式は、上述のように、論理構造の
みを表現する。割付構造は表現されない。論理構造の表
現は、論理ノードの表現を繰り返すことよって行なう。
論理ノードの表現が出現する順番は、論理構造を深さ優
先の順でたどったときの順番と等しい。図17は、処理
可能形式の文書のファイルフォーマットの一例の説明図
である。この例では、図3に示した論理構造を、SGM
Lで表現したものである。SGMLでは、1個の論理ノ
ードは開始タグと終了タグで囲んで表現される。開始タ
グとは、‘<’と‘>’で囲まれた文字列であり、終了
タグとは、‘<\’と‘>’で囲まれた文字列である。
【0030】先頭に現れる開始タグ“<log_roo
t>”と、最後に現れる終了タグ“<\log_roo
t>”は、この2つのタグに囲まれた部分が論理根ノー
ドであることを示す。次に現れる開始タグ“<sec
>”と、中程に現れる終了タグ“<\sec>”は、こ
の2つのタグに囲まれた部分が章ノードであることを示
す。次に現れる開始タグ“<header>”と、終了
タグ“<\header>”は、この2つのタグに囲ま
れた部分が見出しノードであることを示す。次に現れる
開始タグ“<sec_num>”と、終了タグ“<\s
ec_num>”は、この2つのタグに囲まれた部分が
章番号ノードであることを示す。文字「1」は、末端ノ
ードである。開始タグ“<header_text>”
と、終了タグ“<\header_text>”で囲ま
れた部分が見出しテキストノードであり、文字列「文書
アーキテクチャ」が、見出しテキストノードの本体であ
る。開始タグ“<para>”と、終了タグ“<\pa
ra>”で囲まれた部分が段落ノードであり、文字
「文」,「書」,「ア」・・・は末端ノードである。以
下、同様であるので、残りのタグの説明は省略する。
【0031】この処理可能形式で表現された文書は、そ
の論理構造に対して、特定のエディタ以外のプログラム
から処理するのにも便利である。この形式では、深さ優
先順の走査を簡単に行なうことができる。論理構造を深
さ優先順で走査することによって可能な処理は多いた
め、この走査が簡単に行なえることは大きな意味を持
つ。深さ優先順で論理構造を走査するには、ファイルか
らタグや末端ノード(文字)を順に読み込み、開始タグ
のときはスタッフへのプッシュを、終了タグの時はスタ
ッフからのポップを行なえば良い。この深さ優先順の走
査により処理を行なうプログラムは、論理構造全体をメ
モリに展開する必要はない。そのため、メモリ管理のた
めの手段が不要になり、プログラムの作成が容易にな
る。また、処理の効率も高い。
【0032】しかし、この処理可能形式では、論理構造
しか表現できず、割付構造は表現できない。割付構造を
得るためには、割付処理を実行しなくてはならない。こ
の割付処理は複雑な処理であるため、かなりの処理時間
を必要とする。したがって、ファイルに格納された処理
可能形式の文書を表示・印刷するには、時間がかかると
いう問題がある。
【0033】また、表示・印刷以外でも、検索などの用
途に割付構造が必要なことがある。例えば、「左カラム
に図がレイアウトされている。」という条件で文書検索
を行なうには、割付構造が必要である。この例では、割
付処理を複数の文書に対して実行するので、特に時間が
かかる。
【0034】このような問題を解決するため、処理可能
形式と書式付き形式の両方の表現方式を併用することが
考えられる。論理構造は、例えば、図17に示した処理
可能形式で表現するとともに、割付構造も同様の形で表
現する。論理構造の表現と割付構造の表現は、それぞれ
別のファイルに格納することも、同一のファイルに格納
することもできる。
【0035】割付構造の表現は、論理構造の表現とほぼ
同様の形で行なわれる。図18は、書式付き形式の文書
のファイルフォーマットの一例の説明図である。図18
には、図4に示した割付構造の表現を示している。先頭
に現れる開始タグの“<lay_root>”と、最後
に現れる終了タグ“<\lay_root>”は、この
2つのタグに囲まれた部分が割付根ノードであることを
示す。次に現れる開始タグ“<page>”と、中程に
現れる終了タグ“<\page>”は、この2つのタグ
に囲まれた部分がページノードであることを示す。ペー
ジノードの開始タグ“<page>”の直後に現れる開
始タグ“<body_frame>”と、ページノード
の終了タグ“<\page>”の直前に現れる終了タグ
“<body_frame>”は、このページノードの
版面枠ノードを示す。版面枠ノードの開始タグ“<bo
dy_frame>”の直後に現れる開始タグ“<le
ft_col>”は、左カラムノードの開始を示す。そ
の次に現れる開始タグ“<header_frame
>”は、左カラムにレイアウトされた見出しフレームノ
ードの開始を示す。以降に現れる開始タグ“<bloc
k>”と終了タグ“<\block>”の対はブロック
ノードを示す。最初の2つのブロックノードは見出しフ
レームノードに属し、次のブロックノードは左カラムノ
ードに属する。開始タグ“<line>”と終了タグ
“<\line>”は、行ノードを示し、ブロックノー
ドの持つ行を表す。文字列「文書アーキ」、「テクチ
ャ」等は末端ノードである。右カラム、及び、2ページ
目も同様であるので、説明を省略する。
【0036】この方式では、編集、割付、表示、印刷等
の処理に対して、必要な情報を容易に得ることができ
る。ファイル上に表現された論理構造と割付構造のう
ち、必要な方を読み込んで処理を行なえばよい。論理構
造のみを必要とする処理には、割付構造を無視して、論
理構造のみを参照すればよい。論理構造を深さ優先の走
査は、処理可能形式の表現方式の場合と同様に、容易に
処理可能である。同様に、割付構造のみを必要とする処
理には、論理構造を無視して、割付構造のみを参照すれ
ばよい。割付構造を深さ優先で走査することは、論理構
造のときと同様に行なうことができる。
【0037】しかし、前述したように、論理構造と割付
構造は末端のノードを共有する。したがって、この表現
方式では、全ての末端ノードを論理構造と割付構造それ
ぞれが有することになる。末端ノードとなるのは、文書
中の文字・ビットマップなどのすべてであるから、この
表現方式は極めてスペース効率が悪いという問題があ
る。
【0038】もう1つの問題点は、単位論理ノードと単
位割付ノードの対応関係が表現できないことである。し
たがって、検索などの処理でこの対応関係を利用するこ
とができない。例えば、「左カラムに第2章の図がレイ
アウトされている文章を捜せ」という検索は、論理構造
と割付構造の両方を必要とするだけではなく、論理構造
中の図ノードと割付構造中の図枠ノードが対応している
という情報を必要とする。
【0039】ODAでは、書式付き処理可能形式の表現
方式を規定している。この表現方式では、論理構造と割
付構造の両方を表現しつつ、末端ノードの重複を避けて
いる。具体的には、末端ノードを除く論理構造、末端ノ
ードを除く割付構造、末端ノードの3つを分けて表現し
ている。
【0040】図19、図20、図21は、書式付き処理
可能形式の文書のファイルフォーマットの一例の説明図
である。これらの図では、表記はSGML風のタグを用
いたものに改めて示してある。図19、図20、図21
は、この順で連続しているが、図面の関係上、分割して
示している。図19に示した部分が論理ノードの表現で
あり、12個の論理ノードが表現されている。これらの
論理ノードがどのように木構造を形成するかは、属性i
dによって表現されている。
【0041】先頭のノードは、idが“3”であるか
ら、木構造の頂点、すなわち、論理根ノードを示してい
る。次のノードは、idが“30”であるから、その長
男ノード、すなわち、章ノードである。その次のノード
は、idが“300”であるから、さらにその長男ノー
ド、すなわち、見出しノードである。その次のノード
は、idが“3000”であるから、さらにその長男ノ
ード、すなわち、章番号ノードである。次のノードは、
idが“3001”であるから、idが“300”のノ
ード(見出しノード)の次男ノード、すなわち、見出し
テキストノードである。次のノードは、idが“30
1”であるから、idが“30”のノード(章ノード)
の次男ノード、すなわち、最初の段落ノードである。次
のノードは、idが“302”であるから、idが“3
0”のノード(章ノード)の三男ノード、すなわち、2
番目の段落ノードである。以下、同様であるので、残り
の5個のノードの説明は省略する。
【0042】図20に示した部分が割付ノードの表現で
あり、33個の割付ノードが表現されている。これらの
ノードについても、属性idが木構造を表す。先頭のノ
ードは、idが“2”であるから、木構造の頂点、すな
わち、割付根ノードである。次のノードは、idが“2
0”であるから、その長男ノード、すなわち、ページノ
ードである。以下、同様であるので、残りの31個のノ
ードの説明は省略する。
【0043】図21に示した部分が末端ノードの表現で
あり、末端ノードの並びが14個表現されている。例え
ば、先頭のものは、末端ノード「1」1個からなる並
び、2番目のものは、「文」,「書」,・・・の並びで
ある。これらのノードが、論理構造と割付構造におい
て、どこに位置するかは、それぞれ、属性log_i
d,lay_idによって表現されている。先頭の末端
ノードの並びは、log_idが“30000”である
から、log_idが“3000”の論理ノード、すな
わち、章番号ノードの長男ノードである。また、lay
_idが“20000000”であるから、lay_i
dが“2000000”の割付ノード、すなわち、行ノ
ードの長男ノードである。また、2番目の末端ノードの
並び(log_idは“30010”,lay_idは
“20000100”)は、見出しテキストノード(l
og_idは“3001”)とブロックノード(log
_idは“2000010”)に属する。末端ノード
「文」,「書」,・・・のどれもがこれらのノードに属
することに注意されたい。以下、同様にして、論理構造
と割付構造の位置と、末端ノードの内容が表現される。
【0044】この表現方式では、論理構造と割付構造ノ
ード両方を完全に表現することができる。また、処理可
能形式と書式付き形式の両方の表現方式を併用する場合
に比べ、末端のノードはただ一度しか表現されないの
で、スペース効率が優れている。
【0045】しかし、この表現方式では、論理構造の非
末端ノードと末端ノードとが完全に分離されている。こ
のため、論理ノードの出現順が深さ優先順にならない。
先の例では、章番号ノードの直後にその末端ノードが出
現せず、はるか後ろに出現している。したがって、深さ
優先順で論理構造を走査するプログラムは、いったん論
理構造全体をメモリに展開しなければならない。これ
は、プログラムが複雑になると、性能が低下することを
意味する。同様に、割付ノードの出現順も深さ順になら
ない。したがって、深さ優先順で割付構造を走査するプ
ログラムも複雑になり、性能が低下する。
【0046】また、この表現方式でも、単位論理ノード
と単位割付ノードの対応関係が表現されていない。その
ため、依然として、処理可能形式と書式付き形式の両方
を併用する場合と同様の問題が発生する。現在のODA
の表現方式では、対応関係を示す情報は存在しない。
【0047】SGMLも論理構造と割付構造の両方を表
現した表現方式CONCURを規定している。具体的に
は、論理構造を表すタグと割付構造を表わすタグとを1
文書中に混在させることによって表現している。末端ノ
ードは両方の構造から共有される。
【0048】図22、図23は、CONCURによる文
書のファイルフォーマットの例の説明図である。この2
つの図は、図22、図23の順で連続したものである。
“<(log)”で始まるタグは、論理構造を表すタグ
であり、“<(lay)”で始まるタグは割付構造を表
すタグである。どちらか一方を無視すれば、もう一方の
構造が得られる。
【0049】この表現方式では、論理構造と割付構造の
両方を同時に表現することができる。末端ノードは一度
しか表現されないため、スペース効率も優れている。ま
た、ODAの書式付き処理可能形式より処理がしやす
い。割付構造側のタグを無視すれば、論理構造を深さ優
先順で走査することができる。同様に、論理構造側のタ
グを無視すれば、割付構造を深さ優先順で走査すること
ができる。
【0050】しかし、この表現方式でも、単位論理ノー
ドと単位割付ノードの対応関係は直接表現されていな
い。どの論理ノードが単位論理ノードで、どの割付ノー
ドが単位割付ノードであるかを示す情報も存在しない。
論理構造と割付構造の対応関係を表すのは、論理側のタ
グと割付側のタグの出現順のみである。
【0051】また、複数のストリームからなる文書を表
現できないという問題もある。“The SGML H
andbook”,Goldfarb,Oxford
University Press,1990によれ
ば、CONCURはワードプロセッサなど簡単な機器を
想定して、論理構造と割付構造にほぼ一対一の対応関係
がある文書を表現するために設計されている。このた
め、複数のストリームを持つ文書は表現できない。
【0052】例えば、図7乃至図9で説明した複数のス
トリームを持つ文書は、CONCURによる表現方式で
は表現することができない。その理由は、論理ノードを
深さ優先順で並べたときと、割付ノードを深さ優先で並
べたときとで、末端ノードの出現順が異なることによ
る。論理構造を表現しようとすると、先頭の日本語段落
ノードに属する末端ノードである文字列「ああ・・・」
を文字列「BB・・・」の前に配置しなければならな
い。一方、割付構造を表現しようとすると、文字列「B
B・・・」を文字列「ああ・・・」の前に配置しなけれ
ばならない。CONCURによる記録方式はこの矛盾を
解決していない。
【0053】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、スペース効率を改善すると
ともに、論理構造と割付構造の両方について、例えば、
深さ優先順の走査などの処理を簡単に行なえるととも
に、複数のストリームを持つ文書などを含む、一般の文
書の処理も可能とした文書処理装置を提供することを目
的とするものである。また、単位論理構造と単位割付構
造との対応関係も表現できる文書処理装置を提供するこ
とも目的とするものである。
【0054】
【課題を解決するための手段】本発明は、構造化文書の
処理を行なう文書処理装置において、論理構造及び割付
構造を有するとともに、単位論理ノードとその直上の論
理ノードとの間に挿入され単位論理ノードと単位割付ノ
ードとの対応関係を表わすエンベディングノードと、単
位割付ノードの代わりに設けられるモールドノードを用
いて関係付けられた文書を保持する文書保持手段と、該
文書記憶手段に保持されている文書中の部分論理構造を
対応する部分割付構造とともに処理可能な文書処理手段
を有することを特徴とするものである。前記文書処理手
段は、前記文書保持手段に保持されている文書の論理構
造を抽出する論理構造抽出処理手段、前記文書保持手段
に保持されている文書の割付構造を抽出する割付構造抽
出手段、前記文書保持手段に保持されている文書から、
指定された条件を満たすエンベディングノードに従属す
る部分論理構造、部分割付構造を抽出するエンベディン
グ抽出手段などを備えることができる。
【0055】
【作用】本発明によれば、文書保持手段に保持されてい
る文書にエンベディングノードを導入することによっ
て、単位論理ノードと単位割付ノードの対応関係を明確
にし、また、モールドノードを導入することによって、
ストリームによる順序逆転の問題を解決している。これ
により、文書処理手段においては、単位論理ノードまた
は単位割付ノード単位の処理が可能になるとともに、単
一ストリームの文書だけではなく、複数ストリームを持
つ文書など、広く一般の文書を扱うことが可能になる。
例えば、論理構造抽出処理手段による文書の論理構造の
抽出、割付構造抽出手段による文書の割付構造の抽出に
ついても、例えば、文書すべてをメモリに読み込むこと
なく、深さ優先順の走査により処理可能である。また、
エンベディング抽出手段により、対応する部分論理構造
と部分割付構造を抜き出して処理を行なうことができ
る。
【0056】
【実施例】図1は、本発明の文書処理装置の一実施例を
示すブロック図である。図中、1は文書保持部、2は文
書処理部、3は論理構造抽出部、4は割付構造抽出部、
5はエンベディング抽出部である。文書保持部1には、
構造化文書が保持されている。保持されている文書は、
論理構造及び割付構造を有する書式付き処理可能形式の
文書であって、後述するように、単位論理ノードとその
直上の論理ノードとの間に挿入され単位論理ノードと単
位割付ノードとの対応関係を表わすエンベディングノー
ドと、単位割付ノードの代わりに設けられるモールドノ
ードを用いて関係付けられた文書である。
【0057】文書処理部2は、文書保持部1に保持され
ている文書を処理する。文書処理部2は、論理構造抽出
部3、割付構造抽出部4、エンベディング抽出部5など
の各種処理部を有する構成とすることができる。論理構
造抽出部3は、文書保持部1から文書を逐次的に読み込
み、文書の論理構造の記述のみを抜き出す。割付構造抽
出部4は、文書保持部1から文書を逐次的に読み込み、
文書の割付構造の記述のみを抜き出す。エンベディング
抽出部5は、文書保持部1から文書を逐次的に読み込
み、文書から与えられた条件を満たす部分構造のみを抜
き出す。これらの処理部は、すべて備わっている必要は
ない。また、別の処理を行なう処理部が備わっていても
よい。例えば、論理構造抽出部3において抽出された論
理構造に従って、文書の再利用を行なって新たな文書を
作成する処理部を設けたり、割付構造抽出部4において
抽出された割付構造に従って、文書を出力処理する処理
部を設けることができる。また、単位論理ノードの処理
を行なう処理部や、その他、種々の処理部を設けること
ができる。
【0058】本発明の文書処理装置の一実施例の具体的
な構成としては、例えば、ワークステーション等の計算
機により実現することができる。このとき、文書処理部
1は、計算機の記憶手段を用いることができる。あるい
は、通信回線を介して、別の計算機、記憶手段により構
築することも可能である。また、文書処理部2は、計算
機本体により実現することができる。
【0059】本発明の文書処理装置において、文書保持
部1に保持されている文書について説明する。上述のよ
うに、文書保持部1に保持されている文書は、論理構造
及び割付構造を有する書式付き処理可能形式の文書であ
って、単位論理ノードとその直上の論理ノードとの間に
挿入され単位論理ノードと単位割付ノードとの対応関係
を表わすエンベディングノードと、単位割付ノードの代
わりに設けられるモールドノードを用いて関係付けられ
た文書である。
【0060】図24は、図2に示した文書の一例におい
てエンベディングノードおよびモールドノードを導入し
た論理構造と割付構造の関係の説明図、図32は、図7
に示した複数ストリーム文書の一例においてエンベディ
ングノードおよびモールドノードを導入した論理構造と
割付構造の関係の説明図、図39は、図12に示した脚
注付き文書の一例においてエンベディングノードおよび
モールドノードを導入した論理構造と割付構造の関係の
説明図である。図中、◎はエンベディングノード、●は
モールドノードである。
【0061】まず、エンベディングノードについて説明
する。エンベディングノードとは、単位論理ノードと単
位割付ノードの対応関係を表すノードである。エンベデ
ィングノードの直下に単位論理ノード(1個)と単位割
付ノード(1個または複数個)が従属する。エンベディ
ングノードを導入すると、単位論理ノードの直上の論理
ノードと、単位論理ノードの間の従属関係は削除され
る。その代わりに、直上の論理ノードにエンベディング
ノードが従属する。言い換えると、直上の論理ノードと
単位論理ノードは、エンベディングノードを介して従属
関係を持つようになる。
【0062】例えば、図24において、導入されている
エンベディングノードは、ノードa乃至ノードjで示し
た10個のノードである。ノードaは、論理根ノードと
割付根ノードの対応を表している。ノードb,gは、見
出しノードと見出しフレームノードの対応を表してい
る。ノードc,hは、章番号ノードとブロックノードの
対応を表わしている。ノードd,iは、見出しテキスト
ノードとブロックノードの対応を表わしている。ノード
e,f,jは、段落ノードとブロックノードの対応を表
している。
【0063】また、図32において、導入されているエ
ンベディングノードは、ノードa乃至ノードeで示した
5個のノードである。ノードaは、論理根ノードと割付
根ノードの対応を表している。ノードb,dは、英語段
落ノードと英語ブロックノードの対応を表している。ノ
ードc,eは、日本語段落ノードと日本語ブロックノー
ドの対応を表している。
【0064】さらに、図39において、導入されている
エンベディングノードは、ノードa乃至ノードeで示し
た5個のノードである。ノードaは、論理根ノードと割
付根ノードの対応を表している。ノードb,cは、段落
ノードとブロックノードの対応を表している。ノード
d,eは、脚注ノードと脚注ブロックノードの対応を表
している。
【0065】図24において、例えば、見出しノードは
単位論理ノードである。エンベディングノードbは、論
理構造の見出しノードと、その直上のノードである章ノ
ードとの間に挿入される。また、ノードbは、見出しノ
ードと対応する割付構造の見出しフレームノードとの対
応関係を有している。他の単位論理ノードについても、
同様にエンベディングノードが挿入され、挿入されたエ
ンベディングノードによって対応する割付構造のノード
への対応関係が示される。
【0066】エンベディングノードは、その直下の単位
論理ノードが属するストリームに付与されるストリーム
属性をそのまま有する。このストリーム属性は、モール
ドノードと単位割付ノードを対応させるために用いる。
例えば、図32では日本語と英語の区別を、このストリ
ーム属性によって示すことができる。また、図39で
は、段落と脚注の区別を、ストリーム属性によって示す
ことができる。図24では、ストリームが1個しかない
ので、この属性を省略することができる。
【0067】次に、モールドノードについて説明する。
モールドノードとは、単位割付ノードの代わりに配置さ
れるノードである。モールドノードを導入すると、単位
割付ノードの直上の割付ノードと、単位割付ノードの間
の従属関係は削除される。その代わりに、モールドノー
ドが直上の割付ノードに従属する。
【0068】例えば、図24において、導入されている
モールドノードは、ノードA乃至ノードJの10個のノ
ードである。ノードA,Gは、見出しフレームノードの
代わりに配置されたモールドノードである。ノードB,
Hは、章番号ノードに対応するブロックノードの代わり
に配置されたモールドノードである。ノードC,Iは、
見出しテキストノードに対応するブロックノードの代わ
りに配置されたモールドノードである。ノードD,E,
F,Jは、段落ノードに対応するブロックノードの代わ
りに配置されたモールドノードである。
【0069】図32において、導入されているモールド
ノードは、ノードA乃至ノードFの5個のノードであ
る。ノードC,D,Fは、日本語ブロックノードの代わ
りに配置されたモールドノードである。ノードA,B,
Eは、英語ブロックノードの代わりに配置されたモール
ドノードである。
【0070】図39において、導入されているモールド
ノードは、ノードA乃至ノードEの4個のノードであ
る。ノードA,Bは、ブロックノードの代わりに配置さ
れたモールドノードである。ノードC,Dは、脚注ブロ
ックノードの代わりに配置されたモールドノードであ
る。
【0071】図24において、例えば、左カラムノード
の下の見出しフレームノードは単位割付ノードである。
見出しフレームノードは、その直上の左カラムノードと
の従属関係は削除され、左カラムノードには見出しフレ
ームノードの代わりにモールドノードAが配置される。
他の単位割付ノードについても同様である。また、図3
2、図39に示した例についても同様である。
【0072】モールドノードは、それがどのストリーム
に属するかを示す属性として、ストリーム属性を持つ。
例えば、図32においては、日本語と英語の区別を、図
39においては段落と脚注の区別を、それぞれ、このス
トリーム属性によって示している。図24では、ストリ
ームが1個しかないのでこの属性を省略することができ
る。
【0073】モールドノードがどの単位割付ノードに対
応するかは、ストリームとストリーム中での順番とによ
って定まる。まず、あるモールドノードが有するストリ
ーム属性と同一のストリーム属性を有しているすべての
エンベディングノードを考える。これらのエンベディン
グノードの直下にある単位割付ノードを深さ優先順で全
て並べる。次に、同一のストリームに属するモールドノ
ードを深さ優先順で全て並べる。これら2つの並びにお
いて、i番目の単位割付ノードに対応するモールドノー
ドは、i番目のモールドノードである。
【0074】例えば、図24において、モールドノード
Fを考える。同一のストリームに属するモールドノード
は、モールドノードA,D,E,F,G,Jである。モ
ールドノードFが現れるのは、4番目である。このスト
リームに対応するストリームに属するエンベディングノ
ードは、エンベディングノードb,e,f,g,jであ
る。これらの直下にある単位割付ノードを調べると、エ
ンベディングノードbの直下には1ページ目左カラムの
見出しフレームノードが、エンベディングノードeの直
下には1ページ目左カラムのブロックノードと右カラム
の最初のブロックノードが、エンベディングノードfの
直下には1ページ目右カラムの2番目のブロックノード
が、エンベディングノードgの直下には2ページ目左カ
ラムの見出しフレームノードが、エンベディングノード
jの直下には2ページ目左カラムのブロックノードがそ
れぞれ対応している。これらのノードを全て並べると、
1ページ目左カラムの見出しフレームノード、左カラム
のブロックノード、右カラムの最初のブロックノード、
右カラムの次のブロックノード、2ページ目左カラムの
見出しフレームノード、ブロックノードの順に並べられ
る。この列の4番目のノード、すなわち、1ページ目の
右カラムの次のブロックノードが、モールドノードFに
対応する。
【0075】図32、図39に示した例では、あるスト
リーム属性を有するモールドノードの列と、同じストリ
ーム属性を有するエンベディングノードの直下にある単
位割付ノードの列から、対応するモールドノードと単位
割付ノードがわかる。例えば、図32において、英語段
落ノード、英語ブロックノードにはストリーム属性とし
て‘E’が、日本語段落ノード、日本語ブロックノード
にはストリーム属性として‘J’が指定されているとす
る。モールドノードBは、ストリーム属性‘E’を有し
ている。モールドノードBを含むストリームは、モール
ドノードA,B,Eであり、モールドノードBはこの列
の2番目である。ストリーム属性‘E’を有するエンベ
ディングノードのストリームは、エンベディングノード
b,dである。エンベディングノードbの直下の単位割
付ノードは1ページ目左カラムの最初の英語ブロックノ
ードであり、エンベディングノードdの直下の単位割付
ノードは1ページ目左カラムの2番目の英語ブロックノ
ードと2ページ目左カラムの英語ブロックノードであ
る。これらの単位割付ノードの列の2番目は1ページ目
左カラムの2番目の英語ブロックノードであるから、こ
のノードがモールドノードBと対応することがわかる。
図39に示した脚注を有する例においても同様である。
【0076】上述のようなエンベディングノード及びモ
ールドノードを導入した文書の記述方法の一例について
説明する。ここでは、SGMLにならって、タグを用い
る例を示す。もちろん、例えば、字下げによって表現し
たり、ODAのようにidによって表現するなど、他の
方法を用いても構わない。以下に説明する記述方法によ
り、エンベディングノードとモールドノードを導入した
文書を、エンベディング記述の入れ子によって容易に表
すことができる。
【0077】あるエンベディングノードが与えられたと
き、それに直接または間接に従属する論理ノード・割付
ノード・末端ノード・モールドノード・エンベディング
ノードのうち、次レベルのエンベディングノードを介さ
ずに従属しているものを考える。これらのノードについ
て、論理ノードの開始タグ,終了タグ、割付ノードの開
始タグ,終了タグ、対応する下位のエンベディング記
述、モールドノードのタグを、後述する条件を満たすよ
うに並べ、与えられたエンベディングノードの開始タグ
と終了タグを先頭と末尾にそれぞれ加えることにより、
エンベディング記述が得られる。
【0078】タグと末端ノードを並べるときの条件を次
に示す。 (1)下位のエンベディング記述内に現れるものを除け
ば、論理ノードの開始タグ,終了タグ、末端ノード(文
字等)、エンベディングノードの開始タグ,終了タグ
は、論理構造を深さ優先で走査した順で現れる。 (2)下位のエンベディング記述内に現れるものを除け
ば、割付ノードの開始タグ,終了タグ、末端ノード(文
字等)、モールドノードのタグは、割付構造を深さ優先
で走査した順で現れる。 (3)下位のエンベディング記述はそのまま部分列とし
て現れる。 (4)エンベディング記述の後ろ(可能ならば直後)
に、対応するモールドノードの記述子が現れる。
【0079】まず、論理根ノードに対応するエンベディ
ングノードaに関するエンベディング記述を説明する。
図25は、図2に示した文書の一例における論理根ノー
ドに対するエンベディング記述の一例の説明図である。
最初に現れる“<embedding>”と最後に現れ
る“<\embedding>”が、それぞれ、エンベ
ディングノードの開始タグと終了タグである。“<(l
og)”と“>”で示した開始タグ及び“<(log)
\”と“>”で示した終了タグは、論理ノードの開始タ
グ、終了タグを示し、“<(lay)”と“>”で示し
た開始タグ及び“<(lay)”と“>”で示した終了
タグは、割付ノードの開始タグ、終了タグを示してい
る。“<mold>”は、モールドノードを表すタグで
ある。その他のタグの説明は省略する。次レベルのエン
ベディング記述に関しては、まだ展開されていない。
【0080】図26は、図2に示した文書の一例におけ
る見出しノードに対応するエンベディングノードb,g
に関するエンベディング記述の一例の説明図、図27
は、同じく章番号ノードに対応するエンベディングノー
ドc,hに関するエンベディング記述の一例の説明図、
図28は、同じく見出しテキストノードに対応するエン
ベディングノードd,iに関するエンベディング記述の
一例の説明図、図29は、段落ノードに対応するエンベ
ディングノードe,f,gに関するエンベディング記述
の一例の説明図である。それぞれのエンベディング記述
は、図25と同様、最初に現れる開始タグ“<embe
dding>”と最後に現れる終了タグ“<\embe
dding>”により示されている。
【0081】図30、図31は、図2に示した文書の一
例における文書全体のエンベディング記述の一例の説明
図である。図30と図31は、この順で連続している。
図25に示した論理根ノードに対応するエンベディング
記述中の下位のエンベディング記述を図26乃至図29
に示したエンベディング記述により展開し、全体を1つ
にまとめた記述を図30、図31に示している。
【0082】どのエンベディング記述においても、論理
ノードの開始タグ,終了タグと末端ノード(文字等)の
記述子だけを見れば、論理構造の一部が処理可能形式で
表現されている。また、割付ノードの開始タグ,終了タ
グと末端ノード(文字等)の記述子についても、下位の
エンベディング記述内に現れるものを除いて見れば、割
付構造の一部が書式付き形式で表現されている。
【0083】この文書例では、エンベディングノードの
終了を表すタグの直後に、対応するモールドノードを表
すタグが表れている。ただし、エンベディングノードe
は、2つの単位割付ノードを持つので、もう1個のモー
ルドノードが後ろで現れている。
【0084】図33は、図7に示した複数ストリーム文
書の一例における論理根ノードに対するエンベディング
記述の一例の説明図である。“<mold strea
m=E>”は、ストリーム属性が‘E’のモールドノー
ドを表わし、“<moldstream=J>”は、ス
トリーム属性が‘J’のモールドノードを表わす。その
ほかは図25の場合と同様である。
【0085】図34は、図7に示した複数ストリーム文
書の一例における1番目の英語段落ノードに対応するエ
ンベディングノードbに関するエンベディング記述の一
例の説明図、図35は、同じく1番目の日本語段落ノー
ドに対応するエンベディングノードcに関するエンベデ
ィング記述の一例の説明図、図36は、同じく2番目の
英語段落ノードに対応するエンベディングノードdに関
するエンベディング記述の一例の説明図、図37は、同
じく2番目の日本語段落ノードに対応するエンベディン
グノードeに関するエンベディング記述の一例の説明図
である。各エンベディング記述の開始タグにストリーム
属性が記述されている。例えば、1番目の英語段落ノー
ドに対応するエンベディングノードbに関するエンベデ
ィング記述の開始タグは、“<embedding s
tream=E>”と記述され、ストリーム属性が
‘E’であるエンベディングノードであることを表わし
ている。その他のエンベディング記述についても同様で
あり、“<embeddingstream=J>”
は、ストリーム属性が‘J’であるエンベディングノー
ドを表わしている。
【0086】図38は、図7に示した複数ストリーム文
書の一例における文書全体のエンベディング記述の一例
の説明図である。図33に示した論理根ノードに対応す
るエンベディング記述中の下位のエンベディング記述を
図34乃至図37に示したエンベディング記述により展
開し、全体を1つにまとめた記述を図38に示してい
る。
【0087】図25乃至図31に示したエンベディング
記述の場合と同様に、どのエンベディング記述において
も、論理ノードの開始タグ,終了タグと末端ノード(文
字等)の記述子だけを見れば、論理構造の一部が処理可
能形式で表現されている。また、割付ノードの開始タ
グ,終了タグと末端ノード(文字等)の記述子について
も、下位のエンベディング記述内に現れるものを除いて
見れば、割付構造の一部が処理可能形式で表現されてい
る。
【0088】ただし、この複数ストリーム文書の例で
は、複数のストリームを持つため、エンベディング記述
の直後に、対応するモールドノードが現れるとは限らな
い。例えば、“[1番目の日本語段落ノードに対応する
エンベディング記述]”の直後には、対応するモールド
ノードではなく、“[2番目の英語段落ノードに対応す
るエンベディング記述]”が現われている。対応するモ
ールドノードはずっと後になって現れる。また、エンベ
ディングノードが2つの単位割付ノードを持つときは、
2番目のモールドノードは後になって現れる。しかし、
モールドノードのタグが現れるのは、必ず対応するエン
ベディング記述の後である。
【0089】図40は、図12に示した脚注付き文書の
一例における論理根ノードに対するエンベディング記述
の一例の説明図である。“<mold stream=
P>”は、ストリーム属性が‘P’のモールドノードを
表わし、“<mold stream=F>”は、スト
リーム属性が‘F’のモールドノードを表わす。その他
のタグについては、上述の例と同様である。
【0090】図41は、図12に示した脚注付き文書の
一例における1番目の段落ノードに対応するエンベディ
ングノードbに関するエンベディング記述の一例の説明
図、図42は、同じく1番目の脚注ノードに対応するエ
ンベディングノードcに関するエンベディング記述の一
例の説明図、図43は、同じく2番目の段落ノードに対
応するエンベディングノードdに関するエンベディング
記述の一例の説明図、図44は、同じく2番目の脚注段
落ノードに対応するエンベディングノードeに関するエ
ンベディング記述の一例の説明図である。各エンベディ
ング記述の開始タグにストリーム属性が記述されてい
る。例えば、1番目の英語段落ノードに対応するエンベ
ディングノードbに関するエンベディング記述の開始タ
グは、“<embedding stream=P>”
と記述され、ストリーム属性が‘P’であるエンベディ
ングノードであることを表わしている。その他のエンベ
ディング記述についても同様であり、“<embedd
ing stream=F>”は、ストリーム属性が
‘F’、すなわち、脚注ノードであるエンベディングノ
ードを表わしている。
【0091】図45は、図12に示した脚注付き文書の
一例における文書全体のエンベディング記述の一例の説
明図である。図40に示した論理根ノードに対応するエ
ンベディング記述中の下位のエンベディング記述を図4
1乃至図44に示したエンベディング記述により展開
し、全体を1つにまとめた記述を図45に示している。
【0092】上述の2つの文書の例と同様に、どのエン
ベディング記述においても、論理ノードの開始タグ,終
了タグと末端ノード(文字等)の記述子だけを見れば、
論理構造の一部が処理可能形式で表現されている。ま
た、割付ノードの開始タグ,終了タグと末端ノード(文
字等)の記述子についても、下位のエンベディング記述
内に現れるものを除いて見れば、割付構造の一部が書式
付き形式で表現されている。
【0093】次に、図1の文書処理部2において行なわ
れる各種の処理について説明する。まず、論理構造抽出
部3において行なわれる論理構造の抽出処理を説明す
る。ここでは、抽出した論理構造を出力ファイルに書き
出すものとする。また、文書保持部1は、例えば、記憶
装置に記憶されている入力ファイルとする。入力ファイ
ル内の文書の形式は、例えば、上述した開始タグ、終了
タグを用いて表現されているものとする。
【0094】図46は、論理構造抽出部3の動作の一例
を示すフローチャートである。まず、S11において、
入力ファイルの最後か否かを判断する。もし、入力ファ
イルの最後であれば、処理を終了する。入力ファイルの
最後でない場合には、S12へ進む。S12では、入力
ファイルから要素(タグまたは末端ノード)を1個読み
込む。S13において、読み込んだ要素が論理ノードの
開始タグ,終了タグまたは末端ノードか否かを判定す
る。もし、要素が論理ノードの開始タグ,終了タグ、末
端ノードであれば、S14において、この要素を出力フ
ァイルに書き出して、S11へ戻る。要素が、それ以外
であれば、そのまま、S11へ戻る。
【0095】このようにして、入力ファイル内の論理ノ
ードの開始タグ,終了タグ、末端ノードのみが出力ファ
イルに書き出されることになる。出力ファイルに書き出
された要素の列は、処理可能形式の文書構造を示してい
る。そのため、この出力ファイルを用いて、文書の再利
用等、処理可能形式の文書に対する種々の文書処理を行
なうことができる。また、処理可能形式の文書を扱うこ
とのできる他の文書エディタの入力として用いることも
可能となる。
【0096】割付構造抽出部4において行なわれる割付
構造の抽出処理について説明する。図47、図48は、
割付構造抽出部4の動作の一例を示すフローチャートで
ある。この割付構造の抽出処理においても、抽出した割
付構造を出力ファイルに書き出すものとし、また、文書
保持部1は、例えば、記憶装置に記憶されている入力フ
ァイルであるものとする。入力ファイル内の文書の形式
は、例えば、上述した開始タグ、終了タグを用いて表現
されているものとする。
【0097】まず、S21において、入力ファイルか
ら、先頭の要素を読み込む。次に、S22において、図
48に示す抽出処理を呼び出す。抽出された割付構造の
記述子は、出力用キューに格納されている。S23にお
いて、出力用キューに格納されているる割付構造の記述
子を出力ファイルに書き出す。
【0098】S22において行なわれる抽出処理は、下
位のエンベディング記述が現れるたびに再帰的に呼び出
される処理である。図48に示した抽出処理が行なわれ
るたびに、作業用のキューと結果出力用のキューが確保
される。作業用のキューはエンベディングノードにおけ
るストリームの個数分だけ確保される。結果出力用のキ
ューは1個だけ確保される。
【0099】図48のS31において、入力ファイルか
ら先頭の要素を読み込む。S32において、読み込んだ
要素がエンベディングノードの終了タグか否かを判定
し、エンベディングノードの終了タグであれば、呼び出
し元へ戻る。エンベディングノードの終了タグでなけれ
ば、S33において、エンベディングノードの開始タグ
か否かを判定する。エンベディングノードの開始タグの
場合には、S34において、開始タグのストリーム属性
から、それに対応する作業用キューを決め、S35にお
いて、この抽出処理を再帰的に呼び出す。S36におい
て、抽出処理から戻った際に出力用キューに格納されて
いるタグ及び末端ノードをすべて取り出し、S34で決
めた作業用キューに保管する。そして、S31へ戻る。
【0100】S33において、エンベディングノードの
開始タグでないと判断された場合には、S37に進む。
S37では、S31で読み込まれた要素が末端ノードま
たは割付ノードの開始タグ,終了タグか否かを判定す
る。もし、要素が末端ノード、割付ノードの開始タグ,
終了タグであれば、S38において、この要素を出力用
キューに書き出し、S31へ戻る。要素が末端ノード、
割付ノードの開始タグ,終了タグでなければ、S39に
おいて、要素がモールドノードの記述子か否かを判定す
る。要素がモールドノードでなければ、S31へ戻る。
要素がモールドノードであれば、S40において、この
モールドノードのストリーム属性から、それに対応する
作業用キューを決める。そして、S41において、この
作業用キューから、要素を部分割付構造1個分、すなわ
ち、割付構造のうち1個の単位割付ノードを頂点とする
部分を取り出し、出力用キューに書き出す。そして、ス
テップS31へ戻る。
【0101】このような処理により、論理構造と割付構
造において、例えば、末端ノードが現れる順番が違う場
合であっても、ストリーム属性ごとの作業用キューから
モールドノードが現れるたびに出力用キューに書き出さ
れるので、複数のストリームに対応して、末端ノードは
割付構造の順に並べられ、出力ファイルに出力される。
この出力ファイルは、割付構造を有する書式付き形式の
文書である。例えば、出力処理などにより、表示画面や
記録媒体に記録することが可能である。このとき、さら
にページ記述言語等に変換し、記録装置によって記録す
ることができる。また、書式付き形式の文書を扱う他の
文書エディタなどの入力として用いることもできる。
【0102】エンベディング抽出部5において行なわれ
るエンベディング記述の抽出処理について説明する。図
49は、エンベディング抽出部5の動作の一例を示すフ
ローチャートである。このエンベディング記述の抽出処
理においても、抽出したエンベディング記述を出力ファ
イルに書き出すものとし、また、文書保持部1は、例え
ば、記憶装置に記憶されている入力ファイルであるもの
とする。入力ファイル内の文書の形式は、例えば、上述
した開始タグ、終了タグを用いて表現されているものと
する。
【0103】まず、S51において、入力ファイルの最
後か否かを判定する。もし、入力ファイルの最後であれ
ば、処理を終了する。入力ファイルの最後でなければ、
S52において、入力ファイルから要素を1個読み込
む。S53において、読み込んだ要素が与えられた条件
を満たすエンベディング記述の開始タグか否かを判定す
る。条件を満たすエンベディング記述の開始タグでなけ
れば、S51へ戻る。
【0104】条件を満たすエンベディング記述の開始タ
グであれば、S54乃至S56において、エンベディン
グ記述の部分を出力ファイルに書き出す。すなわち、S
54において、現在の要素を出力ファイルに書き出す。
S55において、要素がエンベディング記述の対応する
終了タグか否かを判定する。エンベディング記述の対応
する終了タグでない場合には、S56において、入力フ
ァイルから要素を1個読み込む。そして、S54へ戻
り、読み込んだ要素を出力ファイルに書き出す。S55
において、エンベディング記述の対応する終了タグが見
つかったときには、当該エンベディング記述の出力ファ
イルへの書き出しを終了してS51へ戻り、次の与えら
れた条件を満たすエンベディング記述の検索を行なう。
【0105】このようにして抽出されたエンベディング
記述は、与えられた条件を満たす単位論理ノードと単位
割付ノード以下の部分構造を得ることができる。例え
ば、見出しノードを頂点とする部分論理構造と見出しフ
レームノードを頂点とする部分割付構造を抜き出すこと
が簡単にできる。これを用いて、例えば、文書の一部を
抜き出して、他の文書に用いるなど、文書を再利用して
編集する等の処理が可能となる。このとき、抽出された
部分構造は、論理構造とともに割付構造も有しているの
で、新たにレイアウトしなおすなどの手間は不要とな
る。
【0106】
【発明の効果】以上の説明から明らかなように、本発明
によれば、論理構造と割付構造の両方を同時に表現し、
単位論理ノードと単位割付ノードの対応を明示すること
ができ、複数のストリームからなる文書も表現すること
ができるので、多様な文書に対する処理を可能とするこ
とができる。また、論理構造側と割付構造側とで、末端
ノードの表現が重複しないので、メモリ容量を減少させ
ることができる。
【0107】処理を行なう際には、論理構造及び割付構
造を深さ優先で走査することが簡単にできる。このと
き、文書すべてをメモリに読み込む必要はないので、メ
モリ管理は必要としない。さらに、エンベディング記述
の抽出を行なうことにより、文書から、強い対応関係に
ある部分論理構造と部分割付構造を抜き出すことが簡単
にできるという効果がある。
【図面の簡単な説明】
【図1】 本発明の文書処理装置の一実施例を示すブロ
ック図である。
【図2】 文書の一例の説明図である。
【図3】 文書の一例における論理構造の説明図であ
る。
【図4】 文書の一例における割付構造の説明図であ
る。
【図5】 文書の一例における論理構造と割付構造の関
係の説明図である。
【図6】 文書の一例における単位論理ノードと単位割
付ノードの関係の説明図である。
【図7】 複数ストリーム文書の一例の説明図である。
【図8】 複数ストリーム文書の一例における論理構造
の説明図である。
【図9】 複数ストリーム文書の一例における割付構造
の説明図である。
【図10】 複数ストリーム文書の一例における論理構
造と割付構造の関係の説明図である。
【図11】 複数ストリーム文書の一例における単位論
理ノードと単位割付ノードの関係の説明図である。
【図12】 脚注付き文書の一例の説明図である。
【図13】 脚注付き文書の一例における論理構造の説
明図である。
【図14】 脚注付き文書の一例における割付構造の説
明図である。
【図15】 脚注付き文書の一例における論理構造と割
付構造の関係の説明図である。
【図16】 脚注付き文書の一例における単位論理ノー
ドと単位割付ノードの関係の説明図である。
【図17】 処理可能形式の文書のファイルフォーマッ
トの一例の説明図である。
【図18】 書式付き形式の文書のファイルフォーマッ
トの一例の説明図である。
【図19】 書式付き処理可能形式の文書のファイルフ
ォーマットの一例における論理ノードの例の説明図であ
る。
【図20】 書式付き処理可能形式の文書のファイルフ
ォーマットの一例における割付ノードの例の説明図であ
る。
【図21】 書式付き処理可能形式の文書のファイルフ
ォーマットの一例における末端ノードの例の説明図であ
る。
【図22】 書式付き処理可能形式の文書のファイルフ
ォーマットの別の例の説明図である。
【図23】 書式付き処理可能形式の文書のファイルフ
ォーマットの別の例の続きを示す説明図である。
【図24】 文書の一例におけるエンベディングノード
およびモールドノードを導入した論理構造と割付構造の
関係の説明図である。
【図25】 文書の一例における論理根ノードに対する
エンベディング記述の一例の説明図である。
【図26】 文書の一例における見出しノードに対応す
るエンベディングノードb,gに関するエンベディング
記述の一例の説明図である。
【図27】 文書の一例における章番号ノードに対応す
るエンベディングノードc,hに関するエンベディング
記述の一例の説明図である。
【図28】 文書の一例における見出しテキストノード
に対応するエンベディングノードd,iに関するエンベ
ディング記述の一例の説明図である。
【図29】 文書の一例における段落ノードに対応する
エンベディングノードe,f,gに関するエンベディン
グ記述の一例の説明図である。
【図30】 文書の一例における文書全体のエンベディ
ング記述の一例の説明図である。
【図31】 文書の一例における文書全体のエンベディ
ング記述の一例の続きを示す説明図である。
【図32】 複数ストリーム文書の一例におけるエンベ
ディングノードおよびモールドノードを導入した論理構
造と割付構造の関係の説明図である。
【図33】 複数ストリーム文書の一例における論理根
ノードに対するエンベディング記述の一例の説明図であ
る。
【図34】 複数ストリーム文書の一例における1番目
の英語段落ノードに対応するエンベディングノードbに
関するエンベディング記述の一例の説明図である。
【図35】 複数ストリーム文書の一例における1番目
の日本語段落ノードに対応するエンベディングノードc
に関するエンベディング記述の一例の説明図である。
【図36】 複数ストリーム文書の一例における2番目
の英語段落ノードに対応するエンベディングノードdに
関するエンベディング記述の一例の説明図である。
【図37】 複数ストリーム文書の一例における2番目
の日本語段落ノードに対応するエンベディングノードe
に関するエンベディング記述の一例の説明図である。
【図38】 複数ストリーム文書の一例における文書全
体のエンベディング記述の一例の説明図である。
【図39】 脚注付き文書の一例におけるエンベディン
グノードおよびモールドノードを導入した論理構造と割
付構造の関係の説明図である。
【図40】 脚注付き文書の一例における論理根ノード
に対するエンベディング記述の一例の説明図である。
【図41】 脚注付き文書の一例における1番目の段落
ノードに対応するエンベディングノードbに関するエン
ベディング記述の一例の説明図である。
【図42】 脚注付き文書の一例における1番目の脚注
ノードに対応するエンベディングノードcに関するエン
ベディング記述の一例の説明図である。
【図43】 脚注付き文書の一例における2番目の段落
ノードに対応するエンベディングノードdに関するエン
ベディング記述の一例の説明図である。
【図44】 脚注付き文書の一例における2番目の脚注
段落ノードに対応するエンベディングノードeに関する
エンベディング記述の一例の説明図である。
【図45】 脚注付き文書の一例における文書全体のエ
ンベディング記述の一例の説明図である。
【図46】 論理構造の抽出処理の動作の一例を示すフ
ローチャートである。
【図47】 割付構造の抽出処理の動作の一例を示すフ
ローチャートである。
【図48】 割付構造の抽出処理の一部動作の一例を示
すフローチャートである。
【図49】 エンベディング記述の抽出処理の動作の一
例を示すフローチャートである。
【符号の説明】 1 文書保持部、2 文書処理部、3 論理構造抽出
部、4 割付構造抽出部、5 エンベディング抽出部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 構造化文書の処理を行なう文書処理装置
    において、論理構造及び割付構造を有するとともに、単
    位論理ノードとその直上の論理ノードとの間に挿入され
    単位論理ノードと単位割付ノードとの対応関係を表わす
    エンベディングノードと、単位割付ノードの代わりに設
    けられるモールドノードを用いて関係付けられた文書を
    保持する文書保持手段と、該文書記憶手段に保持されて
    いる文書中の部分論理構造を対応する部分割付構造とと
    もに処理可能な文書処理手段を有することを特徴とする
    文書処理装置。
  2. 【請求項2】 前記文書処理手段は、前記文書保持手段
    に保持されている文書の論理構造を抽出する論理構造抽
    出処理手段を備えていることを特徴とする請求項1に記
    載の文書処理装置。
  3. 【請求項3】 前記文書処理手段は、前記文書保持手段
    に保持されている文書の割付構造を抽出する割付構造抽
    出手段を備えていることを特徴とする請求項1に記載の
    文書処理装置。
  4. 【請求項4】 前記文書処理手段は、前記文書保持手段
    に保持されている文書から、指定された条件を満たすエ
    ンベディングノードに従属する部分論理構造、部分割付
    構造を抽出するエンベディング抽出手段を備えているこ
    とを特徴とする請求項1に記載の文書処理装置。
JP5240400A 1993-08-31 1993-08-31 文書処理装置 Pending JPH0765002A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5240400A JPH0765002A (ja) 1993-08-31 1993-08-31 文書処理装置
US08/297,742 US5694609A (en) 1993-08-31 1994-08-30 Document processing apparatus for processing a structured document using embedding nodes and mold nodes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5240400A JPH0765002A (ja) 1993-08-31 1993-08-31 文書処理装置

Publications (1)

Publication Number Publication Date
JPH0765002A true JPH0765002A (ja) 1995-03-10

Family

ID=17058915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5240400A Pending JPH0765002A (ja) 1993-08-31 1993-08-31 文書処理装置

Country Status (2)

Country Link
US (1) US5694609A (ja)
JP (1) JPH0765002A (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
JPH10143403A (ja) * 1996-11-12 1998-05-29 Fujitsu Ltd 情報管理装置および情報管理プログラム記憶媒体
US6298357B1 (en) * 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
US7079712B1 (en) * 1999-05-25 2006-07-18 Silverbrook Research Pty Ltd Method and system for providing information in a document
JP3659471B2 (ja) * 1999-06-03 2005-06-15 富士通株式会社 印刷物作成方法ならびにそのための印刷物作成装置およびコンピュ−タ読み取り可能な記録媒体
JP3754253B2 (ja) * 1999-11-19 2006-03-08 株式会社東芝 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
US20010014899A1 (en) * 2000-02-04 2001-08-16 Yasuyuki Fujikawa Structural documentation system
JP4136634B2 (ja) * 2002-12-10 2008-08-20 キヤノン株式会社 文書処理装置及び方法
JP4267336B2 (ja) * 2003-01-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造パターン候補を生成する方法、システムおよびプログラム
US7325191B2 (en) * 2003-12-08 2008-01-29 Microsoft Corporation Preservation of source code formatting
JP4998237B2 (ja) * 2007-12-06 2012-08-15 富士通株式会社 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
US8281235B1 (en) * 2008-04-16 2012-10-02 Adobe Systems Incorporated Transformation of structured files
US8892994B2 (en) * 2011-03-18 2014-11-18 Google Inc. System, method, and architecture for displaying a document
US8700986B1 (en) 2011-03-18 2014-04-15 Google Inc. System and method for displaying a document containing footnotes
US8943399B1 (en) 2011-03-18 2015-01-27 Google Inc. System and method for maintaining position information for positioned elements in a document, invoking objects to lay out the elements, and displaying the document
US8510266B1 (en) 2011-03-03 2013-08-13 Google Inc. System and method for providing online data management services
CA2772747C (en) * 2011-03-31 2015-10-27 Accenture Global Services Limited Form layout method and system
US20130031460A1 (en) * 2011-07-29 2013-01-31 Konica Minolta Laboratory U.S.A., Inc. Using a common input/output format to generate a page of an electronic document
US9529785B2 (en) 2012-11-27 2016-12-27 Google Inc. Detecting relationships between edits and acting on a subset of edits
US9971752B2 (en) 2013-08-19 2018-05-15 Google Llc Systems and methods for resolving privileged edits within suggested edits
US9348803B2 (en) 2013-10-22 2016-05-24 Google Inc. Systems and methods for providing just-in-time preview of suggestion resolutions

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5182709A (en) * 1986-03-31 1993-01-26 Wang Laboratories, Inc. System for parsing multidimensional and multidirectional text into encoded units and storing each encoded unit as a separate data structure
FR2637995B1 (ja) * 1988-10-19 1990-11-23 Thomson Grand Public
JP2855797B2 (ja) * 1990-06-15 1999-02-10 富士ゼロックス株式会社 文書処理装置
JP2745794B2 (ja) * 1990-08-24 1998-04-28 富士ゼロックス株式会社 文書処理装置
US5434962A (en) * 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
FR2679353B1 (fr) * 1991-07-17 1997-01-03 Bull Sa Procede de mise en page de documents structures.
JP3489119B2 (ja) * 1991-08-09 2004-01-19 富士ゼロックス株式会社 文書処理装置
US5355492A (en) * 1991-11-05 1994-10-11 Thinking Machines Corporation System for compiling parallel communications instructions including their embedded data transfer information
US5381523A (en) * 1992-04-06 1995-01-10 Fuji Xerox Co., Ltd. Document processing device using partial layout templates
US5499329A (en) * 1992-04-30 1996-03-12 Ricoh Company, Ltd. Method and system to handle context of interpretation in a document processing language
US5438512A (en) * 1993-10-22 1995-08-01 Xerox Corporation Method and apparatus for specifying layout processing of structured documents

Also Published As

Publication number Publication date
US5694609A (en) 1997-12-02

Similar Documents

Publication Publication Date Title
JPH0765002A (ja) 文書処理装置
JPH08241332A (ja) 全文登録語検索装置および方法
US20030034989A1 (en) Application editing apparatus and data processing method and program
EP0525427A2 (en) Non-text object storage and retrieval
CN110705503B (zh) 生成目录结构化信息的方法和装置
US6678409B1 (en) Parameterized word segmentation of unsegmented text
JP2005056039A (ja) 情報処理システムおよび方法、プログラム、並びに記録媒体
JP2003288334A (ja) 文書処理装置及び文書処理方法
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
US7027071B2 (en) Selecting elements from an electronic document
US20120246560A1 (en) Method and system of identifying textual passages that affect document length
JP2005056041A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
Bagley et al. Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements
JPWO2009087999A1 (ja) 目次構造特定装置
CN112433995A (zh) 文件格式转换方法、***、计算机设备及存储介质
JPH10222510A (ja) 文書変換方法
JP3076348B2 (ja) 文書整形装置及び文書整形方法
JP2005056042A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JPH05101053A (ja) 構造化文書編集方法
JPH03127169A (ja) マルチメディア文書構造化方式
JP4783401B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2005056043A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP4256841B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム
JPS61195455A (ja) 文書作成装置