JP4065546B2 - 文書処理装置及びその方法 - Google Patents

文書処理装置及びその方法 Download PDF

Info

Publication number
JP4065546B2
JP4065546B2 JP2004300279A JP2004300279A JP4065546B2 JP 4065546 B2 JP4065546 B2 JP 4065546B2 JP 2004300279 A JP2004300279 A JP 2004300279A JP 2004300279 A JP2004300279 A JP 2004300279A JP 4065546 B2 JP4065546 B2 JP 4065546B2
Authority
JP
Japan
Prior art keywords
data
structured
document
structured document
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004300279A
Other languages
English (en)
Other versions
JP2006113803A (ja
Inventor
晋吾 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004300279A priority Critical patent/JP4065546B2/ja
Priority to US11/250,656 priority patent/US7661063B2/en
Publication of JP2006113803A publication Critical patent/JP2006113803A/ja
Application granted granted Critical
Publication of JP4065546B2 publication Critical patent/JP4065546B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本発明は、複数の構造化文書に含まれる各コンテンツを配置した文書データを作成する文書処理装置及びその方法に関するものである。
ドキュメントに使用される画像やテキストなどを個別のレイアウトを構成するコンテンツデータとして捕らえ、それら個々のコンテンツデータを集め、レイアウトして、配布可能な文書データ或は印刷可能な文書データにすることが考えられる。その場合、必要となる様々な処理、例えばデータの収集処理やレイアウト処理等が密に結合された1つのアプリケーションとして作成されていた。そのようなドキュメントのレイアウトを決定する際には、各データの実体を使用して、人間が手作業でレイアウトを決めるか、或は、それらデータを決まった形のレイアウト形式で出力するテンプレートの作成を手作業で行い、それを利用して処理していた。
また、ディジタルイメージの集まりを、ページ上の余白の量を最小にするように各イメージを拡大して位置決めする技術が知られていた(特許文献1参照)。
特開平11−250272号公報
このようにデータの収集処理や、レイアウト処理等の様々な処理が密に結合された1つのアプリケーションとして作成すると、それらの処理を分離できない。従って、その一部の機能を機器に組み込むことや、小容量のリソースしか持たない機器への組み込み等には対応できなかった。また元々レイアウト情報が含まれていない状態でレイアウト処理を行うには、人間の手が介在しなければ実現できなかった。そのため、レイアウトの作成に際して非常に手間がかかり、人的コストの増大の一因となっていた。
またレイアウトに関して、コンテンツデータを決まった形のレイアウト形式に出力できるテンプレートを作成し、そのテンプレートを使用して、レイアウトさせて出力させることも考えられる。しかしその場合でも、そのテンプレートに応じた何種類かの決まったパターンでしかレイアウトできないため、入力される様々なコンテンツデータのサイズなどに対応して、動的にレイアウトを変更して所望の結果を得ることは困難であった。
本発明は上記問題点に鑑みてなされたもので、本願発明の特徴は、画像やテキストなどのコンテンツを記述した複数の構造化文書を集約しレイアウトした構造化文書を生成し、それをレンダリングしたデータを作成できる文書処理装置とその方法を提供することにある。
本発明の一態様に係る文書処理装置は以下のような構成を備える。即ち、
複数の第1構造化文書及び複数の第1データを入力し、当該複数の第1データのそれぞれに基づいて当該複数の第1構造化文書のそれぞれに含まれるコンテンツ及び矩形サイズ情報を抽出し、第2構造化文書及び第2データに基づいて、それぞれが当該複数の第1構造化文書のそれぞれに対応する複数の第構造化文書を生成する構造化文書生成手段と、
前記複数の第構造化文書を1つの第構造化文書に統合する統合手段と、
前記第構造化文書に含まれる複数の矩形サイズ情報に基づいて、複数の矩形を所定領域内にレイアウトするレイアウト手段と、
前記レイアウトされた複数の矩形のそれぞれに、対応するコンテンツを可視化するレンダリング手段とを有し、
前記複数の第1データのそれぞれは、前記複数の第1構造化文書のそれぞれから抽出すべきコンテンツ及び矩形サイズ情報が配置された当該複数の第1構造化文書における位置を示し、
前記第2データは、前記複数の第1構造化文書のそれぞれから抽出されたコンテンツ及び矩形サイズ情報を挿入すべき前記第2構造化文書における位置を示し、
前記構造化文書生成手段は、前記複数の第1構造化文書のそれぞれから抽出したコンテンツ及び矩形サイズ情報を、前記第2データが示す前記第2構造化文書における位置に挿入して、前記複数の第3構造化文書のそれぞれを生成し、
前記複数の矩形サイズ情報のそれぞれは、前記第4構造化文書に含まれる複数のコンテンツのそれぞれに対応する矩形のサイズを示すことを特徴とする。
本発明の一態様に係る文書処理方法は以下のような工程を備える。即ち、
構造化文書を処理する文書処理装置の文書処理方法であって、
前記文書処理装置の構造化文書生成手段が、複数の第1構造化文書及び複数の第1データを入力し、当該複数の第1データのそれぞれに基づいて当該複数の第1構造化文書のそれぞれに含まれるコンテンツ及び矩形サイズ情報を抽出し、第2構造化文書及び第2データに基づいて、それぞれが当該複数の第1構造化文書のそれぞれに対応する複数の第構造化文書を生成する構造化文書生成工程と、
前記文書処理装置の統合手段が、前記複数の第構造化文書を1つの第構造化文書に統合する統合工程と、
前記文書処理装置のレイアウト手段が、前記第構造化文書に含まれる複数の矩形サイズ情報に基づいて、複数の矩形を所定領域内にレイアウトするレイアウト工程と、
前記文書処理装置のレンダリング手段が、前記レイアウトされた複数の矩形のそれぞれに、対応するコンテンツを可視化するレンダリング工程とを有し、
前記複数の第1データのそれぞれは、前記複数の第1構造化文書のそれぞれから抽出すべきコンテンツ及び矩形サイズ情報が配置された当該複数の第1構造化文書における位置を示し、
前記第2データは、前記複数の第1構造化文書のそれぞれから抽出されたコンテンツ及び矩形サイズ情報を挿入すべき前記第2構造化文書における位置を示し、
前記構造化文書生成工程では、前記構造化文書生成手段が、前記複数の第1構造化文書のそれぞれから抽出したコンテンツ及び矩形サイズ情報を、前記第2データが示す前記第2構造化文書における位置に挿入して、前記複数の第3構造化文書のそれぞれを生成し、
前記複数のエリア情報のそれぞれは、前記第4構造化文書に含まれる複数のコンテンツのそれぞれに対応する矩形のサイズを示すことを特徴とする。
本発明によれば、画像やテキストなどのコンテンツを記述した複数の構造化文書を集約しレイアウトした構造化文書を生成し、印刷や配布可能なデータに展開できる。
以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。本実施の形態では、それぞれ異なる構造を有し、異なるコンテンツを含む複数の構造化文書が入力されると、それらをデータ統合処理が行える構造化文書にそれぞれ置き換え、それらをレイアウト処理及びレンダリング処理が扱える一つの構造化文書に統合する。そして,その構造化文書に対してレイアウト処理を実行して、各コンテンツの配置を決定する配置情報を決定する。その配置情報に基づいて実際にコンテンツを配置し、アプリケーションが扱うことができるファイルデータに変換して出力する。また、その配置情報に基づくレイアウトで不具合が発生する場合には、再度レイアウト処理を実行させて、より最適なレイアウトを決定できることを特徴としている。
図1は、本発明の実施の形態に係る画像処理装置の機能構成を説明するブロック図である。
図において、101は、この画像処理装置内部の各処理機能部を示している。XMLデータ102〜104は、コンテンツデータであるテキストや画像へのパス等を記述した構造化文書で、「inputA.xml」,「inputB.xml」,「inputC.xml」は、それぞれ構造が異なるXMLデータである。InfomationData-A105〜InfomationData-C107は、各XMLデータに付随するXMLデータのデータ配置情報を記述したデータ(Data-A、Data-B、Data-C)である。XMLデータ102〜104のそれぞれと、各対応するInfomationDataとをまとめてXMLデータ109と呼ぶ。
このXMLデータ109は、それぞれ入力部108に入力されて処理が開始される。データ交換処理部110は、各XMLデータ109を受け取って、その入力されたXMLデータ109を解析する。この際、InfomationDataを利用して必要なデータを抜き出して、次段の処理で解釈できるXMLデータ構造に落とし込み、XMLデータ111(LayoutA.xml,LayoutB.xml,LayoutC.xml)としてデータ統合処理部112に供給する。データ統合処理部112は、複数のXMLデータ111を次段の処理で解釈できる1つのXMLデータ構造に統合し、XMLデータ113(Layout.xml)としてレイアウト処理部114に供給する。
レイアウト処理部114は、その受け取ったXMLデータ113から必要な矩形情報を抽出し、ある領域内に矩形をランダムに配置し、最適化アルゴリズム手法を用いて最適なレイアウト結果が得られる処理を行う。そしてその結果を、XMLデータ115(LayoutResult.xml)に記述してレンダリング処理部116に供給する。レンダリング処理部116は、その受け取ったXMLデータ115から必要な情報(テキストや画像へのパス等)を抽出し、画像等へのパスから、画像の実体データを実体データ格納領域117から取得する。そして、これらデータをレイアウト処理部114で決められた配置にそれぞれ描画する。そしてその結果をアプリケーションデータ(PDF、SVG、XHTML等)118として生成する。このアプリケーションデータ118は出力部119に供給され、出力部119は、最終的にでき上がったアプリケーションデータ120を出力する。
次に、図1の機能ブロック図における各処理部の処理の詳細を説明する。
図2は、本実施の形態に係るデータ交換処理部110における処理内容を説明する図であり、図3はInfomationDataの具体例と、このInfomationDataとXMLデータとの関係を示した図である。以下、これら図2及び図3を参照して、データ交換処理部110の処理内容を説明する。尚、図2及び図3では、XMLデータ「inputA.xml」102とInfomationData-A105を処理する場合を示しているが、他のXMLデータ103,104及びInfomationData-B, -C106,107に関しても同様に処理される。
図2において、XMLデータ102とInfomationData-A105は、入力部108から受け取るXMLデータ(図1の109に相当)を示している。InfomationData(Data-A)105は、XMLデータ102でこの後の処理で必要なデータ情報はどのタグで扱うかを示している。またXMLデータ(Ori-LayoutA.xml)204は、XMLデータ(inputA.xml)102の基本レイアウトを規定するXMLフォーマットデータの基になるXMLデータ(雛型)を示し、このXMLデータ204のフォーマットに従ってXMLデータ102のレイアウトを示すXMLデータ216が作成される。InfomationData-OriA205は、このXMLデータ(Ori-LayoutA.xml)204のInfomationDataである。
図3は、本実施の形態に係るInfomationData-A105の具体例とXMLデータ102との関係の一例を示す図である。
InfomationData-A105において、1項が「矩形サイズ横」、2項が「矩形サイズ縦」、3項が「画像情報」、そして4項が「テキスト情報」というように4つの項目に分けられている。XPATH209は、InfomationData-A105のそれぞれ関連する項目データが、XMLデータ102のどこのタグの位置で扱っているかを示している。
例えば、1項の「矩形サイズ横」が「inputA/block/width」となっており、これによりXMLデータ(inputA.xml)102のタグ「block」内の要素「width」に関連していることがわかる。これによって、XMLデータ102からデータを抽出したい場合はその場所から抽出し、XMLデータ102にデータを挿入したい場合は、その場所にデータを挿入できるようになる。
XMLデータ102,204のそれぞれは、対応する構造解析処理210,211によって、その構造が解析される。即ち、構造解析処理は、XMLデータの構造をルートのタグから順に読み取っていき、タグ名、タグに囲まれた値、タグに付随する属性名、属性の値、タグの親子関係、兄弟関係等を判断し、それらのデータをテーブルデータとして保持する。
またInfomationData-A105,InfomationData-OriA205のそれぞれは、InfomationData解析処理212,213によって解析される。ここでは、前述のXPATH209に基づいて、データを抽出する場所、データを挿入する場所を取得する。InfomationData比較処理214は、XMLデータ(inputA.xml)102から抽出したデータを、XMLデータ(LayoutA.xml)204のどの位置に挿入するかを、それぞれ対応するInfomationData-A105,InfomationData-OriA205を解析した結果に基づいて判断する。こうしてXMLデータの構造解析処理結果とInfomationData解析処理に基づく交換処理215により、XMLデータ102(inputA.xml)に含まれる必要なデータをXMLデータ204(Ori-LayoutA.xml)に取り込むことにより、必要なデータが挿入されたXMLデータ216(LayoutA.xml)を作成して出力する。このような処理を、入力部108に入力されたXMLデータ102〜104のそれぞれに対して実行する。
図4は、本実施の形態に係るデータ統合処理部112において、XMLデータを統合する具体例を説明する図である。
図において、301〜303は、データ交換処理部110によって、XMLデータ(inputA.xml, inputB.xml, inputC.xml)に含まれる必要なデータだけでまとめられたXMLデータ(LayoutA.xml,LayoutB.xm,LayoutC.xml)を示す。データ統合処理304は、これらXMLデータ301〜303を入力し、DOM或はSAXを利用したプログラミング、或はXSLTを使用することで、XMLデータ301〜303のそれぞれの範囲305〜307の構造を、後段のレイアウト処理部114が解釈できる構造をもつXMLデータ308(Layout.xml)に、<objectlist>として挿入することにより作成する。
このXMLデータ308において、309〜311のそれぞれは、各XMLデータ301〜303に対応するLayoutA,LayoutB,LayoutCのそれぞれの内容305〜307を記述している。ここで312はLayoutAに含まれる305の矩形サイズ横「128」に、313はLayoutAに含まれる305の矩形サイズ縦「64」に、314はLayoutAに含まれる305のテキスト情報「aaaaa」に、そして315はLayoutAに含まれる305の画像情報「photoA.jpg」にそれぞれ対応している。このようにして複数のXMLデータを1つのXMLデータに統合したXMLデータ(Layout.xml)が作成される。
図5は、本実施の形態に係るレイアウト処理部114における処理内容を説明する図であり、図6は、レイアウト処理部114の処理内容を具体的に説明する図である。以下、これら図5及び図6を参照して処理内容を説明する。
図5において、データ統合処理112から出力されたXMLデータ(Layout.xml)113は、データ統合処理部112によって1つにまとめられたXMLデータである。構造化文書処理部403は、そのXMLデータ113を読み込み、矩形のサイズ情報を抽出する。レイアウト準備処理部404は、構造化文書処理部403で抽出された矩形のサイズ情報に基づいて、XMLデータ113に含まれる複数の矩形のレイアウトを決定するための処理を行う。
図6は、この実施の形態に係るレイアウト準備処理部404及び最適化アルゴリズムによるレイアウト処理部407における処理の具体例を説明する図である。
図6において、406は、構造化文書処理部403で抽出した矩形サイズ情報に基づいて、矩形(a)〜(e)で示すように、ある領域内に各矩形をランダムに配置し状態を示している。408は、レイアウト処理部407での最適化アルゴリズムによるレイアウト処理により、矩形(a)〜(e)をそれぞれ、拡大、縮小、左右上下に移動させて、中央に寄せる処理を行った状態を示している。こうして矩形同士が隙間なく中央に寄り、ある領域内からはみ出すことがない最適レイアウトを導き出す。ここで使用する最適化アルゴリズムには、例えば、SimulatedAnnelineg法や遺伝的アルゴリズムなどがある。
尚、図6では、中央寄せの場合を示しているが、設定された条件により、中央寄せだけでなく、中央を空けて、ある領域内の周りに配置する、或は左上から順に並べていくなど、様々なレイアウト方針を決めて、それに従ったレイアウト処理が可能である。
構造化文書処理部409は、最適化アルゴリズムによるレイアウト処理部407により得られた最適なレイアウトを入力し、それをXMLデータ(LayoutResult.xml)115に整形して出力する。
図7は、本実施の形態に係るレンダリング処理部116における処理内容を説明する図である。
また図8は、このレンダリング処理部116の処理内容を具体的に示した図であり、更に図9は、矩形内のコンテンツのレンダリング処理の具体的な例を示した図である。これら図7〜9を参照して、本実施の形態に係るレンダリング処理部116の処理内容を説明する。
図7において、レイアウト処理部114から出力されたXMLデータ115は、レイアウト結果が記載されたXMLデータ(LayoutResult.xml)を示している。レンダリング処理部116では、構造化文書処理部503が、その入力されたXMLデータ115を読み込み、それに記述されているレイアウト情報や、実際にレンダリングするコンテンツデータであるテキストや画像データへのパス等を読み取る。実体データ取得部504は、そのパスを利用して、画像データが格納されている実体データ格納領域117から画像データを取得するとともに、レンダリングさせるためのデータを全て取得する。レンダリング処理部506は、こうして取得した実体データに基づいてレンダリング処理を行う。
図8は、このレンダリング処理部116によるレンダリング処理の具体例を示す図である。
ここではレイアウト処理部114で得られたレイアウト結果408から、508で示すように、矩形(a)〜(e)のそれぞれに、それぞれ対応する画像とテキストが収まるように、画像の拡大、縮小、テキストはフォントサイズなどを大きく、或は小さくすることで、順番に当て嵌めていく。特に図8のB510では、図9に示す手順に従ってレンダリングを行っている。
図9は、本実施の形態に係るレンダリング処理部116による処理の一例を説明する図である。
512は、矩形(b)内に画像Bとテキストとを嵌め込もうとしたとき、テキストの文字数が多いため、矩形(b)の下側にテキストが食み出した状態を示している。513は、テキストのフォントサイズを最小フォントサイズにして当て嵌めた場合を示し、この場合でもテキストが矩形(b)に入りきらずに下側から食み出している。そして514は、更に画像Bを縮小し、矩形(b)内にテキストが描画できるエリアを広げ、再度、513と同様に最小のフォントサイズでテキストを展開した状態を示している。この例では、この54の状態で、矩形(b)内に画像Bとテキストとがきれいに収まっている。これにより、この矩形(b)に関するレンダリングが完了する。
このようにレイアウトされた各矩形内で、画像とテキストがバランスよく配置されて描画されるようにレンダリングする。こうして最終的にレンダリングしたデータを、ファイル生成処理部515(図7)において、アプリケーションデータ120に整形して出力する。このアプリケーションデータ120の具体的な例としては、PDF,XHTML,SVG等が挙げられる。
以上説明したように本実施の形態によれば、複数の構造化文書を入力し、それら構造化文書に含まれるコンテンツを所望のレイアウトで配置させたアプリケーションデータを生成することができる。
尚、前述の実施の形態では、レイアウト処理部114によりレイアウトした結果、その結果が意図したものでなければ、図1の処理全体の始めからではなく、このレイアウト処理部114において、再度レイアウト処理を何度も実行させて、所望のレイアウトが得られるようにしても良い。
また上述の実施の形態のレンダリング処理では、画像とテキストの組み合わせのレンダリングの例で説明したが本発明はこれに限定されるものでなく、画像だけ、或はテキストだけのように、各コンテンツデータが単体の場合でも同様に実行できることはもちろんである。
以上説明したように本実施の形態によれば、コンテンツデータの集約から自動的にレイアウトさせて出力させる処理の流れにおいて、細分化させた形で処理を独立化させることにより、途中でコンテンツデータ自身が変更されても、レイアウトをするという処理においては、影響しない。また、コンテンツデータからダイナミックに最適化されたレイアウトが決まるため、レイアウト作成時に人的作業が発生せず、コスト削減につながる。さらに、様々な目的で作成される構造化文書を従来のドキュメント系のソリューション、例えば、新聞紙面などのスクラップ処理などへ適用させることが可能になる。
[他の実施の形態]
本発明の目的は前述したように、実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フロッピィ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM,CD−R、磁気テープ、不揮発性のメモリカー また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータで稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書きこまれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含む。
本発明の実施の形態に係る画像処理装置の機能構成を説明するブロック図である。 本実施の形態に係るデータ交換処理部における処理内容を説明する図である。 本実施の形態に係るInfomationData-Aの具体例とXMLデータとの関係の一例を示す図である。 本実施の形態に係るデータ統合処理部において、XMLデータを統合する具体例を説明する図である。 本実施の形態に係るレイアウト処理部における処理内容を説明する図である。 本実施の形態に係るレイアウト準備処理部及び最適化アルゴリズムによるレイアウト処理部における処理の具体例を説明する図である。 本実施の形態に係るレンダリング処理部における処理内容を説明する図である。 本実施の形態に係るレンダリング処理部によるレンダリング処理の具体例を示す図である。 本実施の形態に係るレンダリング処理部による処理の一例を説明する図である。

Claims (5)

  1. 複数の第1構造化文書及び複数の第1データを入力し、当該複数の第1データのそれぞれに基づいて当該複数の第1構造化文書のそれぞれに含まれるコンテンツ及び矩形サイズ情報を抽出し、第2構造化文書及び第2データに基づいて、それぞれが当該複数の第1構造化文書のそれぞれに対応する複数の第構造化文書を生成する構造化文書生成手段と、
    前記複数の第構造化文書を1つの第構造化文書に統合する統合手段と、
    前記第構造化文書に含まれる複数の矩形サイズ情報に基づいて、複数の矩形を所定領域内にレイアウトするレイアウト手段と、
    前記レイアウトされた複数の矩形のそれぞれに、対応するコンテンツを可視化するレンダリング手段とを有し、
    前記複数の第1データのそれぞれは、前記複数の第1構造化文書のそれぞれから抽出すべきコンテンツ及び矩形サイズ情報が配置された当該複数の第1構造化文書における位置を示し、
    前記第2データは、前記複数の第1構造化文書のそれぞれから抽出されたコンテンツ及び矩形サイズ情報を挿入すべき前記第2構造化文書における位置を示し、
    前記構造化文書生成手段は、前記複数の第1構造化文書のそれぞれから抽出したコンテンツ及び矩形サイズ情報を、前記第2データが示す前記第2構造化文書における位置に挿入して、前記複数の第3構造化文書のそれぞれを生成し、
    前記複数の矩形サイズ情報のそれぞれは、前記第4構造化文書に含まれる複数のコンテンツのそれぞれに対応する矩形のサイズを示すことを特徴とする文書処理装置。
  2. 前記複数の第1構造化文書のそれぞれはXMLデータを、前記複数の第1データのそれぞれは当該XMLデータへのXPATHを規定する情報を含み、
    前記構造化文書生成手段は、前記情報に基づいて前記複数の第1構造化文書のそれぞれに含まれるコンテンツ及び矩形サイズ情報を抽出することを特徴とする請求項1に記載の文書処理装置。
  3. 構造化文書を処理する文書処理装置の文書処理方法であって、
    前記文書処理装置の構造化文書生成手段が、複数の第1構造化文書及び複数の第1データを入力し、当該複数の第1データのそれぞれに基づいて当該複数の第1構造化文書のそれぞれに含まれるコンテンツ及び矩形サイズ情報を抽出し、第2構造化文書及び第2データに基づいて、それぞれが当該複数の第1構造化文書のそれぞれに対応する複数の第構造化文書を生成する構造化文書生成工程と、
    前記文書処理装置の統合手段が、前記複数の第構造化文書を1つの第構造化文書に統合する統合工程と、
    前記文書処理装置のレイアウト手段が、前記第構造化文書に含まれる複数の矩形サイズ情報に基づいて、複数の矩形を所定領域内にレイアウトするレイアウト工程と、
    前記文書処理装置のレンダリング手段が、前記レイアウトされた複数の矩形のそれぞれに、対応するコンテンツを可視化するレンダリング工程とを有し、
    前記複数の第1データのそれぞれは、前記複数の第1構造化文書のそれぞれから抽出すべきコンテンツ及び矩形サイズ情報が配置された当該複数の第1構造化文書における位置を示し、
    前記第2データは、前記複数の第1構造化文書のそれぞれから抽出されたコンテンツ及び矩形サイズ情報を挿入すべき前記第2構造化文書における位置を示し、
    前記構造化文書生成工程では、前記構造化文書生成手段が、前記複数の第1構造化文書のそれぞれから抽出したコンテンツ及び矩形サイズ情報を、前記第2データが示す前記第2構造化文書における位置に挿入して、前記複数の第3構造化文書のそれぞれを生成し、
    前記複数のエリア情報のそれぞれは、前記第4構造化文書に含まれる複数のコンテンツのそれぞれに対応する矩形のサイズを示すことを特徴とする文書処理方法。
  4. 前記複数の第1構造化文書のそれぞれはXMLデータを、前記複数の第1データのそれぞれは当該XMLデータへのXPATHを規定する情報を含み、
    前記構造化文書生成工程では、前記情報に基づいて前記複数の第1構造化文書のそれぞれに含まれるコンテンツ及びサイズ情報を抽出することを特徴とする請求項に記載の文書処理方法。
  5. コンピュータを、請求項1又は2に記載の文書処理装置として機能させるためのプログラム。
JP2004300279A 2004-10-14 2004-10-14 文書処理装置及びその方法 Expired - Fee Related JP4065546B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004300279A JP4065546B2 (ja) 2004-10-14 2004-10-14 文書処理装置及びその方法
US11/250,656 US7661063B2 (en) 2004-10-14 2005-10-13 Document processing apparatus and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004300279A JP4065546B2 (ja) 2004-10-14 2004-10-14 文書処理装置及びその方法

Publications (2)

Publication Number Publication Date
JP2006113803A JP2006113803A (ja) 2006-04-27
JP4065546B2 true JP4065546B2 (ja) 2008-03-26

Family

ID=36182245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004300279A Expired - Fee Related JP4065546B2 (ja) 2004-10-14 2004-10-14 文書処理装置及びその方法

Country Status (2)

Country Link
US (1) US7661063B2 (ja)
JP (1) JP4065546B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204324A1 (de) 2017-03-31 2018-10-04 Asahi Kasei Microdevices Corporation Nichtflüchtiges Speicherelement und Referenzspannung-Erzeugungsschaltkreis

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8127221B2 (en) * 2008-02-29 2012-02-28 Microsoft Corporation Optimal sizes of objects in a document
JP5478936B2 (ja) * 2009-05-13 2014-04-23 キヤノン株式会社 情報処理装置、情報処理方法
US20150281210A1 (en) * 2014-03-31 2015-10-01 Bank Of America Corporation Password-protected application data file with decoy content
CN107533742B (zh) 2016-02-19 2020-08-28 株式会社三昧 档案组合创建***
JP6348162B2 (ja) * 2016-11-30 2018-06-27 株式会社サマデイ ポートフォリオ作成システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250272A (ja) * 1998-01-08 1999-09-17 Xerox Corp 自動イメ―ジレイアウト方法及びシステム
US7287018B2 (en) * 1999-01-29 2007-10-23 Canon Kabushiki Kaisha Browsing electronically-accessible resources
JP3946934B2 (ja) 1999-08-05 2007-07-18 株式会社東芝 ウェブページ部品統合処理装置、ウェブページ部品統合処理方法及びクライアント装置
US6829614B2 (en) * 1999-09-30 2004-12-07 Nec Corporation Scrambling method of the data files
US6721727B2 (en) * 1999-12-02 2004-04-13 International Business Machines Corporation XML documents stored as column data
JP3943830B2 (ja) 2000-12-18 2007-07-11 株式会社東芝 文書合成方法および文書合成装置
JP3842573B2 (ja) * 2001-03-30 2006-11-08 株式会社東芝 構造化文書検索方法、構造化文書管理装置及びプログラム
JP4039484B2 (ja) * 2002-02-28 2008-01-30 インターナショナル・ビジネス・マシーンズ・コーポレーション XPath評価方法、これを用いたXML文書処理システム及びプログラム
US7228496B2 (en) * 2002-07-09 2007-06-05 Kabushiki Kaisha Toshiba Document editing method, document editing system, server apparatus, and document editing program
US7290006B2 (en) * 2003-09-30 2007-10-30 Microsoft Corporation Document representation for scalable structure

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204324A1 (de) 2017-03-31 2018-10-04 Asahi Kasei Microdevices Corporation Nichtflüchtiges Speicherelement und Referenzspannung-Erzeugungsschaltkreis

Also Published As

Publication number Publication date
US7661063B2 (en) 2010-02-09
US20060085739A1 (en) 2006-04-20
JP2006113803A (ja) 2006-04-27

Similar Documents

Publication Publication Date Title
EP1810124B1 (en) Document managing system and method thereof
EP1538534A2 (en) Generation of a PPML template from a PDF document
US20050193334A1 (en) Layout system, layout apparatus, layout program, template selection program, storage medium having stored therein layout program, and storage medium having stored therein template selection program, as well as layout method
WO2007030695A1 (en) Methods and systems for providing direct style sheet editing
CN102165410A (zh) 打印结构化文档
US7661063B2 (en) Document processing apparatus and control method thereof
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
JP4566196B2 (ja) 文書処理方法および装置
JP4373470B2 (ja) 文書変換活用システム
JP2010282327A (ja) フォーマット変換システムおよびフォーマット変換方法並びにプログラム
JP2007172247A (ja) 情報処理装置及び情報処理方法及び情報処理プログラム
Hassan Object-level document analysis of PDF files
JP4627530B2 (ja) 文書処理方法および装置
JPH10222510A (ja) 文書変換方法
JPWO2006051974A1 (ja) 文書処理装置および文書処理方法
Héroux et al. Automatic ground-truth generation for document image analysis and understanding
JP2005063243A (ja) 情報処理装置、プログラム及びコンピュータ読み取り可能な記録媒体
US8386922B2 (en) Information processing apparatus and information processing method
JP2005149269A (ja) 構造化文書の処理システム
JP2001301265A (ja) 印刷書式設定方法及び印刷書式設定装置
JP2004145736A (ja) 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
Shao et al. Graphics recognition in PDF documents
Lin et al. Active document versioning: from layout understanding to adjustment
JP2008186090A (ja) データ生成装置、データ生成方法及びプログラム
JP5400344B2 (ja) ドキュメント変換装置、およびプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071005

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140111

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees