JP2005536783A - pdfドキュメントのセクション抽出ツール - Google Patents

pdfドキュメントのセクション抽出ツール Download PDF

Info

Publication number
JP2005536783A
JP2005536783A JP2003535099A JP2003535099A JP2005536783A JP 2005536783 A JP2005536783 A JP 2005536783A JP 2003535099 A JP2003535099 A JP 2003535099A JP 2003535099 A JP2003535099 A JP 2003535099A JP 2005536783 A JP2005536783 A JP 2005536783A
Authority
JP
Japan
Prior art keywords
user
page
region
extraction
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003535099A
Other languages
English (en)
Other versions
JP2005536783A5 (ja
Inventor
チャオ・フイ
サン・ヘンリー・ダブリュー・ジュニア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2005536783A publication Critical patent/JP2005536783A/ja
Publication of JP2005536783A5 publication Critical patent/JP2005536783A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Character Input (AREA)

Abstract

ポータブルドキュメントフォーマットファイル(「pdf」)からページのセクションを抽出する方法。本方法は、pdfファイルページ(200)上のユーザ定義領域(450a)の指示を受け取ること(310)、前記ユーザ定義領域内にあると決定されたすべての要素(451〜454)を含む抽出領域(450b)を指定すること(330)、前記抽出領域を新規ファイルに配置すること(340)、とを含む。本方法は、要素のバウンディングボックス(211、221、231、241)が前記元のpdfドキュメントおよび前記抽出領域における前記ユーザ定義領域(450a)内にあるか否か、またはこれと交差するか否かに基づく包含ルールをビットマップイメージに適用し、該2つのビットマップイメージをビット単位で比較することにより、前記pdfページ上の1つまたは複数の要素(210、220、230)が前記ユーザ定義領域(450a)内にあるか否かを決定すること(302)を含むこともできる。

Description

本発明は、包括的には電子データファイルに関する。特に、本発明は、ポータブルドキュメントフォーマットのドキュメントからのセクション抽出に関する。
電子ファイルは様々な技法を使用して作成することが可能である。そのため、様々なユーザに対してアクセス可能にすることができるように、電子ファイルの作成に使用されるプロセスから独立したフォーマットで電子ファイルからのデータを格納することが望ましいことがある。このようなアクセスが可能な一フォーマットがポータブルドキュメントフォーマットである。ポータブルドキュメントフォーマット(「pdf」)は、ドキュメントの作成に使用されたアプリケーションソフトウェア、ハードウェア、およびオペレーティングシステムから独立して、またそのファイルが表示またはプリントされる出力装置から独立してドキュメントを表すファイルフォーマットである。
PDFワークフローでは、PDFファイルが最終表現にレイアウトされた表現を含む、すなわち論理的な構造情報が保存されない一方向生成プロセスを前提としている。したがって、pdfフォーマットのドキュメントの格納に伴う一課題は、意味論的結合性を有する要素が1つの論理的な要素群として格納されないため、ドキュメントの部分を再使用することが難しいことである。元の編集可能なドキュメントを属性としてPDFファイルに格納することが可能であるが、いずれにしてもpdfドキュメント作成の元のプログラムを利用することができないことから、またはこれによってコンピュータウィルスへの脆弱性が持ち込まれることから、これは一般的に行われない。元の編集可能なドキュメントがない場合、別のドキュメントまたはファイルで使用するためにpdfドキュメントの一部を取り出すことは容易には実現されない。たとえば、ユーザがpdfドキュメントからのグラフまたはチャートをユーザが各自で作成したドキュメント中に挿入するのが望ましいか、あるいはそのグラフまたはチャートを使用してスライドプレゼンテーションを作成するのが望ましい場合がある。PDFの仕様では構造的な情報を含むことができるが、サイズの制約および/または作成プロセスによりこのような構造的な情報とともに作成されるpdfドキュメントはほとんどない。したがって、大半のpdfドキュメントは一般的に、ドキュメントの中味の共有または再利用に対応しておらず、一般的に、PDFからの一体オブジェクトとして章から図、イラスト、または段落を抽出することは不可能である。
pdfドキュメントの中味を再利用するのに利用できる技法がいくつかある。しかし、これらプロセスによっては複雑であり、多大なユーザとの対話を必要とするものもあれば、ディスプレイビットマップから選択されたドキュメント部分のラスタ表現を抽出し、その結果元のドキュメントのすべての構造および属性の情報、ならびに解像度が失われるものもあり、解像度は通常、画面解像度72dpiに制限される。
本発明の一実施形態の態様は、ポータブルドキュメントフォーマット(「pdf」)ドキュメントの一つのセクションを抽出する方法を提供することである。
一実施形態では、本方法は、pdfファイルページ上のユーザ定義領域の指示を受け取ること、pdfページ上の各要素がユーザ定義領域内にあるか否かを決定すること、ユーザ定義領域内にあると決定されたすべての要素を含む抽出領域を指定すること、および抽出領域を新規pdfファイルに配置することを含み得る。
当業者は、以下に列挙する図面を参照しながら以下の好ましい実施形態の詳細な説明を読むことで、本発明の各種実施形態のこれらおよび他の利点および恩恵を理解するであろう。
本発明の別の態様は、正確性について抽出された領域をチェックすることを含む。一実施形態では、抽出された領域および元のドキュメント中の領域の両方をビットマップイメージに変換し、ビット単位で比較することができる。
本発明を、同様の参照番号が同様の要素を示す添付図面において限定ではなく例として示す。
以下の詳細な説明では、本発明の完全な理解を提供するために多くの具体的な詳細が記される。しかし、当業者には明らかであるように、こういった具体的な詳細を本発明の実施に使用する必要はない。一方で、本発明を不必要に曖昧にしないように、既知の構造、インタフェース、およびプロセスについては詳細に示さなかった。
図1は、抽出ツールの一実施形態を示すブロック図である。抽出ツール100は、入力/出力モジュール110、セクション決定モジュール120、メモリモジュール130、ドキュメント作成モジュール140、検証モジュール150、および処理モジュール160を備えることができる。モジュール110〜160は、概念的な目的のためだけに抽出ツール100内に配置されて示されている。他の実施形態では、モジュール110〜160の1つまたは複数が抽出ツール100外に存在し、抽出ツール100が必要に応じて呼び出してもよい。
入力/出力モジュール110は、ポータブルドキュメントフォーマットファイルのセクションを抽出する命令等、ユーザからの命令を受け入れることができる。こういった命令としては、ユーザが新規pdfファイル等の新規ドキュメントに抽出したいpdfファイルのセクションを縁取るように枠または他の形状を描画することを含むことができる。入力/出力モジュール110は、たとえば、図3に関連して以下に述べるように、抽出の正確性に関するメッセージをユーザに提示するなど、抽出の実行に関する命令またはメッセージをユーザに提示することもできる。
セクション決定モジュール120は、pdfファイルのどの要素を新規ドキュメントに包含すべきかを決定することができる。たとえば、ユーザ定義領域に要素の一部が含まれる場合、セクション決定モジュール120は包含規則を適用して、その要素を新規ドキュメントに抽出する領域に含めるべきか否かを判定することができる。
メモリモジュール130は、イメージ情報、データ、命令、またはpdfファイルのセクションの抽出に使用可能な他のあらゆる情報の格納に使用することができる。たとえば、メモリは、ユーザ定義領域を格納するために使用することができるが、セクション決定モジュール120がどの要素を抽出領域に含めるかを判定することができる。
ドキュメント作成モジュール140は、セクション決定モジュール120によって決定された領域中の要素を新規ドキュメントに抽出することによって、新規ドキュメントを作成することができる。一実施形態では、新規ドキュメント作成モジュール140は、抽出領域中の要素を新規pdfファイルに抽出することができる。
検証モジュール150は、ドキュメント作成モジュール140によって作成された新規ドキュメントにおける抽出領域の正確性を検証することができる。一実施形態では、検証モジュール150は、図3に関連して以下に述べるように、元のドキュメントおよびドキュメント作成モジュール140によって作成された新規ドキュメントをビットマップイメージに変換して比較することができる。
処理モジュール160は、モジュール110、120、140、および150から受け取った命令を使用して図3に関連して以下に述べるプロセスを実行することができる。たとえば、処理モジュール160は、セクション決定モジュール120から受け取った包含規則に基づいて、ユーザ定義領域のサイズを増大することができる。包含規則の一例は、ユーザ定義領域に交差する要素はすべて完全に含めるというものである。
図2は、pdfドキュメントの構造の一例を示す。pdfドキュメント200は、テキスト要素(複数可)210、グラフィック要素(複数可)220、およびイメージ要素(複数可)230を含み得る。テキスト要素(複数可)210は、同じ属性を有するキャラクタが繋がったものであるテキストランからなる。テキストラン要素240はテキストランの表現である。グラフィック要素220は、一連の直線、矩形、および三次ベジェ曲線で構成される任意の形状である。イメージ要素230は、行または列でイメージ矢印(image arrow)をスキャンすることによって得られるピクセルシーケンスである。各要素210、220、230は、それぞれに対応するバウンディングボックス211、221、231内に存在することができる。
バウンディングボックスはドキュメント中のオブジェクトを取り巻く矩形であり、ページ上のオブジェクトを完全に囲む最小の矩形を指すことができる。各要素のバウンディングボックスの位置およびサイズは、たとえば、ADOBEのACROBAT(登録商標)ソフトウェア開発ツールキットアプリケーションプログラマインタフェースを通して得ることができ、ここでバウンディングボックスは、要素の包含を保証するが、必ずしも要素を含む最小の枠ではない。抽出結果の正確性を高めるために、要素を含む最小のバウンディングボックスになるようにバウンディングボックスを変更することができる。たとえば、矩形形状のグラフィック要素の場合、バウンディングボックスを矩形自体の輪郭になるように変更することが可能である。
バウンディングボックスは、ドキュメントの閲覧者には不可視である。例示的なpdfドキュメント200では、テキスト要素210はバウンディングボックス211内に存在し、各グラフィック要素220は関連するバウンディングボックス221内に存在し、230における各イメージ要素は関連するバウンディングボックス231内に存在する。図3は、ポータブルドキュメントフォーマット(「pdf」)ページのセクションを抽出する方法の例示的な一実施形態を示す流れ図である。図3に関して説明するプロセスは説明するステップをすべて必要とするわけではなく、ステップの順序は設計に応じて可変であることは理解されよう。
ステップ310において、実行ツール100は、抽出するpdfページのユーザ定義領域の指示を受け取る。一実施形態では、ユーザは、自分が関心のある領域の周囲に矩形または他の形状を描画して抽出領域を特定することができる。このような矩形または形状は選択マーキーと呼ばれる。一実施形態では、ユーザはオブジェクト認識ツールを使用して抽出領域を特定することができる。一実施形態では、ユーザはADOBEのACROBAT(登録商標)において提供されるグラフィック選択ツールを使用して、関心のある領域を描画することができる。次に、ユーザはメニューまたはツールバーから抽出ツール100のモジュール160の抽出処理アイコンをクリックすることができる。一実施形態では、オブジェクト認識ツールは入力/出力モジュール110の一部である。
ステップ320において、抽出ツール100は、元のpdfページのどの要素が、入力/出力モジュール110を通して受け取った、抽出するユーザ定義領域内にあるかを判定することができる。一実施形態では、セクション決定モジュール120が、元のpdfのどの要素が抽出するユーザ定義領域内にあるかを判定する。要素のバウンディングボックス211、221、231はユーザから見えず、実際の要素よりも大きい場合もあるため、ユーザが選択した関心のある領域に、要素のバウンディングボックスすべてが含まれていない場合がある。したがって、セクション決定モジュール120は包含(あるいは、除外)規則を適用して、関心のあるユーザ定義領域に基づいていずれの要素を抽出すべきかを判定することができる。
一実施形態では、包含規則は要素のタイプに基づくものであり得る。たとえば、グラフィック要素220またはイメージ要素230は、それぞれのバウンディングボックス221、231の全体がユーザ定義領域内にある場合にのみ抽出領域内にあると判定することができる。したがって、グラフィック要素220またはイメージ要素230のバウンディングボックス221、231がユーザ定義領域と交差するが、ユーザ定義領域内に完全には入っていない場合、そのグラフィック要素220またはイメージ要素230は抽出プロセスに含まれないことになる。
一実施形態では、テキスト要素210またはテキスト要素210の一部を、そのバウンディングボックス211のすべてまたは一部が関心のあるユーザ定義領域と交差する場合、抽出領域に含めることができる。一実施形態では、テキスト要素210のバウンディングボックス211がユーザ定義領域と交差する場合、セクション決定モジュール120は、テキスト要素210の下位要素またはテキストラン要素240がユーザ定義領域内にあるか否かを判定することができる。テキストラン要素のバウンディングボックス241が完全にユーザ定義領域内にある場合、またはテキストラン要素のバウンディングボックスのいずれかの部分がユーザ定義領域と交差する場合、関心のあるユーザ定義領域は、抽出領域中のテキストラン要素のバウンディングボックス全体を含むように拡張することができる。
テキストラン要素240のバウンディングボックスは時に、テキスト自体よりもはるかに大きいことがあるため、ユーザ定義領域にテキストラン要素240のバウンディングボックス全体が包含されない場合がある。したがって、関心のあるユーザ定義領域と交差するテキストラン要素240をいずれも包含することは、ユーザによって抽出すると選択された要素をすべて包含することに役立つ。
ステップ330において、抽出ツール100は抽出領域を指定することができる。決定ステップ320の終わりにおいて、抽出に含めると決定されたすべての要素を含めるように抽出領域を定義することができる。
ステップ340において、抽出ツール100は抽出領域を新規ファイルに配置することができる。一実施形態では、ドキュメント作成モジュール140は第2のpdfドキュメントを作成し、抽出された領域を第2のpdfに挿入することができる。別の実施形態では、ドキュメント作成モジュール140は、抽出領域をすでに存在する第2のpdf、またはデスクトップパブリッシングソフトウェアドキュメント(たとえばADOBEのFRAMEMAKER(登録商標)またはADOBEのINDESIGN(登録商標)ドキュメント等)に挿入してもよい。一実施形態では、ユーザが選択された領域の抽出を要求するときに、抽出領域を挿入し得るファイルを選択するようユーザに求めることができる。
ステップ350において、抽出ツール100は、元のファイル中のユーザ定義領域からの相違について第2のpdfドキュメントに抽出された領域をチェックすることができる。一実施形態では、検証モジュール150が、ステップ330において定義された元のドキュメント抽出領域を第1のビットマップイメージに、また第2のpdfドキュメントの抽出領域を第2のビットマップイメージに変換することによって、第2のpdfドキュメントの正確性を検証することができる。2つのビットマップを位置合わせした後、検証モジュール150は次に、第2のビットマップイメージを第1のビットマップイメージにビット単位で比較することができる。
2つのイメージの間に相違がある場合、抽出ツール100は、入力/出力モジュール110を通してメッセージをユーザに提示することによってその相違をユーザに通知することができる。たとえば、抽出ツール100は検証メッセージを第2のpdfドキュメントに添付して、第2のpdfドキュメントに配置された抽出イメージと元のpdfドキュメントにおいて定義された抽出領域との間に相違があることをユーザに知らせることができる。
図4は、抽出領域決定プロセスの一例を示すブロック図である。ドキュメント401は、グラフィックまたはイメージ要素452〜454およびテキスト要素451を含み得る。ユーザがユーザ定義領域450aを示した後、ユーザ定義領域がセクション決定モジュール420に入力される(410)。セクション決定モジュール420は、ドキュメント401のどの要素をユーザ定義領域内に包含すべきかを判定する。図示のように、テキストラン要素451はユーザ定義領域450aに交差するだけであるが、ユーザ定義領域450aは、抽出領域450bが指定される(330)とき、テキストラン要素451を包含するように拡張される。
記載したユーザ定義領域を抽出する方法では、ユーザがpdfドキュメント中の領域を選択し、またその領域を抽出するオプションを選択することが可能である。抽出ツール100は、ユーザからの対話をそれ以上必要としない。ツール100は、複雑なプロセスに頼る、または実行する必要なく、ユーザがpdfドキュメントの選択した中味を再使用できるようにする。
上記ステップ310〜350は、コンピュータプログラムにコンパイルすることができる。こういったコンピュータプログラムは、アクティブおよび非アクティブ両方の様々な形で存在してよい。たとえば、コンピュータプログラムは、ソースコード、オブジェクトコード、実行可能コード、または他のフォーマットのプログラム命令またはステートメントからなるソフトウェアとして存在してもよい。上記はいずれも、圧縮された形または圧縮されていない形で、記憶装置および信号を含むコンピュータ可読媒体で具現することができる。例示的なコンピュータ可読記憶装置としては、従来のコンピュータシステムRAM(ランダムアクセスメモリ)、ROM(読み取り専用メモリ)、EPROM(消去可能プログラム可能ROM)、EEPROM(電気的消去可能プログラム可能ROM)、および磁気または光学または磁気光学ディスクまたはテープが挙げられる。例示的なコンピュータ可読信号は、搬送波を使用して変調されているか否かに関わらず、コンピュータプログラムをホストまたは実行しているコンピュータシステムがアクセスするように構成可能な信号であり、インターネットまたは他のネットワークを通してダウンロードされる信号を含む。上記の具体例としては、CD ROMでの、またはインターネットでのダウンロードを介してのコンピュータプログラムの実行可能ソフトウェアプログラム(複数可)の配布が挙げられる。ある意味では、抽象エンティティとしてインターネット自体がコンピュータ可読媒体である。同じことがコンピュータネットワーク全体についても言える。
この発明を特定の実施形態と併せて説明したが、多くの代替、変更、および変形が当業者に明らかになるであろうことは明白である。こういった変更および他は、本発明の精神および範囲から逸脱することなく行うことが可能である。
抽出ツールの一実施形態を示すブロック図。 ポータブルドキュメントフォーマットのドキュメントの構造の一例を示す図。 ポータブルドキュメントフォーマットページのセクションを抽出する方法の例示的な一実施形態を示す流れ図。 抽出領域決定プロセスの一例を示すブロック図。

Claims (10)

  1. ポータブルドキュメントフォーマット(pdf)ファイルからページのセクションを抽出する方法であって、
    pdfファイルのページ上のユーザ定義領域の指示を受け取るステップと、
    前記pdfファイルのページ上の1つまたは複数の要素が前記ユーザ定義領域内にあるか否かを判定するステップと、
    前記ユーザ定義領域内にあると判定されたすべての要素を含む抽出領域を指定するステップと、
    前記抽出領域を新規ファイルに配置するステップと、
    を含むページのセクションを抽出する方法。
  2. 前記1つまたは複数の要素が前記ユーザ定義領域内にあるか否かを判定するステップは、要素タイプに基づいて抽出判定規則を各要素に適用することを含む、請求項1記載のページのセクションを抽出する方法。
  3. 前記要素タイプは、グラフィック要素、イメージ要素、およびテキスト要素のうちの少なくとも1つを含む、請求項2記載のページのセクションを抽出する方法。
  4. 前記抽出決定規則を適用することは、
    グラフィック要素のバウンディングボックスが前記ユーザ定義領域内にあるとき、前記グラフィック要素を前記抽出領域内に含めるステップと、
    イメージ要素のバウンディングボックスが前記ユーザ定義領域内にあるとき、前記イメージ要素を前記抽出領域内に含めるステップと、
    テキスト要素のバウンディングボックスが前記ユーザ定義領域内にあるとき、前記テキスト要素を前記抽出領域内に含めるステップと、
    前記テキスト要素の前記バウンディングボックスが前記ユーザ定義領域と交差するとき、前記テキスト要素の下位要素が前記ユーザ定義領域内にあるか否かを判定するステップと、
    前記下位要素のバウンディングボックスが前記ユーザ定義領域内にあるとき、前記テキスト要素の下位要素を含めるステップと、
    前記テキスト要素の前記下位要素の前記バウンディングボックスが前記ユーザ定義領域と交差するとき、前記テキスト要素の前記下位要素を含めるように前記ユーザ定義領域を拡張するステップと、
    を含む請求項3記載のページのセクションを抽出する方法。
  5. 前記新規ファイルにおける前記抽出されたユーザ定義領域の正確性を検証するステップをさらに含む請求項1記載のページのセクションを抽出する方法。
  6. 前記新規ファイルにおける前記抽出されたユーザ定義領域の正確性を検証するステップは、
    前記pdfファイルのページを第1のビットマップイメージに変換し前記新規ファイル中の前記抽出されたユーザ定義領域を第2のビットマップイメージに変換するステップと、
    前記第1のビットマップイメージを前記第2のビットマップイメージとビット単位で比較するステップであって、前記抽出物の正確性を確認する、前記比較するステップと、
    を含む請求項5記載のページのセクションを抽出する方法。
  7. 前記pdfファイルのページ上の前記ユーザ定義領域の指示を受け取るステップは、
    前記pdfファイルのページ上に描かれたユーザ定義領域の入力を受け取るステップ、および前記ユーザが前記pdfファイルのページ上に前記ユーザ定義領域を描画したのち、pdf画面上のボタンのユーザ選択を受け取るステップ、のうちの一方を含む、請求項1記載のページのセクションを抽出する方法。
  8. ポータブルドキュメントファイルのページのセクションを抽出する装置であって、
    プロセッサを備え、該プロセッサが、
    pdfファイルのページ上のユーザ定義領域の指示を受け取るステップと、
    前記pdfファイルのページ上の1つまたは複数の要素が前記ユーザ定義領域内にあるか否かを判定するステップと、
    前記ユーザ定義領域内にあると判定されたすべての要素を含む抽出領域を指定するステップと、
    前記抽出領域を新規ファイルに配置するステップと、
    を実施するように構成された装置。
  9. 実行可能な命令を含むコンピュータ可読媒体であって、プロセスシステム中に実行されるとき、システムに、
    pdfファイルのページ上のユーザ定義領域の指示を受け取るステップと、
    前記pdfファイルのページ上の1つまたは複数の要素が前記ユーザ定義領域内にあるか否かを判定するステップと、
    前記ユーザ定義領域内にあると判定されたすべての要素を含む抽出領域を指定するステップと、
    前記抽出領域を新規ファイルに配置するステップと、
    を含む方法を実施させる、実行可能な命令を含むコンピュータ可読媒体。
  10. 前記方法は、前記新規ファイルにおける前記抽出されたユーザ定義領域の正確性を検証するステップをさらに含む請求項9記載のコンピュータ可読媒体。
JP2003535099A 2001-10-09 2002-10-09 pdfドキュメントのセクション抽出ツール Pending JP2005536783A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/972,055 US6801673B2 (en) 2001-10-09 2001-10-09 Section extraction tool for PDF documents
PCT/US2002/032422 WO2003032202A2 (en) 2001-10-09 2002-10-09 Section extraction tool for pdf documents

Publications (2)

Publication Number Publication Date
JP2005536783A true JP2005536783A (ja) 2005-12-02
JP2005536783A5 JP2005536783A5 (ja) 2008-05-08

Family

ID=25519103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003535099A Pending JP2005536783A (ja) 2001-10-09 2002-10-09 pdfドキュメントのセクション抽出ツール

Country Status (7)

Country Link
US (1) US6801673B2 (ja)
EP (1) EP1435053B1 (ja)
JP (1) JP2005536783A (ja)
AU (1) AU2002335800A1 (ja)
DE (1) DE60219048T2 (ja)
TW (1) TWI237191B (ja)
WO (1) WO2003032202A2 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020837B1 (en) * 2000-11-29 2006-03-28 Todd Kueny Method for the efficient compression of graphic content in composite PDF files
US20030163785A1 (en) * 2002-02-28 2003-08-28 Hui Chao Composing unique document layout for document differentiation
US8904267B2 (en) * 2003-10-14 2014-12-02 International Business Machines Corporation Retrieving slide show content from presentation documents
US7386789B2 (en) * 2004-02-27 2008-06-10 Hewlett-Packard Development Company, L.P. Method for determining logical components of a document
WO2005103935A1 (en) * 2004-04-26 2005-11-03 Creo Inc. Systems and methods for comparing documents containing graphic elements
US20060112332A1 (en) * 2004-11-22 2006-05-25 Karl Kemp System and method for design checking
US7739587B2 (en) * 2006-06-12 2010-06-15 Xerox Corporation Methods and apparatuses for finding rectangles and application to segmentation of grid-shaped tables
JP2008009572A (ja) * 2006-06-27 2008-01-17 Fuji Xerox Co Ltd ドキュメント処理システム、ドキュメント処理方法及びプログラム
AU2007202141B2 (en) * 2007-05-14 2010-08-05 Canon Kabushiki Kaisha Threshold-based load balancing printing system
US8780381B2 (en) * 2008-02-07 2014-07-15 Konica Minolta Laboratory U.S.A., Inc. Methods for printing multiple files as one print job
US8161023B2 (en) * 2008-10-13 2012-04-17 Internatioanal Business Machines Corporation Inserting a PDF shared resource back into a PDF statement
US8443278B2 (en) 2009-01-02 2013-05-14 Apple Inc. Identification of tables in an unstructured document
JP5321109B2 (ja) * 2009-02-13 2013-10-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP4725657B2 (ja) * 2009-02-26 2011-07-13 ブラザー工業株式会社 画像合成出力プログラム、画像合成出力装置及び画像合成出力システム
US8294960B2 (en) * 2009-03-03 2012-10-23 Brother Kogyo Kabushiki Kaisha Image processing device and system, and computer readable medium therefor
JP4725658B2 (ja) 2009-03-03 2011-07-13 ブラザー工業株式会社 画像合成出力プログラム、画像合成出力装置及び画像合成出力システム
CN101901341B (zh) * 2009-05-25 2013-10-23 株式会社理光 从可移植电子文档中提取光栅图像的方法和设备
US8099397B2 (en) * 2009-08-26 2012-01-17 International Business Machines Corporation Apparatus, system, and method for improved portable document format (“PDF”) document archiving
CN102081594B (zh) * 2009-11-27 2014-02-05 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
JP4935891B2 (ja) * 2009-12-21 2012-05-23 ブラザー工業株式会社 画像合成装置及び画像合成プログラム
US8543911B2 (en) 2011-01-18 2013-09-24 Apple Inc. Ordering document content based on reading flow
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
JP5327246B2 (ja) * 2011-02-08 2013-10-30 ブラザー工業株式会社 画像処理プログラム
JP2012238953A (ja) * 2011-05-10 2012-12-06 Sharp Corp 画像形成システム、および、機能付加方法
CN102306294A (zh) * 2011-08-23 2012-01-04 深圳市万兴软件有限公司 一种从pdf格式文件页面中提取图像的方法及***
US20150142444A1 (en) * 2013-11-15 2015-05-21 International Business Machines Corporation Audio rendering order for text sources
CN105373562A (zh) * 2014-08-27 2016-03-02 北大方正集团有限公司 一种pdf文档注释的获取方法及装置
US10146763B2 (en) * 2016-01-29 2018-12-04 Bank Of America Corporation Renderable text extraction tool
US10445615B2 (en) 2017-05-24 2019-10-15 Wipro Limited Method and device for extracting images from portable document format (PDF) documents
CN117912017A (zh) * 2020-02-17 2024-04-19 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备
US11657078B2 (en) 2021-10-14 2023-05-23 Fmr Llc Automatic identification of document sections to generate a searchable data structure

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105137A (ja) * 1996-09-24 1998-04-24 Internatl Business Mach Corp <Ibm> グラフィック・イメージを複製しリフレッシュする方法及びシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896462A (en) * 1994-10-04 1999-04-20 Stern; Yonatan Method for storing and retrieving images in/from a database
JP3425834B2 (ja) 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
WO1997012328A1 (en) * 1995-09-25 1997-04-03 Adobe Systems Incorporated Optimum access to electronic documents
US5963669A (en) 1997-01-02 1999-10-05 Ncr Corporation Method of extracting relevant character information from gray scale image data for character recognition
US6044375A (en) 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
US6583890B1 (en) * 1998-06-30 2003-06-24 International Business Machines Corporation Method and apparatus for improving page description language (PDL) efficiency by recognition and removal of redundant constructs
US6708309B1 (en) * 1999-03-11 2004-03-16 Roxio, Inc. Method and system for viewing scalable documents
US6633890B1 (en) * 1999-09-03 2003-10-14 Timothy A. Laverty Method for washing of graphic image files
US6732102B1 (en) * 1999-11-18 2004-05-04 Instaknow.Com Inc. Automated data extraction and reformatting
US6654758B1 (en) * 2000-07-21 2003-11-25 Unisys Corporation Method for searching multiple file types on a CD ROM

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105137A (ja) * 1996-09-24 1998-04-24 Internatl Business Mach Corp <Ibm> グラフィック・イメージを複製しリフレッシュする方法及びシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUI CHAO, GIORDANO BERETTA, HENRY SANG: ""PDF Document Layout Study with Page Elements and Bounding Boxes"", WORKSHOP ON DOCUMENT LAYOUT INTERPRETATION AND ITS APPLICATIONS, JPN7008003586, 9 September 2001 (2001-09-09), ISSN: 0001028460 *

Also Published As

Publication number Publication date
EP1435053A2 (en) 2004-07-07
US6801673B2 (en) 2004-10-05
TWI237191B (en) 2005-08-01
EP1435053B1 (en) 2007-03-21
DE60219048D1 (de) 2007-05-03
WO2003032202A3 (en) 2003-11-06
DE60219048T2 (de) 2007-10-31
AU2002335800A1 (en) 2003-04-22
WO2003032202A2 (en) 2003-04-17
US20030068099A1 (en) 2003-04-10

Similar Documents

Publication Publication Date Title
US6801673B2 (en) Section extraction tool for PDF documents
US6802055B2 (en) Capturing graphics primitives associated with any display object rendered to a graphical user interface
RU2405204C2 (ru) Создание диаграмм с использованием фигур
US8484551B2 (en) Creating input fields in electronic documents
US8269791B2 (en) Information processing apparatus and method for processing a vector image composed of a plurality of objects described by structured document data
US7027071B2 (en) Selecting elements from an electronic document
JP2014063481A (ja) クラウドにより支援されるレンダリング
JP4542033B2 (ja) 文書コンテンツの複数のレンディションを提供するためのシステムおよび方法
US6964011B1 (en) Document type definition generating method and apparatus, and storage medium for storing program
JP2017507388A (ja) 文書及びオブジェクトの操作
US20030154462A1 (en) Software maintenance material generation apparatus and generation program therefor
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
US7272784B2 (en) Form processing method, form processing program, and form processing apparatus
JP2004145736A (ja) 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
US8473856B2 (en) Information processing apparatus, information processing method, and information processing program
CN112818642B (zh) 将pdf文件转换成表格文件的方法、装置及计算机设备及存储介质
CN110647352B (zh) 一种数据移植的方法、终端及存储介质
JP2000312290A (ja) データ処理方法及び装置及び記憶媒体
CN118259901A (en) Page display method, device and storage medium
CN114492372A (zh) 基于html的文档比对方法、控制装置、及计算机程序产品
KR100872851B1 (ko) Xml 기반의 사용자 인터페이스 개발 장치 및 방법
JP2007293547A (ja) 情報処理装置及び当該装置における情報処理方法
JPH08123811A (ja) 文書編集装置及び文書編集方法
JPH09146947A (ja) 文字領域の順序付け方法及び装置
JPH11224308A (ja) 文字認識装置及びその方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081014