JP2002073598A - 文書処理装置および方法 - Google Patents

文書処理装置および方法

Info

Publication number
JP2002073598A
JP2002073598A JP2000254053A JP2000254053A JP2002073598A JP 2002073598 A JP2002073598 A JP 2002073598A JP 2000254053 A JP2000254053 A JP 2000254053A JP 2000254053 A JP2000254053 A JP 2000254053A JP 2002073598 A JP2002073598 A JP 2002073598A
Authority
JP
Japan
Prior art keywords
document
content
document processing
image
digitized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000254053A
Other languages
English (en)
Inventor
Kazuyuki Saito
和之 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000254053A priority Critical patent/JP2002073598A/ja
Publication of JP2002073598A publication Critical patent/JP2002073598A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】電子化文書から、「テキスト」、「ピクチ
ャ」、「表」等のコンテンツ(部品)を取り出し、統合
的に扱うことや再利用することを可能にする。 【解決手段】電子化文書を処理する文書処理装置におい
て、電子化文書作成部103は画像データに対してレイ
アウト解析を行って所定の属性の領域に分割し、分割さ
れた領域毎のコンテンツを属性の指定によって抽出可能
に含む電子化文書104を生成する。コンテンツ検出部
109は電子化文書104中のコンテンツを検出し、コ
ンテンツ管理部110は、検出したコンテンツをその属
性を示す情報に基づいて登録・管理する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書処理装置技術
に関するものであり、特にコンピュータを中心として、
ネットワークにより接続されたデジタル機器間でデジタ
ル化された文書データによる情報のやり取りが行われる
際の文書データのハンドリングに関するものである。
【0002】
【従来の技術】従来、紙文書から電子化した電子化文書
とワードプロセッサや表計算アプリケーション等で作成
した電子文書を、統合的に処理する(1つの“文書”と
して、加工、検索、出力等の処理を行う)場合、1つの
アプリケーションをあらかじめ定めてから、紙文書を光
学的に読み取って文書画像として入力するか、その文書
画像からテキスト領域のみを文字認識した『テキスト』
を入力する等の方法が一般に知られている。
【0003】
【発明が解決しようとする課題】しかしながら、それら
の方法では、電子化文書あるいは電子文書から、「テキ
スト」、「ピクチャ」、「表」等のコンテンツ(部品)
を取り出し、統合的に扱うことや再利用することが出来
ないという問題がある。
【0004】本発明は、上述の課題に鑑みてなされたも
ので、その目的とするところは、電子化文書または電子
文書から、「テキスト」、「ピクチャ」、「表」等のコ
ンテンツ(部品)を取り出し、統合的に扱うことや再利
用することができる文書処理装置及び方法を提供するこ
とである。
【0005】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による文書処理装置は以下の構成を備える。
すなわち、電子化文書を処理する文書処理装置であっ
て、前記電子化文書中のコンテンツを検出するコンテン
ツ検出手段と、前記検出手段で検出したコンテンツをそ
の属性を示す情報に基づいて登録・管理する管理手段
と、前記管理手段で管理されているコンテンツを単位と
して、その内容を出力する出力手段とを備える。
【0006】また、上記の目的を達成するための本発明
の文書処理方法は、電子化文書を処理する文書処理方法
であって、前記電子化文書中のコンテンツを検出するコ
ンテンツ検出工程と、前記検出工程で検出したコンテン
ツをその属性を示す情報に基づいて登録・管理する管理
工程と、前記管理工程で管理されているコンテンツを単
位として、その内容を出力する出力工程とを備える。
【0007】
【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な実施形態を説明する。
【0008】[第1の実施形態]図1は、第1の実施形
態に係る文書ハンドリングシステムの構成を表すブロッ
ク図である。
【0009】図1において、101は紙文書または電子
文書であるドキュメント、102はスキャナ等の画像入
力部、103は入力画像から電子化文書を作成する電子
化文書作成部、104は電子化文書、105は電子文書
入力部、106は電子文書、107は電子文書が未知の
場合に画像に変換する画像変換部、108は画像変換部
で変換した画像、109は電子文書もしくは電子化文書
内のコンテンツを検出するコンテンツ検出部、110は
コンテンツを管理するコンテンツ管理部、111はコン
テンツ、112はコンテンツを再利用するコンテンツ再
利用部、そして、113はプリンタやディスプレイ等の
出力部である。
【0010】次に、上記図1に示された文書ハンドリン
グシステムの処理の流れについて図2、図3、図4、図
5および図6に従って説明する。
【0011】まず、ドキュメント101として入力する
対象が画像の場合、画像入力部102より文書画像を入
力する(ステップS201)。次に、電子化文書作成部
103において、入力した文書画像をもとに電子化文書
104を作成する(ステップS202)。
【0012】ここで、ステップS202における電子化
文書104の作成処理について説明する。図3は、電子
化文書の作成処理(ステップS202)の処理内容を説
明するフローチャートである。
【0013】本例では、ステップS301でレイアウト
解析処理を行い、入力された画像を、タイトル(「テキ
スト」)、本文(「テキスト」)、非テキスト系領域
(「ピクチャ」、「表」)等の属性毎に領域分割する。
次に、分割領域毎に属性を判断して以下の処理を行う
(ステップS302)。
【0014】分割領域が「テキスト」に対しては、部分
画像を抽出する(ステップS307)とともに、OCR
処理(文字認識処理)を行って(ステップS308)文
字コードの抽出を行う(ステップS309)。抽出した
データはXMLデータ化する(ステップS310)。
【0015】また、分割領域が「表」の場合は、部分画
像を抽出する(ステップS304)とともに、表解析処
理を行い(ステップS305)、表データの抽出を行う
(ステップS306)。抽出したデータはテキストの場
合と同様にXMLデータ化する(ステップS310)。
【0016】更に、分割領域が「ピクチャ」の場合は、
部分画像を抽出する(ステップS303)。そして、抽
出したデータは上記と同様にXMLデータ化する(ステ
ップS310)。
【0017】次に、図2に戻って、以上のようにして作
成したXML文書を電子化文書とし、「テキスト」、
「表」、「ピクチャ」等の属性毎にタグで分類して、コ
ンテンツ管理部110に登録し(ステップS203)、
コンテンツ111を管理する。本実施形態では、このコ
ンテンツの管理の方法は、抽出したコンテンツ(画像・
テキスト・表等)をファイル化して、それらのファイル
をネットワーク上の所定の位置に保存しておき、そのフ
ァイルのファイル名、属性、保存された位置等(更に
は、後述する第2,3の実施形態で作成する要約や翻訳
などのデータ等)を関連付けた情報を有する該XML文
書を用いて、このXML文書の属性を示すタグでコンテ
ンツを分類して管理する。
【0018】また、入力する対象が電子文書の場合、電
子文書入力部105より電子文書を入力する。本実施形
態においては、入力される電子文書がMarkup Language
文書(HTML、XML等)であれば、オリジナルの電
子文書106のまま入力を行う(図4、ステップS40
1)。
【0019】次に、入力された電子文書(すなわち、Ma
rkup Language文書(HTML、XML等))に対し
て、タグ解析処理ステップS402を行い、「テキス
ト」、「ピクチャ」、「表」等の属性に該当するタグに
分類し、それらの属性が、「テキスト」、「ピクチ
ャ」、「表」のいずれかを判断し(ステップS40
3)、そのタグのデータを「テキストコードデータ」、
「表データ」、「画像データ」としてそれぞれ検出する
(ステップS404、ステップS405、ステップS4
06、ステップS407)。そして、それぞれの属性に
該当するタグをコンテンツ管理部110に登録し(ステ
ップS408)、コンテンツを管理する。このコンテン
ツの管理の方法は、電子文書内に含まれる各コンテンツ
(テキスト、ピクチャ、表等)の属性を示すタグを用い
て、電子文書内に含まれる各コンテンツを分類して管理
する。
【0020】また、Markup Language文書以外の電子文
書(例えば、テキスト形式の文書や、所定のワープロソ
フト固有形式の文書など)であれば、未知の電子文書と
して入力し(ステップS501)、画像変換部107に
おいて該電子文書を画像に変換する画像変換処理(ステ
ップS502)を行い、変換した画像を改めて画像入力
部102より再入力し(ステップS503)、電子化文
書104を作成して(ステップS504(図3と同様の
処理))、コンテンツを登録する(ステップS50
5)。
【0021】そして、登録されたコンテンツは図6のよ
うに出力部113によって出力(本例では表示)され
る。出力の形態はもちろん表示に限られるものではな
く、印刷等であってもよい。また、以下の第2の実施形
態以降で説明するコンテンツの再利用においては、再利
用を行うアプリケーションに対する出力となる。図6
は、ドキュメントハンドリングシステムのアプリケーシ
ョンの一例で、登録されているコンテンツの一覧を表示
していることを示す図である。この場合、左側のウィン
ドウにはハードディスク上の保管位置を表示しており、
真中のウィンドウには、コンテンツのもととなったオリ
ジナルの電子文書もしくは電子化文書のサムネールが表
示される。また右側のウィンドウには各コンテンツのサ
ムネールやテキストおよび属性、サイズ等が表示されて
いる。なお、コンテンツのもととなったオリジナルの電
子文書もしくは電子化文書のサムネールの表示におい
て、Wとあるのはオリジナルが電子文書(MS-WORD文
書)であることを示しており、実際にはその内部にドキ
ュメントイメージの縮小されたものが表示される(すな
わち、右側のウィンドウ表示されるコンテンツを含む文
書のサムネールが表示される)。
【0022】以上説明したように、第1の実施形態によ
れば、電子化文書または電子文書から、「テキスト」、
「ピクチャ」、「表」等のコンテンツ(部品)を取り出
し、取り出した複数のコンテンツを1つの文書として統
合的に扱うことができる。
【0023】[第2の実施形態]また、選択したコンテ
ンツの再利用も可能である。第2の実施形態では、コン
テンツの再利用の一例として、テキストのコンテンツに
対して要約を行い、さらにその要約文書を新たなコンテ
ンツとして登録する。
【0024】図7は第2の実施形態によるコンテンツの
再利用を説明するフローチャートである。また、図8
は、第2の実施形態による表示状態を説明する図であ
る。
【0025】まず、再利用すべきコンテンツを選択する
(ステップS701)。コンテンツの再利用処理として
要約処理を選択すると(ステップS702)、コンテン
ツ管理部110が、ステップS701で選択されたコン
テンツをXML文書のタグから検索し、データを抽出す
る(ステップS703)。そして、抽出されたデータに
対して要約作成処理を実行し、要約文書を作成する(ス
テップS704)。その後、作成された要約文書をコン
テンツに再登録するかの判断がなされ(ステップS70
5)、コンテンツに再登録するならばステップS706
によってコンテンツ管理部110に登録される。一方、
コンテンツに再登録しない場合は、そのまま処理を終了
する。再登録するか否かは、要約データや翻訳データ等
の作成終了後に「再登録しますか?」等のダイアログを
表示し、YES,NOで応答することによって指示す
る。ステップS706で登録されたコンテンツ(要約文
書)は図8のように表示される。
【0026】なお、ステップS701におけるコンテン
ツの選択は、図6の右側ウィンドウのサムネールをマウ
ス等のポインティングデバイスで選択することにより行
われる。コンテンツ管理部110は、選択されたコンテ
ンツのファイル名(その他IDなどでも可)を元に、コ
ンテンツのファイル位置やファイル名、属性等の関連情
報であるXML文書内を検索し、コンテンツの実際のフ
ァイル位置をつきとめ、そのファイルをデータとして抽
出し、要約処理や翻訳処理に渡す。以上説明したよう
に、第2の実施形態によれば、電子化文書または電子文
書から、「テキスト」、「ピクチャ」、「表」等のコン
テンツ(部品)を取り出し、再利用することができる。
【0027】[第3の実施形態]第3の実施形態では、
コンテンツの再利用の他の例として、選択したテキスト
のコンテンツに対して翻訳処理を行い、さらにその翻訳
文書を新たなコンテンツとして登録する場合を説明す
る。
【0028】図9は第3の実施形態によるコンテンツの
再利用を説明するフローチャートである。また、図10
は、第2の実施形態による表示状態を説明する図であ
る。
【0029】まず、コンテンツを選択し(ステップS9
01)、コンテンツ再利用処理として翻訳処理を選択す
ると(ステップS902)、コンテンツ管理部110
が、登録されているコンテンツをXML文書のタグから
検索し、データを抽出する(ステップS903)。そし
て、抽出されたデータから翻訳作成処理ステップS90
4によって翻訳文書が作成され、翻訳文書をコンテンツ
に再登録するかの判断がなされ(ステップS905)、
コンテンツに再登録するならば再登録処理ステップS9
06によってコンテンツ管理部110に登録される。コ
ンテンツに再登録しない場合は、終了する。登録された
コンテンツ(翻訳文書)は図10のように表示される。
【0030】以上説明したように、第3の実施形態によ
れば、テキストのコンテンツに対して翻訳をして得た、
新たなコンテンツを扱うことや再利用することができ
る。
【0031】[第4の実施形態]第4の実施形態では、
テキストのコンテンツを、WEBブラウザ、ワードプロ
セッサ、表計算アプリケーション、プレゼンテーション
・ツール等のアプリケーションへ転送し、それらのアプ
リケーション上で再利用する場合を説明する。
【0032】図11は第4の実施形態によるコンテンツ
の再利用を説明するフローチャートである。まず、コン
テンツを選択し(ステップS1101)、コンテンツ再
利用処理としてアプリケーション転送処理を選択し(ス
テップS1102)、さらに転送先のアプリケーション
を選択すると(ステップS1103)る。
【0033】すると、コンテンツ管理部110が登録さ
れているコンテンツをXML文書のタグから検索し、デ
ータを抽出する(ステップS1104)。そして、抽出
されたデータからHTML変換処理ステップS1105
によってHTML文書が作成され、転送先アプリケーシ
ョンに入力する(ステップS1106)ことよって転送
先アプリケーションで再利用可能となる。
【0034】以上説明したように、第4の実施形態によ
れば、テキストのコンテンツのアプリケーション上で再
利用することができる。
【0035】なお、上記第2乃至第4の実施形態によっ
て示された再利用処理を実行可能に構成し、所望の処理
を選択して再利用を行うようにしてもよいことはいうま
でもない。例えば、ステップS1102において、要約
作成処理が選択されれば図7のステップS704へ、翻
訳処理が選択された場合は図9のステップS904へ処
理を進めるようにすればよい。
【0036】以上説明したように、上記各実施形態によ
れば、 紙文書と電子文書のコンテンツ(部品)の取り出しが
可能。 紙文書と電子文書の両方のコンテンツ(部品)の再利
用が可能。 紙文書と電子文書の両方のコンテンツ(部品)の統合
的な管理が可能。 等の効果がある。
【0037】[他の実施形態]なお、本発明は、複数の
機器(例えばホストコンピュータ、インタフェイス機
器、リーダ、プリンタなど)から構成されるシステムに
適用しても、一つの機器からなる装置(例えば、複写
機、ファクシミリ装置など)に適用してもよい。
【0038】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体(または記録媒体)を、システムあるい
は装置に供給し、そのシステムあるいは装置のコンピュ
ータ(またはCPUやMPU)が記憶媒体に格納された
プログラムコードを読み出し実行することによっても、
達成されることは言うまでもない。この場合、記憶媒体
から読み出されたプログラムコード自体が前述した実施
形態の機能を実現することになり、そのプログラムコー
ドを記憶した記憶媒体は本発明を構成することになる。
また、コンピュータが読み出したプログラムコードを実
行することにより、前述した実施形態の機能が実現され
るだけでなく、そのプログラムコードの指示に基づき、
コンピュータ上で稼働しているオペレーティングシステ
ム(OS)などが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
【0039】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
【0040】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードが格納されることになる。
【0041】
【発明の効果】以上説明したように、本発明によれば、
電子化文書または電子文書から、「テキスト」、「ピク
チャ」、「表」等のコンテンツ(部品)を取り出し、統
合的に扱うことや再利用することが可能となる。
【図面の簡単な説明】
【図1】第1の実施形態に係るシステムの構成を示すブ
ロック図である。
【図2】入力ドキュメントが画像である場合の、第1の
実施形態に係るシステムにおけるコンテンツ登録までの
処理の流れを示すフローチャートである。
【図3】第1の実施形態に係る電子文書作成処理の流れ
を示すフローチャートである。
【図4】入力ドキュメントが既知の電子文書である場合
の、第1の実施形態に係るシステムにおけるコンテンツ
登録までの処理の流れを示すフローチャートである。
【図5】入力ドキュメントが未知の電子文書である場合
の、第1の実施形態に係るシステムにおけるコンテンツ
登録までの処理の流れを示すフローチャートである。
【図6】第1の実施形態に係る処理によって出力される
コンテンツ出力の例を示す図である。
【図7】第2の実施形態に係るコンテンツ再利用(要約
作成)を可能とする処理の流れの1例を示すフローチャ
ートである。
【図8】第2の実施形態に係る処理によって出力される
コンテンツ出力の例を示す図である。
【図9】第3の実施形態に係るコンテンツ再利用(翻訳
作成)を可能とする処理の流れの1例を示すフローチャ
ートである。
【図10】第3の実施形態に係る処理によって出力され
るコンテンツ出力の例を示す図である。
【図11】第4の実施形態に係るコンテンツ再利用(ア
プリケーション転送)を可能とする処理の流れの1例を
示すフローチャートである。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 12/00 546 G06F 12/00 546A 17/30 220 17/30 220B 310 310C

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 電子化文書を処理する文書処理装置であ
    って、 前記電子化文書中のコンテンツを検出するコンテンツ検
    出手段と、 前記検出手段で検出したコンテンツをその属性を示す情
    報に基づいて登録・管理する管理手段と、 前記管理手段で管理されているコンテンツを単位とし
    て、その内容を出力する出力手段とを備えることを特徴
    とする文書処理装置。
  2. 【請求項2】 原本文書の文書画像を光学的に読み取っ
    て画像データを得る読取手段と、 前記画像データに基づいて電子化文書を作成する電子化
    文書作成手段を更に備えることを特徴とする請求項1に
    記載の文書処理装置。
  3. 【請求項3】 前記電子化文書作成手段は、 前記入力画像を所定の属性の領域に分割するレイアウト
    解析手段と、 前記レイアウト解析手段で分割された領域毎のコンテン
    ツを、属性の指定によって抽出可能に含む電子化文書を
    生成する生成手段とを備えることを特徴とする請求項2
    に記載の文書処理装置。
  4. 【請求項4】 電子文書を画像データに変換する画像変
    換手段を更に備え、 前記電子化文書作成手段は、前記画像変換手段で得られ
    た画像データに基づいて電子化文書を作成することを特
    徴とする請求項2又は3に記載の文書処理装置。
  5. 【請求項5】 前記電子化文書作成手段は、前記画像デ
    ータに基づいてマークアップ言語で記述された電子化文
    書を作成し、 前記コンテンツ検出手段は、前記マークアップ言語で作
    成された電子化文書からタグで分類された情報をコンテ
    ンツとして検出することを特徴とする請求項2乃至4の
    いずれかに記載の文書処理装置。
  6. 【請求項6】 前記分割された領域の内、認識可能な文
    字列を含む領域を識別する属性識別手段と、 前記認識可能な文字列を含む領域と識別された領域につ
    いて文字認識処理を実行し、文字コードを取得するOC
    R手段とを更に備え、 前記電子化文書作成手段は、前記分割された領域内の画
    像と前記OCR手段で得られた文字コードに基づいて前
    記電子化文書を作成することを特徴とする請求項3に記
    載の文書処理装置。
  7. 【請求項7】 前記管理手段によって登録・管理されて
    いるコンテンツから所定の情報を抽出して利用するコン
    テンツ再利用手段を更に備えることを特徴とする請求項
    1に記載の文書処理装置。
  8. 【請求項8】 前記コンテンツ再利用手段は、前記コン
    テンツに含まれるテキストデータに基づいてその要約文
    を表すテキストを生成することを含むことを特徴とする
    請求項7に記載の文書処理装置。
  9. 【請求項9】 前記コンテンツ再利用手段は、前記要約
    文を表すテキストを新たなコンテンツとして登録するこ
    とを特徴とする請求項8に記載の文書処理装置。
  10. 【請求項10】 前記コンテンツ再利用手段は、前記コ
    ンテンツに含まれるテキストデータに基づいてその翻訳
    テキストを作成することを含むことを特徴とする請求項
    7に記載の文書処理装置。
  11. 【請求項11】 前記コンテンツ再利用手段は、前記翻
    訳テキストを新たなコンテンツとして登録することを特
    徴とする請求項10に記載の文書処理装置。
  12. 【請求項12】 前記コンテンツ再利用手段は、前記管
    理手段で管理されているコンテンツから選択されたコン
    テンツを用いてマークアップ言語文書を作成することを
    含むことを特徴とする請求項7記載の文書処理装置。
  13. 【請求項13】 前記コンテンツ再利用手段は、前記マ
    ークアップ言語文書を所定のアプリケーションに転送す
    ることを特徴とする請求項12記載の文書処理装置。
  14. 【請求項14】 電子化文書を処理する文書処理方法で
    あって、 前記電子化文書中のコンテンツを検出するコンテンツ検
    出工程と、 前記検出工程で検出したコンテンツをその属性を示す情
    報に基づいて登録・管理する管理工程と、 前記管理工程で管理されているコンテンツを単位とし
    て、その内容を出力する出力工程とを備えることを特徴
    とする文書処理方法。
  15. 【請求項15】 原本文書の文書画像を光学的に読み取
    って画像データを得る読取工程と、 前記画像データに基づいて電子化文書を作成する電子化
    文書作成工程を更に備えることを特徴とする請求項14
    に記載の文書処理方法。
  16. 【請求項16】 前記電子化文書作成工程は、 前記入力画像を所定の属性の領域に分割するレイアウト
    解析工程と、 前記レイアウト解析工程で分割された領域毎のコンテン
    ツを、属性の指定によって抽出可能に含む電子化文書を
    生成する生成工程とを備えることを特徴とする請求項1
    5に記載の文書処理方法。
  17. 【請求項17】 電子文書を画像データに変換する画像
    変換工程を更に備え、 前記電子化文書作成工程は、前記画像変換工程で得られ
    た画像データに基づいて電子化文書を作成することを特
    徴とする請求項15又は16に記載の文書処理方法。
  18. 【請求項18】 前記電子化文書作成工程は、前記画像
    データに基づいてマークアップ言語で記述された電子化
    文書を作成し、 前記コンテンツ検出工程は、前記マークアップ言語で作
    成された電子化文書からタグで分類された情報をコンテ
    ンツとして検出することを特徴とする請求項15乃至1
    7のいずれかに記載の文書処理方法。
  19. 【請求項19】 前記分割された領域の内、認識可能な
    文字列を含む領域を識別する属性識別工程と、 前記認識可能な文字列を含む領域と識別された領域につ
    いて文字認識処理を実行し、文字コードを取得するOC
    R工程とを更に備え、 前記電子化文書作成工程は、前記分割された領域内の画
    像と前記OCR工程で得られた文字コードに基づいて前
    記電子化文書を作成することを特徴とする請求項16に
    記載の文書処理方法。
  20. 【請求項20】 前記管理工程によって登録・管理され
    ているコンテンツから所定の情報を抽出して利用するコ
    ンテンツ再利用工程を更に備えることを特徴とする請求
    項14に記載の文書処理方法。
  21. 【請求項21】 前記コンテンツ再利用工程は、前記コ
    ンテンツに含まれるテキストデータに基づいてその要約
    文を表すテキストを生成することを含むことを特徴とす
    る請求項20に記載の文書処理方法。
  22. 【請求項22】 前記コンテンツ再利用工程は、前記要
    約文を表すテキストを新たなコンテンツとして登録する
    ことを特徴とする請求項21に記載の文書処理方法。
  23. 【請求項23】 前記コンテンツ再利用工程は、前記コ
    ンテンツに含まれるテキストデータに基づいてその翻訳
    テキストを作成することを含むことを特徴とする請求項
    20に記載の文書処理方法。
  24. 【請求項24】 前記コンテンツ再利用工程は、前記翻
    訳テキストを新たなコンテンツとして登録することを特
    徴とする請求項23に記載の文書処理方法。
  25. 【請求項25】 前記コンテンツ再利用工程は、前記管
    理工程で管理されているコンテンツから選択されたコン
    テンツを用いてマークアップ言語文書を作成することを
    含むことを特徴とする請求項20記載の文書処理方法。
  26. 【請求項26】 前記コンテンツ再利用工程は、前記マ
    ークアップ言語文書を所定のアプリケーションに転送す
    ることを特徴とする請求項25記載の文書処理方法。
  27. 【請求項27】 請求項14乃至26のいずれかに記載
    の文書処理方法をコンピュータによって実現するための
    制御プログラムを格納する記憶媒体。
JP2000254053A 2000-08-24 2000-08-24 文書処理装置および方法 Withdrawn JP2002073598A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000254053A JP2002073598A (ja) 2000-08-24 2000-08-24 文書処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000254053A JP2002073598A (ja) 2000-08-24 2000-08-24 文書処理装置および方法

Publications (1)

Publication Number Publication Date
JP2002073598A true JP2002073598A (ja) 2002-03-12

Family

ID=18743067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000254053A Withdrawn JP2002073598A (ja) 2000-08-24 2000-08-24 文書処理装置および方法

Country Status (1)

Country Link
JP (1) JP2002073598A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094691A (ja) * 2005-09-28 2007-04-12 Canon Inc 情報検索装置及びその制御方法、コンピュータプログラム、並びに、記憶媒体
US7386788B2 (en) 2003-08-22 2008-06-10 Canon Kabushiki Kaisha Data structure, processing method of structured document described using that data structure, program for implementing the method, and storage medium storing the program
JP2009259248A (ja) * 2008-04-11 2009-11-05 Nhn Corp ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
JP2010515167A (ja) * 2006-12-28 2010-05-06 グーグル インコーポレイテッド 文書保存システム
US7853873B2 (en) 2005-06-30 2010-12-14 Canon Kabushiki Kaisha Data processing apparatus, data processing method, and computer program for generating electronic data from a paper document
US8587817B2 (en) 2011-03-28 2013-11-19 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and computer readable medium storing program
US8634094B2 (en) 2011-03-28 2014-01-21 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and non-transitory computer readable medium storing program
US8867050B2 (en) 2011-07-12 2014-10-21 Fuji Xerox Co., Ltd. Image processing apparatus, non-transitory computer readable medium storing program and image processing method for restoring a single table from a plurality of pages
KR20200049346A (ko) * 2018-10-31 2020-05-08 이태은 문자 인식에 기반한 컨텐츠 생성 방법 및 장치
CN112000834A (zh) * 2020-08-26 2020-11-27 北京百度网讯科技有限公司 文档处理方法、装置、***、电子设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386788B2 (en) 2003-08-22 2008-06-10 Canon Kabushiki Kaisha Data structure, processing method of structured document described using that data structure, program for implementing the method, and storage medium storing the program
US7853873B2 (en) 2005-06-30 2010-12-14 Canon Kabushiki Kaisha Data processing apparatus, data processing method, and computer program for generating electronic data from a paper document
JP2007094691A (ja) * 2005-09-28 2007-04-12 Canon Inc 情報検索装置及びその制御方法、コンピュータプログラム、並びに、記憶媒体
JP2010515167A (ja) * 2006-12-28 2010-05-06 グーグル インコーポレイテッド 文書保存システム
JP2009259248A (ja) * 2008-04-11 2009-11-05 Nhn Corp ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
US8587817B2 (en) 2011-03-28 2013-11-19 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and computer readable medium storing program
US8634094B2 (en) 2011-03-28 2014-01-21 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and non-transitory computer readable medium storing program
US8867050B2 (en) 2011-07-12 2014-10-21 Fuji Xerox Co., Ltd. Image processing apparatus, non-transitory computer readable medium storing program and image processing method for restoring a single table from a plurality of pages
KR20200049346A (ko) * 2018-10-31 2020-05-08 이태은 문자 인식에 기반한 컨텐츠 생성 방법 및 장치
KR102164790B1 (ko) * 2018-10-31 2020-10-13 이태은 문자 인식에 기반한 컨텐츠 생성 방법 및 장치
CN112000834A (zh) * 2020-08-26 2020-11-27 北京百度网讯科技有限公司 文档处理方法、装置、***、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP4290011B2 (ja) ビューワ装置及びその制御方法、プログラム
US7958444B2 (en) Visualizing document annotations in the context of the source document
JP5733907B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US20030229857A1 (en) Apparatus, method, and computer program product for document manipulation which embeds information in document data
TW200300233A (en) Document conversion system, document conversion method and computer readable recording medium storing document conversion program
WO2007094913A1 (en) Detection of lists in vector graphics documents
US20020059348A1 (en) Automatic documentation generation tool and associated method
JP2008146605A (ja) 画像処理装置及びその制御方法
US7155664B1 (en) Extracting comment keywords from distinct design files to produce documentation
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP2002073598A (ja) 文書処理装置および方法
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
US7661063B2 (en) Document processing apparatus and control method thereof
JPH11272654A (ja) 文書編集装置及び方法
JP4934181B2 (ja) 付加画像処理システム、画像形成装置及び付加画像追加方法
JP2007034378A (ja) 文書処理方法及び装置及びプログラム
JP2002108846A (ja) 文書画像処理装置、文書画像処理方法、および記録媒体
JP2018036794A (ja) 画像処理装置及びプログラム
JP2001256256A (ja) 電子文書検索装置および電子文書検索方法
JP4480109B2 (ja) 画像管理装置および画像管理方法
Gribomont OCR with Google Vision API and Tesseract
JP2007265429A (ja) 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007299321A (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び、情報記憶媒体
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071106