JP2008305088A - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents

文書処理装置、文書処理方法および文書処理プログラム Download PDF

Info

Publication number
JP2008305088A
JP2008305088A JP2007150621A JP2007150621A JP2008305088A JP 2008305088 A JP2008305088 A JP 2008305088A JP 2007150621 A JP2007150621 A JP 2007150621A JP 2007150621 A JP2007150621 A JP 2007150621A JP 2008305088 A JP2008305088 A JP 2008305088A
Authority
JP
Japan
Prior art keywords
document
group
content area
document image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007150621A
Other languages
English (en)
Other versions
JP5125238B2 (ja
Inventor
Yoshio Komaki
由夫 小巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Business Technologies Inc
Original Assignee
Konica Minolta Business Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Business Technologies Inc filed Critical Konica Minolta Business Technologies Inc
Priority to JP2007150621A priority Critical patent/JP5125238B2/ja
Publication of JP2008305088A publication Critical patent/JP2008305088A/ja
Application granted granted Critical
Publication of JP5125238B2 publication Critical patent/JP5125238B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】文書画像を含む電子化文書を生成する際に、文書画像に含まれる内容領域に応じて効率的に閲覧ナビゲート情報を生成する。また、当該文書画像を表示する表示手段の特性に応じて効率的な閲覧ナビゲート情報を生成する。
【解決手段】しおりデータ生成部が内容領域の全体を少なくとも1つのグループに分類し(ステップS114)、分類された各グループに所属する内容領域の文書画像内での位置に基づいて、各グループのしおりとしての適合度を評価する(ステップS116)。この評価結果に基づいて、しおりデータ生成部17が評価結果の最上位のものから少なくとも1つのグループをしおりデータの生成対象として選択し(ステップS118)、このように選択されたグループに所属する内容領域についての属性情報に基づいて、当該グループに所属する内容領域の文書画像内での位置を示すしおりデータを生成する(ステップS122)。
【選択図】図6

Description

この発明は文書画像を含む電子化文書を扱う文書処理装置、文書処理方法および文書処理プログラムに関し、特に文書画像に含まれる内容領域に対して閲覧ナビゲート情報を生成する技術に関する。
省資源や省スペースの観点から、紙原稿などに記載された文書を電子化文書に変換して管理する文書管理システムが実用化されている。このような文書管理システムでは、スキャナ装置などを用いて原稿を読取ることで文書画像を生成し、これらの文書画像から電子化文書を生成する。
このような文書画像は、文書を画素の集合である画像(イメージ)として格納するので、原稿文書に含まれる文字列や図表などの内容を特定するためのデータ(代表的に、テキストデータなど)を元来含んでいない。また、紙原稿などに記載された文書が電子化して利用できるようにデザインされているとは限らない。そのため、全ての文書画像を一度には表示できないコンピュータ上の閲覧ソフト(ビューア)を用いて電子化文書を閲覧しようとする場合には、ユーザは探索的にスクロール(表示画面切替え)を行なう必要があり、非常に手間のかかる作業であった。
このような電子化文書に対して、文書画像上の注目すべき箇所へ閲覧ナビゲート情報(代表的に、「しおり」もしくは「電子しおり」)をユーザが対話的に設定可能なアプリケーションソフトが実用化されている。このようなしおりを注目すべき箇所に予め設定しておくことで、ユーザは探索的なスクロールを行なうことなく、注目すべき箇所を素早く閲覧することができる。
ここで、ユーザが文書画像を確認しながら対話的にしおりを設定することは、非常に手間のかかる作業であり、多数の紙原稿などから電子化文書を生成する場合などに適用するのは現実的ではない。そこで、たとえば特開平09−134406号公報(特許文献1)などに記載されるような、文書画像から必要とする部分領域を取り出して認識する技術を用いることで、しおりを設定すべき箇所を探す作業を支援することも考えられる。
特開平09−134406号公報
しかしながら、特開平09−134406号公報(特許文献1)にはしおりを設定する構成については開示がなく、このような認識技術を用いてもユーザが対話的にしおりを設定する作業は依然として存在する。そのため、多数の紙原稿などから電子化文書を生成する際に、注目すべき箇所に効率的にしおりを設定することは困難であった。
また、予めしおりが設定された電子化文書を閲覧しようとする場合において、元原稿のページ領域と閲覧ソフトとして表示される領域(サイズ)とが大きく異なる場合には、表示領域内に全くしおりが含まれない状態や、逆に表示領域内に多数のしおりが含まれる状態が生じ、ユーザが電子化文書を閲覧する効率が低下するという課題がある。
そこで、この発明は、かかる問題を解決するためになされたものであり、その第1の目的は、文書画像を含む電子化文書を生成する際に、文書画像に含まれる内容領域に応じて効率的に閲覧ナビゲート情報を生成できる文書処理装置、文書処理方法および文書処理プログラムを提供することである。また、第2の目的は、文書画像を含む電子化文書を表示する際に、当該文書画像を表示する表示手段の特性に応じて効率的な閲覧ナビゲート情報を生成する文書処理装置、文書処理方法および文書処理プログラムを提供することである。
この発明のある局面に従えば、文書画像を含む電子化文書を生成する文書処理装置であって、文書画像から少なくとも1つの内容領域を抽出し、内容領域について属性情報を取得する取得手段を備え、属性情報は、内容領域の文書画像内での位置を示す位置情報を含み、さらに内容領域の文書画像内での位置を特定するための閲覧ナビゲート情報を生成する情報生成手段を備える。情報生成手段は、属性情報に基づいて、少なくとも1つの内容領域を少なくとも1つのグループに分類する分類手段と、各グループに所属する内容領域の文書画像内での位置に基づいて、グループの各々を評価する評価手段と、評価手段による評価結果に基づいて、少なくとも1つのグループの中から閲覧ナビゲート情報の生成対象とするグループを選択する選択手段とを含む。
好ましくは、原稿を読取ることで文書画像を生成する画像読取手段と、文書画像に閲覧ナビゲート情報を付加することで電子化文書を生成する文書生成手段とをさらに備える。
好ましくは、文書画像は、ページ単位で区分されており、評価手段は、各グループに所属する内容領域のページ毎の出現数に基づいてグループの各々を評価する。
さらに好ましくは、評価手段は、所属する内容領域がより多くのページに出現するグループに対して相対的に高い評価を与え、選択手段は、相対的に高い評価を与えられたグループを選択する。
さらに好ましくは、評価手段は、さらに、所属する内容領域のページ毎の出現数の最大値が所定範囲内であるグループに対して、出現数の最大値が所定範囲外であるグループに比較して相対的に高い評価を与える。
好ましくは、情報生成手段は、選択手段が複数のグループを選択する場合に、複数のグループに含まれる内容領域の文書画像内での位置に基づいて、グループ間の従属関係を決定する従属関係決定手段をさらに含む。
好ましくは、内容領域は、文字列、段落、図、表、写真、の少なくともいずれかを含む。
この発明の別の局面に従えば、文書画像を含む電子化文書を生成する文書処理方法であって、文書画像から少なくとも1つの内容領域を抽出し、内容領域について属性情報を取得するステップを備え、属性情報は、内容領域の文書画像内での位置を示す位置情報を含み、さらに内容領域の文書画像内での位置を特定するための閲覧ナビゲート情報を生成するステップを備える。属性情報を取得するステップは、属性情報に基づいて、少なくとも1つの内容領域を少なくとも1つのグループに分類するステップと、各グループに所属する内容領域の文書画像内での位置に基づいて、グループの各々を評価するステップと、評価するステップによる評価結果に基づいて、少なくとも1つのグループの中から閲覧ナビゲート情報の生成対象とするグループを選択するステップとを含む。
この発明のさらに別の局面に従えば、上記の文書処理方法をコンピュータに実行させる文書処理プログラムである。
この発明のさらに別の局面に従えば、文書画像を含む電子化文書を処理する文書処理装置であって、電子化文書は、文書画像に含まれる内容領域に対応付けて、当該内容領域の所属するグループの種類および当該内容領域の文書画像内での位置が規定されている属性情報を含み、内容領域の文書画像内での位置を特定するための閲覧ナビゲート情報を生成する情報生成手段と、閲覧ナビゲート情報とともに文書画像を表示する表示手段とを備える。情報生成手段は、表示手段の表示特性を取得する表示特性取得手段と、表示手段の表示特性に応じて少なくとも1つの閲覧ページ領域を設定する領域設定手段と、各グループに所属する内容領域の閲覧ページ毎の出現数に基づいてグループの各々を評価する評価手段と、評価手段による評価結果に基づいて、少なくとも1つのグループの中から閲覧ナビゲート情報の生成対象とするグループを選択する選択手段とを含む。
好ましくは、評価手段は、所属する内容領域がより多くの閲覧ページに出現するグループに対して相対的に高い評価を与え、選択手段は、相対的に高い評価を与えられたグループを選択する。
さらに好ましくは、評価手段は、所属する内容領域の閲覧ページ毎の出現数の最大値が所定範囲内であるグループに対して、出現数の最大値が所定範囲外であるグループに比較して相対的に高い評価を与える。
好ましくは、情報生成手段は、閲覧ナビゲート情報として、閲覧ページのうち内容領域が出現しない閲覧ページに対して、当該ページを特定するための情報を付加する付加手段をさらに含む。
好ましくは、情報生成手段は、選択手段が複数のグループを選択する場合に、複数のグループに含まれる内容領域の文書画像内での位置に基づいて、グループ間の従属関係を決定する従属関係決定手段をさらに含む。
好ましくは、評価手段は、閲覧環境に応じて評価をするための基準を変更する。
この発明のさらに別の局面に従えば、文書画像を含む電子化文書を処理する文書処理方法であって、電子化文書は、文書画像に含まれる内容領域に対応付けて、当該内容領域の所属するグループの種類および当該内容領域の文書画像内での位置が規定されている属性情報を含み、内容領域の文書画像内での位置を特定するための閲覧ナビゲート情報を生成するステップと、閲覧ナビゲート情報とともに文書画像を表示部に表示するステップとを備える。閲覧ナビゲート情報を生成するステップは、表示部の表示特性を取得するステップと、表示部の表示特性に応じて少なくとも1つの閲覧ページ領域を設定するステップと、各グループに所属する内容領域の閲覧ページ毎の出現数に基づいてグループの各々を評価するステップと、グループの各々を評価するステップによる評価結果に基づいて、少なくとも1つのグループの中から閲覧ナビゲート情報の生成対象とするグループを選択する選択ステップとを含む。
この発明のさらに別の局面に従えば、上記の文書処理方法をコンピュータに実行させる、文書処理プログラムである。
この発明によれば、文書画像を含む電子化文書を生成する際に、文書画像に含まれる内容領域に応じて効率的に閲覧ナビゲート情報を生成できる。また、この発明によれば、文書画像を含む電子化文書を表示する際に、当該文書画像を表示する表示手段の特性に応じて効率的な閲覧ナビゲート情報を生成できる。
この発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰返さない。
[実施の形態1]
(全体システム構成)
図1は、この発明の実施の形態1に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含んで構成される。
特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子化文書400を生成する。代表的に、電子化文書400にはPDF(Portable Document Format)などのフォーマットを採用できる。この際、MFP1は、文書画像から少なくとも1つの内容領域を抽出し、各内容領域について属性情報を取得するとともに、抽出した内容領域のうち特定の内容領域に対して文書画像内での位置を特定するための閲覧ナビゲート情報を生成する。
本明細書において「内容領域」とは、文書に含まれる情報資源であり、たとえば文字列や段落・図・表・写真などの内容要素(コンテンツ)である。また、本明細書において「閲覧ナビゲート情報」とは、ユーザによる電子化文書に含まれる文書画像の閲覧を支援するための情報であり、より具体的には、当該文書画像に含まれる内容領域のうち所定のものが存在する位置を特定するための情報である。このような閲覧ナビゲート情報は、一例として「しおり(bookmark)」、「注釈」、「スレッド」、「リンク」などを含み、内容領域の位置を特定するための情報に加えて、対応する内容領域のサムネイル(縮小画像)などを含めてもよい。本実施の形態においては、特に「閲覧ナビゲート情報」の代表例として「しおり」を用いる構成について説明する。
MFP1は、生成した電子化文書400を自身の記憶部(図示しない)に格納したり、ネットワークを介してパーソナルコンピュータPC1,PC2,PC3(以下、「パーソナルコンピュータPC」とも総称する)や携帯端末MTに送信したりする。代表的な使用形態として、MFP1が設置されている同一のオフィス内に敷設されたネットワークであるLAN(Local Area Network)に接続されているパーソナルコンピュータPC1,PC2に対しては、MFP1から電子化文書400が直接的に送信される。一方、LANとWAN(Wide Area Network)との接続点には、サーバ装置SRVが設けてあり、MFP1とは離れたオフィスにあるパーソナルコンピュータPC3などに対しては、MFP1からサーバ装置SRVを介して電子化文書400が送信される。さらに、携帯端末MTには、WANおよび公衆携帯電話網や無線LANなどの無線ネットワーク回線(図示しない)を介して、MFP1から電子化文書400が送信される。ここで、サーバ装置SRVは代表的に、メールサーバ、FTP(File Transfer Protocol)サーバ、Webサーバ、SMBサーバなどからなる。
画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書400として生成することができる。
(MFPの概略構成)
図2は、この発明の実施の形態1に従うMFP1における概略構成を示すブロック図である。
図2を参照して、MFP1は、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、データ格納部110とを含む。
制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、ネットワーク(たとえば、図1に示すLAN)を介してパーソナルコンピュータPC(図1)や携帯端末MTとの間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。データ格納部110は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100で生成された電子化文書400などを格納する。
(パーソナルコンピュータの構成)
図3は、この発明の実施の形態1に従うパーソナルコンピュータPCの概略構成を示すブロック図である。
図3を参照して、パーソナルコンピュータPCは、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には、MFP1で生成された電子化文書を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、FDDドライブ217またはCD−ROMドライブ215によって、それぞれフレキシブルディスク217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られる。
CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置SRV(図1)から電子化文書を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。
なお、携帯端末MTについては、図3においてFDDドライブ217やCD−ROMドライブ215などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。
(パーソナルコンピュータPCにおける電子化文書の表示画面)
CPU201がハードディスク部211に記憶された閲覧アプリケーションを実行することで、ディスプレイ部205上には図4に示すような形態で電子化文書が表示される。
図4は、この発明の実施の形態1に従うパーソナルコンピュータPCにおける電子化文書の表示画面の一例を模式的に示した図である。
図4を参照して、ディスプレイ部205(図3)上には一例として、文書表示領域500と、閲覧ナビゲート情報表示領域510とが形成される。文書表示領域500には、電子化文書に含まれる文書画像のうち所定範囲が表示され、閲覧ナビゲート情報表示領域510には、電子化文書に含まれる閲覧ナビゲート情報に基づいてアイコン512,514,516が表示される。
これらの閲覧ナビゲート情報は、内容領域の文書画像内での位置を示す位置情報を含んでおり、ユーザがアイコン512を選択(代表的には、図示しないマウスなどによるクリック動作)すれば、文書表示領域500では、しおり位置502が文書表示領域500内の所定位置(代表的に、文書表示領域500の最上部)と一致するように、文書画像の表示領域が変化(スクロール)する。同様に、ユーザがアイコン514および516を選択すれば、それぞれしおり位置504および506が文書表示領域500内の所定位置となるように、文書画像の表示領域が変化する。
また、アイコン512,514,516の間には、それぞれ対応する内容領域の階層構造に応じた従属関係が規定されている。すなわち、図4ではアイコン512にアイコン514および516が従属する例を示す。なお、図4に示すアイコン512,514,516には文字などの表示はなされていないが、対応する内容領域の種別(一例として、「大見出し」および「中見出し」など)を付加的に表示してもよく、さらにアイコンとして対応する内容領域の縮小画像(サムネイル画像)などを用いてもよい。
このように、ユーザは、文書画像内の特定の内容領域と対応付けたしおりアイコンを参照して、必要な内容領域を効率的に検索することができる。
(MFPの機能的構成)
図5は、この発明の実施の形態1に従うMFP1における機能構成を示すブロック図である。これらの機能は、主としてMFP1の制御部100やメモリ部102(図2)などによって実現される。
図5を参照して、MFP1の機能構成としては、画像読取部104と、画像前処理部12と、画像バッファ部13と、圧縮処理部14と、電子化文書生成部15と、画像解析部16と、しおりデータ生成部17と、送信部18と、画像処理部19と、プリント部106とを含む。
画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像前処理部12へ出力する。画像前処理部12は、主としてパーソナルコンピュータPCなどでの表示に適するように、文書画像の表示特性などを調整する。さらに、画像前処理部12が文書画像に含まれるノイズを除去してもよい。そして、画像前処理部12で画像処理が施された文書画像は、画像バッファ部13へ送られる。画像バッファ部13は、取得された文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部14、画像解析部16および画像処理部19へ出力する。圧縮処理部14は、画像バッファ部13から出力される文書画像を圧縮処理して、電子化文書生成部15へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はJPEG(Joint Photographic Experts Group)などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。
画像解析部16は、画像バッファ部13から出力される文書画像から内容領域を抽出し、さらに抽出した内容領域についての属性情報を取得する。ここで属性情報には、内容領域毎に、文書画像内での位置、当該領域に含まれる文字の大きさ、当該領域に含まれる文字の色、当該領域の背景の色などが含まれる。これらの属性情報は、しおりデータ生成部17へ送られる。しおりデータ生成部17は、画像解析部16から出力される内容領域の属性情報に基づいて、抽出された内容領域のうち特定のものに対してしおりデータを生成する。そして、しおりデータ生成部17は、生成したしおりデータを電子化文書生成部15へ出力する。
電子化文書生成部15は、圧縮処理部14で圧縮された文書画像に、しおりデータ生成部17からのしおりデータを付加することで、電子化文書を生成する。そして、この生成された電子化文書は、ユーザによる設定などに応じて、データ格納部110へ格納され、もしくは送信部18へ出力される。送信部18は、通信インターフェイス部108によって実現され、LANなどのネットワークを介してパーソナルコンピュータPC(図1)などへ電子化文書生成部15で生成された電子化文書を送信する。
一方、画像処理部19は、ユーザ操作に応じて、画像バッファ部13から出力される文書画像をプリント部106でのプリント動作に適した画像に変換する。代表的に、RGB表示系で規定された文書画像をカラープリントに適したCMYK表示系の画像データなどに変換する。このとき、プリント部106の特性に応じた色調整を行なってもよい。プリント部106は、画像処理部19から出力される画像データに基づいて紙媒体などへの印刷処理を行なう。
なお、図5に示す各機能ブロックと本願発明との対応関係については、画像解析部16が「取得手段」に相当し、しおりデータ生成部17が「情報生成手段」、「分類手段」、「評価手段」、「選択手段」に相当し、画像読取部104が「画像読取手段」に相当し、電子化文書生成部15が「文書生成手段」に相当する。
(電子化文書の生成処理手順)
図6は、この発明の実施の形態1に従う電子化文書の生成処理の具体例を示すフローチャートである。図6のフローチャートに示される処理は、制御部100(図2)がメモリ部102(図2)にプログラムを読出して実行し、図5に示される各機能を制御することで実現される。
図5および図6を参照して、まず、画像読取部104がユーザ設定などに応じて原稿300を読取って文書画像を生成する(ステップS100)。次に、画像前処理部12がこの生成された文書画像を調整する(ステップS102)。そして、調整後の文書画像は、画像バッファ部13に格納される。
続いて、圧縮処理部14が、画像バッファ部13に格納された文書画像を圧縮処理して、電子化文書生成部15へ出力する(ステップS104)。
一方、画像解析部16が、画像バッファ部13に格納された文書画像から内容領域を行単位で抽出する(ステップS106)。そして、画像解析部16が、1ページ目の文書画像に含まれる内容領域に応じて、各内容領域の位置を特定するための基準となる閲覧パスを文書画像内に設定する(ステップS108)。さらに、画像解析部16が、抽出された各内容領域の閲覧パスを基準とする位置(「閲覧パスからの距離」および「閲覧パス上位置」)を取得する(ステップS110)。同時に、画像解析部16が、抽出された各内容領域の「文字の大きさ」、「文字の色」、「背景の色」の代表値を取得する(ステップS112)。そして、各内容領域の「閲覧パスからの距離」、「閲覧パス上位置」、「文字の大きさ」、「文字の色」および「背景の色」は、属性情報としてしおりデータ生成部17へ出力される。
この属性情報を受けて、しおりデータ生成部17が、内容領域の全体を少なくとも1つのグループに分類する(ステップS114)。その後、しおりデータ生成部17が、分類された各グループに所属する内容領域の文書画像内での位置に基づいて、各グループのしおりとしての適合度を評価する(ステップS116)。この評価結果に基づいて、しおりデータ生成部17が評価結果の最上位のものから少なくとも1つのグループをしおりデータの生成対象として選択する(ステップS118)。さらに、複数のグループを選択した場合には、しおりデータ生成部17が、選択された各グループに所属する内容領域の文書画像内での位置に基づいて、グループ間の従属関係を決定する(ステップS120)。
しおりデータ生成部17は、このように選択されたグループに所属する内容領域についての属性情報に基づいて、当該グループに所属する内容領域の文書画像内での位置を示すしおりデータを生成する(ステップS122)。なお、このとき複数のグループ間の従属関係が規定されている場合には、当該従属関係を含んでしおりデータが生成される。
続いて、電子化文書生成部15が、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部17からのしおりデータを付加することで、電子化文書を生成する(ステップS124)。そして、電子化文書の生成処理は終了する。
以下、上記の各ステップの詳細な処理について説明する。
(内容領域の抽出処理)
図7は、図6のステップS106における内容領域の抽出処理を説明するための図である。
図7(a)は、原稿300から生成される文書画像420の一例を示す図であり、図7(b)は、図7(a)に示す文書画像420に対して内容領域の抽出処理が実行された結果の一例を示す図である。たとえば、3ページ分の原稿300が画像読取部104(図2,図5)で読取られると、画像バッファ部13には、図7(a)に示すような文書画像420が格納される。この文書画像420は、ページ領域421,422,423を含み、各ページ領域では「タイトルA」、「見出しA1」、「見出しA1.1」、「内容A1.1は・・・」などにように、その種別に応じて「インデント」および「段落分け」されて記述されている。
画像解析部16は、このような文書画像に対して、文字列を含む矩形領域を行単位で順次抽出する。すると、図7(b)に示すように、文書画像420に含まれるページ領域421,422,423の各々において複数の内容領域430が抽出される。このような内容領域430の抽出処理については、たとえば特開平09−134406号公報(特許文献1)に開示されているような公知の方法を用いることができる。ここで、抽出対象とする内容領域の種別は予め任意に設定することが可能であり、一例として「文字列」、「段落」、「図」、「表」、「写真」などを抽出対象にできる。なお、このような抽出対象の種別の選択についても上述したような公知の技術を用いることで実現できる。また、図7(a)および図7(b)には、横書き原稿に対して内容領域430を抽出する構成について例示するが、縦書き原稿に対しても同様に内容領域430を抽出することが可能である。この場合、画像解析部16は、紙面上下方向を「行方向」みなして内容領域430を抽出する。なお、「横書き原稿」と「縦書き原稿」との区別は、文書中の内容要素の密度に基づいて判断することができる。具体的には、一般的に「横書き原稿」では紙面左側に内容要素が集中する一方、紙面右側の内容要素が位置する密度は低い。これに対して、「縦書き原稿」では紙面上側に内容要素が集中する一方、紙面下側の内容要素が位置する密度は低い。このような、内容要素の偏在性に基づいて、「横書き原稿」と「縦書き原稿」とを区別することができる。
以下では、便宜上抽出された内容領域430に対して「行1」〜「行25」の識別番号を割当てて説明するが、画像解析部16はこのような識別番号を必ずしも割当てる必要はなく、内容領域430を出現順(抽出順)に並べておくことで各内容領域を識別(特定)するようにしてもよい。
(閲覧パスの設定処理)
図8は、図6のステップS108における閲覧パスの設定処理を説明するための図である。
図8を参照して、画像解析部16は、抽出した内容領域430の位置に応じて閲覧パス440を設定する。より詳細には、画像解析部16は、文書画像の行の始点側にあって、行と直行する方向に延びる閲覧パス440を設定する。そして、文書画像内に配置される行の先頭側に閲覧パス440の始点(基準点)を設定する。すなわち、閲覧パス440は、原稿の記述順序に対応した方向に延びる。代表的に、「横書き原稿」であれば、図8に示すように紙面左端を紙面上から紙面下に向かう閲覧パス440が設定される。なお、文書画像に含まれる各ページ領域に対して同一の位置に閲覧パス440が設定される。そして、この閲覧パス440の基準点は紙面左上に設定される。
代替的に、「縦書き原稿」であれば紙面上端を紙面右から紙面左に向かう閲覧パスが設定される。そして、この場合の閲覧パスの基準点は紙面右上に設定される。その他については、上述の「横書き原稿」の場合と同様である。
ここで、閲覧パス440は「行の始点側」に設定されるが、この「行の始点側」は抽出した内容領域430のうち最も始点側に位置する内容領域に応じて決定される。すなわち、閲覧パス440を設定するためには、文書画像に含まれる内容領域430のうち最も始点側に位置するものを抽出する必要がある。しかしながら、多数の原稿を画像読取部104(図2,5)で読取って電子化文書を生成する場合などには、対象となる原稿の枚数を予め知ることができない。そのため、すべてのページに含まれる内容領域430を抽出した後に閲覧パス440を設定しようとすると、効率が低下するおそれがある。そこで、本実施の形態に従う画像解析部16は、文書画像420の1ページ目のページ領域421に含まれる内容領域430に基づいて閲覧パス440を設定する。具体的には、画像解析部16は、ページ領域421内に存在する内容領域430を囲む領域450を取得し、この領域450に基づいて閲覧パス440を設定する。
(位置取得処理)
図6のステップS110における各内容領域についての閲覧パス440を基準とした距離の取得処理について、図8を参照して説明する。
図8を参照して、本明細書では、閲覧パス440と各内容領域430との間の行方向の距離を「閲覧パスからの距離」と規定し、閲覧パス440上の各内容領域430に対応する行位置を「閲覧パス上位置」と規定する。たとえば、内容領域430Aについての「閲覧パスからの距離」は符号454で示される距離であり、「閲覧パス上位置」は符号452で示される距離となる。なお、「閲覧パス上位置」としては、1ページ目の始点を基準として算出した「絶対値」、および対応するページの始点を基準として算出した「相対値」とを用いる。
このように、画像解析部16は、抽出した内容領域430の各々について、「閲覧パスからの距離」と「閲覧パス上位置(相対値)」および「閲覧パス上位置(相対値)」とを取得する。
(その他の属性情報の取得処理)
図6のステップS112における各内容領域の「文字の大きさ」、「文字の色」、「背景の色」の代表値の取得処理は、公知の文字認識技術などを用いて実現される。本実施の形態に従う画像解析部16は、各内容領域の文字認識を行なって「文字の大きさ」および「文字の色」を取得する。ここで、各内容領域に文字の大きさや文字色が複数の種類だけ含まれる場合には、最も頻度の高いものの値、もしくはすべての値についての平均値を採用することができる。なお、この処理は対象となる内容領域が「文字列」である場合のみ有効である。
また、画像解析部16は、各内容領域を構成する画素のヒストグラムに基づいて、一例として最も頻度の高い色を「背景の色」として抽出する。
(属性情報)
図9は、図7に示す文書画像420から取得される各内容領域の属性情報の具体例を示す図である。
図9を参照して、画像解析部16は、文書画像420から抽出した各内容領域430について、図9のデータ欄461,462,463,464,465,466に記述されているようなデータを属性情報として出力する。ここで、この図9におけるデータ欄467に格納されている「TYPE値」については、後述するしおりデータ生成部17が決定するため、画像解析部16が出力する属性情報には含まれない。
(グループへの分類処理)
図10は、図6のステップS114におけるグループへの分類処理を説明するための図である。図10(a)は、閲覧パスからの距離に基づく分類処理の一例を示す。図10(b)は、文字の大きさに基づく分類処理の一例を示す。
図10(a)を参照して、しおりデータ生成部17(図5)は、図9に示すデータ欄461に格納されている「閲覧パスからの距離」の値を用いて、すべての内容領域についての度数分布(ヒストグラム)を算出する。そして、しおりデータ生成部17は、この度数分布に現れるピーク(出現頻度の高い部分)の位置に応じて、「閲覧パスからの距離」を少なくとも1つの区分(この例では、区分1〜区分4)に分類する。
同様に、図10(b)を参照して、しおりデータ生成部17は、図9に示すデータ欄462に格納されている「文字の大きさ」の値を用いて、すべての内容領域についての度数分布(ヒストグラム)を算出する。そして、しおりデータ生成部17は、この度数分布に現れるピーク(出現頻度の高い部分)の位置に応じて、「文字の大きさ」を少なくとも1つの区分(この例では、区分小、区分中、区分大)に分類する。
このように、しおりデータ生成部17は、属性値の各々について分類を行ない、これらの分類結果を統合して「TYPE値」を決定する。すなわち、しおりデータ生成部17は、各属性値の分類結果に応じた分岐処理に従って、内容領域の全体を少なくとも1つのグループ(TYPE)に分類する。一例として、しおりデータ生成部17は、「閲覧パスからの距離」が「区分1」であり「文字の大きさ」が「区分大」である内容領域を「TYPE1」と区分し、「閲覧パスからの距離」が「区分2」であり「文字の大きさ」が「区分中」である内容領域を「TYPE2」と区分することができる。
なお、グループ数は2〜8が好ましく、上述のような分類処理を行なうことでグループ数が多くなり過ぎる場合には、グループの区分に用いる属性値の種類を適宜選択することが望ましい。
上述したようなグループへの分類処理は、文書内に現れる種別(たとえば、「タイトル」、「大見出し」、「中見出し」など)を共通にする内容領域同士をグルーピングするための処理である。すなわち、このような種別を共通にする内容領域同士は、いずれも類似した「文字の大きさ」や「閲覧パスからの距離」を有していると考えられるから、上述のように近似した属性情報を有する内容領域同士をグルーピングすることで、文書内の種別に応じた分類処理を実現できる。
このようなグループへの分類処理の結果、図9のデータ欄467に格納されているような「TYPE値」が決定される。
(しおりとしての適合度の評価処理およびグループの選択処理)
図11は、図6のステップS116およびS118におけるしおりとしての適合度の評価処理およびグループの選択処理を説明するための図である。
図11を参照して、しおりデータ生成部17は、上述の分類処理によって分類した各グループについて、しおりとしての適合度を評価する。具体的には、しおりデータ生成部17は、各グループに所属する内容領域のページ毎の出現数に基づいて各グループを評価する。本実施の形態では、一例として、各グループの「出現網羅度」および「最大出現数」を評価指標として用いる。
ここで、「出現網羅度」とは、文書画像を構成する全ページのうち、各グループに所属する内容領域がどの程度それらのページに出現しているかを示す指標である。すなわち、各グループに所属する内容領域が文書画像を構成するページをどの程度網羅しているかを示す指標である。たとえば、文書画像に10ページ分のページ領域が含まれている場合に、グループに所属する内容領域が5ページ分のページ領域に存在していれば、網羅度は「0.5」となる。この網羅度が「1」に近いグループほど、当該グループに所属する内容領域が文書画像の全体に出現することになり、しおりの対象として適当であると考えられる。
また、「最大出現数」とは、各グループに所属する内容領域のページ毎の出現数の最大値を示す指標である。すなわち、文書画像を構成する各ページについて見たときに、各グループに所属する内容領域がどの程度集中的に存在しているかを示す指標である。たとえば、1ページ目にあるグループに所属する内容領域が「5」回出現しており、他のページには全く出現しなければ、最大出現数は「5」となる。この最大出現数がしおりとして適切な値(たとえば、1〜2回)に近いグループほど、しおりとして選択するのが適当であると考えられる。
図11は、図9に示す各内容領域の属性情報を用いて「出現網羅度」および「最大出現数」の具体例を算出した結果である。この図11に示すように、図9において「TYPE3」および「TYPE4」のそれぞれに所属する内容領域は、すべてのページに出現している一方、「TYPE1」および「TYPE2」のそれぞれに所属する内容領域は、一部出現していないページがある。この「出現網羅度」において、その所属する内容領域がより多くのページに出現するグループに対して相対的に高い評価が与えられる。具体的には、すべてのページにその所属する内容領域が出現している「TYPE3」および「TYPE4」には、評価点として「2」点が与えられる。一方で、「TYPE1」および「TYPE2」には、それぞれお評価点として「0」点および「1」点が与えられる。
また、「最大出現数」については、最大出現数が所定範囲内(一例として、1〜2回)であるグループに対して、その所定範囲外であるグループに比較して相対的に高い評価が与えられる。具体的には、その最大出現数が「1」または「2」回である「TYPE1」、「TYPE2」、「TYPE3」には、評価点として「2」点が与えられる。一方で、その最大出現数が「6」回である「TYPE4」には、評価点として「0」点が与えられる。
さらに、しおりデータ生成部17は、「出現網羅度」および「最大出現数」についての評価点の合計点を総合適合度として評価し、評価点が最上位のものから少なくとも1つのグループをしおりデータの生成対象として選択する。図11に示す例では、「TYPE2」および「TYPE3」が総合適合度の上位2つであり、これらがしおりデータの生成対象として選択される。
なお、上述の例では「出現網羅度」および「最大出現数」を総合した結果に基づいて、しおりデータの生成対象を選択したが、いずれか一方の評価結果を用いてしおりデータの生成対象を選択してもよく、さらに別の評価結果を用いてもよい。また、「出現網羅度」が非常に低いグループについては特徴的な記述である場合も想定されるため、これらのグループについてもしおりの生成対象としてもよい。
(グループ間の従属関係の決定処理)
図12は、図6のステップS120におけるグループ間の従属関係を決定する処理を説明するための図である。図12(a)は、しおりデータの生成対象を選択しただけの状態を示す。図12(b)は、グループ間の従属関係を決定した後の状態を示す。
しおりデータ生成部17は、上述の選択処理によってしおりデータの生成対象として選択したグループが複数ある場合に、グループ間の従属関係を決定する。この従属関係は、原稿の記述の階層構造(たとえば、「大見出し」と「中見出し」との関係)を反映できるように決定される。
具体的には、図12(a)に示すように、しおりデータ生成部17は、しおりデータの生成対象として選択したグループ(図12の例では、「TYPE2」および「TYPE2」)に所属する内容領域の閲覧パス440上位置を相互に比較していく。そして、しおりデータ生成部17は、異なるグループの内容領域(しおり)のうち、閲覧パス440上で互いに近接しているものを抽出する。
そして、しおりデータ生成部17は、このような異なるグループに所属するしおり同士を比較し、いずれのしおりが閲覧パス440上のより基準位置に近いかを判断する。図12(a)に示す例では、「TYPE2」に所属するしおりが「TYPE3」に所属するしおりに比較して基準位置に近い(閲覧パス440上で先に出現している)ので、「TYPE3」に所属するしおりが「TYPE2」に所属するしおりに従属すると判断する。すなわち、しおりデータ生成部17は、「TYPE2」に所属するしおりが「主」で、「TYPE3」に所属するしおりが「従」であると判断する。
このような手順によって、しおりデータ生成部17はグループ間の従属関係を決定する。
(しおりデータおよび電子化文書の生成処理)
上述のような処理によって得られた情報に基づいて、しおりデータ生成部17は、選択された内容領域の文書画像内での位置を示すしおりデータを生成する。さらに、電子化文書生成部15がしおりデータ生成部17が生成したしおりデータを文書画像に付加することで電子化文書400を生成する。
図13は、電子化文書生成部15が生成する電子化文書400のデータ構造の一例を示す図である。
図13を参照して、電子化文書400は、ヘッダ部402と、文書画像部404と、しおりデータ部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子化文書400の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部404には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。しおりデータ部406には、しおりデータ生成部17が生成したしおりデータが格納される。
図14は、しおりデータ部406のデータ構造の一例を示す図である。
図14を参照して、しおりデータ部406には、選択されたグループの内容領域の文書画像内での位置を示す位置情報が格納される。たとえば、「しおり1」として格納される位置情報である「ページ1,(10,12)」は、対象となる内容領域が、文書画像の「1」ページ目で、「閲覧パスからの距離」が「10」で、かつ「閲覧パス上位置」が「12」に存在することを示している。さらに、しおりデータ部406には、しおり同士の従属関係が規定されており、たとえば「しおり1」には、「しおり4」および「しおり5」が「しおり1」に従属することが規定される。
上述のような処理により、文書画像に含まれる内容領域に応じて効率的にしおりデータを生成することができる。
この発明の実施の形態1によれば、原稿を読込んで文書画像を含む電子化文書を生成する際に、文書画像に含まれる内容領域に応じて効率的にしおりなどの閲覧ナビゲート情報を生成できる。
(変形例)
なお、上述の説明では、本発明を一段組の文書に適用した場合について例示したが、複数に段組された文書についても適用することができる。
図15は、この発明の実施の形態1の変形例に従う処理を模式的に示した図である。
図15を参照して、一例として、二段組された電子化文書400Aに対して本発明を適用する場合には、各段組に対応させて閲覧パス440A,440Bを設定する。ここで、閲覧パス440Aおよび440Bは、電子化文書400Aにおける内容領域の抽出処理の結果に基づいて設定される領域450Aおよび450Bに対応付けて設定される。すなわち、領域450A内に存在する内容領域の各々は、閲覧パス440Aとの間で「閲覧パスからの距離」(符号454A)および「閲覧パス上位置」(符号452A)を規定され、領域450B内に存在する内容領域の各々は、閲覧パス440Bとの間で「閲覧パスからの距離」および「閲覧パス上位置」を規定される。
以下の処理は、上述したこの発明の実施の形態1に従う処理と同様であるので、詳細な説明は繰返さない。
[実施の形態2]
この発明の実施の形態1では、MFP1が予めしおりデータを付加した電子化文書を生成する構成について例示した。このような電子化文書は、その中に含まれる文書画像の1ページ分を一度に表示可能なパーソナルコンピュータなどには適している。しかしながら、特に携帯型端末などでは、ディスプレイ(表示領域)の大きさに制約があるため文書画像の1ページ分を一度に表示できる場合も多い。そのため、予め付加されたしおりが表示領域内に全く含まれない場合などもある。そこで、この発明の実施の形態2では、電子化文書の閲覧環境に応じてしおりを動的に生成する構成について例示する。
この発明の実施の形態2に従うシステムは、図1に示すシステムと同様であり、MFP1#が電子化文書を携帯端末MTやパーソナルコンピュータPC(以下、「クライアント端末」とも総称する)へ送信し、送信先の装置がしおりデータをそれぞれ動的に生成する。
図16は、この発明の実施の形態2に従う携帯端末MTにおける表示領域を模式的に示す図である。
図16を参照して、携帯端末MTの文書表示領域500(ディスプレイの大きさ)が電子化文書に含まれる文書画像のページ領域421に比較して小さければ、ユーザが一度に閲覧できる範囲は、文書画像の一部分に限定されたものとなってしまう。そのため、本実施の形態では、文書画像のページ単位とは別に、携帯端末MTなどの表示領域の大きさに基づいて閲覧ページ領域を設定し、この閲覧ページ領域の単位でしおりデータを生成する。
特に、この発明の実施の形態2では、汎用の閲覧アプリケーションがインストールされているクライアント端末に対して、本発明に係る文書処理装置として機能させるためのプログラムを添付した電子化文書を送信する構成について説明する。より具体的には、汎用の閲覧アプリケーション(代表的に、米国カリフォルニア州サンノゼにあるアドビシステムズ社の「Reader」)には、所定のスクリプト言語(代表的に、JavaScript(登録商標))の実行環境を提供するモジュールを含めることができる。そのため、電子化文書にスクリプト形式のプログラムを添付することで、このような閲覧アプリケーションがインストールされている一般的なクライアント端末において、本発明に係る電子化文書の処理を実現することができる。
(MFPの構成)
この発明の実施の形態2に従うMFP1#における構成は、図2と同様であるので詳細な説明は繰返さない。
図17は、この発明の実施の形態2に従うMFP1#における機能構成を示すブロック図である。これらの機能は、主としてMFP1の制御部100やメモリ部102(図2)などによって実現される。
図17を参照して、MFP1#は、図5に示すこの発明の実施の形態1に従うMFP1の機能構成において、電子化文書生成部15およびしおりデータ生成部17に代えて電子化文書生成部15#および行属性情報生成部20を設け、さらにクライアントプログラム格納部21を加えたものに等しい。
行属性情報生成部20は、画像解析部16から出力される内容領域の属性情報に基づいて、内容領域の全体を少なくとも1つのグループに分類する。そして、行属性情報生成部20は、抽出された各内容領域に対応付けて、少なくとも所属グループを示す「TYPE値」と、対応する内容領域の位置を示す「閲覧パス上位置」とを含む行属性情報を電子化文書生成部15#へ出力する。
クライアントプログラム格納部21は、電子化文書に付加して送付するクライアントプログラムを格納している。このクライアントプログラムは、汎用の閲覧アプリケーションがインストールされている携帯端末MTやパーソナルコンピュータPCに対して、本発明に係る文書処理装置として機能させるためのものである。電子化文書生成部15#は、圧縮処理部14で圧縮された文書画像に、行属性情報生成部20からの行属性情報とクライアントプログラム格納部21からのクライアントプログラムとを付加することで、電子化文書400#を生成する。
その他の機能ブロックについては、上述した図5の対応する機能ブロックと同様であるので、詳細な説明は繰返さない。
図18は、この発明の実施の形態2に従うMFP1#が生成する電子化文書400#のデータ構造の一例を示す図である。図18を参照して、電子化文書400#は、図13に示す電子化文書400において、しおりデータ部406に代えて行属性情報410を配置し、さらにクライアントプログラム409を付加したものである。
図19は、図18に示す行属性情報410のデータ構造の具体例を示す図である。
図19を参照して、本実施の形態に従う行属性情報410には、図9に示すこの発明の実施の形態1に従う属性情報のうち、データ欄467および466に格納されているデータが格納される。すなわち、行属性情報410には、文書画像に含まれる内容領域のグループを示す「TYPE値」と、対応する「閲覧パス上位置(絶対値)」とが格納される。このように、行属性情報410には、しおりデータを生成するための元になるデータが格納されるだけでよい。
(電子化文書の生成処理手順)
図20は、この発明の実施の形態2に従う電子化文書の生成処理の具体例を示すフローチャートである。図20のフローチャートに示される処理は、MFP1#の制御部100がプログラムをメモリ部102などに読出して実行し、図17に示される各機能を実現する。
図17および図20を参照して、まず、画像読取部104がユーザ設定などに応じて原稿300を読取って文書画像を生成する(ステップS200)。次に、画像前処理部12がこの生成された文書画像を調整する(ステップS202)。そして、調整後の文書画像は、画像バッファ部13に格納される。
続いて、圧縮処理部14が、画像バッファ部13に格納された文書画像を圧縮処理して、電子化文書生成部15へ出力する(ステップS204)。
一方、画像解析部16が、画像バッファ部13に格納された文書画像から内容領域を行単位で抽出する(ステップS206)。そして、画像解析部16が、1ページ目の文書画像に含まれる内容領域に応じて、各内容領域の位置を特定するための基準となる閲覧パスを文書画像内に設定する(ステップS208)。さらに、画像解析部16が、抽出された各内容領域の閲覧パスを基準とする位置(「閲覧パスからの距離」および「閲覧パス上位置」)を取得する(ステップS210)。同時に、画像解析部16が、抽出された各内容領域の「文字の大きさ」、「文字の色」、「背景の色」の代表値を取得する(ステップS212)。そして、各内容領域の「閲覧パスからの距離」、「閲覧パス上位置」、「文字の大きさ」、「文字の色」、「背景の色」は、属性情報として行属性情報生成部20へ出力される。
この属性情報を受けて、行属性情報生成部20が、内容領域の全体を少なくとも1つのグループに分類する(ステップS214)。そして、行属性情報生成部20が、各内容領域に対応付けて、その所属するグループを示す「TYPE値」と、対応する内容領域の位置を示す「閲覧パス上位置(絶対値)」とが格納された行属性情報410を生成する(ステップS216)。
続いて、電子化文書生成部15#が、圧縮処理部14からの(圧縮された)文書画像に、行属性情報生成部20からの行属性情報410およびクライアントプログラム格納部21からのクライアントプログラムを付加することで、電子化文書を生成する(ステップS218)。そして、電子化文書の生成処理は終了する。
なお、上記の各ステップの詳細な処理については、上述したこの発明の実施の形態1と同様であるので、詳細な説明は繰返さない。
(クライアント端末の構成)
クライアント端末であるパーソナルコンピュータPCや携帯端末MTの概略のハードウェア構成は図3と同様であるので、詳細な説明は繰返さない。
図21は、この発明の実施の形態2に従うクライアント端末における機能構成を示すブロック図である。図21(a)は、携帯端末MTにおける機能構成を示し、図21(b)は、パーソナルコンピュータPCにおける機能構成を示す。なお、これらの機能は、図3に示すCPU201がメモリ部213に記憶されたプログラムを実行することで実現される。
図21(a)を参照して、携帯端末MTにおける機能構成は、受信部40と、閲覧用アプリケーション41と、表示部42と、クライアントプログラム実行環境43と、機器情報格納部44とを含む。
受信部40は、代表的に通信インターフェイス部108(図2)によって実現され、MFP1#から送信される電子化文書400#を受信して、閲覧用アプリケーション41へ渡す。閲覧用アプリケーション41は、ハードディスク部211(図2)などに格納されているプログラムコードがメモリ部213(図2)に展開されて、CPU201(図2)で実行されることで実現される。閲覧用アプリケーション41は、電子化文書400#に含まれる文書画像の表示データを生成し、表示部42へ出力する。並行して、閲覧用アプリケーション41は、電子化文書400#に含まれる付属情報および添付プログラムを抽出し、それをクライアントプログラム実行環境43に渡す。
クライアントプログラム実行環境43は、閲覧用アプリケーション41から渡された添付プログラムを実行することで、電子化文書400#の行属性情報に基づいてしおりデータを生成し、当該しおりデータを文書画像とともに表示部42に表示する。ここで、クライアントプログラム実行環境43で実行されるクライアントプログラムは、機器情報格納部44から機器属性や表示部42の表示特性(代表的に、表示領域の大きさ)を取得し、これらの情報に応じてしおりデータを動的に生成する。ここで、機器情報格納部44は、携帯端末MTの機器属性を予め格納する部位である。
このように、閲覧用アプリケーション41およびクライアントプログラム実行環境43が協働することで、本発明に係るしおりデータの生成処理および表示処理が実現される。なお、閲覧用アプリケーション41とクライアントプログラム実行環境43との間の機能分担については適宜設計することが可能である。
図21(b)を参照して、パーソナルコンピュータPCにおける機能構成は、受信部50と、閲覧用アプリケーション51と、表示部52と、クライアントプログラム実行環境53と、機器情報格納部54と、GUI(Graphical User Interface)部55とを含む。受信部50と、閲覧用アプリケーション51と、表示部52と、クライアントプログラム実行環境53と、機器情報格納部54とは、それぞれ上述した受信部40と、閲覧用アプリケーション41と、表示部42と、クライアントプログラム実行環境43と、機器情報格納部44と同様であるので、詳細な説明は繰返さない。
ここで、本実施の形態に従うパーソナルコンピュータPCは、代表的に、複数のアプリケーションを同時に実行可能なオペレーティングシステム(OS:Operating System)を搭載しており、表示部52には複数のアプリケーションによって生成される画面が表示される。GUI部55は、このような複数のアプリケーションによる表示を制御しており、クライアントプログラム実行環境53で実行されるクライアントプログラムからの要求に応答して、閲覧用アプリケーションの表示サイズ(ウィンドウサイズ)を返答する。このGUI部55からの表示サイズの情報に応じて、クライアントプログラム実行環境53で実行されるクライアントプログラムは、しおりデータを動的に生成する。
(しおりデータの生成処理手順)
図22は、この発明の実施の形態2に従うしおりデータの生成処理の具体例を示すフローチャートである。図22のフローチャートに示される処理は、図3に示すCPU201がハードディスク部211などに予め格納された閲覧用アプリケーションをメモリ部213に展開して実行するとともに、ハードディスク部211またはメモリ部213に予め取得されている電子化文書400#中のクライアントプログラムを並行的に実行することで実現される。
図22を参照して、CPU201が、機器情報格納部44または54からクライアント端末の機器属性を取得する(ステップS300)。そして、CPU201が、取得した機器属性に基づいて、クライアント端末が携帯端末MTであるか、パーソナルコンピュータPCであるかを判断する(ステップS302)。すなわち、CPU201は、クライアント端末が、単一のアプリケーションだけを実行可能であるか、もしくは複数のアプリケーションを同時に実行可能であるかを判断する。
クライアント端末が携帯端末MTである場合(ステップS302においてMT)には、CPU201が、機器情報格納部44から表示部42の表示領域の大きさを取得する(ステップS304)。一方、クライアント端末がパーソナルコンピュータPCである場合(ステップS302においてPC)には、CPU201が、GUI部55からアクティブになっている閲覧アプリケーションのウィンドウサイズを取得する(ステップS306)。
次に、CPU201が、表示部42の表示領域の大きさ、またはアクティブになっている閲覧アプリケーションのウィンドウサイズに応じて、少なくとも1つの閲覧ページ領域を設定する(ステップS308)。ここで、閲覧ページ領域とは、文書画像を表示部42または52に表示するために設定される便宜上のページ領域であり、元の原稿におけるページ領域とは独立に設定される。代表的に、閲覧ページ領域は、電子化文書に含まれる文書画像のうち表示部42または52で表示可能な最大領域に設定される。
そして、CPU201が、電子化文書400#に添付される行属性情報に規定される各グループに所属する内容領域の閲覧ページ毎の出現数に基づいて、各グループのしおりとしての適合度を評価する(ステップS310)。この評価結果に基づいて、CPU201が評価結果の最上位のものから少なくとも1つのグループをしおりデータの生成対象として選択する(ステップS312)。ここで、CPU201が、閲覧ページのうちしおりデータの生成対象となる内容領域が存在しない閲覧ページに対して、当該閲覧ページを特定するためのしおりデータを付加する(ステップS314)。
さらに、複数のグループを選択した場合には、CPU201が、選択した各グループに所属する内容領域の文書画像内での位置に基づいて、グループ間の従属関係を決定する(ステップS316)。その後、CPU201が、しおりデータの生成対象として選択されたグループに所属する内容領域についての属性情報に基づいて、しおりデータを生成する(ステップS318)。
最終的に、CPU201が、表示部42または52に表示される閲覧ナビゲート情報表示領域510(図4)の表示を更新する(ステップS320)。そして、しおりデータの生成処理は終了する。
以下、上記の主要なステップの詳細な処理について説明する。
(閲覧ページ領域の設定処理)
図23は、図22のステップS308における閲覧ページ領域の設定処理を説明するための図である。
図23を参照して、CPU201は、代表的に閲覧パス上の「行数」の単位で「閲覧ページ領域」を設定する。すなわち、CPU201は、表示部42の表示領域の大きさ、またはアクティブになっている閲覧アプリケーションのウィンドウサイズに応じて、「閲覧ページ領域」の1ページに相当する閲覧パス上の「行数」を決定する。たとえば、閲覧パス上の「29行」が1ページ分の閲覧ページ領域に相当する場合には、CPU201は、図19に示す行属性情報410に対して、図23に示すような閲覧ページを設定する。図19は、元来3ページ分の原稿から生成された文書画像についての行属性情報であったが、図23ではクライアント端末の表示特性に応じて8ページ分の閲覧ページが設定されている(データ欄480)。そして、以下の処理はこの設定された閲覧ページの単位で行なわれる。
(しおりとしての適合度の評価処理およびグループの選択処理)
図22のステップS310およびS312におけるしおりとしての適合度の評価処理およびグループの選択処理は、上述したこの発明の実施の形態1における図11と同様に、各グループの「出現網羅度」および「最大出現数」に基づいて行なわれる。特に本実施の形態では、「出現網羅度」および「最大出現数」は閲覧ページの単位で算出される。
図24は、図23に示す行属性情報を用いて「出現網羅度」および「最大出現数」の具体例を求めた結果である。図24に示すように、「出現網羅度」については、その所属する内容領域がより多くのページに出現するグループに対して相対的に高い評価が与えられる。具体的には、その所属する内容領域が8ページ中のそれぞれ5ページおよび7ページに出現している「TYPE3」および「TYPE4」には、評価点として「2」点が与えられる。一方で、「TYPE1」および「TYPE2」には、評価点として「0」点が与えられる。
また、「最大出現数」については、最大出現数が所定範囲内(一例として、1〜2回)であるグループに対して、その所定範囲外であるグループに比較して相対的に高い評価が与えられる。具体的には、その最大出現数が「1」回である「TYPE1」、「TYPE2」および「TYPE3」には、評価点として「2」点が与えられる。一方で、その最大出現数が「3」回である「TYPE4」には、評価点として「0」点が与えられる。
そして、CPU201は、「出現網羅度」および「最大出現数」についての評価点の合計点を総合適合度として評価し、評価点が最上位のものから少なくとも1つのグループをしおりデータの生成対象として選択する。図24に示す例では、「TYPE3」がしおりデータの生成対象として選択される。
なお、上述の例では、「出現網羅度」および「最大出現数」を総合した結果に基づいて、しおりデータの生成対象を選択したが、いずれか一方の評価結果を用いてしおりデータの生成対象を選択してもよく、さらに別の評価を用いてもよい。また、「出現網羅度」が非常に低いグループについては特徴的な記述である場合も想定されるため、これらのグループをしおりデータの生成対象としてもよい。
(しおりデータの付加処理)
図25は、図22のステップS314におけるしおりデータの付加処理を説明するための図である。図25(a)は、選択されたグループに所属する内容領域に対してしおりデータ520が生成された状態を示す。図25(b)は、しおりデータ522を付加した後の状態を示す。
図25(a)を参照して、一例として図23に示す行属性情報のうち「TYPE3」のグループについての「出現網羅度」は「1」ではないので、「TYPE3」に設定されている内容領域に対してしおりデータ520を生成しただけでは、しおりデータが付加されていない閲覧ページが存在する(図25(a)に示す例では、「ページ3」、「ページ5」、「ページ8」)。
そこで、CPU201は、閲覧ページのうちしおりデータの生成対象となる内容領域が存在しない閲覧ページに対して、閲覧ページを特定するためのしおりデータを付加する。本実施の形態では、代表的に、対応の閲覧ページの先頭を示すしおりデータ(pagetop)を付加する。
(グループ間の従属関係の決定処理)
図22のステップS314におけるグループ間の従属関係を決定する処理は、上述したこの発明の実施の形態1における図12と同様であり、異なるグループの内容領域(しおり)のうち閲覧パス上で互いに近接しているものを抽出することで、グループ間の従属関係が決定される。
なお、上述のように、しおりデータの生成対象となる内容領域が存在しない閲覧ページに対して付加されたしおりデータについては、直近のしおりデータの最下層に従属するように従属関係が決定される。
(しおりデータの生成処理および閲覧ナビゲート情報表示領域の表示更新処理)
上述のような処理によって得られた情報に基づいて、CPU201は、選択された内容領域の文書画像内での位置を示すしおりデータを生成し、表示部42または52に表示される閲覧ナビゲート情報表示領域510の表示を更新する。
上述のような処理により、文書画像に含まれる内容領域に応じて効率的にしおりデータを生成することができる。
この発明の実施の形態2によれば、文書画像を表示するパーソナルコンピュータPCや携帯端末MTの表示手段の特性に応じて、効率的な閲覧ナビゲート情報を生成することができる。
[その他の実施の形態]
上述の実施の形態1および2においては、本発明に係る処理がMFP1またはMFP1#で実行される場合について説明したが、原稿300を読取るための画像読取機能を備えたコンピュータにおいて上記処理が実行されてもよい。この場合には、コンピュータを文書処理装置として機能させるための図2や図17に示された処理機能を実行させるプログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、CD−ROM(Compact Disk-Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)およびメモリカードなどのコンピュータ読取り可能な記憶媒体にて記憶させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記憶媒体にて記憶させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
また、画像読取機能を他の装置またはコンピュータで実現した上で、生成された文書画像を受取って、上記のような処理に従って閲覧ナビゲート情報のみを生成してもよい。また、文書画像と閲覧ナビゲート情報とが同一の電子化文書に含まれる構成について例示したが、必ずしも同一の電子化文書に閲覧ナビゲート情報を付加しなくてもよく、別のファイルとして出力してもよい。
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
この発明の実施の形態1に従う文書処理装置を含むシステムの概略構成図である。 この発明の実施の形態1に従うMFPにおける概略構成を示すブロック図である。 この発明の実施の形態1に従うパーソナルコンピュータの概略構成を示すブロック図である。 この発明の実施の形態1に従うパーソナルコンピュータにおける電子化文書の表示画面の一例を模式的に示した図である。 この発明の実施の形態1に従うMFPにおける機能構成を示すブロック図である。 この発明の実施の形態1に従う電子化文書の生成処理の具体例を示すフローチャートである。 図6のステップS106における内容領域の抽出処理を説明するための図である。 図6のステップS108における閲覧パスの設定処理を説明するための図である。 図7に示す文書画像から取得される各内容領域の属性情報の具体例を示す図である。 図6のステップS114におけるグループへの分類処理を説明するための図である。 図6のステップS116およびS118におけるしおりとしての適合度の評価処理およびグループの選択処理を説明するための図である。 図6のステップS120におけるグループ間の従属関係を決定する処理を説明するための図である。 電子化文書生成部が生成する電子化文書のデータ構造の一例を示す図である。 しおりデータ部のデータ構造の一例を示す図である。 この発明の実施の形態1の変形例に従う処理を模式的に示した図である。 この発明の実施の形態2に従う携帯端末における表示領域を模式的に示す図である。 この発明の実施の形態2に従うMFPにおける機能構成を示すブロック図である。 この発明の実施の形態2に従うMFPが生成する電子化文書のデータ構造の一例を示す図である。 図18に示す行属性情報のデータ構造の具体例を示す図である。 この発明の実施の形態2に従う電子化文書の生成処理の具体例を示すフローチャートである。 この発明の実施の形態2に従うクライアント端末における機能構成を示すブロック図である。 この発明の実施の形態2に従うしおりデータの生成処理の具体例を示すフローチャートである。 図22のステップS308における閲覧ページ領域の設定処理を説明するための図である。 図23に示す行属性情報を用いて「出現網羅度」および「最大出現数」の具体例を求めた結果である。 図22のステップS314におけるしおりデータの付加処理を説明するための図である。
符号の説明
1,1# MFP、12 画像前処理部、13 画像バッファ部、14 圧縮処理部、15 電子化文書生成部、16 画像解析部、7 データ生成部、18 送信部、19 画像処理部、20 行属性情報生成部、21 クライアントプログラム格納部、40 受信部、41 閲覧用アプリケーション、42 表示部、43 クライアントプログラム実行環境、44 機器情報格納部、50 受信部、51 閲覧用アプリケーション、52 表示部、53 クライアントプログラム実行環境、54 機器情報格納部、55 GUI部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110 データ格納部、201 CPU、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部(HDD)、213 メモリ部、215 CD−ROMドライブ、215a CD−ROM、217 FDDドライブ、217a フレキシブルディスク、300 原稿、400,400A 電子化文書、402 ヘッダ部、404 文書画像部、406 データ部、408 フッタ部、409 クライアントプログラム、410 行属性情報、420 文書画像、421,422,423 ページ領域、430,430A 内容領域、440,440A,440B 閲覧パス、461,462,463,464,465,466,467,480 データ欄、500 文書表示領域、510 閲覧ナビゲート情報表示領域、512,514,516 アイコン、PC,PC1,PC2,PC3 パーソナルコンピュータ、SRV サーバ装置、MT 携帯端末。

Claims (17)

  1. 文書画像を含む電子化文書を生成する文書処理装置であって、
    前記文書画像から少なくとも1つの内容領域を抽出し、前記内容領域について属性情報を取得する取得手段を備え、
    前記属性情報は、前記内容領域の前記文書画像内での位置を示す位置情報を含み、さらに
    前記内容領域の前記文書画像内での位置を特定するための閲覧ナビゲート情報を生成する情報生成手段を備え、
    前記情報生成手段は、
    前記属性情報に基づいて、前記少なくとも1つの内容領域を少なくとも1つのグループに分類する分類手段と、
    各グループに所属する前記内容領域の前記文書画像内での位置に基づいて、前記グループの各々を評価する評価手段と、
    前記評価手段による評価結果に基づいて、前記少なくとも1つのグループの中から前記閲覧ナビゲート情報の生成対象とするグループを選択する選択手段とを含む、文書処理装置。
  2. 原稿を読取ることで前記文書画像を生成する画像読取手段と、
    前記文書画像に前記閲覧ナビゲート情報を付加することで前記電子化文書を生成する文書生成手段とをさらに備える、請求項1に記載の文書処理装置。
  3. 前記文書画像は、ページ単位で区分されており、
    前記評価手段は、前記各グループに所属する前記内容領域のページ毎の出現数に基づいて前記グループの各々を評価する、請求項1または2に記載の文書処理装置。
  4. 前記評価手段は、所属する前記内容領域がより多くのページに出現するグループに対して相対的に高い評価を与え、
    前記選択手段は、相対的に高い評価を与えられたグループを選択する、請求項3に記載の文書処理装置。
  5. 前記評価手段は、さらに、所属する前記内容領域のページ毎の出現数の最大値が所定範囲内であるグループに対して、前記出現数の最大値が前記所定範囲外であるグループに比較して相対的に高い評価を与える、請求項4に記載の文書処理装置。
  6. 前記情報生成手段は、前記選択手段が複数の前記グループを選択する場合に、前記複数のグループに含まれる前記内容領域の前記文書画像内での位置に基づいて、グループ間の従属関係を決定する従属関係決定手段をさらに含む、請求項1〜5のいずれか1項に記載の文書処理装置。
  7. 前記内容領域は、文字列、段落、図、表、写真、の少なくともいずれかを含む、請求項1〜6のいずれか1項に記載の文書処理装置。
  8. 文書画像を含む電子化文書を生成する文書処理方法であって、
    前記文書画像から少なくとも1つの内容領域を抽出し、前記内容領域について属性情報を取得するステップを備え、
    前記属性情報は、前記内容領域の前記文書画像内での位置を示す位置情報を含み、さらに
    前記内容領域の前記文書画像内での位置を特定するための閲覧ナビゲート情報を生成するステップを備え、
    前記属性情報を取得するステップは、
    前記属性情報に基づいて、前記少なくとも1つの内容領域を少なくとも1つのグループに分類するステップと、
    各グループに所属する前記内容領域の前記文書画像内での位置に基づいて、前記グループの各々を評価するステップと、
    前記評価するステップによる評価結果に基づいて、前記少なくとも1つのグループの中から前記閲覧ナビゲート情報の生成対象とするグループを選択するステップとを含む、文書処理方法。
  9. 請求項8に記載の文書処理方法をコンピュータに実行させる、文書処理プログラム。
  10. 文書画像を含む電子化文書を処理する文書処理装置であって、
    前記電子化文書は、前記文書画像に含まれる内容領域に対応付けて、当該内容領域の所属するグループの種類および当該内容領域の前記文書画像内での位置が規定されている属性情報を含み、
    前記文書処理装置は、
    前記内容領域の前記文書画像内での位置を特定するための閲覧ナビゲート情報を生成する情報生成手段と、
    前記閲覧ナビゲート情報とともに前記文書画像を表示する表示手段とを備え、
    前記情報生成手段は、
    前記表示手段の表示特性を取得する表示特性取得手段と、
    前記表示手段の表示特性に応じて少なくとも1つの閲覧ページ領域を設定する領域設定手段と、
    各グループに所属する前記内容領域の前記閲覧ページ毎の出現数に基づいて前記グループの各々を評価する評価手段と、
    前記評価手段による評価結果に基づいて、前記少なくとも1つのグループの中から前記閲覧ナビゲート情報の生成対象とするグループを選択する選択手段とを含む、文書処理装置。
  11. 前記評価手段は、所属する前記内容領域がより多くの前記閲覧ページに出現するグループに対して相対的に高い評価を与え、
    前記選択手段は、相対的に高い評価を与えられたグループを選択する、請求項10に記載の文書処理装置。
  12. 前記評価手段は、さらに、所属する前記内容領域の前記閲覧ページ毎の出現数の最大値が所定範囲内であるグループに対して、前記出現数の最大値が前記所定範囲外であるグループに比較して相対的に高い評価を与える、請求項11に記載の文書処理装置。
  13. 前記情報生成手段は、前記閲覧ナビゲート情報として、前記閲覧ページのうち前記内容領域が出現しない閲覧ページに対して、当該ページを特定するための情報を付加する付加手段をさらに含む、請求項10〜12のいずれか1項に記載の文書処理装置。
  14. 前記情報生成手段は、前記選択手段が複数の前記グループを選択する場合に、前記複数のグループに含まれる前記内容領域の前記文書画像内での位置に基づいて、グループ間の従属関係を決定する従属関係決定手段をさらに含む、請求項10〜13のいずれか1項に記載の文書処理装置。
  15. 前記評価手段は、閲覧環境に応じて評価をするための基準を変更する、請求項10〜14のいずれか1項に記載の文書処理装置。
  16. 文書画像を含む電子化文書を処理する文書処理方法であって、
    前記電子化文書は、前記文書画像に含まれる内容領域に対応付けて、当該内容領域の所属するグループの種類および当該内容領域の前記文書画像内での位置が規定されている属性情報を含み、
    前記文書処理方法は、
    前記内容領域の前記文書画像内での位置を特定するための閲覧ナビゲート情報を生成するステップと、
    前記閲覧ナビゲート情報とともに前記文書画像を表示部に表示するステップとを備え、
    前記閲覧ナビゲート情報を生成するステップは、
    前記表示部の表示特性を取得するステップと、
    前記表示部の表示特性に応じて少なくとも1つの閲覧ページ領域を設定するステップと、
    各グループに所属する前記内容領域の前記閲覧ページ毎の出現数に基づいて前記グループの各々を評価するステップと、
    前記グループの各々を評価するステップによる評価結果に基づいて、前記少なくとも1つのグループの中から前記閲覧ナビゲート情報の生成対象とするグループを選択する選択ステップとを含む、文書処理方法。
  17. 請求項16に記載の文書処理方法をコンピュータに実行させる、文書処理プログラム。
JP2007150621A 2007-06-06 2007-06-06 文書処理装置、文書処理方法および文書処理プログラム Expired - Fee Related JP5125238B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007150621A JP5125238B2 (ja) 2007-06-06 2007-06-06 文書処理装置、文書処理方法および文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007150621A JP5125238B2 (ja) 2007-06-06 2007-06-06 文書処理装置、文書処理方法および文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2008305088A true JP2008305088A (ja) 2008-12-18
JP5125238B2 JP5125238B2 (ja) 2013-01-23

Family

ID=40233780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007150621A Expired - Fee Related JP5125238B2 (ja) 2007-06-06 2007-06-06 文書処理装置、文書処理方法および文書処理プログラム

Country Status (1)

Country Link
JP (1) JP5125238B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231637A (ja) * 2009-03-27 2010-10-14 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP2011065621A (ja) * 2009-08-20 2011-03-31 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2012174262A (ja) * 2011-02-17 2012-09-10 Sony Corp ブックマーク機能を備えた電子リーダシステム及びその動作方法
US8634112B2 (en) 2009-12-18 2014-01-21 Konica Minolta Business Technologies, Inc. Document processing apparatus for generating an electronic document
US8854635B2 (en) 2009-08-06 2014-10-07 Konica Minolta Business Technologies, Inc. Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0264852A (ja) * 1988-08-31 1990-03-05 Canon Inc 文書処理装置
JPH0668300A (ja) * 1991-12-18 1994-03-11 Internatl Business Mach Corp <Ibm> 文書画像のレイアウトモデルを作成する方法及び装置
JPH07168910A (ja) * 1993-10-19 1995-07-04 N T T Data Tsushin Kk 文書レイアウト解析装置及び文書フォ−マット識別装置
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JPH11213011A (ja) * 1997-12-22 1999-08-06 Ricoh Co Ltd コンピュータで実施する電子的に記憶された文書の注釈方法およびコンピュータプログラム製品およびコンピュータシステム
JP2000322232A (ja) * 1999-05-12 2000-11-24 Matsushita Electric Ind Co Ltd 情報表示装置と情報表示システムおよびその方法
JP2001184344A (ja) * 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
JP2001265762A (ja) * 2000-03-21 2001-09-28 Matsushita Electric Ind Co Ltd 文書構造抽出装置及び文書構造情報抽出方法
JP2003288334A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 文書処理装置及び文書処理方法
JP2005043990A (ja) * 2003-07-23 2005-02-17 Toshiba Corp 文書処理装置および文書処理方法
JP2006099480A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書処理装置
JP2006277089A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd ドキュメント処理装置
JP2006338142A (ja) * 2005-05-31 2006-12-14 Sharp Corp 電子書籍装置
JP2007011513A (ja) * 2005-06-28 2007-01-18 Ricoh Co Ltd 文書表示装置、文書表示方法並びにプログラムおよび記録媒体

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0264852A (ja) * 1988-08-31 1990-03-05 Canon Inc 文書処理装置
JPH0668300A (ja) * 1991-12-18 1994-03-11 Internatl Business Mach Corp <Ibm> 文書画像のレイアウトモデルを作成する方法及び装置
JPH07168910A (ja) * 1993-10-19 1995-07-04 N T T Data Tsushin Kk 文書レイアウト解析装置及び文書フォ−マット識別装置
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JPH11213011A (ja) * 1997-12-22 1999-08-06 Ricoh Co Ltd コンピュータで実施する電子的に記憶された文書の注釈方法およびコンピュータプログラム製品およびコンピュータシステム
JP2000322232A (ja) * 1999-05-12 2000-11-24 Matsushita Electric Ind Co Ltd 情報表示装置と情報表示システムおよびその方法
JP2001184344A (ja) * 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
JP2001265762A (ja) * 2000-03-21 2001-09-28 Matsushita Electric Ind Co Ltd 文書構造抽出装置及び文書構造情報抽出方法
JP2003288334A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 文書処理装置及び文書処理方法
JP2005043990A (ja) * 2003-07-23 2005-02-17 Toshiba Corp 文書処理装置および文書処理方法
JP2006099480A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書処理装置
JP2006277089A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd ドキュメント処理装置
JP2006338142A (ja) * 2005-05-31 2006-12-14 Sharp Corp 電子書籍装置
JP2007011513A (ja) * 2005-06-28 2007-01-18 Ricoh Co Ltd 文書表示装置、文書表示方法並びにプログラムおよび記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231637A (ja) * 2009-03-27 2010-10-14 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8611666B2 (en) 2009-03-27 2013-12-17 Konica Minolta Business Technologies, Inc. Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
US8854635B2 (en) 2009-08-06 2014-10-07 Konica Minolta Business Technologies, Inc. Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings
JP2011065621A (ja) * 2009-08-20 2011-03-31 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
US8824798B2 (en) 2009-08-20 2014-09-02 Fuji Xerox Co., Ltd. Information processing device, computer readable medium storing information processing program, and information processing method
US8634112B2 (en) 2009-12-18 2014-01-21 Konica Minolta Business Technologies, Inc. Document processing apparatus for generating an electronic document
JP2012174262A (ja) * 2011-02-17 2012-09-10 Sony Corp ブックマーク機能を備えた電子リーダシステム及びその動作方法
US8924839B2 (en) 2011-02-17 2014-12-30 Sony Corporation Electronic reader system with bookmarking and method of operation thereof

Also Published As

Publication number Publication date
JP5125238B2 (ja) 2013-01-23

Similar Documents

Publication Publication Date Title
US8724193B2 (en) Image forming device creating a preview image
JP5164368B2 (ja) 画像処理装置、画像処理方法
KR101054486B1 (ko) 데이터 처리 시스템, 화상 표시 장치 및 그 프로그램을 기록한 기록매체
EP1752895A1 (en) Image processing apparatus for image retrieval and control method therefor
JP4940982B2 (ja) 画像形成装置およびWebページ印刷制御方法
JP5125238B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP5176416B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
EP2713598A1 (en) Grouping and preferential display of suggested metadata for files
JP2007025814A (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP2009169675A (ja) 文書処理装置、文書処理方法および文書処理プログラム
US20210303133A1 (en) Information processing device and recording system
JP5098614B2 (ja) 文章処理装置の制御方法および文章処理装置
CN111580758B (zh) 图像形成装置
JP2009266009A (ja) 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム
JP6344162B2 (ja) 画像処理装置およびコンピュータプログラム
JP5168963B2 (ja) 文書表示装置、文書表示方法及び文書表示プログラム
US20090141304A1 (en) Computer-readable recording medium storing a program for managing image files and image file management apparatus
EP2166467B1 (en) Information processing apparatus, control method thereof, computer program, and storage medium
JP2015219575A (ja) 情報処理システム、情報処理装置、情報処理方法及びプログラム
JP4752697B2 (ja) サムネール生成装置、サムネール生成方法およびサムネール生成プログラム
JP5205821B2 (ja) 文書処理方法、文書処理プログラム、および文書処理装置
JP4322090B2 (ja) 印刷管理サーバ、印刷管理プログラム及び画像形成方法
JP2007122392A (ja) 画像処理装置及び方法、並びにプログラム及び記憶媒体
JP2011044938A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2005170037A (ja) 印刷装置、印刷システム、印刷方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees