JP2007011683A - 文書管理支援装置 - Google Patents
文書管理支援装置 Download PDFInfo
- Publication number
- JP2007011683A JP2007011683A JP2005191607A JP2005191607A JP2007011683A JP 2007011683 A JP2007011683 A JP 2007011683A JP 2005191607 A JP2005191607 A JP 2005191607A JP 2005191607 A JP2005191607 A JP 2005191607A JP 2007011683 A JP2007011683 A JP 2007011683A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- document
- area
- character
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Abstract
【課題】 手書きによるアノテーションが付加された文書の管理を支援する文書管理支援装置を提供する。
【解決手段】 制御部21は活字文字と手書文字とが混在する文書を表す画像データを受け取ると、受け取った画像データを記憶部25に格納する。さらに画像データから文書画像データを生成し、文書画像データにおいて、活字文字が記されている活字領域の画像データと、手書文字が記されている手書領域の画像データとを分離する。次に夫々の領域において文字認識処理を施しテキストデータを生成し、生成したテキストデータと該テキストデータが含まれる画像データの格納場所を表す識別子と、活字領域であるか手書領域であるかを示す識別子とをインデックステーブルに格納する。そして、操作部24においてキーワードが入力されると、インデックステーブルを検索し、該当する画像データを表示部23に表示する。
【選択図】 図2
【解決手段】 制御部21は活字文字と手書文字とが混在する文書を表す画像データを受け取ると、受け取った画像データを記憶部25に格納する。さらに画像データから文書画像データを生成し、文書画像データにおいて、活字文字が記されている活字領域の画像データと、手書文字が記されている手書領域の画像データとを分離する。次に夫々の領域において文字認識処理を施しテキストデータを生成し、生成したテキストデータと該テキストデータが含まれる画像データの格納場所を表す識別子と、活字領域であるか手書領域であるかを示す識別子とをインデックステーブルに格納する。そして、操作部24においてキーワードが入力されると、インデックステーブルを検索し、該当する画像データを表示部23に表示する。
【選択図】 図2
Description
本発明は、手書きによるアノテーションが付加された文書の管理を支援する技術に関する。
電子化した文書について行う全文検索は、予め作成されたインデックステーブルを元に行う。このとき電子化する文書には、手書きで記載されたアノテーションが付加されていることがある。このアノテーションは文章の重要点を示していたり、注意を喚起する内容であったり、重要な事項であることが多い。
特許文献1には、蛍光ペンによって重要部分がマークされた紙文書を蓄積する際、該マーク箇所に文字認識処理を施し、インデックスに登録する技術が開示されている。
特開平5−233705号公報
しかしながら、特許文献1に開示された技術においては、インデックスとして登録されるのは蛍光ペンでマークされた箇所の文字のみであるため、蛍光ペンでマークされていない箇所の文字についてはインデックスが作成されない。そのため、所望の文字を検索の対象とするには、いちいち蛍光ペンでマークしなければならない。一方、よく行われるアノテーション付加方法は、手書きによって文書の余白に文字を書き込む方法である。しかし、特許文献1に記載の発明においては、アノテーションを付加したとしても、その上にさらにマークをしなければならず面倒であった。
本発明はこのような事情に鑑みてなされたものであり、その目的は、紙文書に含まれる活字文字とアノテーションとして付加された手書文字とを認識し、それぞれの文字についてのインデックスを作成し、作成したインデックスを元に検索を行うことが出来る文書管理支援装置を提供することにある。
上記課題を解決するために、本発明は、文書を走査し、前記文書の内容を表す文書画像データを取得する文書画像データ生成手段と、前記文書画像データ生成手段が生成した前記文書画像データを記憶する記憶手段と、前記文書画像データ生成手段が生成した前記文書画像データから、1又は複数の活字文字が記されている活字領域の画像データと、1又は複数の手書文字が記されている手書領域の画像データとを切り出す領域分離手段と、 前記活字領域の画像データと、前記手書領域の画像データのそれぞれに文字認識処理を施し、認識文字列を出力する文字認識処理手段と、前記記憶手段が記憶した各画像データの格納場所を示す格納場所識別子と、前記文字認識処理手段が出力した認識文字列と、前記認識文字列が手書領域の画像データを表す文字列であるか活字領域の画像データを表す文字列であるかを示す文字識別子とをそれぞれ関連づけて記憶するインデックス情報記憶手段とを具備する文書管理支援装置を提供する。
この文書管理支援装置によれば、文書画像データから活字文字が記載されている活字領域と手書文字が記載されている手書領域とを分離し、それぞれの文字領域について文字認識を行いインデックスを作成するので、紙文書の余白等にメモとして手書きで記載されたアノテーションもインデックス作成対象とすることができる。従って、活字文字及び手書文字についてのインデックステーブルを作成することができる。また、インデックステーブルには、該インデックステーブルに格納された活字文字及び手書文字に関連づけてそれぞれの文字が含まれる文書画像データが格納されているアドレスも格納されるので、インデックステーブルを参照することにより、所定の文字の所在を特定することができる。
本発明の好ましい態様において、前記領域分離手段は、前記文書画像データから、注目領域を特定する手段と、前記注目領域内において隣り合う2つの文字の間の距離を当該2つの文字列の組毎に求め、求めた各距離のばらつきの程度が所定の範囲を超えないときは前記注目領域が活字領域であると判断する一方で、当該ばらつきの程度が所定の範囲を超えるときは前記注目領域が手書き領域であることを判断する手段とを含むようにしてもよい。
一般に、活字文字の隣り合う2つの文字の間隔は一定であるが、手書文字の隣り合う2つの文字の間隔は一定ではない。従って、領域分離手段によって抽出した領域内の文字列の文字の間隔が、所定の値を元に一定であるか否かを判定することにより、該領域が活字及び手書のいずれの文字列で表された画像データであるかを判断することができる。
また、検索キーとして入力された文字列と、前記インデックス情報記憶手段に記憶されている認識文字列とを照合することにより、前記インデックス情報記憶手段を検索する検索手段と、前記検索手段が検索した結果を表示する表示手段とを具備するようにしてもよい。これによれば、検索キーとなる文字列を元にインデックステーブルを検索し、検索結果を表示することができる。
さらに、前記検索キーとなる文字列を前記手書領域及び前記活字領域のいずれの領域から検索するかを指定する指定手段を具備し、前記検索手段は、前記指定手段によって指定された領域について、前記検索を行うようにしてもよい。
以下、本発明の実施形態について図面を用いて詳細に説明する。
図1は、本発明に係る文書管理支援装置の1実施形態である文書管理支援システム1の構成例を示すブロック図である。図1の画像読取装置10は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ光学的に読み取り、読み取った画像に対応する画像データを通信線12を介して文書管理支援装置20に転送するものである。通信線12はLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどを用いることができるが、本実施形態においては、通信線12としてLANを用いている。
図1は、本発明に係る文書管理支援装置の1実施形態である文書管理支援システム1の構成例を示すブロック図である。図1の画像読取装置10は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ光学的に読み取り、読み取った画像に対応する画像データを通信線12を介して文書管理支援装置20に転送するものである。通信線12はLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどを用いることができるが、本実施形態においては、通信線12としてLANを用いている。
図2は、文書管理支援装置20のハードウェア構成を示すブロック図である。
制御部21は、例えばCPU(Central Processing Unit)であり、各種ソフトウェアを実行することによって、文書管理支援装置20の各部を制御する。通信インタフェス(以下「IF」と称す)部22は通信線12を介して画像読取装置10に接続されており、この通信線12を介して画像読取装置10から送信される画像データを受け取り、制御部21に転送する。
制御部21は、例えばCPU(Central Processing Unit)であり、各種ソフトウェアを実行することによって、文書管理支援装置20の各部を制御する。通信インタフェス(以下「IF」と称す)部22は通信線12を介して画像読取装置10に接続されており、この通信線12を介して画像読取装置10から送信される画像データを受け取り、制御部21に転送する。
表示部23は、例えば液晶ディスプレイとその駆動回路であり、制御部21から転送されたデータに応じた画像を表示する。操作部24は、例えば、複数の操作子(図示省略)を備えたキーボードおよびマウス等であり、それら操作子の操作内容に応じたデータ(以下、操作内容データ)を制御部21へ出力する。
記憶部25は、揮発性記憶部25a、不揮発性記憶部25bを含んでいる。揮発性記憶部25aは、例えばRAM(Random Access Memory)であり、制御部21のワークエリアとして利用される。不揮発性記憶部25bは、例えばハードディスクであり、解析処理プログラムP1等のプログラム及びインデックステーブルT1が格納されている。
以下、制御部21が図3(a)乃至(c)に示した文書30乃至32に対して、画像データの解析処理を行う動作について説明する。
文書管理支援装置20の電源(図示略)が投入されると、制御部21は、不揮発性記憶部25bから解析処理プログラムP1を読み出し、図4に示すフローチャートの動作を実行する。
まず、ユーザが画像読取装置10のADFに文書30乃至32をセットし、所定の操作を行うと、文書30乃至32を表す画像が画像読取装置10によって順次読み取られ、その文書に対応する画像データが通信線12を介して画像読取装置10から文書管理支援装置20へ順次送られる。
文書管理支援装置20の電源(図示略)が投入されると、制御部21は、不揮発性記憶部25bから解析処理プログラムP1を読み出し、図4に示すフローチャートの動作を実行する。
まず、ユーザが画像読取装置10のADFに文書30乃至32をセットし、所定の操作を行うと、文書30乃至32を表す画像が画像読取装置10によって順次読み取られ、その文書に対応する画像データが通信線12を介して画像読取装置10から文書管理支援装置20へ順次送られる。
制御部21は、画像読取装置10から送られた画像データを通信IF部22を介して受け取ると(ステップSA10)、受け取った画像データを記憶部25に格納する(ステップSA12)。さらに、制御部21は文書30乃至32の画像データから文書画像データをそれぞれ生成する(ステップSA14)。次に、制御部21は、文書画像データから、活字文字が記されている活字領域の画像データ、及び手書文字が記されている手書領域の画像データをそれぞれ切り出す(ステップSA16)。
活字領域及び手書領域の切出しは以下のように行なわれる。まず、文書画像データによって表される各画素を横方向に走査し、隣り合う2つの文字の間の距離、即ち、連続する白画素の並びの幅が、所定値Xよりも小さかったとき、それらの連続する白画素を黒画素に置き換える。この所定値Xは、隣りにある文字との距離として想定される値と概ね一致させる。同様に、各画素を縦方向にも走査し、連続する白画素の並びの幅が所定値Yよりも小さかったとき、それらの連続する白画素を黒画素に置き換える。この所定値Yは、文字行の間隔として想定される値と概ね一致させる。この結果、黒画素で塗り潰された領域が形成される。図5は、文書30の画像に上述の置き換え処理を施した状態を示すものである。この図では、黒画素で塗り潰された領域L1乃至L6が形成されている。なお、文書31及び32の画像についても同様の動作を行うため、以下の動作説明は、文書30の画像を対象として行う。
黒画素で塗り潰された領域が形成されると、今度は、各領域が活字領域か手書領域かの判定に移る。この判定では、まず処理対象となる注目領域を特定し、特定された領域内において置き換えられていた黒画素を白画素に戻し、元の描画内容を復元する。そして、その領域内の画素を横方向に走査し、連続する白画素のピッチのばらつきの程度が所定値よりも小さいか否か判定する。一般に、活字文字が記された領域であれば隣り合う2つの文字の間隔は概ね一定となるため、連続する白画素のピッチのばらつきの程度が所定値よりも小さくなる。一方で、手書文字が記された領域であれば隣り合う文字2つの間隔は一定とならないため、連続する白画素のピッチのばらつきの程度が所定値よりも大きくなる。図5に示したL1乃至L6の領域についての判定の例では、L1乃至L5の領域は活字領域であるとの判定結果が下され、L6の領域は手書領域であるとの判定結果が下される。
そして、それぞれの領域についてOCR処理を施し文字認識処理を行い、活字領域から活字文字テキストデータ、手書領域から手書文字テキストデータをそれぞれ生成する(ステップSA18)。続いて、生成したテキストデータについて形態素解析を施し、それぞれのテキストデータから名詞に該当するテキストデータを抽出し(ステップSA20)、インデックステーブルT1に格納する(ステップSA22)。
ここでインデックステーブルT1について図6を用いて説明する。インデックステーブルT1は図6に示すように、「文字列」、「画像データアドレス」及び「フラグ」フィールドによって構成されている。文字列フィールドには、ステップSA20によって抽出された名詞が格納される。画像データアドレスフィールドには、文書30の画像データの格納場所、つまり不揮発性記憶部25bにおける該画像データの格納場所を示す識別子が、画像データアドレスとして格納される。フラグフィールドには、該抽出されたテキストデータが活字文字テキストデータであるか手書文字テキストデータであるかを識別する識別子が格納される。本実施形態においてフラグフィールドには、活字文字テキストデータであれば「1」、手書文字テキストデータであれば「0」をそれぞれ格納する。
以上の結果「あいうえお」、「かきくけこ」等のテキストデータが文字列フィールドに格納される。また、これらのテキストデータに関連づけて、文書30の画像データの画像データアドレス「01」が、画像データアドレスフィールドに格納される。
さらに「あいうえお」、「かきくけこ」のテキストデータが含まれる領域は前述のステップSA16において活字領域(L1)であると判定されているので、活字テキストデータであることを示す「1」がそれぞれのテキストデータに関連づけてフラグフィールドに格納される。テキストデータ「いろは」についても同じように、テキストデータである「いろは」と、文書30の画像の格納場所を示す識別子「01」とが関連づけて格納される。該テキストデータは領域L6に含まれ、領域L6は前述のステップSA16において手書領域であると判定されているので、フラグフィールドには該テキストデータと関連づけて「0」が格納される。
さらに「あいうえお」、「かきくけこ」のテキストデータが含まれる領域は前述のステップSA16において活字領域(L1)であると判定されているので、活字テキストデータであることを示す「1」がそれぞれのテキストデータに関連づけてフラグフィールドに格納される。テキストデータ「いろは」についても同じように、テキストデータである「いろは」と、文書30の画像の格納場所を示す識別子「01」とが関連づけて格納される。該テキストデータは領域L6に含まれ、領域L6は前述のステップSA16において手書領域であると判定されているので、フラグフィールドには該テキストデータと関連づけて「0」が格納される。
次に、制御部21がキーワードを元にインデックステーブルT1を検索する検索動作について説明する。
図7は検索動作を示すフローチャートである。
まず、制御部21は、変数として、該当活字文字列数x、該当手書文字列数y及び該当画像データ数zを設定し、それぞれの変数に初期値を入力する(ステップSB10)。
図7は検索動作を示すフローチャートである。
まず、制御部21は、変数として、該当活字文字列数x、該当手書文字列数y及び該当画像データ数zを設定し、それぞれの変数に初期値を入力する(ステップSB10)。
続いて、図8に示したキーワード入力画面40を表示部23に表示し、ユーザにキーワードを入力させる(ステップSB12)。図8に示したように、キーワード入力画面40は入力ボックス41及び「決定」ボタンBT1により構成されている。このキーワード入力画面40を視認したユーザは、操作部24を操作し、決定ボタンBT1を押下することによって、キーワードを指定することができる。このとき、ユーザによって入力された文字列は「あいうえお」であったとする。操作部24は「あいうえお」を表す文字データを制御部21に供給する。
制御部21は、文字データを受け取ると、文字データの内容、すなわち「あいうえお」を元にインデックステーブルT1の文字列フィールドを検索する(ステップSB14)。このとき、インデックステーブルT1の文字列フィールドに、文字データ「あいうえお」と同一のテキストデータが格納されているレコードは3つある。
制御部21は、これらのレコード群を順次揮発性記憶部25bに読み出す(ステップSB16)。図9は読み出したレコード群の一例である。
制御部21は、これらのレコード群を順次揮発性記憶部25bに読み出す(ステップSB16)。図9は読み出したレコード群の一例である。
続いて、制御部21は、抽出したレコード群のフラグフィールドにおいて「1」が格納されているレコードの数を該当活字文字列数xに、「0」が格納されているレコードの数を該当手書文字列数yに代入する(ステップSB18)。すなわち、抽出したレコード群のフラグフィールドにおいて「1」が格納されているレコード数は2つ、「0」が格納されているレコード数は1つであるので、制御部21は該当活字文字列数x=2、該当手書文字列数y=1とする。
次に制御部21は、抽出したレコード群のアドレスフィールドにおいて、異なるアドレスがいくつ記憶されているかを検出し、検出した個数を該当画像データ数zに代入する(ステップSB20)。このとき、異なるアドレスは、「01」、「03」の2個である。従って、制御部21は、z=2とする。
続いて、制御部21は、抽出したレコード群のアドレスフィールドのうち、アドレスの若い順に画像データを読み出す(ステップSB22)。すなわち、一番若いアドレスは、「01」であるため、制御部21は、まず、アドレス01に格納されている画像データを読み出す。このとき、アドレス01に格納されている画像データは文書30の画像データであるので、制御部21によって、この文書30の画像データが読み出されることになる。
そして、制御部21は、文書30の画像データ、前述の該当活字文字列数x、該当手書文字列数y及び該当画像データ数zから生成した検索結果画面40を表示部23に表示する(ステップSB24)。
図10は検索結果画面40を示した図である。図に示したように、検索結果画面40は表示領域42、検索結果欄及び「次画像表示」ボタンBT2によって構成されている。表示領域42には、文書30を表す画像が表示されている。また、検索結果欄には該当活字文字列数x、該当手書文字列数y及び該当画像データ数zがそれぞれ表示されている。
図10は検索結果画面40を示した図である。図に示したように、検索結果画面40は表示領域42、検索結果欄及び「次画像表示」ボタンBT2によって構成されている。表示領域42には、文書30を表す画像が表示されている。また、検索結果欄には該当活字文字列数x、該当手書文字列数y及び該当画像データ数zがそれぞれ表示されている。
検索結果画面40を視認したユーザにより、次画像表示ボタンBT2が押下されると、制御部21は、ステップSB16において抽出したレコード群のアドレスフィールドにおいて、2番目に若いアドレスに格納されている画像データを読み出し、読み出した画像データの画像を領域42に表示する。このとき、2番目に若いアドレスに格納されている画像は文書32の画像であるため、領域42には文書32の画像が表示される。このように制御部21は該当する画像を領域42に順次表示する。
以上説明したように、本実施形態においては、文書に手書で記載されたアノテーションについても文字認識を行い、インデックステーブルを作成するので、文書に記載されている活字文字のみならず、手書文字に対しても検索を行うことができる。従って、手書文字に重要な情報が含まれている場合や、他者に伝えたいコメントが含まれている場合等、それらの情報も検索結果としてユーザに提示することができる。
[変形例]
本発明は上述した実施形態以外に種々の形態で実施可能である。
(1)手書文字は人によって癖があるため、本来とは違う文字に認識する虞がある。従って、誤認識が起こりやすい文字、例えば「ツ」と「シ」や、「ソ」と「ン」等の文字について、それらを関連づけた類似文字辞書テーブルを不揮発性記憶部25bに記憶させておき、インデックステーブルT1にテキストデータを格納する際、類似文字辞書テーブルを元に作成したテキストデータも格納するようにしても良い。具体的には、ステップSA18(図4参照)における文字認識の結果、「ペーヅ」という文字列を取得した際、ステップSA22において、「ペーヅ」の文字列を示すテキストデータをインデックステーブルT1に格納すると共に、類似文字辞書テーブルを元に変換した「ページ」の文字列を示すテキストデータをインデックステーブルT1に格納する。このときのインデックステーブルT1を図11に例示する。このようにすることで、人の手書文字の癖によって、本来とは違う文字列を示すテキストデータがインデックステーブルT1に格納されていても、類似文字辞書テーブルによって変換されたテキストデータもインデックステーブルT1に格納されるため、検索動作において、本来は抽出されるべき画像データが、手書文字の癖の影響で抽出されないということを防ぐことができる。
本発明は上述した実施形態以外に種々の形態で実施可能である。
(1)手書文字は人によって癖があるため、本来とは違う文字に認識する虞がある。従って、誤認識が起こりやすい文字、例えば「ツ」と「シ」や、「ソ」と「ン」等の文字について、それらを関連づけた類似文字辞書テーブルを不揮発性記憶部25bに記憶させておき、インデックステーブルT1にテキストデータを格納する際、類似文字辞書テーブルを元に作成したテキストデータも格納するようにしても良い。具体的には、ステップSA18(図4参照)における文字認識の結果、「ペーヅ」という文字列を取得した際、ステップSA22において、「ペーヅ」の文字列を示すテキストデータをインデックステーブルT1に格納すると共に、類似文字辞書テーブルを元に変換した「ページ」の文字列を示すテキストデータをインデックステーブルT1に格納する。このときのインデックステーブルT1を図11に例示する。このようにすることで、人の手書文字の癖によって、本来とは違う文字列を示すテキストデータがインデックステーブルT1に格納されていても、類似文字辞書テーブルによって変換されたテキストデータもインデックステーブルT1に格納されるため、検索動作において、本来は抽出されるべき画像データが、手書文字の癖の影響で抽出されないということを防ぐことができる。
(2)また、同義語を関連づけたテーブル(同義語テーブル)を不揮発性記憶部25bに格納しておき、この同義語テーブルを元に拡張したキーワードでインデックステーブルT1を検索するようにしても良い。例えば、同義語テーブルに「白黒」と「モノクロ」とが同義語として格納されており、前述のキーワード入力画面40(図8参照)において、ユーザが入力したキーワードが「白黒」であった場合、制御部21は「白黒」及び「モノクロ」を表すキーワードを元にインデックステーブルT1を検索するようにする。このようにすることで、拡張した条件で画像データを検索することができる。
(3)また、本実施形態においては、制御部21が検索動作を行う際、文字列データのみを用いて検索する場合について示したが、文字列データに加え、活字文字テキストデータ又は手書文字テキストデータのいずれから検索するかという指定を元に検索するようにしてもよい。この場合の一例として、制御部21は、前述のステップSB12において、図12に示したキーワード入力画面50を表示する。図に示したように、キーワード入力画面50はキーワード入力画面40(図8参照)に、活字文字チェックボックス51及び手書文字チェックボックス52によって構成されたチェックボックスが付加されている。制御部21はこれらのチェックボックスの内容に応じて検索する。例えば、ユーザによってキーワード入力画面50の入力ボックス41に入力された文字列が「あいうえお」であり、活字文字チェックボックス51がチェックされた場合、制御部21は、文字列フィールドに「あいうえお」のテキストデータが、フラグフィールドに「1」が格納されているレコードを検索する。
このようにすることで、ユーザの検索目的により合致した条件で検索をすることができる。
このようにすることで、ユーザの検索目的により合致した条件で検索をすることができる。
(4)また、本実施形態においては、活字文字と手書文字を同一のテーブル(インデックステーブルT1)内に格納する場合を示したが、それぞれを別のテーブルに格納するようにしてもよい。
(5)また、本実施形態においては、画像読取装置10と文書管理支援装置20とをそれぞれ個別のハードウェアとして構成する場合を示したが、両者を一体のハードウェアで構成するようにしてもよい。このとき、通信線12は、係るハードウェア内で画像読取装置10と文書管理支援装置20とを接続する内部バスとなる。
1・・・文書管理支援システム、10・・・画像読取装置、12・・・通信線、、20・・・文書管理支援装置、21・・・制御部、22・・・通信IF部、23・・・表示部、24・・・操作部、25・・・記憶部、25a・・・揮発性記憶部、25b・・・不揮発性記憶部、26・・・バス
Claims (4)
- 文書を走査し、前記文書の内容を表す文書画像データを取得する文書画像データ生成手段と、
前記文書画像データ生成手段が生成した前記文書画像データを記憶する記憶手段と、
前記文書画像データ生成手段が生成した前記文書画像データから、1又は複数の活字文字が記されている活字領域の画像データと、1又は複数の手書文字が記されている手書領域の画像データとを切り出す領域分離手段と、
前記活字領域の画像データと、前記手書領域の画像データとのそれぞれに文字認識処理を施し、認識文字列を出力する文字認識処理手段と、
前記記憶手段が記憶した各画像データの格納場所を示す格納場所識別子と、前記文字認識処理手段が出力した認識文字列と、前記認識文字列が手書領域の画像データを表す文字列であるか活字領域の画像データを表す文字列であるかを示す文字識別子とをそれぞれ関連づけて記憶するインデックス情報記憶手段と
を具備することを特徴とする文書管理支援装置。 - 前記領域分離手段は、前記文書画像データから、注目領域を特定する手段と、
前記注目領域内において隣り合う2つの文字の間の距離を当該2つの文字列の組毎に求め、求めた各距離のばらつきの程度が所定の範囲を超えないときは前記注目領域が活字領域であると判断する一方で、当該ばらつきの程度が所定の範囲を超えるときは前記注目領域が手書き領域であることを判断する手段と
を含むことを特徴とする請求項1記載の文書管理支援装置。 - 検索キーとして入力された文字列と、前記インデックス情報記憶手段に記憶されている認識文字列とを照合することにより、インデックス情報を検索する検索手段と、
前記検索手段が検索した結果を表示する表示手段と
を具備することを特徴とする請求項1又は2記載の文書管理支援装置。 - 前記検索キーとなる文字列を前記手書領域及び前記活字領域のいずれの領域から検索するかを指定する指定手段を具備し、
前記検索手段は、前記指定手段によって指定された領域について、前記検索を行うことを特徴とする請求項3記載の文書管理支援装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005191607A JP2007011683A (ja) | 2005-06-30 | 2005-06-30 | 文書管理支援装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005191607A JP2007011683A (ja) | 2005-06-30 | 2005-06-30 | 文書管理支援装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007011683A true JP2007011683A (ja) | 2007-01-18 |
Family
ID=37750096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005191607A Pending JP2007011683A (ja) | 2005-06-30 | 2005-06-30 | 文書管理支援装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007011683A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246762A (ja) * | 2012-05-29 | 2013-12-09 | Kddi Corp | 情報表示装置 |
JP2015032309A (ja) * | 2013-07-31 | 2015-02-16 | 株式会社リコー | クラウドサーバー及び画像ファイル記憶検索システム |
CN109145919A (zh) * | 2018-08-20 | 2019-01-04 | 贵州宜行智通科技有限公司 | 一种不文明标语检测方法及装置 |
JP2021174122A (ja) * | 2020-04-21 | 2021-11-01 | 富士通クライアントコンピューティング株式会社 | 情報処理装置、情報処理システム、および情報処理プログラム |
-
2005
- 2005-06-30 JP JP2005191607A patent/JP2007011683A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246762A (ja) * | 2012-05-29 | 2013-12-09 | Kddi Corp | 情報表示装置 |
JP2015032309A (ja) * | 2013-07-31 | 2015-02-16 | 株式会社リコー | クラウドサーバー及び画像ファイル記憶検索システム |
CN109145919A (zh) * | 2018-08-20 | 2019-01-04 | 贵州宜行智通科技有限公司 | 一种不文明标语检测方法及装置 |
JP2021174122A (ja) * | 2020-04-21 | 2021-11-01 | 富士通クライアントコンピューティング株式会社 | 情報処理装置、情報処理システム、および情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4118349B2 (ja) | 文書選択等の方法及び文書サーバ | |
US20040139391A1 (en) | Integration of handwritten annotations into an electronic original | |
US8634100B2 (en) | Image forming apparatus for detecting index data of document data, and control method and program product for the same | |
US7743320B1 (en) | Method and system for determining page numbers of page images | |
US20060062453A1 (en) | Color highlighting document image processing | |
JP2001126026A (ja) | 情報入力装置 | |
US20060285748A1 (en) | Document processing device | |
JP2011100356A (ja) | 文書画像生成装置、文書画像生成方法及びコンピュータプログラム | |
JP5033277B2 (ja) | 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体 | |
JP2008022159A (ja) | 文書処理装置及び文書処理方法 | |
JP2007004621A (ja) | 文書管理支援装置、文書管理支援方法およびプログラム | |
US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
JP2006221569A (ja) | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 | |
JP2007011683A (ja) | 文書管理支援装置 | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JP4747828B2 (ja) | 履歴管理装置 | |
JP2006146627A (ja) | 文書情報検索システム | |
JP2007052613A (ja) | 翻訳装置、翻訳システムおよび翻訳方法 | |
JP2010211470A (ja) | 文書データ生成装置と文書データ生成方法 | |
WO1997004409A1 (fr) | Dispositif de recherche de fichiers | |
JP4797507B2 (ja) | 翻訳装置、翻訳システムおよびプログラム | |
JP3841318B2 (ja) | アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー | |
US20050256868A1 (en) | Document search system | |
JP5445740B2 (ja) | 画像処理装置、画像処理システムおよび処理プログラム | |
Lins et al. | Content recognition and indexing in the LiveMemory platform |