JP2005267057A - テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム - Google Patents

テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム Download PDF

Info

Publication number
JP2005267057A
JP2005267057A JP2004076572A JP2004076572A JP2005267057A JP 2005267057 A JP2005267057 A JP 2005267057A JP 2004076572 A JP2004076572 A JP 2004076572A JP 2004076572 A JP2004076572 A JP 2004076572A JP 2005267057 A JP2005267057 A JP 2005267057A
Authority
JP
Japan
Prior art keywords
text
text data
area
image data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004076572A
Other languages
English (en)
Inventor
Masahiro Minowa
政寛 箕輪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2004076572A priority Critical patent/JP2005267057A/ja
Publication of JP2005267057A publication Critical patent/JP2005267057A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 イメージデータ上のテキスト領域を指定してテキストデータを抽出する場合、容易且つ迅速にテキストデータを抽出することを目的としている。
【解決手段】 マウス6によって指定されたイメージデータ上におけるテキスト領域E内のテキストデータを抽出するテキストデータ抽出方法であって、テキスト領域Eの範囲を設定する領域設定部10と、マウス6のワンクリックによって指定されたイメージデータ上の任意の位置情報を取得する位置情報取得部30と、位置情報に基づき、領域設定部10において設定された範囲のテキスト領域Eを切り出す領域切り出し部40と、切り出したテキスト領域E内のイメージデータをOCR処理することによってテキストデータを抽出するテキストデータ抽出部50と、を備えたものである。
【選択図】 図1

Description

本発明は、マウスによって指定されたイメージデータ上におけるテキスト領域内のテキストデータを抽出するテキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラムに関するものである。
電子ファイリングシステムにおいて管理される電子ファイルは、紙(印刷物)またはアプリケーションファイルを所定の文書形式に電子化することで作成される。電子ファイリングの文書形式としては、従来から米国Adobe Systems社(アドビシステムズ社)が開発したPDF(Portable Document Format)形式が汎用的に用いられているが、ここで紙またはアプリケーションファイルをPDF形式に変換して電子ファイルを生成する場合について簡単に説明する。
例えば紙(新聞、雑誌など)から電子ファイルを生成する場合、まずスキャナで紙の画像を読み取りイメージデータを生成する。読み取ったイメージデータはスキャナに応じた画像フォーマット(BMP、TIFF等)であるため、これをPDF化する。また、電子ファイルを検索可能とするため、このPDFファイルにOCR(Optical Character Reader)を施してテキストデータを生成し、これをPDFファイルに付加する。これにより、検索用のテキストデータが付加されたPDFファイルが生成される。一方、アプリケーションファイル(MS-Wordなど)から電子ファイルを生成する場合も、所定の変換フォーマットに従ってPDFファイルを生成するが、この場合はテキストデータが包含されたPDFファイルが生成されるため、OCRを施す必要はない。
このようにして生成された電子ファイル(テキストデータ付きPDFファイル)は、イメージデータのバックグラウンドにテキストデータを貼り込み、閲覧用としてイメージデータ、検索用としてテキストデータが利用される。また、検索時に該当するテキスト領域をハイライト表示させる場合は、テキストデータと関連づけて、イメージデータ上におけるテキスト領域の位置情報(領域情報)を示す位置データが付加される。
このテキストデータを利用した検索形態としては、電子ファイルの中身から任意のキーワードで検索する全文検索と、電子ファイルの文書情報(文書タイトル、作成者、キーワードなどの情報)で検索する方法がある。前者の場合、自動的に検索用インデックス(検索対象となるテキストデータを格納したデータベース)を作成可能であるといった利点を有するが、作成に時間がかかると共に検索ヒット数が多くなり効率的な検索を行うことができないといった不具合がある。これに対し、後者の場合は、ユーザによる文書情報の入力が必要となるため自動化には不向きであるが、ユーザが必要な情報のみをテキストデータとして付加することができるため、効率的な検索ができるといった利点がある。
ところで、従来、後者の例のように文書情報で検索するための検索用インデックスを作成する場合、キーボードによる情報入力、またはイメージデータ上のテキスト領域指定のいずれかの方法により文書情報が入力されている。テキスト領域指定の例としては、イメージデータ上の任意の領域を指定して文字認識処理(OCR処理)を行い、テキストデータに変換した後、これを検索語として記憶する電子ファイリングシステムの検索語入力方法が知られている(例えば、特許文献1参照)。
特開平5−298368号公報
ところが、上記の特許文献に記載の検索語入力方法は、1つの文書情報(キーワード)を入力する際、マウスを用いて少なくとも任意の点を2カ所以上指定するか、若しくはマウスのドラッグによりテキスト領域の範囲を指定してテキストデータを抽出する必要がある。したがって、膨大な量の電子ファイルの検索用インデックスを作成する場合、マウスのクリック数やドラッグ回数が増加し、テキストデータの抽出に多くの時間と労力を要していた。
そこで本発明は、イメージデータ上のテキスト領域を指定してテキストデータを抽出する場合、容易且つ迅速にテキストデータを抽出可能なテキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラムを提供することを目的とする。
本発明のテキストデータ抽出方法は、マウスによって指定されたイメージデータ上におけるテキスト領域内のテキストデータを抽出するテキストデータ抽出方法であって、テキスト領域の範囲を設定する領域設定工程と、マウスのワンクリックによって指定されたイメージデータ上の任意の位置情報を取得する位置情報取得工程と、位置情報に基づき、領域設定工程において設定された範囲のテキスト領域を切り出す領域切り出し工程と、切り出したテキスト領域内のイメージデータをOCR処理することによってテキストデータを抽出するテキストデータ抽出工程と、を備えたことを特徴とする。
この構成によれば、予めイメージデータ上のテキスト領域を切り出す範囲を設定しておくことで、マウスのワンクリックにより、迅速にテキストデータを抽出することができる。すなわち、抽出したいテキストデータが表示されたテキスト領域内をユーザがマウスでクリックすると、クリックされた位置の位置情報に基づき、設定した範囲のテキスト領域が切り出され、当該テキスト領域がOCR処理されることにより、テキストデータが抽出される。したがって、ユーザは、抽出したいテキストデータの表示位置をワンクリックするだけで容易にテキストデータを抽出することができる。なお、切り出すテキスト領域は、マウスでクリックされた位置を先頭位置として切り出しても良いし、中心位置として切り出しても良い。また、テキストデータ抽出工程の後、抽出されたテキストデータの一部を削除、変更する編集工程をさらに備えることが好ましい。この構成によれば、よりユーザのニーズに合ったテキストデータを得ることができる。
この場合、領域設定工程では、テキスト領域の縦および横の長さを数値入力することによって範囲設定することが好ましい。
この構成によれば、マウスでクリックされた位置に基づいて切り出すテキスト領域の範囲を、和文、英文などのテキスト種別に関わらず、数値入力により一定の切り出し範囲に設定することができる。なお、数値入力の際の単位は、ミリ単位やインチ単位などその種類を問わない。また、テキスト領域の縦および横の長さは表示画面上における長さであっても良いし、紙媒体からスキャナによってイメージデータを取り込む場合は、紙媒体(原稿サイズ)における長さであっても良い。さらに、縦および横の長さを入力するのではなく、縦と横の長さの割合を一定とし、いずれか一方の入力により他方の長さが決定するようにしても良い。
この場合、領域設定工程では、文字サイズおよび文字数をパラメータとして範囲設定することが好ましい。
この構成によれば、文字サイズおよび文字数といった具体的且つ分かり易いパラメータにより、テキスト領域の範囲を容易に設定することができる。なお、文字サイズおよび文字数以外に、文字間距離をさらにパラメータとして加えても良い。この構成によれば、よりユーザの所望する文字数を切り出し得るテキスト領域を設定することができる。また、文字サイズおよび文字数によって範囲設定された場合は、これによって一義的に決められる所定範囲のテキストデータを全て抽出しても良いし、抽出した所定範囲のテキストデータの中から設定された文字数のテキストデータだけを抽出するようにしても良い。
この場合、領域設定工程は、和文または英文のいずれかのテキスト種別を設定するテキスト種別設定工程を含み、文字サイズおよび文字数の他、テキスト種別に応じて範囲設定することが好ましい。
この構成によれば、和文または英文のいずれかのテキスト種別に応じて範囲設定するため、よりユーザの設定した文字数に見合ったテキスト領域を切り出すことができる。すなわち、一般に英文は和文に比べて文字(アルファベット)の幅が狭い(和文は全角表示、英文は半角表示となることが多い)が、英文がテキスト種別として設定された場合、テキスト領域幅(横の長さ)を半分近い長さとすることで、テキスト種別に応じた適切な文字数を切り出すことができる。
この場合、領域設定工程では、テキスト種別として英文が設定された場合、文字数に代えて、スペースによって区切られた単語の数を示す単語数をパラメータとして範囲設定することが好ましい。
この構成によれば、テキスト種別が英文の場合、文字数ではなく単語数で範囲設定することができるため、より適切なテキストデータを抽出することができる。つまり、例えば英文のテキストデータを抽出させる場合であって文字数で範囲設定した場合など、抽出したテキストデータが単語の一部となってしまい、文字認識ができなくなってしまうような場合が考えられるが、単語数で設定することにより、少なくとも1つの単語が抽出されるため、そのような問題を無くすことができる。
本発明の検索用インデックス作成方法は、イメージデータである電子ファイルをキーワード検索するため、当該電子ファイルに付加する検索用インデックスを作成する検索用インデックス作成方法であって、上記のいずれか1項に記載のテキストデータ抽出方法の各工程と、抽出したテキストデータを、電子ファイルを検索するためのキーワードである文書情報として記憶する文書情報記憶工程と、文書情報と、当該文書情報の作成元となるイメージデータの保存先情報とに基づき、検索用インデックスを作成する検索用インデックス作成工程と、を備えたことを特徴とする。
この構成によれば、容易且つ迅速にキーワード(文書情報)を抽出できるため、検索用インデックスを作成するための労力を低減することができる。また、本発明により作成された検索用インデックスを用いることで、全文検索ではなく文書情報で検索可能となるため、より効率的な検索を行うことができる。
この場合、文書情報記憶工程では、文書情報が複数のカテゴリに分類されて記憶されており、電子ファイルは、カテゴリ別に検索可能であることが好ましい。
この構成によれば、カテゴリ別に検索可能であるため、より効果的且つ効率的な検索を行うことができる。
これらの場合、文書情報記憶工程では、各キーワードのイメージデータ上における位置および/または領域を示す位置データを、文書情報としてさらに記憶していることが好ましい。
この構成によれば、文書情報として、各キーワードのイメージデータ上における位置および/または領域を示す位置データを記憶しておくため、検索時に該当するキーワードを所定の態様で表示(ハイライト表示など)させることができ、イメージデータを再利用する際の利便性を向上させることができる。
本発明の電子ファイリングシステムは、上記のいずれか1項に記載の検索用インデックス作成方法によって作成された検索用インデックスにより、電子ファイルを検索可能であることを特徴とする。
この構成によれば、容易且つ迅速に検索用インデックスを作成可能であると共に、効率的に文書ファイルを検索可能な電子ファイリングシステムを提供することができる。
本発明のプログラムは、コンピュータに、上記のいずれか1項に記載のテキストデータ抽出方法の各工程を実行させるためのものであることを特徴とする。
この構成によれば、コンピュータが容易且つ迅速にテキストデータを抽出可能なプログラムを提供することができる。
以下、本発明の一実施形態に係るテキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラムについて、添付図面を参照しながら詳細に説明する。本発明は、電子ファイルを文書情報で検索するための検索用インデックスを作成する場合、ユーザが、イメージデータ上におけるテキスト領域(ユーザが抽出したいテキストデータが表示されている領域)内をマウスでワンクリックするだけで容易且つ迅速にテキストデータを抽出することができ、この抽出したテキストデータを文書情報として保存することができるものである。
そこで、以下、紙またはアプリケーションファイルをPDF形式等のイメージデータに変換して電子ファイルを生成し、当該電子ファイルを文書情報にてキーワード検索可能な電子ファイリングシステムを例に挙げ、これに適用されるテキストデータ抽出方法および検索用インデックス作成方法について説明する。なお、電子ファイリングシステムをコンピュータによって実現するためのPDF生成プログラム等の制御プログラム、データセット並びにこれらを記録した記録媒体については特に説明しないが、これらは当然本実施形態に含まれるものである。
図1は、本発明の電子ファイリングシステム1の構成を示す機能ブロック図である。同図に示すように電子ファイリングシステム1は、テキストデータを切り出すテキスト領域Eの範囲を設定する領域設定部10と、電子ファイルとして保存・管理するPDF形式のイメージデータを記憶するイメージデータ記憶部20と、ユーザによるマウス6の操作により、テキスト領域Eを切り出す際の基準点Pとなる位置情報を取得する位置情報取得部30と、取得した位置情報に基づいてテキスト領域Eを切り出す領域切り出し部40と、切り出したテキスト領域EをOCR処理することによりテキストデータを抽出するテキストデータ抽出部50と、抽出したテキストデータを文書情報のキーワードとして記憶する文書情報記憶部60と、記憶した文書情報と、当該文書情報の作成元となるイメージデータの保存先情報とに基づいて検索用インデックスを作成する検索用インデックス作成部70と、イメージデータに検索用インデックスを付加することで電子ファイル(PDFファイル)を作成する電子ファイル作成部80と、作成した電子ファイルを記憶する電子ファイル記憶部90と、によって構成されている。
領域設定部10は、テキスト領域Eの縦および横の長さを数値入力によって設定する数値設定部11と、和文または英文のいずれかのテキスト種別を設定し、文字サイズ(フォントサイズ)および文字数によってテキスト領域Eの範囲を設定するテキスト種別設定部12とを有しており、いずれの方法で範囲設定するかをユーザが選択できるようになっている。また、テキスト種別設定部12は、和文設定部12aと、英文設定部12bとを有しており、前者は和文が選択された場合に全角文字の文字サイズおよび文字数といったパラメータを設定し、後者は英文が選択された場合に半角文字の文字サイズおよび単語数(または文字数)といったパラメータを設定するものである。したがって、同じ文字サイズ、文字数が選択された場合でも、テキスト種別に応じて切り出すテキスト領域Eの範囲は異なり、テキスト種別が和文の場合の方が英文の場合と比較して横方向長さが短くなる(図7(b),(c)参照)。なお、テキスト領域Eの範囲設定については、図4にて後述する。
位置情報取得部30は、イメージデータ上におけるマウス6のクリック(左クリック)位置(基準点P)を2次元情報(X,Y位置情報)として取得するものであり、X座標およびY座標の値を取得する。領域切り出し部40は、取得した位置情報(X座標およびY座標の値)を基準として、領域設定部10により設定された範囲を切り出す。なお、基準点Pに対するテキスト領域Eの切り出し範囲の設定については、図7にて後述する。
テキストデータ抽出部50は、切り出されたテキスト領域E内のテキストデータを抽出するが、文字サイズおよび文字数によりテキスト領域Eが範囲設定された場合は、テキスト領域E内の全てのテキストデータを抽出するのではなく、テキストデータの先頭から設定された文字数だけを抽出可能となっている。この抽出例については、図8にて後述する。また、テキストデータ抽出部50は、OCR処理によりテキストデータを抽出するが、誤認識により誤った文字が抽出された場合は、ユーザがこれを適宜修正(削除)できるようになっている。したがって、ユーザにより、抽出されたテキストデータの修正が行われた場合は、修正後のテキストデータが、文書情報のキーワードとして記憶されることとなる。
文書情報記憶部60は、カテゴリ1,2,3・・・別に抽出されたテキストデータをキーワード1,2,3・・・として記憶すると共に、各キーワードの位置および/または領域を示す位置データを記憶している。この位置データは、抽出されたテキストデータが表示されているイメージデータ上の位置および/または領域を示すものであり、ユーザがマウス6によって指定した基準点Pの位置情報と必ずしも一致するものではない。すなわち、テキストデータ抽出部50において、ユーザによるテキストデータの削除等の編集が行われていない場合は、OCR処理によりテキストデータとして認識した範囲を位置データとして記憶し、ユーザによるテキストデータの削除が行われた場合はその削除した文字を除く範囲を位置データとして記憶する。これにより、検索時に該当するキーワードを所定の態様で表示(ハイライト表示など)させた場合、適切な領域のみを表示させることができるようになっている。なお、位置データは、その範囲の始点および終点のみの位置座標(テキスト領域Eが長方形の場合、その左上点座標と右下点座標)を記憶しても良いし、ユーザがマウス6によって指定した位置情報(基準点P)と、当該位置座標を基準とした範囲を示す座標(+X,−X,+Y、−Y座標)を記憶しても良い。
検索用インデックス作成部70は、ユーザが検索用インデックス作成画面D4(図5参照)を参照しながら、カテゴリ別に設定したキーワードを文書情報として記憶させていくことにより、検索用インデックスを作成するが、作成手順等の詳細については、図5にて後述する。
続いて、図2の制御ブロック図を参照し、電子ファイリングシステム1を実現するためのコンピュータ2の制御構成について説明する。なお、当該コンピュータ2には、PDFファイルを生成するためのPDF生成アプリケーション、画像処理を行うための画像処理アプリケーション、文字変換するための言語処理アプリケーション等が組み込まれているが、これらについては一般的なものを用いることができるため、説明を省略する。
コンピュータ2は、新聞、雑誌等の紙媒体からイメージデータを読み取るスキャナ3と、読み取ったイメージデータの文字認識を行うことでテキストデータを抽出するOCR4と、抽出したテキストデータの編集等を行うキーボード5と、イメージデータ上の任意の位置(基準点P)を指定するマウス6と、スキャナ3で読み取ったイメージデータ等の表示を行うディスプレイ7と、コンピュータ2全体の制御を行うコントローラ8と、コントローラ8で処理する情報の読み出し/書き込みが行われるワークエリア100と、生成した電子ファイル(PDFファイル)を格納するデータベース200と、を備えている。なお、OCR4では、文字認識結果に基づいて所定の言語処理により自動誤り補正を行い、誤り補正後のテキストデータを抽出する。
ワークエリア100は、スキャナ3によって読み取ったイメージデータまたはアプリケーションファイルのイメージデータを記憶するイメージデータブロック110と、領域設定部10により範囲設定された際の数値を記憶する領域設定ブロック120と、位置情報取得部30(図1参照)によって取得した基準点Pの位置情報を記憶する位置情報ブロック130と、領域切り出し部40(図1参照)によって切り出したテキスト領域Eのイメージデータを記憶する切り出し領域ブロック140と、テキストデータ抽出部50(図1参照)によって抽出されたテキストデータを記憶する抽出テキストデータブロック150と、抽出されたテキストデータをキーワードとして記憶するキーワードブロック160と、各キーワードの位置データを記憶する位置データブロック170と、を有している。
なお、キーワードブロック160と位置データブロック170とは、文書情報記憶部60(図1参照)に相当するものであり、キーワードはカテゴリ1〜5別に最大9個、また位置データはキーワード毎に最大9個がそれぞれ異なるブロックに記憶される。なお、カテゴリとキーワードの詳細については、図3にて後述する。
また、データベース200は、PDF化されたイメージデータを記憶するイメージデータブロック210と、作成された検索用インデックスを記憶する検索用インデックスブロック220と、を有しており、検索用インデックスブロック220には、関連するイメージデータの保存先を示すデータが記憶されている。
コントローラ8は、上記の構成により、所定の制御プログラムに従って、検索用インデックスの作成処理や、ユーザによって指定された文書情報に基づく検索処理を制御する。また、ユーザから指示があった場合は、検索結果(電子ファイル)をプリンタ(図示省略)により印刷出力したり、記録媒体に格納したりなどの処理を行う。
次に、図3を参照し、文書情報記憶部60に記憶される文書情報ファイルについて説明する。同図に示すように、文書情報は5つのカテゴリに9つのキーワードが分類されている。すなわち、カテゴリ1には、キーワード1として文書タイトルに相当するテキストデータ、カテゴリ2には、キーワード2としてサブタイトルに相当するテキストデータ、カテゴリ3には、キーワード3として文書情報の作成者名に相当するテキストデータ、カテゴリ4には、キーワード4として文書情報の作成年月日に相当するテキストデータ、そしてカテゴリ5には、キーワード5〜9として検索語A〜Eに相当するテキストデータが記憶されることとなる。なお、以下の説明では、検索語A〜Eを異なる分類とし、文書情報が9つのカテゴリ分類に分類されているものとして説明する。
各キーワード(カテゴリ分類)には、そのイメージデータ上における表示位置(表示領域)を示す位置データが関連づけられて記憶されている。この位置データは、キーワード1〜9と、電子ファイルの検索時にユーザが指定した検索キーワードとが一致する場合に、そのキーワード領域をハイライト表示するために記憶されるものである。なお、キーワードは全てが入力される必要はなく、少なくとも1つが入力されていれば良い。また、位置データはキーワードが入力された場合に限って記憶されるものであり、キーワードが存在しない場合は位置データも記憶されない。
また、文書情報ファイルのカテゴリ分類はこれらに限らず、さらに詳細に分類されても良いし、カテゴリ分類を無くして単に「検索語」として複数のキーワードを記憶するようにしても良い。また、カテゴリ4:作成年月日は、ユーザによる入力ではなく、文書情報が入力された日時(最初に入力された日時や最終更新日時)を自動的に入力するようにしても良い。
次に、図4を参照し、テキスト領域Eの範囲設定について説明する。ここでは、検索用インデックスを作成する前の初期設定として実行される操作について、検索方法の選択操作から順を追って説明する。但し、本発明は文書情報で検索可能な検索インデックスを用いて電子ファイルを検索するものであるため、<検索>において「文書情報検索」が選択された場合について主に説明する(S1)。なお、全文検索を実行させたい場合はここで「全文検索」が選択され、この場合の検索用インデックスは、全文のOCR結果であるテキストデータとその位置データとにより構成されることとなる。
S1で「文書情報検索」が選択された場合は、続いて<テキスト入力>の選択を行う(S2)。ここでは、「キーボード入力」または「OCR入力」のいずれかが選択されるが、「キーボード入力」が選択された場合は、全てのカテゴリ(キーワード)をユーザがキーボード5を用いて手入力する。なお、「キーボード入力」が選択された場合は、文書情報として位置データは記憶されない。一方、「OCR入力」が選択された場合は、続いて<領域設定>の選択を行う(S3)。ここで、「数値入力」が選択された場合は、数値入力画面(D1)が立ち上がり、テキスト領域Eの縦および横の長さがミリ単位で入力される。なお、「縦および横の長さ」とは、ディスプレイ7上における長さを指すものであるため、ディスプレイサイズによって、設定した長さに対する表示長さが変化することはない。
また、S3で「文字数入力」が選択された場合は、続いて<テキスト種別>が選択される(S4)。ここで、「和文入力」が選択された場合は、和文入力画面(D2)が立ち上がり、ユーザによって文字サイズ(フォントの大きさ)および文字数が入力される。そして、この入力値に基づいて切り出すテキスト領域Eの範囲(大きさ)を算出する。詳細な算出については説明を省略するが、設定された文字サイズに応じてテキスト領域Eの縦の長さが算出され、設定された文字サイズおよび文字数に応じてテキスト領域Eの横の長さが算出される。また、各長さは、設定された文字サイズの全角文字が標準ピッチで配置されたテキストデータを十分抽出し得る長さが算出される。
また、「英文入力」が選択された場合は、英文入力画面(D3)が立ち上がり、ユーザによって文字サイズ(フォントの大きさ)および単語数が入力され、この入力値に基づいて切り出すテキスト領域Eの範囲(大きさ)を算出する。この場合は、1つの単語が例えば10個のアルファベット(半角文字)で構成されているものと仮定して、設定された文字サイズおよび単語数が、標準ピッチで配置され且つ標準スペースで単語間が区切られたテキストデータを十分抽出し得る長さが算出される。なお、「英文入力」が選択された場合も、単語数に代えて文字数による指定が可能であり、英文入力画面(D3)において切り替え可能となっている。この場合の文字数とは、アルファベット数を示すものである。
次に、図5を参照し、検索用インデックスの作成方法について説明する。同図は、上記の初期設定(テキスト領域Eの範囲設定)の後であって、且つイメージデータを取り込んだ後に起動可能な検索用インデックス作成画面D4を示したものである。ここに示すように、検索用インデックス作成画面D4は、イメージデータ表示画面D41と、情報入力部D42とから成り、イメージデータ表示画面D41には、イメージデータブロック210に記憶されたイメージデータが表示されている。そして、情報入力部D42では、イメージデータ表示画面D41に表示されたイメージデータに付加する文書情報の入力を行う。
情報入力部D42は、カテゴリ分類別にキーワードを入力する入力ボックスB51〜B59と、入力対象となっているカテゴリ分類を示す先頭ボックスB41〜B49と、イメージデータの保存先(格納されているアドレス)を表示するイメージデータ保存先ボックスB61と、ユーザがキーボード5を用いてコメントを入力するコメント入力ボックスB62と、を有しており、イメージデータ保存先ボックスB61以外のボックスはユーザにより入力される。
入力ボックスB51〜B59は、ユーザが、イメージデータ表示画面D41上の任意の位置をマウス6で指定し、指定した領域がOCR処理されることによって抽出されたテキストデータが入力されるが、必要に応じてキーボード5による入力、編集が可能となっている。また、先頭ボックスB41〜B49は、マウス6の左クリックによって、指定/非指定を切り替え可能となっており、図示の例では「文書タイトル」のカテゴリが指定状態となっている。また、先頭ボックスB41〜B49では、複数のカテゴリを同時に指定可能となっており、例えば「文書タイトル」と「検索語A」のカテゴリ分類が指定されている状態でテキストデータが抽出された場合は、同じテキストデータがボックスB51,B55に入力されることとなる。但し、同じカテゴリ内での複数の指定(例えば検索語Aと検索語Bの同時指定)はできないようになっている。なお、指定した領域からのOCR4によるテキストデータの抽出は、マウス6によるテキスト領域Eの指定毎に実行しても良いし、複数のカテゴリ(カテゴリ分類)のテキスト領域E指定後、一括して実行しても良い。
イメージデータ保存先ボックスB61は、イメージデータ表示画面D41に表示されたイメージデータの保存先が入力されているが、イメージデータの取り込み後に当該検索用インデックス作成画面D4が自動的に起動する場合は、当該ボックスB61内には予めイメージデータの格納アドレスが入力されているため、入力の必要はない。但し、検索用インデックス作成画面D4を立ち上げた後、当該検索用インデックスを付加するイメージデータを指定する必要がある場合は(この場合、予めイメージデータが取り込まれていることが前提となる)、当該ボックスB61にそのイメージデータの格納アドレスを入力することで、イメージデータ表示画面D41に該当するイメージデータを表示させることができる。
コメント入力ボックスB62は、ユーザが必要に応じてキーボード5によりコメントを入力する。このコメントは、データベース200内に格納されている全電子ファイルの検索用インデックスを一覧表示させた一覧表(図示省略)や、検索結果を表示する際に表示され、ユーザが検索を行う場合に補助的に利用するものであり、このコメントの内容によって検索を行うものではない。
ここで、電子ファイルの検索処理について簡単に説明する。ユーザは、電子ファイルの検索を行う場合、電子ファイリングシステムを実現するアプリケーションの検索画面(図示省略)を立ち上げ、カテゴリを指定すると共に、適当な検索キーワードを入力する。このとき、複数のカテゴリを指定し、OR条件やで検索対象を広げたり、AND条件で検索対象を絞ったりすることが可能である。そしてユーザが検索実行を指示すると、該当する電子ファイルの文書情報およびコメントが表示され、さらにいずれかの文書情報を指定すると、イメージデータが表示される。なお、マウス6によるテキスト領域Eの指定により各カテゴリのキーワードが入力された場合や、初期設定において全文検索が選択された場合、イメージデータ上には、検索キーワードとして入力したテキスト情報と一致するテキスト情報のテキスト領域Eがハイライト表示されるが、検索用インデックス作成時に、文書情報として位置データが関連づけられていない場合(キーボード入力(図4のS2参照)により各カテゴリのキーワードが入力された場合など)、ハイライト表示は行われない。
次に、図6を参照し、マウス6によるテキスト領域Eの指定について説明する。同図は、文字サイズ:12ポイントの全角文字が所定ピッチで入力された文書のイメージデータ上において、マウス6によって移動可能なマウスポインタMにより、テキスト領域E(網掛け表示領域)が切り出し領域として指定された状態を示したものである。また、同図は、図4に示したテキスト領域Eの範囲設定において、領域設定「文字数入力」(S3)―テキスト種別「和文入力」(S4)が選択され、ポイント数:12ポイント、文字数:6に設定されている場合を示している。
このように、マウスポインタMにより基準点Pが指定されると、予め設定されたテキスト領域Eの範囲に基づいて、所定の領域を網掛け表示すると共に、基準点Pを中心にテキスト領域Eを切り出す。また、その領域をOCR処理することによりテキストデータ(この場合は「特許願」)を抽出する。例えば、図5に示すように、カテゴリ「文書タイトル」の先頭ボックスB41が指定された状態で、図6に示すテキスト領域Eが指定された場合は、入力ボックスB51に「特許願」というキーワードが入力される。したがって、検索処理を行う場合、ユーザがテキスト「特許願」を検索キーワードとして指定した場合は、図5に示す検索用インデックス作成画面D4で作成された文書情報が検索結果として表示される。但し、図6に示すように、テキストデータとしては、「特許願」の文字の後に3つのスペースが抽出されるため、イメージデータを表示させた場合は、「特許願」+スペース3つ分がハイライト表示されることとなる。これを避けたい場合は、テキストデータ抽出時に、スペース3つ分を削除する処理が必要となり、この削除を行うことで、検索時に「特許願」のみをハイライト表示させることができる。なお、設定により、抽出したテキストデータの語尾に続くスペースを自動的に削除するようにしても良い。
次に、図7を参照し、基準点Pとこれに基づいて切り出されるテキスト領域Eとの関係について説明する。同図(a)は、数値入力により、縦:10mm、横:60mmに設定されている場合(図4のS3,D1参照)を示したものである。ここでは設定された縦の長さをh、横の長さをlとして説明する。同図に示すように、テキスト領域Eは、基準点Pからh/2の長さ(5mm)だけ上下方向(Y方向)に離間した位置から左右方向(X方向)に延びた線を上辺および下辺とし、さらに基準点Pからh/2の長さ(5mm)だけ左方向(−X方向)に離間した位置から上下方向に延びた線を左辺、基準点Pから(l−h/2)の長さ(55mm)だけ右方向(+X方向)に離間した位置から上下方向に延びた線を右辺とした長方形が切り出される。
このように、基準点Pをテキスト領域Eの先端または中心点として切り出すのではなく、基準点Pが先頭文字の中心位置となるようにテキスト領域Eを切り出すことで、ユーザのマウス6による位置指定を容易にすることができる。すなわち、ユーザは、抽出したいテキスト情報が表示された部分の先頭文字をマウスポインタMで指定することで、その文字に続くテキスト情報をテキストデータとして抽出させることができる。
続いて、同図(b)を参照し、文字数入力―和文入力により、文字サイズ:12ポイント、文字数:6に設定されている場合(図4のS3,S4,D2参照)を例に挙げて説明する。同図に示すように、テキスト領域Eは、基準点Pが先頭文字の文字領域(図示点線領域)の中心となるように切り出される。これにより、上記の例と同様、ユーザはマウス6によって容易に位置指定することができる。
また、同図(c)は、文字数入力―英文入力により、文字サイズ:12ポイント、文字数:6に設定されている場合(図4のS3,S4,D3参照)を例示したものである。この場合も基準点Pが先頭文字の文字領域(半角文字領域)の中心となるように切り出されるが、文字領域が半角で設定されるため、同図(b)と比較すれば明らかなように、同じ文字サイズ、文字数の設定であっても、切り出されるテキスト領域Eは異なる。このように、和文または英文のいずれかのテキスト種別に応じてテキスト領域Eの範囲設定が行われるため、よりユーザの設定した文字数に見合ったテキスト領域Eを切り出すことができる。
なお、単語数によって範囲指定された場合(図4D3参照)については、例示を省略するが、この場合も基準点Pが先頭文字(先頭アルファベット)の半角文字領域の中心となるようにテキスト領域Eが切り出される。
次に、図8を参照し、切り出されたテキスト領域Eからテキストデータを抽出する抽出例について説明する。同図(a)は和文テキストを抽出する場合、同図(b)は英文テキストを抽出する場合の抽出例を示したものである。同図(a)の抽出例1は、マウスポインタMによって指定された基準点Pを中心に、数値入力若しくは文字数入力によって一義的に決定される領域(図7に示した領域)のテキストデータを切り出す場合を示したものである。このように、設定されたテキスト領域Eでテキストデータを抽出すると、例えば抽出したい抽出対象文字が「新車登録台数」である場合、中途半端な文字「は、前」までが抽出されてしまうことがある。このような場合、通常はキーボード5を用いて文字「は、前」を削除する編集が行われる。
しかしながら、テキスト領域Eが文字数入力によって設定された場合は、設定により、抽出例2のようにテキストデータを抽出させることも可能である。すなわち、一旦抽出例1のようにテキストデータを抽出した後、所定の文字認識処理により先頭から設定された文字数(図示の例では6)のみを抽出させることができる。このように、2段階の工程によりテキストデータを抽出することで、よりユーザの所望する文字数に見合ったテキストデータを抽出させることができる。
続いて同図(b)を参照し、英文テキストを抽出する場合について説明する。同図(b)の抽出例1は、マウスポインタMによって指定された基準点Pを中心に、数値入力若しくは文字数入力によって一義的に決定される領域(図7に示した領域)のテキストデータを切り出した場合を示したものである。この場合も、設定により抽出例2のように先頭から設定された文字数(図示の例では15、但しスペースを含む)のみを抽出させることができる。また、単語数で範囲設定された場合も、設定により抽出例3のように先頭から設定された単語数(図示の例では3、但しスペースによって単語を区別する)のみを抽出させることができる。
なお、抽出例2または3に示すように、設定した文字数または単語数のみを抽出させるように設定された場合、検索時にハイライト表示させるための位置データは、当該設定した文字数または単語数のみを表示する領域が記憶されることとなる。
また、抽出例2または3に示すように、設定した文字数または単語数のみを抽出させたい場合は、図4に示した和文,英文入力画面D2,3において、抽出する文字数を確定するか否か(確定しない場合は、テキスト領域E内の全てのテキストデータが抽出されることとなる)を設定可能とすることが好ましい。
以上説明したとおり、本発明のテキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラムによれば、予め初期設定によりイメージデータ上のテキスト領域Eを切り出す範囲を設定しておくことで、マウス6のワンクリックにより、容易且つ迅速にテキストデータを抽出することができる。また抽出されたテキストデータは、キーボード5により削除、変更等の編集が可能であるため、よりユーザのニーズに合ったテキストデータを得ることができる。
また、数値入力や、文字サイズおよび文字数に基づいて切り出すテキスト領域Eの範囲設定を行うことができるため、ユーザは好みに応じて設定方法を選択することができる。また、前者を選択した場合、和文、英文などのテキスト種別に関わらず、数値入力により一定の切り出し範囲に設定することができるため、ユーザは感覚的にその範囲が捉えやすく、後者を選択した場合、文字サイズおよび文字数といった具体的且つ分かり易いパラメータにより、テキスト領域Eの範囲を容易に設定することができるといった利点を有する。さらに後者の場合は、和文または英文のいずれかのテキスト種別に応じて範囲設定するため、よりユーザの設定した文字数に見合ったテキスト領域Eを切り出すことができる。
また、検索用インデックスは、文書情報が複数のカテゴリに分類されて記憶されているため、カテゴリ別に検索可能となり、より効果的且つ効率的な検索を行うことができる。
また、文書情報には、各キーワードのイメージデータ上における位置および/または領域を示す位置データを記憶しておくため、検索時に該当するキーワードを所定の態様で表示(ハイライト表示など)させることができ、イメージデータを再利用する際の利便性を向上させることができる。
なお、上記の例では、マウスポインタMによって指定された基準点Pに基づいてテキスト領域Eを切り出す場合、基準点Pが先頭文字の中心位置となるように切り出しを行うものとしたが、基準点Pが長方形であるテキスト領域Eの左辺または右辺上となるように切り出しを行っても良いし、4つの角部(左上点,左下点,右上点,右下点)のいずれかとなるように切り出しを行っても良い。また、基準点Pが長方形の中心点となるように切り出しを行っても良い。また、初期設定により、テキスト領域Eに対する基準点Pを、上記のいずれの位置にするかを設定可能に構成しても良い。
また、上記の例では、テキスト領域Eの縦および横の長さはディスプレイ7上における長さであるものとしたが、紙媒体からスキャナ3によってイメージデータを取り込む場合は、紙媒体(原稿サイズ)における長さを設定できるようにしても良い。また、長さの単位は、インチ単位などミリ単位以外の単位であっても良い。さらに、縦および横の長さを入力するのではなく、縦と横の長さの割合を一定とし、いずれか一方の入力により他方の長さが決定するようにしても良い。
また、上記の例に示した、電子ファイリングシステム1の各部(各機能)をプログラムとして提供することも可能である。また、そのプログラムを記憶媒体(図示省略)に格納して提供することも可能である。記録媒体としては、CD−ROM、フラッシュROM、メモリカード(コンパクトフラッシュ(登録商標)、スマートメディア、メモリースティック等)、コンパクトディスク、光磁気ディスク、デジタルバーサタイルディスクおよびフレキシブルディスク等を利用することができる。
また、上述した実施例によらず、例えば本発明の電子ファイリングシステム1をFAX装置と連動させ、通信回線を介して受信したデータをディスプレイ上に表示させて、ユーザによる位置指定によりテキストデータを抽出し、当該テキストデータに基づいて検索用インデックスを作成するなど、システム構成や各端末の装置構成等について、本発明の要旨を逸脱しない範囲で、適宜変更も可能である。
電子ファイリングシステムの構成を示す機能ブロック図である。 コンピュータの制御ブロック図である。 文書情報ファイルの構成を説明する説明図である。 テキスト領域の範囲設定処理を説明する説明図である。 検索用インデックス作成画面を示す図である。 イメージデータ表示画面を示す図である。 基準点とテキスト領域との関係を説明する説明図である。 テキストデータの抽出例を示す図である。
符号の説明
1 電子ファイリングシステム 2 コンピュータ
3 スキャナ 4 OCR
5 キーボード 6 マウス
8 コントローラ 10 領域設定部
20 イメージデータ記憶部 30 位置情報取得部
40 領域切り出し部 50 テキストデータ抽出部
60 文書情報記憶部 70 検索用インデックス作成部
80 電子ファイル作成部 90 電子ファイル記憶部
D4 検索用インデックス作成画面 D41 イメージデータ表示画面
E テキスト領域 M マウスポインタ
P 基準点

Claims (10)

  1. マウスによって指定されたイメージデータ上におけるテキスト領域内のテキストデータを抽出するテキストデータ抽出方法であって、
    前記テキスト領域の範囲を設定する領域設定工程と、
    前記マウスのワンクリックによって指定された前記イメージデータ上の任意の位置情報を取得する位置情報取得工程と、
    前記位置情報に基づき、前記領域設定工程において設定された範囲のテキスト領域を切り出す領域切り出し工程と、
    前記切り出したテキスト領域内のイメージデータをOCR処理することによってテキストデータを抽出するテキストデータ抽出工程と、
    を備えたことを特徴とするテキストデータ抽出方法。
  2. 前記領域設定工程では、前記テキスト領域の縦および横の長さを数値入力することによって範囲設定することを特徴とする請求項1に記載のテキストデータ抽出方法。
  3. 前記領域設定工程では、文字サイズおよび文字数をパラメータとして範囲設定することを特徴とする請求項1に記載のテキストデータ抽出方法。
  4. 前記領域設定工程は、和文または英文のいずれかのテキスト種別を設定するテキスト種別設定工程を含み、前記文字サイズおよび前記文字数の他、前記テキスト種別に応じて範囲設定することを特徴とする請求項3に記載のテキストデータ抽出方法。
  5. 前記領域設定工程では、前記テキスト種別として前記英文が設定された場合、前記文字数に代えて、スペースによって区切られた単語の数を示す単語数をパラメータとして範囲設定することを特徴とする請求項4に記載のテキストデータ抽出方法。
  6. イメージデータである電子ファイルをキーワード検索するため、当該電子ファイルに付加する検索用インデックスを作成する検索用インデックス作成方法であって、
    請求項1ないし5のいずれか1項に記載のテキストデータ抽出方法の各工程と、
    抽出した前記テキストデータを、前記電子ファイルを検索するためのキーワードである文書情報として記憶する文書情報記憶工程と、
    前記文書情報と、当該文書情報の作成元となるイメージデータの保存先情報とに基づき、前記検索用インデックスを作成する検索用インデックス作成工程と、を備えたことを特徴とする検索用インデックス作成方法。
  7. 前記文書情報記憶工程では、前記文書情報が複数のカテゴリに分類されて記憶されており、
    前記電子ファイルは、前記カテゴリ別に検索可能であることを特徴とする請求項6に記載の検索用インデックス作成方法。
  8. 前記文書情報記憶工程では、各キーワードの前記イメージデータ上における位置および/または領域を示す位置データを、前記文書情報としてさらに記憶していることを特徴とする請求項6または7に記載の検索用インデックス作成方法。
  9. 請求項6、7または8に記載の検索用インデックス作成方法によって作成された検索用インデックスにより、前記電子ファイルを検索可能であることを特徴とする電子ファイリングシステム。
  10. コンピュータに、請求項1ないし5のいずれか1項に記載のテキストデータ抽出方法の各工程を実行させるためのプログラム。
JP2004076572A 2004-03-17 2004-03-17 テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム Withdrawn JP2005267057A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004076572A JP2005267057A (ja) 2004-03-17 2004-03-17 テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004076572A JP2005267057A (ja) 2004-03-17 2004-03-17 テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2005267057A true JP2005267057A (ja) 2005-09-29

Family

ID=35091565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004076572A Withdrawn JP2005267057A (ja) 2004-03-17 2004-03-17 テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム

Country Status (1)

Country Link
JP (1) JP2005267057A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015579A (ja) * 2006-07-03 2008-01-24 Canon Inc データ管理システム
JP2008124975A (ja) * 2006-11-15 2008-05-29 Fuji Xerox Co Ltd 画像データ作成装置、画像出力装置、およびプログラム
JP2014175014A (ja) * 2013-03-11 2014-09-22 Ricoh Co Ltd 画像保存検索システム
KR20150115403A (ko) * 2014-04-04 2015-10-14 삼성전자주식회사 인식 영역에 기반하여 콘텐트를 검출하는 전자 장치 및 방법
JP2020170413A (ja) * 2019-04-05 2020-10-15 富士ゼロックス株式会社 文書処理装置及びプログラム
KR20210115670A (ko) * 2020-03-16 2021-09-27 주식회사 한글과컴퓨터 문서에 삽입된 개체와 관련 키워드들의 매칭을 통해 문서로부터의 개체 검색을 지원하는 전자 장치 및 그 동작 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015579A (ja) * 2006-07-03 2008-01-24 Canon Inc データ管理システム
JP2008124975A (ja) * 2006-11-15 2008-05-29 Fuji Xerox Co Ltd 画像データ作成装置、画像出力装置、およびプログラム
JP2014175014A (ja) * 2013-03-11 2014-09-22 Ricoh Co Ltd 画像保存検索システム
KR20150115403A (ko) * 2014-04-04 2015-10-14 삼성전자주식회사 인식 영역에 기반하여 콘텐트를 검출하는 전자 장치 및 방법
KR102209729B1 (ko) * 2014-04-04 2021-01-29 삼성전자주식회사 인식 영역에 기반하여 콘텐트를 검출하는 전자 장치 및 방법
JP2020170413A (ja) * 2019-04-05 2020-10-15 富士ゼロックス株式会社 文書処理装置及びプログラム
JP7298248B2 (ja) 2019-04-05 2023-06-27 富士フイルムビジネスイノベーション株式会社 文書処理装置及びプログラム
KR20210115670A (ko) * 2020-03-16 2021-09-27 주식회사 한글과컴퓨터 문서에 삽입된 개체와 관련 키워드들의 매칭을 통해 문서로부터의 개체 검색을 지원하는 전자 장치 및 그 동작 방법
KR102375507B1 (ko) * 2020-03-16 2022-03-17 주식회사 한글과컴퓨터 문서에 삽입된 개체와 관련 키워드들의 매칭을 통해 문서로부터의 개체 검색을 지원하는 전자 장치 및 그 동작 방법

Similar Documents

Publication Publication Date Title
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2010020468A (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JPH077408B2 (ja) 強調特性変更方法及びシステム
CN107077515B (zh) 显示控制装置、显示控制方法及显示***体
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2008040753A (ja) 画像処理装置、方法、プログラムおよび記録媒体
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP2005267057A (ja) テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム
US10909169B2 (en) Information processing apparatus, information processing method, and program
US10803308B2 (en) Apparatus for deciding whether to include text in searchable data, and method and storage medium thereof
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP7005181B2 (ja) 情報処理装置及びその制御方法、並びにプログラム
JP4934181B2 (ja) 付加画像処理システム、画像形成装置及び付加画像追加方法
JPH11238072A (ja) 文書保管装置
JPH103483A (ja) 情報検索装置
JP7154982B2 (ja) 情報処理装置、制御方法、及びプログラム
JP2009140478A (ja) 画像処理装置及び画像処理方法
US20200110476A1 (en) Digital Redacting Stylus and System
JPS62106574A (ja) 文書画像フアイル登録検索方式
JP2009020689A (ja) データ検索方法及びデータ検索装置
JP2004318766A (ja) 情報検索装置及びプログラム並びに記憶媒体
JP7501255B2 (ja) 文書検索システム、文書検索方法およびプログラム
JP2006004050A (ja) 画像処理装置、画像読み取り装置およびプログラム
JP3647070B2 (ja) 画像処理方法及びその装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605