JP2006072744A - 文書処理装置、その制御方法、プログラム、及び記憶媒体 - Google Patents

文書処理装置、その制御方法、プログラム、及び記憶媒体 Download PDF

Info

Publication number
JP2006072744A
JP2006072744A JP2004255811A JP2004255811A JP2006072744A JP 2006072744 A JP2006072744 A JP 2006072744A JP 2004255811 A JP2004255811 A JP 2004255811A JP 2004255811 A JP2004255811 A JP 2004255811A JP 2006072744 A JP2006072744 A JP 2006072744A
Authority
JP
Japan
Prior art keywords
document
search
processing apparatus
dividing
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004255811A
Other languages
English (en)
Inventor
Tomonori Kudou
朋紀 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004255811A priority Critical patent/JP2006072744A/ja
Priority to US11/219,464 priority patent/US7647303B2/en
Priority to CNB2005100985748A priority patent/CN100424695C/zh
Publication of JP2006072744A publication Critical patent/JP2006072744A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 複数の検索手法にとって文書を検索する場合に、可及的に迅速且つ高精度に検索できるようにする。
【解決手段】 複数の検索手法にそれぞれ対応して、検索対象の文書を複数のブロックに分割し、分割された各ブロックの文字列に基づいて複数の検索手法に対応する前記検索対象の文書のインデックスをそれぞれ生成すると共に、検索要求用のクエリーを生成するための文書中の文字列を検索手法に応じて複数のブロックに分割し、分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成して検索する。
【選択図】 図8

Description

本発明は、文書処理装置、その制御方法、プログラム、及び記憶媒体に関し、特に、複数の検索手法によって文書を検索する文書処理装置等に関する。
従来、所望の文書(文書データ)を検索する場合の基本的な検索手法として、与えられたキーワード(検索要求用のクエリー)が文書中に記述されているか否かで検索を行うキーワード検索が知られているが、このキーワード検索では、所望の文書を迅速に検索することが困難であるため、各種の検索手法の検索エンジンが考案されている。
例えば、所望の文書を検索する検索エンジンとして、キーワード間の関係や構文情報の類似度を用いた検索エンジン、文書の内容を特徴付ける文書ベクトルを用いた検索エンジンなどが考案されている。また、内容を特徴付ける意味、分野、単語そのものを次元として、その特徴量を値とすることでベクトル表現し、文書ベクトル間の内積値等を用いて文書間の類似度を求める検索エンジンも考案されている。さらに、各種の検索手法に係る複数の検索エンジンを搭載し、この複数の検索エンジンを切り替えて検索したり、複数の検索エンジンによる検索結果から総合的に検索したりするものも考案されている。
また、与えられたキーワードをn文字の部分文字列に分割し、これら部分文字列の組み合わせを全て有する文書を探し出すことにより、検索対象の文書を絞り込む検索手法も考案されている(特許文献1参照)。
さらに、レイアウト情報付き文書の各テキストブロック毎に、そのテキストブロックの末尾文とそのテキストブロックに連続する可能性のある他のテキストブロックの先頭文を結合した文を形態素解析し、その結合文の自然さを評価するすることにより最も自然なテキストブロックの接続順を調査し、ブロック順を再配置する技術も開発されている(特許文献2参照)。
特開平05−174064号公報 特開平11−015826号公報
しかしながら、複数の検索手法により文書を検索する文書検索装置では、効率よく高精度に検索できる文書(文書の内容や種類等)が各検索エンジン毎に異なっているにも拘らず、従来は、どの検索エンジンで検索する場合にも、単に文書全体を1つの検索対象としてインデックスを作成していた。
このため、1つの文書に複数の話題が記載された文書を検索対象とした場合において、文書全体を1つの検索対象として作成されたインデックスを用いて文書ベクトル検索に係る検索エンジンで検索した場合は、高精度に検索することができなかった。また、全文検索やキーワードの関係や構文情報を検索する検索エンジンでは、検索対象の文書の情報量が多い場合には、迅速に検索することができなかった。
そこで、本発明は、複数の検索手法によって文書を検索する場合に、可及的に迅速且つ高精度に検索できるようにすることを目的とする。
上記目的を達成するため、本発明は、複数の検索手法によって文書を検索するための文書処理装置において、前記複数の検索手法にそれぞれ対応して、検索対象の文書を複数のブロックに分割する分割手段と、前記分割手段により分割された各ブロックの文字列に基づいて前記複数の検索手法に対応する前記検索対象の文書のインデックスをそれぞれ生成する生成手段とを有している。
また、本発明は、複数の検索手法によって文書を検索するための文書処理装置において
、検索要求用のクエリーを生成するための文書中の文字列を検索手法に応じて複数のブロックに分割する分割手段と、前記分割手段により分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成する生成手段とを有している。
本発明によれば、複数の検索手法にそれぞれ対応して検索対象の文書を複数のブロックに分割し、それら各ブロックの文字列に基づいて複数の検索手法に対応する前記検索対象の文書のインデックスを生成すること等により、複数の検索手法によって文書を検索する場合に可及的に迅速且つ高精度に検索できるようになる。
以下、図面を参照しながら本発明を実施するための最良の形態を説明する。
[第1の実施の形態]
図1は、本発明の実施の形態に係る文書処理装置としての文書検索装置の概略構成を示すブロック図である。
この文書検索装置は、パーソナルコンピュータ等のコンピュータにより構成され、各種の検索手法に係る複数の検索エンジンを搭載している。図1に示したように、この文書検索装置は、中央処理装置1、記憶装置2、入力装置3、表示装置4、記憶媒体読取装置5、及び画像読取装置6を有し、これらデバイスを用いて、検索対象となる文書データ(画像データを含む)についてインデックスを作成するインデキシング機能と、作成されたインデックスを用いて文書検索処理を行う文書検索機能とを実現している。
中央処理装置1は、CPU、MPU等により構成され、記憶装置2に格納されたプログラムに従ってインデキシング処理、文書検索処理等の本実施の形態における各種の処理を実行する。記憶装置2は、ハードディスク等により構成され、検索対象となる文書データやアノテーション付き画像データ、プログラムや辞書(基本ベクトル辞書等)を収納したデータベース等が記憶される。入力装置3は、キーボード、マウス等により構成され、各種のデータやコマンドの入力に利用される。表示装置4は、液晶ディスプレイ等により構成され、文書検索結果等が表示される。記憶媒体読取装置5は、フロッピー(登録商標)ディスク(登録商標)、CD−ROM、ROM、磁気テープ等の記録媒体に記憶されたプログラム(図4,5,6,7,9,10,15,16のフローチャートに対応する制御プログラム、及び複数の検索エンジンを含む)やデータ等を読み取って記憶装置2に格納する。画像読取装置6は、スキャナ等により構成され、原稿等に形成された画像を光学的に読み取り、電子的な画像データに変換して入力する。この画像読取装置6は、画像データの中から文字列を認識し、文字コードに変換するOCR(Optical Character Reader)機能を有している。
図1に示した文書検索装置は、スタンドアローン型のものだけでなく、図2に示したように、LAN等のネットワークN上のサーバ装置100,200、クライアント装置101,102,201,202に適用することができ、図3に示したように、インターネット300に接続された端末400、不図示のサーバ装置に適用することもできる。なお、図2のサーバ装置100,200は、文書データベースを有しており、文書データをクライアント装置101,102,201,202に提供するものである。図2の構成においては、以下に示す検索装置として、サーバ装置100,200およびクライアント装置101,102,201,202のいずれがその機能を有するものであってもよいが、検索手法(検索エンジン)の選択処理はクライアント装置101,102,201,202で行うものとする。以下に示す実施の形態では、検索に関しては、文書画像のブロック分割処理、検索結果の表示をクライアント装置101,102,201,202が行い、検索処理に関してはサーバ装置100,200が行うものとする(すなわちサーバ装置100,200が検索エンジンとして機能するものとする)。また、インデキシング処理に関しては、インデックスの作成までの処理をクライアント装置101,102,201,202が行い、インデックスの登録をサーバ装置100,200側が行うものとする。
<検索処理の概要>
次に、検索処理の概要を、図4のクライアント装置101,102,201,202の動作処理フローチャートに基づいて説明する。
この検索処理では、文書画像データを取得する画像取得処理(ステップS401)と、文書画像データを解析する文書画像解析処理(ステップS402)と、テキストブロック最適化処理(ステップS403)と、検索処理(ステップS404)と、検索結果を表示する検索結果表示処理(ステップS405)とが実行される。
ここで、画像取得処理(ステップS401)は、スキャナなどの画像読取装置6で文書画像をスキャンすることによって得られた文書画像データを取得する処理である。文書画像解析処理(ステップS402)は、ステップS401で得られた文書画像データから写真画像ブロックやテキストブロック(文字列のブロック)を取得する処理であり、テキストブロックを取得するためにOCR機能により文字列を認識する。
ステップS403の前の段階で、後述する異なる検索手法を有する検索エンジンの中からユーザが予め所望の検索エンジンを選択する。テキストブロック最適化処理(ステップS403)は、ステップS402で得られたテキストブロックを複数の検索エンジンの中から予め指定された検索エンジンの特性に合わせてブロック結合、またはブロック分割することによりテキストブロックを最適化する処理である。検索処理(ステップS404)は、ステップS403で得られたテキストブロックをサーバ装置100,200の文書データベースに対する問い合わせの言葉(クエリー)として文書検索の指令を行う処理である。また、検索結果表示処理(ステップS405)は、ステップS404のサーバ装置100,200における検索処理の結果である文書のリストを受信し、図11に示すようにクエリーに対する一致度の高い順に表示装置4に一覧表示する(または、記憶装置2に格納する)処理である。
<インデキシング処理(文書検索のためのインデックス(索引)の作成処理)の概要>
次に、インデキシング処理の概要を、図5のクライアント装置101,102,201,202の動作処理フローチャートに基づいて説明する。
このインデキシング処理では、文書画像データを取得する画像取得処理(ステップS501)と、文書画像データを解析する文書画像解析処理(ステップS502)と、全ての検索エンジンに対するインデキシング処理が終了したか否かを判定するインデキシング終了判定処理(ステップS503)と、各検索エンジンに対応するテキストブロック最適化処理(ステップS504)と、各検索エンジンに対応するインデキシング処理(ステップS505)とが実行される。
ここで、文書画像取得処理(ステップS501)は、スキャナなどの画像読取装置6で文書画像をスキャンすることによって得られた文書画像データを取得する処理であり、文書画像解析処理(ステップS502)は、ステップS501で得られた文書画像データから写真画像ブロックやテキストブロックを取得する処理であり、テキストブロックを取得するためにOCR機能により文字列を認識する。
インデキシング終了判定処理(ステップS503)は、当該文書検索装置に搭載された全ての検索エンジンに対してインデキシング処理が終了しているか否かを判定する処理であり、テキストブロック最適化処理(ステップS504)は、ステップS502で得られたテキストブロックを、現在着目している検索エンジンの特性に合わせて結合または分割して最適化する処理であり、インデキシング処理(ステップS505)は、最適化されたテキストブロックからインデックス(インデックスファイル、インデックステーブル)を作成し、複数の検索手法に対応してそれぞれ作成されたインデックスをサーバ装置100,200に送信し、サーバ装置100,200側の記憶装置2に文書画像とともに登録する処理である。
<テキストブロック最適化処理の詳細>
次に、図4のステップS403、図5のステップS504におけるテキストブロック最適化処理の詳細を、図6のクライアント装置101,102,201,202の動作処理フローチャート、図8のデータ例に基づいて説明する。本実施の形態では、分割されたテキストブロックに基づいてクエリーおよびインデックスが作成される。そして、テキストブロックの最適化の処理は、作成したクエリーおよびインデックスが検索手法に応じて適切に作成されるための処理である。
このテキストブロック最適化処理では、中央処理装置1は、まず、図4のステップS402、図5のステップS502での文書画像データの解析結果、すなわち写真ブロック、テキストブロックを取得する(図6のステップS601)。例えば、図8(a)に示した文書画像データを解析したとすると、解析結果として、図8(b)において枠で囲った部分のような写真ブロック、テキストブロックを取得する。次に、中央処理装置1は、取得した全てのテキストブロックについて最適化処理を終了したか否かを判別する(ステップS602)。図8の例では、「テキスト1」、「テキスト1−1」、「テキスト1−2」、「テキスト2」、「テキスト2−1」、「テキスト2−2」、「テキスト3、テキスト3−1、テキスト3−2」の各テキストブロックについて以下の最適化処理処理(ブロック分割、またはブロック結合)を順次行い、その都度、ステップS601で取得した全てのテキストブロックについて最適化処理を終了したか否かを判別する。
最適化処理を終了していない場合、中央処理装置1は、最適化処理を未だ行っていない1つのテキストブロックに着目し、この着目したテキストブロックについてブロック分割を行うべきか否かを、検索エンジンの特性に応じて判定する(ステップS603)。例えば、フレーズまたは単語単位で検索を行う検索エンジン(キーリレーション検索:例えば、「モバイル」「関連機器」「の」「市場」「規模」と分割された単語間の関連性に基づいて類似した文書を検索する検索を指す)を用いて処理する場合は、文単位でインデックスを作成した場合に効率良く検索を行えるので、中央処理装置1は、着目したテキストブロックについてさらに詳細にブロック分割を行うべきであると判定し(ステップS603)、1文単位のテキストブロックにするようにブロック分割を行う(ステップS604)。図8の例では、「テキスト1」、「テキスト1−1」、「テキスト1−2」、「テキスト2」、「テキスト2−1」、「テキスト2−2」、「テキスト3」、「テキスト3−1」、「テキスト3−2」がそれぞれ文であるとすると、「テキスト3、テキスト3−1、テキスト3−2」のテキストブロックには、3つの文が存在するため、この「テキスト3、テキスト3−1、テキスト3−2」のテキストブロックについては、図8(c)に示したように、「テキスト3」、「テキスト3−1」、「テキスト3−2」の3つの文単位のブロックに分割する。
中央書処理装置1は、着目したテキストブロックについてブロック分割を行うべきでないと判定した場合は、更に、着目したテキストブロックについて、次のテキストブロック(最適化処理を未だ行っていないテキストブロック)と結合すべきか否かを、検索エンジンの特性に応じて判定する(ステップS605)。例えば、単語の概念を表現する多次元意味属性を判断する概念ベクトル検索を行う検索エンジンの場合は、同一の単語が含まれていなかったとしても類似する意味を有する単語あるいは話題(概念ベクトル)が同じテキストブロック内に存在した方が効率良く、且つ高精度に検索できる。そのため、着目したテキストブロックと次のテキストブロックに係る意味や話題が同一又は類似する場合は、同じ話題のものを同一のブロックとした方が効率がよい。よってテキストブロックを同一の話題である可能性が高いと予想される1文単位よりブロックの大きな段落を1つの単位とすべきである。よって1文単位よりブロックの大きな段落ごとにブロック化するために分割に係る上記テキストブロックを結合すべきであると判定し(ステップS605)、これらテキストブロックを結合する(ステップS606)。
図8の例では、「テキスト1」と「テキスト1−2」と「テキスト1−2」のテキストブロックは同じ話題(概念ベクトル)、同様に「テキスト2」と「テキスト2−2」と「テキスト2−2」のテキストブロックは同じ話題であるとすると、図8(e)に示したように、「テキスト1」と「テキスト1−2」と「テキスト1−2」のテキストブロックを結合し、同様に「テキスト2」と「テキスト2−2」と「テキスト2−2」のテキストブロックを結合する。
なお、ここで述べる概念ベクトル検索では、たとえば、『モバイル関連機器の市場規模』というクエリーの検索要求がなされたとすると、「モバイル」「機器」「市場」のキーワードに基づいて文書概念ベクトルが生成され、各ベクトル間の類似判定がなされ、その結果、クエリーに係るキーワードを含まなくとも内容全体が類似している文書が検索されることとなる。
同様に、図8(c)に示すように、例えば文書中の単語の存在の有無のみによって文書の類似性を判断するベクトル検索の場合は、キーリレーション検索および概念ベクトル検索より大きい単位で文書をブロック化する(例えば、文書全体を1つのブロックとして文書の類似性を判断する)べきである。
<フレーズ検索処理>
次に、図4のステップS404におけるサーバ装置100,200側の検索処理(類似検索処理)の1例としてのフレーズ検索処理を、図7、図12に基づいて説明する。
このフレーズ検索処理では、クエリー単語取得処理(図7のステップS701)と、クエリー単語間関係取得処理(ステップS702)と、類似度算出処理(ステップS703)とが実行される。
クエリー単語取得処理(ステップS701)は、図4のステップS403で最適化されたテキストブロックの文書データを形態素解析し、その解析結果に基づいてクエリー単語を取得する処理である。
例えば、図4のステップS403で最適化されたテキストブロックの文書データが、図12(a)に示すように「画像を印刷する。」である場合は、この「画像を印刷する。」という文字列を形態素解析して、「画像」、「を」、「印刷する。」という3つのクエリー単語を取得する。
クエリー単語間関係取得処理(ステップS702)は、ステップS701で取得したクエリー単語の構文情報を取得する処理である。例えば、上記のようにクエリー単語として、「画像」、「を」、「印刷する。」を取得した場合は、クエリー単語間関係取得処理(ステップS702)では、『「画像」が「印刷する」に係る』という構文情報を取得する。
類似度算出処理(ステップS703)は、ステップS701、S702でそれぞれ取得した画像データ中の単語間の関連性(検索条件)と、文書データベース中の検索対象の各登録文書に係る単語間の関連性を比較して、類似度を算出する処理である。
例えば、図12(b)の文書1に関しては、単語「画像」と単語「印刷する(句であるがここでは説明の簡略化のため単語とする)」が含まれ、「画像」が「印刷する」に係っていることと、「高速」が「印刷する」に係っていることが示されており、「画像」が「印刷する」に係っている点でクエリーと検索対象が類似している。
従って、完全に類似しているフレーズを含んでいる基準類似度を1とし、例えば、単語が含まれていないことによる減点を0.7、単語間距離が異なる場合の減点を1単語につき0.1、単語の係り先が異なる場合の減点を0.5とすると、文書1は、類似したフレーズを含んでいる類似度=1−単語が含まれていないことによる減点(0)−関連性による減点(単語間距離がクエリーと比較して2単語異なるので0.2の減点)=0.8となる。また、図12(b)の文書2は、同様に、類似度=1−単語による減点(0)−関連性による減点(係り先が違うので0.5の減点)=0.5となる。
従って、図4のステップS405では、類似度の大きい図12(b)に示した文書1が検索結果として表示装置2に表示されるか、あるいは文書2よりリストの上位に表示されることになる。
<概念検索処理>
次に、図4のステップS404におけるサーバ装置100,200側の検索処理(類似検索処理)の1例としての概念検索処理を、図10のフローチャートに基づいて説明する。
この概念検索処理では、クエリー言語解析結果取得処理(ステップS1001)と、クエリーベクトル生成処理(ステップS1002)と、類似度算出処理(ステップS1003)とが実行される。
ここで、クエリー言語解析結果取得処理(ステップS1001)は、図4のステップS403で最適化されたテキストブロックの文字列を形態素解析し、その解析結果に基づいてクエリー単語を取得する処理である。
クエリーベクトル生成処理(ステップS1002)は、ステップS1001で取得したクエリー単語の特徴ベクトルであるクエリーベクトルを生成する処理であり、類似度算出処理(ステップS1003)は、ステップS1002で生成されたクエリーベクトルと、記憶装置2に格納された文書データ毎の文書ベクトルとを比較して類似度を算出し、類似度の高い文書を検索結果としてリストアップする処理である。
<概念検索の登録処理>
次に、図5のステップS505のサーバ装置100,200側のインデキシング処理(概念検索の登録処理)を、図9、図13、図14に基づいて説明する。
この概念検索登録処理では、言語解析結果取得処理(ステップS901)と、文書ベクトル生成処理(ステップS902)と、インデックス登録処理(ステップS903)とが実行される。
ここで、文書(文書データ)は、記憶装置2に登録される段階で、言語解析結果取得処理(ステップS901)が施され、登録文書に含まれる単語が取得される。次に、文書ベクトル生成処理(ステップS902)において、ステップS901で取得された各単語を基本ベクトル辞書で検索することにより単語毎の次元別の特徴量を得て、その特徴量の総和から文書ベクトルが生成される。次に、インデックス登録処理(ステップS903)において、ステップS902で生成された文書ベクトルが、対応する文書(文書データ)又は文書の識別子と対応付けてサーバ装置100,200側の記憶装置2に登録される。
図13は、基本ベクトル辞書の構成例を示した図である。図13に示すように、基本ベクトル辞書には、単語毎に、ベクトル表現時のそれぞれの次元(Dim.)に応対した特徴量が格納されている。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。図13では、「単語1」の「Dim.01」の特徴量は「0」であり、「Dim.02」の特徴量は「23」であることが示されている。このように、基本ベクトル辞書から1つの単語におけるそれぞれの次元(Dim.)の特徴量を得ることが可能となる。特徴量は、その単語が使用されることにより、その文書がその分類基準(=次元)をどれくらい特徴付ける可能性があるかを示す値と解釈することが可能である。文書を構成する全ての単語から得られた分類基準別(次元別)の特徴量から、文書全体の特徴量が分類基準を次元とするベクトルで表現される。
その後のインデックス登録処理(ステップS103)では、上記のベクトルをノルム=1で正規化した値を文書ベクトルとし、その文書ベクトルを図14に示すようなインデックステーブルに格納する。図14では、「文書ID=6947」の文書ベクトルの「Dim.01」の特徴量は、0.183であり、「Dim.02」の特徴量は、0.214であることが示されている。
このように第1の実施の形態では、複数の検索手法にそれぞれ対応して、検索対象の文書を複数のブロックに分割し、分割された各ブロックの文字列に基づいて複数の検索手法に対応する前記検索対象の文書のインデックスをそれぞれ生成すると共に、検索要求用のクエリーを生成するための文書中の文字列を検索手法に応じて複数のブロックに分割し、分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成しているので、複数の検索手法によって文書を検索する場合に、可及的に迅速且つ高精度に検索することが可能となる。
[第2の実施の形態]
図15は、第2の実施の形態における検索処理を示すフローチャートである。
この検索処理では、文書画像データを取得する画像取得処理(ステップS1501)と、文書画像データを解析する文書画像解析処理(ステップS1502)と、検索1に対するテキストブロック最適化処理(ステップS1503)と、検索1処理(ステップS1504)と、検索2に対するテキストブロック最適化処理(ステップS1503)と、検索2処理(ステップS1504)と、検索結果を表示する検索結果表示処理(ステップS1505)とが実行される。
ここで、画像取得処理(ステップS1501)は、スキャナなどの画像読取装置6で文書画像をスキャンすることによって得られた文書画像データを取得する処理であり、文書画像解析処理(ステップS1502)は、ステップS1501で得られた文書画像データから写真画像ブロックやテキストブロックを取得する処理であり、検索1に対するテキストブロック最適化処理(ステップS1503)は、ステップS1502で得られたテキストブロックを検索1に係る検索エンジンの特性に応じてブロック結合または分割し最適化を行う処理であり、検索1処理(ステップS1504)は、ステップS1503で得られたテキストブロックをクエリーとして、検索1に係る検索エンジンで検索を行う処理であり、検索2に対するテキストブロック最適化処理(ステップS1505)は、ステップS1502で得られたテキストブロックを検索2に係る検索エンジンの特性に応じてブロック結合または分割し最適化を行う処理であり、検索2処理(ステップS1506)は、ステップS1505で得られたテキストブロックをクエリーとして検索2に係る検索エンジンで検索または絞込検索を行う処理であり、検索結果表示処理(ステップS1507)は、ステップS1504、ステップS1506で得られた検索結果から図11に示すように検索結果リストを一致度の高い順に表示装置4に一覧表示する、または、記憶装置2に格納する処理である。
このように、第2の実施の形態では、2つの検索エンジン毎にテキストブロックの最適化を行い、これら最適化されたテキストブロックをクエリーとして2つの検索エンジンを協働させて文書を検索しているので、1つの検索エンジンだけで文書検索を行う第1の実施の形態よりも一層、高精度に文書検索を行うことが可能となる。なお、3つ以上の検索エンジンを同様に協働させて文書を検索することも可能である。
[第3の実施の形態]
図16は、第3の実施の形態における検索処理を示すフローチャートである。
この検索処理では、文書画像データを取得する画像取得処理(ステップS1601)と、文書画像データを解析する文書画像解析処理(ステップS1602)と、検索1、又は検索2に係る検索手法を選択する選択処理(ステップS1603)と、検索1、又は検索2に対するテキストブロック最適化処理(ステップS1604、S1606)と、検索1処理、又は検索2処理(ステップS1605、S1607)と、検索1処理、又は検索2処理で得られた検索結果を表示する検索結果表示処理(ステップS1608)とが実行される。
ここで、画像取得処理(ステップS1601)は、スキャナなどの画像読取装置6で文書画像をスキャンすることにより得られた文書画像データを取得する処理であり、文書画像解析処理(ステップS1602)は、ステップS1601で得られた文書画像データから写真画像ブロックやテキストブロックを取得する処理である。
選択処理(ステップS1603)は、ステップS1602で得られたテキストブロックの特徴に応じて、検索1、又は検索2に係る検索手法を自動的に選択する処理であり、検索1に対するテキストブロック最適化処理(ステップS1604)は、検索1に係る検索手法が選択された場合に、ステップS1602で得られたテキストブロックを検索1に係る検索エンジンの特性に応じてブロック結合または分割して最適化を行う処理であり、検索1処理(ステップS1605)は、ステップS1604で得られたテキストブロックをクエリーとして検索1に係る検索エンジンで検索を行う処理である。また、検索2に対するテキストブロック最適化処理(ステップS1606)は、検索2に係る検索手法が選択された場合に、ステップS1602で得られたテキストブロックを検索2に係る検索エンジンの特性に応じてブロック結合または分割し最適化を行う処理であり、検索2処理(ステップS1607)は、ステップS1606で得られたテキストブロックをクエリーとして検索2に係る検索エンジンで検索を行う処理である。
このように、第3の実施の形態では、文書画像データの解析により得られたテキストブロックの特徴に応じて、自動的に検索エンジンを選択し、その選択した検索エンジンの特性に応じてテキストブロックをブロック結合または分割して最適化し、この最適化されたテキストブロックをクエリーとして選択に係る検索エンジンで文書を検索しているので、ユーザは、検索要求用のクエリーを生成するための文書の内容に応じた適切な検索エンジンを指定する必要がなくなり、利便性が向上する。なお、第3の実施の形態は、3つ以上の検索エンジンを搭載している場合にも適用することができる。
また、本発明は、上述した実施形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、1つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の実施の形態に係る文書処理装置としての文書検索装置の概略構成を示すブロック図である。 上記文書検索装置を適用した通信ネットワーク例を示す図である(LAN等)。 上記文書検索装置を適用した通信ネットワーク例を示す図である(インターネット)。 第1の実施の形態に係る文書検索処理を示すフローチャートである。 インデキシング処理を示すフローチャートである。 文書検索処理、及びインデキシング処理の過程におけるテキストブロックの最適化処理の詳細を示すフローチャートである。 類似検索の1例であるフレーズ検索処理の詳細を示すフローチャートである。 テキストブロックの最適化処理例を示す図である。 類似検索の1例である概念検索処理に係るインデックス登録処理を示すフローチャートである。 概念検索処理の詳細を示すフローチャートである。 文書検索結果例を示す図である。 フレーズ検索処理のクエリー、及び文書のデータ例を示す図である。 概念検索処理で用いる基本ベクトル辞書の構成例を示す図である。 概念検索処理に係るインデックステーブル例を示す図である。 第2の実施の形態に係る文書検索処理を示すフローチャートである。 第3の実施の形態に係る文書検索処理を示すフローチャートである。
符号の説明
1…中央処理装置
2…記憶装置
3…入力装置
4…表示装置
5…記憶媒体読取装置
6…画像読取装置
100,200…サーバ装置
101,102,201,202…クライアント装置
400…端末

Claims (12)

  1. 複数の検索手法によって文書を検索するための文書処理装置において、
    前記複数の検索手法にそれぞれ対応して、検索対象の文書を複数のブロックに分割する分割手段と、
    前記分割手段により分割された各ブロックの文字列に基づいて前記複数の検索手法に対応する前記検索対象の文書のインデックスをそれぞれ生成する生成手段と、
    を有することを特徴とする文書処理装置。
  2. 複数の検索手法によって文書を検索するための文書処理装置において、
    検索要求用のクエリーを生成するための文書中の文字列を検索手法に応じて複数のブロックに分割する分割手段と、
    前記分割手段により分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成する生成手段と、
    を有することを特徴とする文書処理装置。
  3. 前記検索手法が単語間の関連性に基づいて文書を検索する第1の検索手法の場合、前記分割手段は、前記文書中の文字列を文単位でテキストブロックに分割することを特徴とする請求項1または2に記載の文書処理装置。
  4. 前記検索手法が単語の概念に基づいて文書を検索する第2の検索手法の場合、前記分割手段は、前記第1の検索手法の場合より大きい単位で前記文書中の文字列を分割することを特徴とする請求項3に記載の文書処理装置。
  5. 前記検索手法が文書中の単語の存在の有無のみによって文書を検索する第3の検索手法の場合、前記分割手段は、前記第2の検索手法より大きい単位で前記文書中の文字列を分割することを特徴とする請求項4に記載の文書処理装置。
  6. 複数の検索手法によって文書を検索するための文書処理装置の制御方法において、
    検索対象の文書中の文字列を検索手法応じて複数のブロックに分割する分割工程と、
    前記分割工程により分割された各ブロックの文字列に基づいてインデックスを生成する生成工程と、
    を有することを特徴とする文書処理装置の制御方法。
  7. 複数の検索手法によって文書を検索するための文書処理装置の制御方法において、
    検索要求用のクエリーを生成するための文書中の文字列を検索エンジンの特性に応じて複数のブロックに分割する分割工程と、
    前記分割工程により分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成する生成工程と、
    を有することを特徴とする文書処理装置の制御方法。
  8. 前記検索手法が単語間の関連性に基づいて文書を検索する第1の検索手法の場合、前記分割工程において、文単位で前記文書中の文字列をテキストブロックに分割することを特徴とする請求項6または7に記載の文書処理装置の制御方法。
  9. 前記検索手法が単語の概念に基づいて文書を検索する第2の検索手法の場合、前記分割工程において、前記第1の検索手法の場合より大きい単位で前記文書中の文字列を分割することを特徴とする請求項8に記載の文書処理装置の制御方法。
  10. 前記検索手法が文書中の単語の存在の有無のみによって文書を検索する第3の検索手法の場合、前記分割工程において、前記第2の検索手法より大きい単位で前記文書中の文字列を分割することを特徴とする請求項9に記載の文書処理装置の制御方法。
  11. 請求項6ないし請求項10のいずれか1項に記載の文書処理装置の制御方法を実行するプログラム。
  12. 請求項11に記載のプログラムを記憶した記憶媒体。
JP2004255811A 2004-09-02 2004-09-02 文書処理装置、その制御方法、プログラム、及び記憶媒体 Pending JP2006072744A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004255811A JP2006072744A (ja) 2004-09-02 2004-09-02 文書処理装置、その制御方法、プログラム、及び記憶媒体
US11/219,464 US7647303B2 (en) 2004-09-02 2005-09-02 Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
CNB2005100985748A CN100424695C (zh) 2004-09-02 2005-09-02 搜索文档的文档处理装置及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004255811A JP2006072744A (ja) 2004-09-02 2004-09-02 文書処理装置、その制御方法、プログラム、及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2006072744A true JP2006072744A (ja) 2006-03-16

Family

ID=35944685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004255811A Pending JP2006072744A (ja) 2004-09-02 2004-09-02 文書処理装置、その制御方法、プログラム、及び記憶媒体

Country Status (3)

Country Link
US (1) US7647303B2 (ja)
JP (1) JP2006072744A (ja)
CN (1) CN100424695C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269069A (ja) * 2007-04-17 2008-11-06 Hitachi Ltd 情報処理システム及び情報処理方法
JP2013531282A (ja) * 2010-03-10 2013-08-01 アリババ・グループ・ホールディング・リミテッド クエリモデルに基づく誘導検索
JP7448628B2 (ja) 2017-09-13 2024-03-12 グーグル エルエルシー 関連コンテンツを使用した画像の効率的な増強

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4181892B2 (ja) * 2003-02-21 2008-11-19 キヤノン株式会社 画像処理方法
US20070005588A1 (en) * 2005-07-01 2007-01-04 Microsoft Corporation Determining relevance using queries as surrogate content
CN100498791C (zh) * 2006-03-14 2009-06-10 佳能株式会社 文档检索***、文档检索装置及其方法
US8276064B2 (en) 2007-05-07 2012-09-25 International Business Machines Corporation Method and system for effective schema generation via programmatic analysis
JP5247311B2 (ja) * 2008-08-29 2013-07-24 キヤノン株式会社 電子文書処理装置および電子文書処理方法
CN101655835B (zh) * 2009-08-26 2011-08-03 北大方正集团有限公司 电子文档中文字信息处理、输出和字符检索的方法及装置
JP5743443B2 (ja) * 2010-07-08 2015-07-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5071539B2 (ja) * 2010-09-13 2012-11-14 コニカミノルタビジネステクノロジーズ株式会社 画像検索装置、画像読取装置、画像検索システム、データベース生成方法およびデータベース生成プログラム
GB2520936A (en) * 2013-12-03 2015-06-10 Ibm Method and system for performing search queries using and building a block-level index
DE102016206046A1 (de) 2016-04-12 2017-10-12 Siemens Aktiengesellschaft Gerät und Verfahren zur Bearbeitung eines binärkodierten Strukturdokuments
EP3682338A4 (en) * 2017-09-12 2021-05-26 Services Pétroliers Schlumberger DATA SEARCH, ENRICHMENT AND CONSUMPTION TECHNIQUES USING EXPLORATION AND / OR PRODUCTION ENTITY RELATIONSHIPS
CN109670507B (zh) * 2018-11-27 2020-11-06 维沃移动通信有限公司 图片处理方法、装置及移动终端
CN111709247B (zh) * 2020-05-20 2023-04-07 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3263963B2 (ja) 1991-12-25 2002-03-11 株式会社日立製作所 文書検索方法及び装置
US5161214A (en) * 1990-08-28 1992-11-03 International Business Machines Corporation Method and apparatus for document image management in a case processing system
JPH08272822A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書登録装置及び文書検索装置
JPH09198398A (ja) * 1996-01-16 1997-07-31 Fujitsu Ltd パターン検索装置
JP3427692B2 (ja) 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
JPH1115826A (ja) 1997-06-25 1999-01-22 Toshiba Corp 文書解析装置及び方法
JPH1145269A (ja) 1997-07-28 1999-02-16 Just Syst Corp 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000339345A (ja) * 1999-03-25 2000-12-08 Sony Corp 検索システム、検索装置および方法、ならびに、入力装置および方法
JP4115048B2 (ja) * 1999-08-17 2008-07-09 株式会社リコー 文書検索システム
US7031910B2 (en) * 2001-10-16 2006-04-18 Xerox Corporation Method and system for encoding and accessing linguistic frequency data
JP2004086307A (ja) 2002-08-23 2004-03-18 Canon Inc 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP2004240769A (ja) 2003-02-06 2004-08-26 Canon Inc 情報検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269069A (ja) * 2007-04-17 2008-11-06 Hitachi Ltd 情報処理システム及び情報処理方法
JP2013531282A (ja) * 2010-03-10 2013-08-01 アリババ・グループ・ホールディング・リミテッド クエリモデルに基づく誘導検索
JP7448628B2 (ja) 2017-09-13 2024-03-12 グーグル エルエルシー 関連コンテンツを使用した画像の効率的な増強

Also Published As

Publication number Publication date
CN1744087A (zh) 2006-03-08
US20060047732A1 (en) 2006-03-02
CN100424695C (zh) 2008-10-08
US7647303B2 (en) 2010-01-12

Similar Documents

Publication Publication Date Title
CN100424695C (zh) 搜索文档的文档处理装置及其控制方法
US20220261427A1 (en) Methods and system for semantic search in large databases
JP3694149B2 (ja) 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6353840B2 (en) User-defined search template for extracting information from documents
JP2007226729A (ja) 訳語情報出力処理プログラム,処理方法および処理装置
CN101611406A (zh) 文档存档***
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JP2021144348A (ja) 情報処理装置及び情報処理方法
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP2005011079A (ja) 情報検索装置、情報検索方法及びプログラム
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
Andrés et al. Approximate search for keywords in handwritten text images
JP5279129B2 (ja) 言語横断型情報検索システムおよび言語横断型情報検索方法
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
WO2023286340A1 (ja) 情報処理装置および情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051209

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060118

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090724

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090929