JP5560971B2 - 文書検索装置、文書検索方法、及びプログラム - Google Patents

文書検索装置、文書検索方法、及びプログラム Download PDF

Info

Publication number
JP5560971B2
JP5560971B2 JP2010153273A JP2010153273A JP5560971B2 JP 5560971 B2 JP5560971 B2 JP 5560971B2 JP 2010153273 A JP2010153273 A JP 2010153273A JP 2010153273 A JP2010153273 A JP 2010153273A JP 5560971 B2 JP5560971 B2 JP 5560971B2
Authority
JP
Japan
Prior art keywords
key
search
document
index
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010153273A
Other languages
English (en)
Other versions
JP2012014646A (ja
Inventor
元博 赤石沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010153273A priority Critical patent/JP5560971B2/ja
Publication of JP2012014646A publication Critical patent/JP2012014646A/ja
Application granted granted Critical
Publication of JP5560971B2 publication Critical patent/JP5560971B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索装置、文書検索方法、及びプログラムに関する。
記憶装置に記憶された大量の文書ファイルの中から、入力されたキーワードを含む文書を検索する全文検索技術が知られている。全文検索を行う文書検索装置においては、予め検索対象の文書ファイルのインデックスを作成しておき、検索時にはこのインデックスのキーワードと入力された検索キーワードを照合する方法が一般的である。
従来の文書検索装置は、インデックスの作成方法によって大きく2つに分けられる。1つは、辞書を用いて文書を単語に分割し、単語をインデックスのキーとする形態素解析方式であり、もう1つは、文書をN文字ずつに分割してインデックスのキーとするN−gram方式である。
形態素解析方式は検索速度が速いという利点があるが、インデックス作成速度は遅い。また、インデックス作成の際に間違った単語の切り出しを行うと、検索漏れが発生するという問題がある。間違った単語の切り出しを避けるためには、インデックス作成の際に用いる辞書のメンテナンスが必要である。
N−gram方式は、インデックス作成速度が速く、検索漏れも少ないため広く利用されている方式であるが、検索時に入力された検索キーをN文字のキーに分割し、それぞれのキーでのインデックス検索結果を統合する必要があるため、検索速度が遅いという短所を持っている。なお、N−gram方式では、Nが小さすぎても大きすぎても性能が劣化するため、一般に2文字ずつに文書を分割するbi−gram方式が広く利用されている。
特許文献1には、テキストデータを全文検索する情報検索方法において、検索対象テキストを単語単位に分割し、単語単位に分割したテキストから、単語の区切りを示す単語情報を持ち文字数がNである単語情報付文字列インデックスを作成し、単語情報付文字列インデックスから、検索語を文字列検索または単語検索もしくはその両方で検索する方法が記載されている。
特開2001−034623号公報
特許文献1に記載された方法では、単語の区切りを調べることにより検索ノイズを減らそうとしているが、通常のN−gram方式に比べると検索漏れが増える可能性がある。
そこで、本発明の目的は、検索漏れを起こさず、かつ検索を高速に行うことが可能な文書検索装置を得ることである。
本発明に係る文書検索装置は、文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、を備え、前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力するものである。
本発明によれば、検索漏れを起こさず、かつ検索を高速に行うことが可能な文書検索装置を得ることができる。
本発明の実施の形態による、文書検索装置の構成を示すブロック図。 本発明の実施の形態による、文書検索装置の動作を説明する図。 本発明の実施の形態による、文書検索装置の動作のフローチャート。 本発明の実施の形態による、文書検索装置の動作のフローチャート。 本発明の実施の形態による、文書検索装置の動作のフローチャート。
次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
実施の形態
図1は、本発明の実施の形態による文書検索装置10の構成を示すブロック図である。
文書検索装置10は、入力部1、出力部2、検索部3、検索キーインデックス記憶部4、混合bi−gramインデックス(混合N−gramインデックス)記憶部5、及びインデックス作成部6を備えている。なお、文書検索装置10はN−gram方式の中でも、2文字ずつに文書を分割するbi−gram方式を用いている。
入力部1、出力部2、検索部3、およびインデックス作成部6は、プログラムに従ってコンピュータのプロセッサが行う動作のモジュールを表している。検索キーインデックス記憶部4、混合bi−gramインデックス記憶部5は、メモリやハードディスクにより実現される。
入力部1は、利用者が、検索を実行する際に検索キーの入力を行うキーボード、マウス等によって実現される。
出力部2は、検索結果としてヒットした文書ファイル等のリストを表示するディスプレイなどの表示装置によって実現される。
検索部3は、混合bi−gramインデックス記憶部5を参照し、入力部1を介して入力された検索キーを含む文書ファイルのリストを結果として出力する。検索部3は、まず検索キーそのもので混合bi−gramインデックス記憶部5を参照し、検索キーと一致するキーワードを有する文書ファイルがあれば、ヒットした文書ファイルをリストの形式で出力部2へ通知する。
もし、検索キーと一致するキーワードを有する文書ファイルがない場合、検索キーの長さが2文字より長い場合は、検索キーを2文字ずつに分割して混合bi−gramインデックス記憶部5を参照し、ヒットしたレコードのファイルIDと文字の出現位置に基づいて、検索キーを含む文書ファイルを取得し、取得した文書ファイルをリストの形式で出力部2へ通知する。さらに、検索キーが2文字より長い場合は、その検索キーを検索キーインデックス記憶部4に登録する。
検索キーインデックス記憶部4は、検索に用いられた検索キーをキーとして、検索回数、最終検索日時を保持するインデックスを記憶する。
混合bi−gramインデックス記憶部5は、文書を各文字位置から2文字ずつ取り出したものと検索に利用された検索キーをキーとするインデックスを記憶する。
インデックス作成部6は、文書ファイルを走査して混合bi−gramインデックスを作成し、混合bi−gramインデックス記憶部5に記憶する。すなわち、インデックス作成部6は、通常のbi−gramインデックスの2文字キーに加えて、検索キーインデックス記憶部4を参照し、2文字より長いキーを追加する。
次に、文書検索装置10の動作について説明する。
なお、一般の検索装置では、フォルダと時間等を指定すると、指定されたフォルダの配下にあるフォルダ内の文書ファイルを定期的に参照し、更新されたファイルがあったら、その更新内容をインデックスに反映させるような仕組みで運用される。また、Web上の文書ファイルを検索対象とする場合は、フォルダをたどる代わりに、htmlファイル内のURLをたどってインデックスを更新する。ここでは、単純化のため、ファイルを指定すると、そのファイルに関してインデックスを更新する仕組みとする。
まず、図2と図3用いてインデックス作成部6の動作について説明する。
インデックス作成部6は、文書ファイルfile1.txtやfile2.txtなどから、混合bi−gramインデックスを作成する。図2に示すように、fil1.txtの内容は、「今日は良い天気です。・・・」であり、fil2.txtの内容は、「今日は良い日です。・・・」である。
まず、インデックス作成部6は、file1.txtとそのID(1)を受け取る(図3:ステップS1)。
file名とIDの対応関係は、図2に示す「ファイルID対応テーブル」に保持される。ファイルID対応テーブルは、例えば、混合bi−gramインデックス記憶部5に保持することができる。なお、ファイルのIDの変わりに直接ファイル名を混合bi−gramインデックス記憶部5に保持するようにしてもよい。ただし、文字列のままでは記憶容量が大きくなり、処理効率も悪いので、ここではファイル名をIDに変換している。
次に、まず同一のファイルが更新された場合のことを想定し、すでに、混合bi−gramインデックス中の「ファイルID=出現位置」を保持するフィールドに、file1.txtのIDがあれば、それを消去する(ステップS2)。すなわち、1=〜(〜は任意)のペアを削除する。ファイルID=出現位置フィールドが空になれば、キー自体も削除する。
次に、ファイル中の文書をバッファに読み込み、先頭から1文字ずつずらして、インデックス登録処理を行う(ステップS3〜S7)。
まず、file1.txtの先頭から2文字のキーを登録する。すなわち、キー:「今日」、ファイルID=出現位置:1=0というレコードを混合bi−gramインデックス記憶部5に登録する(ステップS4)。
次に、2文字より大きいキーを、検索キーインデックス記憶部4を参照して検索する。すなわち、検索キーインデックス記憶部4から「今日は」、「今日は良」、「今日は良い」等を検索する。最大何文字まで検索するかは、例えば8文字のように、あらかじめ決めておく。
2文字より大きいキーが検索キーインデックスに存在し、検索回数が一定以上(例えば5件)で、検索日時が現在より一定期間内(例えば10日)などの条件を満たす場合には、そのキーを混合bi−gramインデックス記憶部5に登録する。
例えば、ポインタが文書の先頭から3つ進んだ状態でキーが「良い天気です。」の場合、図2に示す検索キーインデックスの中の「良い天気」がヒットするので、キー:「良い天気」、ファイルID=出現位置:1=3というデータを混合bi−gramインデックス記憶部5に登録する(ステップS5)。
ポインタを1文字進め(ステップS6)、ファイルの最後まで進んだら、登録が完了する(ステップS7:NO)。
次に、図4を用いて検索部3の動作を説明する。
まず、検索部3は、利用者が入力部1を介して入力した検索キーを取得する(ステップS11)。
次に、検索部3は、入力された検索キーで、混合bi−gramインデックス記憶部5を検索する(ステップS12)。
入力された検索キーでヒットするキーがあった場合には(ステップS13:YES)、そのキーのファイルID=出現位置に登録されているファイルIDをファイル名に変換して出力部2に出力する(ステップS15)。
入力された検索キーでヒットするキーがなかった場合には(ステップS13:NO)、検索キーを2文字ずつに分割して、それぞれのキーについて混合bi−gramインデックス記憶部5を検索し、ヒットするキーに登録されているファイルIDのリストを取得する(ステップS14)。さらに、ファイルIDをファイル名に変換して出力部2に出力する(ステップS15)。
さらに、検索キーが3文字以上である場合には(ステップS16:YES)、その検索キーを検索キーインデックス記憶部4に登録する(ステップS17)。
次に、図5を用いて検索キーインデックス記憶部4の更新処理について説明する。
まず、検索部3は、利用者が入力部1を介して入力した検索キーを取得する(ステップS21)。
次に、取得した検索キーで検索キーインデックス記憶部4を検索する(ステップS22)。
検索キーインデックスに、取得した検索キーでヒットするキーがあった場合には(ステップS23:YES)、そのキーのレコードの「検索回数」を1加算し、「検索日時」に現在の日時を登録する(ステップS24)。
取得した検索キーでヒットするキーがなかった場合には(ステップS23:NO)、検索キーインデックス記憶部4にそのキーのレコードを追加し、「検索日時」には現在の日時を登録する(ステップS25)。
以上のように、本実施形態によれば、混合bi−gramインデックスとして、通常のbi−gramインデックスのキーに加え、よく利用される検索キーの場合には、その検索キー自体をインデックスのキーとすることにより、同一の検索キーが何度も検索される環境において、検索漏れを起こさずに、かつ検索速度を向上させることができる。特に、社内文書の検索など、同一の文字列が検索キーとしてよく使われる環境では有効である。
本発明の効果について具体例を用いて説明する。例えば、検索キーとして「良い天気」が入力された場合を例に説明する。また、混合bi−gramインデックスの内容は図2に示すものとする。
まず、「良い天気」という4文字の検索キーが混合bi−gramインデックス記憶部5に登録されていない場合には、検索キーを2文字ずつに分割し、それぞれのキーについて混合bi−gramインデックス記憶部5を検索する(通常のN−gram方式の検索)。
この結果、キー:「良い」、ファイルID=出現位置:1=3、2=3、及びキー:「天気」、ファイルID=出現位置:1=5の2つのレコードがヒットする。この中で、ファイルIDが共通に存在し、それぞれの出現位置が順番どおりつながるものを探す。この場合、「天気」の出現位置が「良い」の出現位置より2文字分後のものを選ぶ必要がある。キー「良い」のファイルID=出現位置「1=3」、キー「天気」のファイルID=出現位置「1=5」がこの条件を満たすため、ファイルID=1、すなわち(file1.txt)に「良い天気」が含まれると判断できる。
インデックスの規模が大きくなると、それぞれのキーについてレコードが何千件もヒットする可能性があり、検索速度が遅くなってしまう。一方、本実施形態によれば、「良い天気」という検索キーの使用頻度が多い場合には、混合bi−gramインデックスに登録されているため、上記のような通常のN−gram方式の検索処理を省略することができ、検索の高速化が実現できる。
上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、を備え、
前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、文書検索装置。
(付記2)前記検索部は、
検索時にキーワードとして使用された文字列をキーとし、そのキーワードの使用回数を保持する検索キーインデックスを作成し、
前記インデックス作成部は、
前記検索キーインデックスを参照し、前記使用回数が一定条件を超えるN+1文字以上のキーを混合N−gramインデックスのキーとして登録する、付記1に記載の文書検索装置。
(付記3)文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する工程と、
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する工程と、を備え、
前記文書のリストを出力する工程では、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、文書検索方法。
(付記4)コンピュータを、
文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、して機能させるプログラムであって、
前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、プログラム。
1 入力部、2 出力部、3 検索部、4 検索キーインデックス記憶部、5 混合bi−gramインデックス記憶部、6 インデックス作成部、10 文書検索装置

Claims (4)

  1. 文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、
    前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、を備え、
    前記インデックス作成部は、前記文書のある位置からN文字分の文字列を前記混合N−gramインデックスに登録すると共に、前記ある位置からN+1文字以上N+M(Mは2以上の自然数)文字以下の各々の文字列について、検索時にキーワードとして使用される頻度が一定条件を超える場合には、前記混合N−gramインデックスに登録し、
    前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、文書検索装置。
  2. 前記検索部は、
    検索時にキーワードとして使用された文字列をキーとし、そのキーワードの使用回数を保持する検索キーインデックスを作成し、
    前記インデックス作成部は、
    前記検索キーインデックスを参照し、前記使用回数が一定条件を超えるN+1文字以上のキーを混合N−gramインデックスのキーとして登録する、請求項1に記載の文書検索装置。
  3. 文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する工程と、
    前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する工程と、を備え、
    前記インデックスを作成する工程では、前記文書のある位置からN文字分の文字列を前記混合N−gramインデックスに登録すると共に、前記ある位置からN+1文字以上N+M(Mは2以上の自然数)文字以下の各々の文字列について、検索時にキーワードとして使用される頻度が一定条件を超える場合には、前記混合N−gramインデックスに登録し、
    前記文書のリストを出力する工程では、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、文書検索方法。
  4. コンピュータを、
    文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、
    前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、して機能させるプログラムであって、
    前記インデックス作成部は、前記文書のある位置からN文字分の文字列を前記混合N−gramインデックスに登録すると共に、前記ある位置からN+1文字以上N+M(Mは2以上の自然数)文字以下の各々の文字列について、検索時にキーワードとして使用される頻度が一定条件を超える場合には、前記混合N−gramインデックスに登録し、
    前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、プログラム。
JP2010153273A 2010-07-05 2010-07-05 文書検索装置、文書検索方法、及びプログラム Expired - Fee Related JP5560971B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010153273A JP5560971B2 (ja) 2010-07-05 2010-07-05 文書検索装置、文書検索方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010153273A JP5560971B2 (ja) 2010-07-05 2010-07-05 文書検索装置、文書検索方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012014646A JP2012014646A (ja) 2012-01-19
JP5560971B2 true JP5560971B2 (ja) 2014-07-30

Family

ID=45600956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010153273A Expired - Fee Related JP5560971B2 (ja) 2010-07-05 2010-07-05 文書検索装置、文書検索方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5560971B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198395A (ja) * 1996-01-16 1997-07-31 Fuji Xerox Co Ltd 文書検索装置
JPH10307835A (ja) * 1997-05-08 1998-11-17 Canon Inc 情報処理装置及びその方法
JP3620968B2 (ja) * 1998-08-05 2005-02-16 株式会社日立製作所 文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JP4439496B2 (ja) * 2006-07-18 2010-03-24 株式会社東芝 検索処理装置及びプログラム

Also Published As

Publication number Publication date
JP2012014646A (ja) 2012-01-19

Similar Documents

Publication Publication Date Title
JP5437557B2 (ja) 検索処理方法及び検索システム
JP4848317B2 (ja) データベースのインデックス作成システム、方法及びプログラム
WO2010047286A1 (ja) 検索システム、検索方法およびプログラム
JP4922692B2 (ja) 検索クエリー作成装置
EP1826692A2 (en) Query correction using indexed content on a desktop indexer program.
US20060179039A1 (en) Method and system for performing secondary search actions based on primary search result attributes
WO2009085664A2 (en) Relevancy sorting of users browser history
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2008217157A (ja) 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP2004054588A (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP5560971B2 (ja) 文書検索装置、文書検索方法、及びプログラム
JP2004220176A (ja) データベース検索システム、その検索方法及び検索に用いられるデータファイルの作成方法並びにデータファイルを格納した記録媒体
JP2012141681A (ja) クエリセグメント位置決定装置
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP5374881B2 (ja) 情報検索システム、情報検索方法およびプログラム
JP5585489B2 (ja) 検索支援装置、プログラム及び方法
JP2011138365A (ja) 用語抽出装置、方法及び用語辞書のデータ構造
JP2010146273A (ja) 文書検索装置およびプログラム
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
US20110022591A1 (en) Pre-computed ranking using proximity terms
JP5303500B2 (ja) 文書検索装置及び方法及びプログラム
US9230013B1 (en) Suffix searching on documents
JP5483166B2 (ja) 文書検索装置、文書検索方法、及びプログラム
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140513

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140526

R150 Certificate of patent or registration of utility model

Ref document number: 5560971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees