JP5494066B2 - 検索装置、検索方法および検索プログラム - Google Patents

検索装置、検索方法および検索プログラム Download PDF

Info

Publication number
JP5494066B2
JP5494066B2 JP2010061451A JP2010061451A JP5494066B2 JP 5494066 B2 JP5494066 B2 JP 5494066B2 JP 2010061451 A JP2010061451 A JP 2010061451A JP 2010061451 A JP2010061451 A JP 2010061451A JP 5494066 B2 JP5494066 B2 JP 5494066B2
Authority
JP
Japan
Prior art keywords
search
index
character
document data
pattern file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010061451A
Other languages
English (en)
Other versions
JP2011197809A (ja
Inventor
順也 大堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010061451A priority Critical patent/JP5494066B2/ja
Publication of JP2011197809A publication Critical patent/JP2011197809A/ja
Application granted granted Critical
Publication of JP5494066B2 publication Critical patent/JP5494066B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索装置等に関する。
複数の文書データから特定の文字列を検索する全文検索が知られている。この全文検索では、転置インデックスが用いられる。転置インデックスは、文字データに含まれる単語の位置情報等を格納する索引に対応する。転置インデックスを作成する方式には、大きく分けて文字区切方式と、単語区切方式とがある。
文字区切方式では、単語の意味を考えずに、文字単位で転置インデックスを作成するものである。文字区切方式で作成した転置インデックスを文字インデックスと表記する。文字インデックスを用いれば、完全な部分一致検索が可能である。しかし、検索キーワードと文字インデックスとを一文字ずつ比較する必要があり、検索時間を多く要してしまうという欠点がある。
単語区切方式では、意味のある単語単位で転置インデックスを作成するものである。単語区切方式で作成した転置インデックスを単語インデックスと表記する。単語インデックスを用いれば、検索キーワードを単語毎に比較するので、文字インデックスを利用する場合と比較して、検索時間を短縮することが可能となる。しかし、単語の区切り方によっては、検索漏れが発生する場合がある。
このように、文字区切方式および単語区切方式には、それぞれ長所、短所があるため、いかにして文字区切方式と単語区切方式とを使い分けるのかが重要になる。例えば、文字区切方式および単語区切方式を用いた従来技術として、検索キーワードの長さに応じて、文字インデックスと単語インデックスとを自動選択するという技術が開示されている。
特開平10−307835号公報 特開2001−34623号公報 特開2008−77673号公報
しかしながら、全文検索を行う文書データによっては、検索キーワードの長さが同じ場合でも、文字インデックスと単語インデックスとを使い分けた方が効率的な全文検索を行える場合がある。
例えば、バイオデータベースに記憶される文書データには、文書に加えて他のデータベースへリンクするためのID(Identification)が含まれている。一般的に、ID等の記号を有さない文書データに対しては、単語インデックスが有効であり、記号を有する文書データに対しては、文字インデックスが有効である。
ここで、「1.1.1.1ANDsuppressor」という検索式が与えられた場合を例にして説明する。かかる検索式に対して、文字インデックスを用いて全文検索を試みる場合には、「1.1.1.1」というIDを含み、かつ、「suppressor」という単語を含む文書データのみを検索することが好ましい。しかし、上記検索式に対して、文字インデックスを用いて全文検索を試みると、実際には、「1.1.1.11」、「1.1.1.12」等のIDを含む文書データもヒットしてしまう。
これに対して、上記検索式に対して、単語インデックスを用いて全文検索を試みると、「1.1.1.1」のIDを含む文書データのみを検索することが可能である。しかし、「suppressors」と「suppressor」とは完全に一致していないので、「suppressors」を含む文書データを検索することが出来なくなってしまう。
開示の技術は、上記に鑑みてなされたものであって、文書データの特性によらず、効率よく全文検索を実行することができる検索装置、検索方法および検索プログラムを提供することを目的とする。
本願の開示する検索装置は、一つの態様において、第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、所定の文字の特徴を定義したパターンファイルを記憶する記憶部と、検索キーワードを受け付け、前記検索キーワードと前記パターンファイルとを基にして、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定部と、前記判定部の判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索部とを備えたことを要件とする。
本願の開示する検索装置の一つの態様によれば、文書データの特性によらず、効率よく全文検索を実行することができるという効果を奏する。
図1は、本実施例1にかかる検索装置の構成を示す図である。 図2は、本実施例2にかかるシステムを示す図である。 図3は、本実施例2にかかる検索装置の構成を示す図である。 図4は、パターンファイルのデータ構造を示す図である。 図5は、本実施例2にかかる検索装置の処理手順を示すフローチャートである。 図6は、実施例にかかる検索装置を構成するコンピュータのハードウェア構成を示す図である。
以下に、本願の開示する検索装置、検索方法および検索プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例1にかかる検索装置100の構成を示す図である。図1に示すように、この検索装置100は、記憶部110、判定部120、検索部130を有する。
記憶部110は、パターンファイル110a、第1のインデックス110b、第2のインデックス110cを記憶する。パターンファイル110aは、所定の文字の特徴を定義したデータである。第1のインデックス110bは、第1の区切方式に基づいて区切られ、文書データに関連付けられたデータである。第2のインデックス110cは、第2の区切方式に基づいて区切られ、文書データに関連付けられたデータである。
判定部120は、検索キーワードを受け付け、検索キーワードとパターンファイル110aとを基にして、第1のインデックス110bを用いて検索を行うのか、第2のインデックス110cを用いて検索を行うのかを判定する。
検索部130は、判定部120の判定結果に基づいて、第1のインデックス110bまたは第2のインデックス110cを用いて文書データの検索を実行する。
上記の検索装置100は、パターンファイル110aを用いて、第1のインデックス110bを用いた検索を行うのか、第2のインデックス110cを用いた検索を行うのかを判定している。このため、検索キーワードの特徴に合わせて最適なインデックスを選択することができるので、文書データの特性によらず、効率よく全文検索を実行することができる。
次に、本実施例2にかかるシステムの一例について説明する。図2は、本実施例2にかかるシステムを示す図である。図2に示すように、このシステムは、利用者端末60、検索装置200を有する。利用者端末60と検索装置200は、ネットワーク50を介して接続される。
利用者端末60は、検索装置200に検索キーワードを送信し、検索キーワードに対する検索結果を検索装置200から受信する装置である。
検索装置200は、文書データの全文検索を行う装置である。図3は、本実施例2にかかる検索装置200の構成を示す図である。図3に示すように、この検索装置200は、記憶部210、インデクシング処理部220、入力受付部230、検索式解析処理部240、スコアリング処理部250、検索結果出力部260を有する。
記憶部210は、パターンファール210a、文書データ群210b、単語インデックス210c、文字インデックス210dを記憶する。
パターンファイル210aは、所定の文字の特徴を定義したデータである。図4は、パターンファイル210aのデータ構造を示す図である。図4に示すように、このパターンファイルは、Noとパターンとを有する。Noは、各パターンを識別するものである。パターンは、所定の文字の特徴を正規表現で示したものである。ここで、文字には、一般的な文字のほかに、数字や記号等も含まれるものとする。
ここで、パターンの記載方法の一例について説明する。パターン中の[]は、[と]の中に書かれたいずれかの一文字に一致する文字、数字、記号を意味する。例えば、[0−9]は、1桁の数字を意味する。パターン中の{n,m}は、直前の文字がn回からm回まで繰り返されることを意味する。例えば、[0−9]{1,3}は、1桁、2桁、3桁の数字を意味する。
また、パターン中の+は、直前の文字が1回以上繰り返されることを意味する。例えば、[0−9]+は、数字からなる文字列を意味する。パターン中の*は、直前の文字が0回以上繰り返されることを意味する。例えば、[0−9]は、空文字または数字からなる文字列を意味する。
図3の説明に戻る。文書データ群210bは、複数の文書データを含む。また、各文書データは、固有のIDが割り当てられ、各種の文字列を含む。
単語インデックス210cは、文書データ群210bに含まれる各文書データの単語と、この単語の存在する文書データのIDとを対応付けた転置インデックスである。文字インデックス210dは、文書データ群210bに含まれる各文書データの文字と、この文字の存在する文書データのIDとを対応付けた転置インデックスである。
インデクシング処理部220は、文書データ群210bから単語インデックス210cと文字インデックス210dを生成する処理部である。インデクシング処理部220は、単語区切方式により、文書データ群210bから単語インデックス210cを生成する。また、インデクシング処理部220は、文字区切方式により、文書データ群210bから文字インデックス210dを生成する。なお、単語区切方式による単語インデックス210cの生成は、周知の単語区切方式と同様である。文字区切方式による文字インデックス210dの生成は、周知の文字区切方式と同様である。
入力受付部230は、利用者端末60から検索キーワードを受け付け、この検索キーワードを検索式解析処理部240に出力する。なお、入力受付部230は、検索装置200に接続された入力装置から、検索キーワードを取得してもよい。入力装置は、例えば、マウスやキーボードに対応する。
検索式解析処理部240は、検索キーワードとパターンファイル210aとを比較して、単語インデックス210cを用いて文書データの検索を行うのか、文字インデックス210dを用いて文書データの検索を行うのかを判定する処理部である。以下において、単語インデックス210cを用いて文書データの検索を行うことを、単語区切方式の検索と表記する。文字インデックス210dを用いて文書データの検索を行うことを、文字区切方式の検索と表記する。
まず、検索式解析処理部240は、検索キーワードに対して構文解析を実行する。例えば、検索キーワードを「1.1.1.1ANDsuppressor」とする。検索式解析処理部240が、検索キーワード「1.1.1.1ANDsuppressor」に対して構文解析を実行することで、この検索キーワードに含まれる条件文「AND」と、条件文を挟む文字列「1.1.1.1」、「suppressor」が抽出される。
検索式解析処理部240は、検索キーワードから抽出した各文字列と、パターンファイル210aのパターンとをそれぞれ比較し、各文字列に対して、単語区切方式の検索を行うのか、文字区切方式の検索を行うのかを判定する。
具体的には、検索式解析処理部240は、パターンファイル210aのパターンのいずれかに文字列がマッチする場合には、文字区切方式の検索を行うと判定する。例えば、文字列「1.1.1.1」は、図4に示したパターンファイル210aのNo「2」のパターンとマッチする。このため、検索式解析処理部240は、文字列「1.1.1.1」に対して単語区切方式の検索を行うと判定する。
また、文字列「suppressor」は、図4に示したパターンファイル210aのパターンとマッチしない。このため、検索式解析処理部240は、文字列「suppressor」に対して文字区切方式の検索を行うと判定する。
検索式解析処理部240は、文字列と判定結果とを対応付けたデータをスコアリング処理部250に出力する。また、検索式解析処理部240は、検索キーワードに含まれる条件文も合わせてスコアリング処理部250に出力する。
スコアリング処理部250は、検索式解析処理部240の文字列、文字列の判定結果、条件文を取得し、取得したデータに基づいて、検索キーワードに対応する文書データを検索する処理部である。ここでは一例として、文字列「1.1.1.1」に対応する判定結果が「単語区切方式の検索を行う」であり、文字列「suppressor」に対応する判定結果が「文字区切方式の検索を行う」であり、条件文が「AND」とする。
この場合には、スコアリング処理部250は、文字列「1.1.1.1」と、文字インデックス210dとを比較して、文字列「1.1.1.1」に対応する文書データを特定し、特定した文書データを文書データ群210bから取得する。また、スコアリング処理部250は、文字列「suppressor」と、単語インデックス210cとを比較して、文字列「suppressor」に対応する文書データを特定し、特定した文書データを文書データ群210bから取得する。
そして、スコアリング処理部250は、条件文が「AND」であるため、文字列「1.1.1.1」に対応する文書データと文字列「suppressor」に対応する文書データとを比較し、重複する文書データを検索結果出力部260に出力する。なお、条件文が「OR」の場合には、スコアリング処理部250は、条件文が「OR」であるため、文字列「1.1.1.1」に対応する文書データと文字列「suppressor」に対応する文書データとを検索結果出力部260に出力する。
スコアリング処理部250は、文書データを検索した場合に、文書データに含まれる文字列の頻度に応じて、文書データにスコアを付与してもよい。
検索結果出力部260は、スコアリング処理部250から受け付けた文書データを、利用者端末60に通知する。検索結果出力部260は、文書データのスコアに応じて、利用者端末60に表示させる文書データの順番を調整してもよい。また、検索結果出力部260は、検索装置200に接続された表示装置に文書データを出力してもよい。表示装置は、例えば、モニタや液晶ディスプレイに対応する。
次に、本実施例2にかかる検索装置200の処理手順について説明する。図5は、本実施例2にかかる検索装置200の処理手順を示すフローチャートである。図5に示すように、検索装置200は、検索キーワードを取得し(ステップS101)、構文解析を実行する(ステップS102)。
検索装置200は、パターンファイル210aから未選択のパターンを取得し(ステップS103)、検索キーワードはパターンにマッチするか否かを判定する(ステップS104)。検索装置200は、検索キーワードがパターンにマッチする場合には(ステップS104,Yes)、単語区切方式の検索を行うと判定し(ステップS105)、ステップS108に移行する。
一方、検索装置200は、検索キーワードがパターンにマッチしない場合には(ステップS104,No)、未選択のパターンが存在するか否かを判定する(ステップS106)。検索装置200は、未選択のパターンが存在する場合には(ステップS106,Yes)、ステップS103に移行する。
一方、検索装置200は、未選択のパターンが存在しない場合には(ステップS106,No)、文字区切方式の検索を行うと判定し(ステップS107)、検索を実行する(ステップS108)。
上述してきたように、本実施例2にかかる検索装置200は、パターンファイル210aを用いて、単語区切方式の検索を行うのか、文字区切方式の検索を行うのかを判定している。このため、検索キーワードの特徴に合わせて最適なインデックスを選択することができるので、文書データの特性によらず、効率よく全文検索を実行することができる。
また、本実施例2では、検索キーワードが検索式の場合に、この検索式を複数の部分キーワードに分割し、部分キーワード毎に単語区切方式の検索を行うのか、文字区切方式の検索を行うのかを判定している。このため、既存の技術を踏襲した検索式をそそのまま利用して、全文検索を実行することができる。
また、本実施例2のパターンファイル210aは、利用者単位の好みに合わせて容易にカスタマイズすることができる。
ところで、図3に示した検索装置200の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、検索装置200の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、記憶部210を、着脱可能な外部装置または携帯端末等に搭載し、かかる外部装置または携帯端末等を検索装置200に有線または無線で接続するようにしてもよい。
なお、検索装置200は、既知のパーソナルコンピュータ、ワークステーション、携帯電話、PHS端末、移動体通信端末またはPDAなどの情報処理装置に、検索装置200の各機能を搭載することによって実現することもできる。
図6は、実施例にかかる検索装置を構成するコンピュータのハードウェア構成を示す図である。図6に示すように、このコンピュータ300は、各種演算処理を実行するCPU(Central Processing Unit)301と、ユーザからのデータの入力を受け付ける入力装置302と、モニタ303を有する。また、コンピュータ300は、記憶媒体からプログラム等を読取る媒体読み取り装置304と、ネットワークを介して他のコンピュータとの間でデータの授受を行うネットワークインターフェース装置305を有する。また、コンピュータ300は、各種情報を一時記憶するRAM(Random Access Memory)306と、ハードディスク装置307を有する。各装置301〜307は、バス308に接続される。
そして、ハードディスク装置307には、図3に示した検索式解析処理部240、スコアリング処理部250、インデクシング処理部220と同様の機能を有する検索プログラム307aを記憶する。また、ハードディスク装置307は、図3に示した各種データ210a〜210dにそれぞれ対応する各種データ307bを記憶する。
CPU301が検索プログラム307aをハードディスク装置307から読み出してRAM306に展開することにより、検索プログラム307aは、検索プロセス306aとして機能するようになる。また、CPU301は、各種データ307bをRAM306に読み出す。検索プロセス306aは、各種データ306bを利用して、全文検索を実行する。
なお、上記の検索プログラム307aは、必ずしもハードディスク装置307に格納されている必要はなく、CD−ROM等の記憶媒体に記憶されたプログラムを、コンピュータ300が読み出して実行するようにしてもよい。また、公衆回線、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等にこのプログラムを記憶させておき、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、所定の文字の特徴を定義したパターンファイルとを記憶する記憶部と、
検索キーワードを受け付け、前記検索キーワードと前記パターンファイルとを基にして、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定部と、
前記判定部の判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索部と
を備えたことを特徴とする検索装置。
(付記2)前記検索キーワードを、複数の部分キーワードに分割するキーワード分割部を更に有し、前記判定部は、部分キーワード毎に前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定することを特徴とする付記1に記載の検索装置。
(付記3)前記第1の区切方式は、意味を持つ単語毎に文字列を区切る単語区切方式であり、前記判定部は、前記パターンファイルに定義された特徴が、前記検索キーワードと一致する場合には、前記第1のインデックスを用いて文書データの検索を行うと判定することを特徴とする付記1または2に記載の検索装置。
(付記4)第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、所定の文字の特徴を定義したパターンファイルとを記憶する記憶装置を有する検索装置が、
検索キーワードを受け付け、前記検索キーワードと前記パターンファイルとを基にして、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定ステップと、
前記判定ステップの判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索ステップと
を含むことを特徴とする検索方法。
(付記5)前記検索キーワードを、複数の部分キーワードに分割するキーワード分割ステップを更に含み、前記判定ステップでは、部分キーワード毎に前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定することを特徴とする付記4に記載の検索方法。
(付記6)前記第1の区切方式は、意味を持つ単語毎に文字列を区切る単語区切方式であり、前記判定ステップでは、前記パターンファイルに定義された特徴が、前記検索キーワードと一致する場合には、前記第1のインデックスを用いて文書データの検索を行うと判定することを特徴とする付記4または5に記載の検索方法。
(付記7)第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、所定の文字の特徴を定義したパターンファイルとを記憶する記憶装置を有するコンピュータに、
検索キーワードを受け付け、前記検索キーワードと前記パターンファイルとを基にして、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定手順と、
前記判定ステップの判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索手順と
を実行させることを特徴とする検索プログラム。
(付記8)前記検索キーワードを、複数の部分キーワードに分割するキーワード分割手順を更にコンピュータに実行させ、前記判定手順は、部分キーワード毎に前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定することを特徴とする付記7に記載の検索プログラム。
(付記9)前記第1の区切方式は、意味を持つ単語毎に文字列を区切る単語区切方式であり、前記判定手順は、前記パターンファイルに定義された特徴が、前記検索キーワードと一致する場合には、前記第1のインデックスを用いて文書データの検索を行うと判定することを特徴とする付記7または8に記載の検索プログラム。
100 検索装置
110a パターンファイル
110b 第1のインデックス
110c 第2のインデックス
120 判定部
130 検索部

Claims (8)

  1. 意味を持つ単語毎に文字列を区切る単語区切方式に基づいて区切られ、文書データに関連付けられた単語インデックスと、文字毎に文字列を区切る文字区切方式に基づいて区切られ、文書データに関連付けられた文字インデックスと、記号を含む所定の文字の特徴を定義したパターンファイルとを記憶する記憶部と、
    検索文字列を受け付け、前記検索文字列と前記パターンファイルとを基にして、前記パターンファイルに定義された特徴が、前記検索文字列と一致する場合には、前記単語インデックスを用いて文書データの検索を行うと判定し、前記パターンファイルに定義された特徴が、前記検索文字列と一致しない場合には、前記文字インデックスを用いて文書データの検索を行うと判定する判定部と、
    前記判定部の判定結果に基づいて、前記単語インデックスまたは前記文字インデックスを用いて文書データの検索を実行する検索部と
    を備えたことを特徴とする検索装置。
  2. 前記パターンファイルは前記所定の文字列に含まれる文字の形式を示す情報を含み、
    前記判定部は、受け付けた前記検索文字列に含まれる文字の形式と前記パターンファイルに示される文字の形式とが一致するか否かに基づき、前記単語インデックスを用いて文書データの検索を行うのか、前記文字インデックスを用いて文書データの検索を行うのかを判定する
    ことを特徴とする請求項1に記載の検索装置。
  3. 前記検索文字列を、複数の部分文字列に分割する文字列分割部を更に有し、前記判定部は、部分文字列毎に、前記パターンファイルに定義された特徴が、前記部分文字列と一致する場合には、前記単語インデックスを用いて文書データの検索を行うと判定し、前記パターンファイルに定義された特徴が、前記部分文字列と一致しない場合には、前記文字インデックスを用いて文書データの検索を行うと判定することを特徴とする請求項1または2に記載の検索装置。
  4. 意味を持つ単語毎に文字列を区切る単語区切方式に基づいて区切られ、文書データに関連付けられた単語インデックスと、文字毎に文字列を区切る文字区切方式に基づいて区切られ、文書データに関連付けられた文字インデックスと、記号を含む所定の文字の特徴を定義したパターンファイルとを記憶する記憶装置を有する検索装置が、
    検索文字列を受け付け、前記検索文字列と前記パターンファイルとを基にして、前記パターンファイルに定義された特徴が、前記検索文字列と一致する場合には、前記単語インデックスを用いて文書データの検索を行うと判定し、前記パターンファイルに定義された特徴が、前記検索文字列と一致しない場合には、前記文字インデックスを用いて文書データの検索を行うと判定する判定ステップと、
    前記判定ステップの判定結果に基づいて、前記単語インデックスまたは前記文字インデックスを用いて文書データの検索を実行する検索ステップと
    を含むことを特徴とする検索方法。
  5. 意味を持つ単語毎に文字列を区切る単語区切方式に基づいて区切られ、文書データに関連付けられた単語インデックスと、文字毎に文字列を区切る文字区切方式に基づいて区切られ、文書データに関連付けられた文字インデックスと、記号を含む所定の文字の特徴を定義したパターンファイルとを記憶する記憶装置を有するコンピュータに、
    検索文字列を受け付け、前記検索文字列と前記パターンファイルとを基にして、前記パターンファイルに定義された特徴が、前記検索文字列と一致する場合には、前記単語インデックスを用いて文書データの検索を行うと判定し、前記パターンファイルに定義された特徴が、前記検索文字列と一致しない場合には、前記文字インデックスを用いて文書データの検索を行うと判定する判定手順と、
    前記判定ステップの判定結果に基づいて、前記単語インデックスまたは前記文字インデックスを用いて文書データの検索を実行する検索手順と
    を実行させることを特徴とする検索プログラム。
  6. 第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、文字列に含まれる文字の形式を示すパターンファイルとを記憶する記憶部と、
    検索文字列を受け付け、前記検索文字列に含まれる文字の形式と前記パターンファイルに示される文字の形式とが一致するか否かに基づき、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定部と、
    前記判定部の判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索部と
    を備えたことを特徴とする検索装置。
  7. 第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、文字列に含まれる文字の形式を示すパターンファイルとを記憶する記憶装置を有する検索装置が、
    検索文字列を受け付け、前記検索文字列に含まれる文字の形式と前記パターンファイルに示される文字の形式とが一致するか否かに基づき、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定ステップと、
    前記判定ステップの判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索ステップと
    を含むことを特徴とする検索方法。
  8. 第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、文字列に含まれる文字の形式を示すパターンファイルとを記憶する記憶装置を有するコンピュータに、
    検索文字列を受け付け、前記検索文字列に含まれる文字の形式と前記パターンファイルに示される文字の形式とが一致するか否かに基づき、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定手順と、
    前記判定手順の判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索手順と
    を実行させることを特徴とする検索プログラム。
JP2010061451A 2010-03-17 2010-03-17 検索装置、検索方法および検索プログラム Expired - Fee Related JP5494066B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010061451A JP5494066B2 (ja) 2010-03-17 2010-03-17 検索装置、検索方法および検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010061451A JP5494066B2 (ja) 2010-03-17 2010-03-17 検索装置、検索方法および検索プログラム

Publications (2)

Publication Number Publication Date
JP2011197809A JP2011197809A (ja) 2011-10-06
JP5494066B2 true JP5494066B2 (ja) 2014-05-14

Family

ID=44875968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010061451A Expired - Fee Related JP5494066B2 (ja) 2010-03-17 2010-03-17 検索装置、検索方法および検索プログラム

Country Status (1)

Country Link
JP (1) JP5494066B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102274391B1 (ko) * 2014-10-07 2021-07-26 인포뱅크 주식회사 정보 검색 장치 및 방법
KR102274381B1 (ko) * 2014-10-07 2021-07-26 인포뱅크 주식회사 정보 검색 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3825829B2 (ja) * 1996-03-19 2006-09-27 キヤノン株式会社 登録情報検索装置及びその方法
JPH10307835A (ja) * 1997-05-08 1998-11-17 Canon Inc 情報処理装置及びその方法
JP3636941B2 (ja) * 1999-07-19 2005-04-06 松下電器産業株式会社 情報検索方法と情報検索装置
JP4160627B2 (ja) * 2007-10-19 2008-10-01 株式会社東芝 構造化文書管理システム及びプログラム

Also Published As

Publication number Publication date
JP2011197809A (ja) 2011-10-06

Similar Documents

Publication Publication Date Title
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP4848317B2 (ja) データベースのインデックス作成システム、方法及びプログラム
US10387435B2 (en) Computer application query suggestions
US10346457B2 (en) Platform support clusters from computer application metadata
KR20120123241A (ko) 지도 검색을 위한 쿼리 파싱 방법
KR100892842B1 (ko) 사용자 중심 정보탐색 방법 및 시스템
CN104067273A (zh) 将搜索结果分组为简档页面
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
Zhang et al. Mining contiguous sequential generators in biological sequences
JP5194818B2 (ja) データ分類方法およびデータ処理装置
KR100903506B1 (ko) 정보 맵 관리 시스템 및 방법
JP2010257001A (ja) 検索サポートキーワード提示装置、方法及びプログラム
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
JP5494066B2 (ja) 検索装置、検索方法および検索プログラム
US10339148B2 (en) Cross-platform computer application query categories
JP2009098811A (ja) 文書分類装置およびプログラム
JP2012104051A (ja) 文書インデックス作成装置
JP5491446B2 (ja) 話題語獲得装置、方法、及びプログラム
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP2009294768A (ja) 情報共有装置及び情報共有プログラム
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2009129202A (ja) データ処理装置、データ処理方法、および、プログラム
JP2013156876A (ja) 推薦クエリ抽出装置及び方法及びプログラム
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140217

R150 Certificate of patent or registration of utility model

Ref document number: 5494066

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees