JP2005128872A - 文書検索システム及び文書検索プログラム - Google Patents

文書検索システム及び文書検索プログラム Download PDF

Info

Publication number
JP2005128872A
JP2005128872A JP2003364948A JP2003364948A JP2005128872A JP 2005128872 A JP2005128872 A JP 2005128872A JP 2003364948 A JP2003364948 A JP 2003364948A JP 2003364948 A JP2003364948 A JP 2003364948A JP 2005128872 A JP2005128872 A JP 2005128872A
Authority
JP
Japan
Prior art keywords
document
classification
list
search
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003364948A
Other languages
English (en)
Inventor
Masayuki Takeuchi
正行 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Solutions Corp filed Critical Toshiba Solutions Corp
Priority to JP2003364948A priority Critical patent/JP2005128872A/ja
Publication of JP2005128872A publication Critical patent/JP2005128872A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書検索要求に応じて検索された文書の一覧の中から利用者にとって必要とする文書を容易に識別できるようにする。
【解決手段】分類部115は、クライアント端末20からの文書検索要求に応じて文書検索部113により検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類する。インタフェース部111は、文書検索部113による文書検索結果の一覧と、分類部115による文書分類結果を示す分類結果一覧であって、上記文書検索結果の一覧で示される各文書が上記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成してクライアント端末20に返す。
【選択図】 図1

Description

本発明は、与えられた文書検索要求に応じて該当する文書を検索する文書検索システムに係り、特に、検索された各文書が予め定められた文書分類のいずれに該当するかを示す分類一覧を含む検索結果一覧画面を利用者に提示するのに好適な文書検索システム及び文書検索プログラムに関する。
従来から、利用者からの文書検索要求に応じて文書を検索する文書検索システムが種々開発されている。この種の文書検索システムとして、フルテキストサーチ方式、或いは形態素解析を利用して、単語ベースで文書を検索する文書検索システムが知られている。ところが、1つの文書検索要求を満たす文書の数と文書データの量は膨大である。この場合、利用者は、検索された膨大な数の文書の各々の内容を表示画面上で確認し、その中から必要な文書を選定するか、或いは必要な情報を取り出さなければならない。
そこで近年は、この手間を省くために、検索された各文書のタイトル等の文書情報と合わせて、文書の要約(抜粋文)を一覧表示する技術(以下、第1の先行技術と称する)が開発されている(例えば、特許文献1参照)。特に、この第1の先行技術では、検索された全文書の要約ではなくて、利用者が選択した文型に合致する要約だけが一覧表示される。
また、検索された各文書から特徴的な単語と特徴的な単語の関係を抽出し、その特徴的な単語と特徴的な単語の関係とに基づいて、検索された文書群を互いに類似した文書集合に分類し、分類された文書集合毎に、文書検索結果の一覧(文書の要約、例えばタイトルの一覧)を表示する技術(以下、第2の先行技術と称する)も開発されている(例えば、特許文献2参照)。
特開平8−255172号公報(段落0030) 特開2001−306594号公報(段落0007,0030〜0041)
上記第1の先行技術によれば、検索された文書の要約のうち、利用者が選択した文型に合致する要約、つまり利用者の必要とする可能性の高い要約だけが一覧表示される。このため、利用者の文書検索作業に要する負荷を軽減し得る。しかし、利用者が所望の文書の情報を取得するためには、一覧表示されている要約を全て読まなければならない。しかも、利用者が選択した文型に合致する要約に、必ずしも利用者が意図した文書の要約が含まれているとは限らない。
一方、上記第2の先行技術によれば、検索された文書群が互いに類似した文書集合に分類され、その分類された文書集合毎に、文書検索結果の一覧が表示される。このため利用者の文書検索作業に要する負荷を軽減し得る。しかし、利用者が所望の文書の情報を取得するためには、対応する文書集合を特定して、一覧表示されている要約(タイトル)を全て読まなければならない。また利用者は、文書検索結果の一覧の表示画面を一瞥しただけでは、分類された文書集合の特徴を把握できない。
本発明は上記事情を考慮してなされたものでその目的は、文書検索要求に応じて検索された各文書について、予め定められた文書分類項目毎に、対応する分類に属しているかを示す分類一覧が含まれる検索結果一覧画面の提示により、利用者にとって、その分類一覧を参照するだけで必要とする文書を容易に識別することができる文書検索システム及び文書検索プログラムを提供することにある。
本発明の1つの観点によれば、与えられた文書検索要求に応じて該当する文書を検索する文書検索システムが提供される。この文書検索システムは、検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類する分類手段と、文書検索結果の一覧と、前記分類手段による文書分類結果を示す分類結果一覧であって、上記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するインタフェース手段とを備えたことを特徴とする。
このような構成においては、文書検索結果の一覧を利用者に提示するときには、当該文書検索結果の一覧で示される各文書が予め定められた文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧が併せて利用者に提示されるため、利用者は分類一覧を参照するだけで検索された各文書の内容を容易に把握して、それぞれ自身が必要とする、目的に合致した文書であるか簡単に判断できる。
ここで、上記分類結果一覧を、上記文書検索結果の一覧で示される各文書と上記各文書分類項目とにそれぞれ対応付けて表示され、該当する文書が対応する文書分類項目に分類されるか否かを示す分類マークの集合で構成することにより、各分類マークの表示状態から各文書の内容を一層容易に把握できる。つまり分類結果一覧を一瞥するだけで、各文書の内容を簡単に把握できる。
また、上記分類結果一覧の見出しとしての、上記各文書分類項目を示す分類項目一覧であって、利用者による分類項目の選択操作が可能な分類項目一覧を上記検索結果一覧画面に含めると良い。このようにすると、文書検索結果の一覧に含まれる文書を、分類項目一覧から選択された分類項目に分類される文書だけに絞ることができるため、絞り込み検索が容易に実現でき、利用者は目的の文書に簡単に辿りつける。
また、上記分類手段による文書分類に用いられる分類用辞書であって、上記文書分類項目毎に対応する分類を特徴付けるキーワードの集合を格納した分類用辞書を用意し、上記分類手段による検索された各文書について、当該文書中に、上記分類用辞書に上記文書分類項目毎に格納されているキーワード集合に含まれている少なくとも1つのキーワードが存在するかを、上記分類手段が当該文書分類項目毎に判定することにより、当該文書が対応する分類に属しているかを判定する構成とするならば、文書分類が容易に行える。
また、上記分類手段に、検索された各文書について、当該文書から、上記分類用辞書に上記文書分類項目毎に格納されているキーワード集合に含まれているキーワードを抽出するキーワード抽出手段を持たせ、このキーワード抽出手段によって抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を上記検索結果一覧画面に含める構成とすると良い。このようにすると、文書検索結果の一覧に含まれる文書を、検索された文書のうちの選択されたキーワードを含む文書だけに絞ることができるため、絞り込み検索が容易に実現でき、利用者は目的の文書に簡単に辿りつける。
本発明によれば、文書検索結果の一覧を利用者に提示するときには、当該文書検索結果の一覧で示される各文書が予め定められた文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧が併せて利用者に提示される構成とすることにより、利用者は分類一覧を参照するだけで検索された各文書の内容を容易に把握して、自身が必要とする文書を簡単に判断できる。
以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る文書検索システムの構成を示すブロック図である。図1の文書検索システムは、主として、検索サーバ計算機10と、検索サーバ計算機10を利用するクライアント端末20とから構成される。検索サーバ計算機10とクライアント端末20とはネットワーク30を介して接続されている。なお、図1では省略されているが、ネットワーク30には、複数のクライアント端末20が接続可能である。
検索サーバ計算機10は、クライアント端末20からの検索要求に応じて要求された検索条件に合致する文書を検索する検索サーバ11と、記憶部12とを備えている。記憶部12には、文書データベース121及び分類用辞書122が格納される。文書データベース121は、検索の対象となる文書の文書データを保存する。分類用辞書122は、検索サーバ11によって検索された各文書について、予め定められた文書分類項目毎に、対応する分類に属しているかを判定するのに用いられる。記憶部2にはまた、検索サーバ計算機10のCPU(図示せず)によって実行される各種プログラムが格納される。このプログラムの1つは、文書検索を実現するための文書検索プログラムである。なお、文書検索プログラムが独立のプログラムではなくて、1つのアプリケーションプログラムの一要素であっても構わない。記憶部12は、例えば主メモリ及びディスク装置(例えばハードディスクドライブ)を含む。ここで、主メモリ及びディスク装置をどのように使い分けるかについては、本発明に直接関係しないため説明を省略する。
検索サーバ11は、検索サーバ計算機10のCPUが文書検索プログラムを実行することにより実現される。検索サーバ11は、インタフェース部111、検索要求解析部112、文書検索部113、要約抽出部114、及び分類部115の各機能要素を含む。
インタフェース部111は、クライアント端末20からの検索要求(文書検索要求)を受け付ける機能と、当該検索要求に対する検索結果の一覧を表す画面情報(検索結果一覧画面情報)を生成して検索要求元に返す機能とを有する。検索結果一覧画面情報は、検索された各文書が予め定められた文書分類項目の何れに属しているかを示す分類一覧の情報を含む。
検索要求解析部112は、クライアント端末20からの検索要求を解析し、例えば検索式を構成するキーワードを抽出する。文書検索部113は、検索要求解析部112によって抽出されたキーワードを含む検索式に従って、文書データベース121から当該検索式に合致する文書を検索する。
要約抽出部114は、文書検索部113によって検索された文書の要約を抽出する。分類部115は、文書検索部113によって検索された各文書について、分類用辞書122によって示される文書分類項目毎に、対応する分類に属しているかを当該分類用辞書122に従って判定する。つまり分類部115は、文書検索部113によって検索された各文書を、予め定められた文書分類項目毎に分類する。ここでは、1つの文書が複数の文書分類項目に分類されることを許している。
図2は、分類用辞書122のデータ構造例を示す。同図に示すように、分類用辞書122は、例えば5つの文書分類(文書分類項目)X1〜X5と、当該分類X1〜X5を特徴付けるキーワードの集合(分類X1〜X5のキーワード集合)とから構成される。文書分類(文書分類項目)X1の種別(分類タイプ)は「説明(定義)」である。分類X1のキーワード集合は、「説明」に関する用語(キーワード)、例えば機能「BB」、機能「CC」を含む。文書分類X2の種別は「組織」である。分類X2のキーワード集合は、「組織」に関する用語、例えば会社名「DD」、会社名「EE」を含む。文書分類X3の種別は「地名」である。分類X3のキーワード集合は、「地名、所在地」に関する用語を含む。文書分類X4の種別は「人名」である。分類X4のキーワード集合は、「人名」に関する用語を含む。文書分類X5の種別は「数値」である。分類X5のキーワード集合は、「数値」に関する用語、例えば「価格」、「値段」、「円」を含む。分類Xi(i=1〜5)のキーワード集合で示される用語を少なくとも1つ含む文書は、分類(文書分類項目)Xiとして分類される。なお、図2の分類用辞書122は一例であり、更に多くの文書分類項目を用意することも可能である。例えば、本実施形態では、文書分類X5、即ち「数値」には、「日付」も含まれるものとしている。しかし、「日付」を独立した文書分類項目として用意することも可能である。
次に、本実施形態の動作について、利用者の操作によりクライアント端末20から検索サーバ計算機10内の検索サーバ11に対してネットワーク30を介して文書検索要求が与えられた場合を例に、図3のフローチャート及び図4乃至図6の表示画面例を参照して説明する。
まず、クライアント端末20の表示器の表示画面上に、図4に示すように、文書検索要求(検索条件)を入力するための入力フィールド40が表示されているものとする。この状態で、利用者がクライアント端末20のキーボード等の入力手段4を用いて、文書検索要求を入力フィールド40に入力するための操作を行ったものとする。ここでは、図4に示すように、「製品Aについて」という、自然言語を用いた質問文形式の検索要求(つまり質問文)が入力されたものとする。入力フィールド40に入力された検索要求は、クライアント端末20からネットワーク30を介して検索サーバ11に転送される。検索サーバ11内のインタフェース部111は、クライアント端末20から転送された検索要求(利用者からの検索要求)を受け付けて、当該要求を検索要求解析部112に渡す(ステップS1)。
検索要求解析部112は、インタフェース部111から渡された検索要求、つまり検索条件を表す質問文を解析(例えば形態素解析)し、当該質問文から例えば品詞が名詞の用語を検索用のキーワード(第1のキーワード)として抽出する(ステップS2)。質問文が「製品Aについて」の例では、「製品」と「A」とが検索用キーワードとして抽出される。
文書検索部113は、検索要求解析部112により抽出された検索用キーワードの集合を用いて文書データベース121から該当する文書を検索する(ステップS3)。ここでは、検索要求解析部112により抽出されたキーワード集合中の少なくとも1つのキーワードを含む文書を検索する。つまり文書検索部113は、検索要求解析部112により抽出されたキーワードの集合を用いてOR検索式により該当する文書を検索する。本実施形態では、説明を簡略化するために文書データベース121から文書を検索している。しかし、検索の対象となる各文書に含まれている単語について、その単語が含まれている文書と当該文書中の位置とを示す単語インデックスを用いて文書検索を行うことも可能である。この単語インデックスを用いた文書検索手法は、文書検索の高速化が図れる手法として良く知られている。
さて、文書検索部113による文書検索処理では、例えば“TFIDF”と呼ばれる従来から知られているアルゴリズムを用いて、検索された文書毎に、その文書中におけるキーワードの出現率に基づくスコア付け(スコアリング)が行われる。文書検索部113は、スコア付けされた文書の中から上位N件の文書を選択し、その文書のリスト(例えば文書IDのリスト)を文書検索結果として取得する(ステップS4)。ここで、Nの値を利用者が指定することも可能である。
文書検索部113によって取得された文書検索結果(文書リスト)は、検索に用いられたキーワード集合と共に要約抽出部114及び分類部115に渡される。要約抽出部114は、文書検索結果(文書リスト)で示される、検索された各文書について、その要約を、例えば文書データベース121に格納されている対応する文書データから抽出する(ステップS5)。ここでは、文書検索に用いられたキーワード(第1のキーワード)を最も多く含む記述(例えば文)が要約として抽出される。要約抽出部114により抽出された、文書検索結果(文書リスト)で示される各文書の要約は、当該文書検索結果(文書リスト)と共にインタフェース部111に渡される。
一方、分類部115は、文書検索部113から渡された文書検索結果としての文書リストから未処理の文書(の文書ID)を1つ選択する(ステップS6)。次に分類部115は、分類用辞書122によって管理される文書分類項目(分類)X1〜X5のうちの1つを指定するための変数iを、初期値1に設定する(ステップS7)。そして分類部115は、文書データベース121に格納されている文書データのうち、選択された文書の文書IDで指定される文書データから、文書分類項目(分類)Xiのキーワードを全て抽出する(ステップS8)。ここでは、キーワード毎の総出現個数もカウントされる。この文書分類項目(分類)Xiのキーワードは、分類用辞書122に予め格納されている。分類Xiが分類X1のこの例では、分類用辞書122には、分類X1のキーワード集合として、機能「BB」及び機能「CC」を含む、「説明(定義)」に関する用語の集合が格納されている。
次に分類部115は、文書分類項目(分類)Xiのキーワードを少なくとも1つ抽出できたか否かを判定する(ステップS9)。もし、抽出できた場合、分類部115は、ステップS6で選択された文書が文書分類項目(分類)Xiに分類されるか否かを示すフラグFiを“1”(Xiに分類されることを示す状態)に設定する(ステップS10)。これに対し、文書分類項目(分類)Xiのキーワードが抽出できなかった場合、フラグFiを“0”(Xiに分類されないことを示す状態)に設定する(ステップS11)。
分類部115はステップS10またはS11を実行すると、i=5であるか否かを判定する(ステップS12)。分類部115は、i=5でない場合(i<5の場合)、ステップS6で選択された文書について、未判定の文書分類項目が残っていると判断し、次に判定すべき文書分類項目を指定するために、変数iを1だけインクリメントする(ステップS13)。そして、インクリメント後の変数iで指定される文書分類項目(分類)Xiに関し、ステップS8から始まる処理を再び実行する。
このようにして、ステップS6で選択された文書について、X1〜X5の各文書分類項目毎に、その文書が当該文書分類項目X1〜X5に分類されるか否かを判定して、その判定結果をフラグF1〜F5に設定する処理(ステップS8,S9,S10またはステップS8,S9,S11)が全て実行されると(ステップS12)、分類部115はステップS14に進む。ステップS14において分類部115は、文書検索部113から渡された文書検索結果(文書リスト)の中に未処理の文書(の文書ID)が残っているか否かを判定する(ステップS14)。もし、未処理の文書が存在するならば、分類部115はステップS6に戻って、未処理の文書(の文書ID)を1つ選択した後、選択された文書について、X1〜X5の各文書分類項目毎に、上記ステップS8,S9,S10またはステップS8,S9,S11を実行する。
やがて、文書検索結果の文書リストに含まれている全ての文書について、X1〜X5の各文書分類項目毎に、上記ステップS8,S9,S10またはステップS8,S9,S11を実行し終えると(ステップS14)、分類部115は当該文書リストで示される各文書の分類結果(ここでは、文書分類項目(分類)X1〜X5毎のフラグF1〜F5)をインタフェース部111に渡す。このとき分類部115は、各文書から抽出された文書分類項目(分類)Xiのキーワード(第2のキーワード)の群のうち、総出現個数が予め定められた個数を超えるキーワードの集合をインタフェース部111に渡す。なお、総出現個数が多い上位M個のキーワードの集合をインタフェース部111に渡すようにしても構わない。
インタフェース部111は、要約抽出部114から文書検索結果(文書リスト)及び当該文書リストで示される各文書の要約を受け取ると共に、分類部115から当該文書リストで示される各文書の分類結果(X1〜X5毎のフラグF1〜F5)及びキーワード(第2のキーワード)の集合を受け取ると、利用者に提示可能な分類結果を含む検索結果一覧画面の情報を生成し、当該情報を検索要求元のクライアント端末20にネットワーク30を介して返す(ステップS15)。この検索結果一覧画面の情報は、第2のキーワードの集合と、文書検索結果(文書リスト)で示される各文書の文書ID(文書名)と、文書分類項目X1〜X5の項目名と、当該各文書の分類結果である当該各文書のX1〜X5毎のフラグF1〜F5と、当該各文書の要約とを含む。
クライアント端末20は、検索サーバ11のインタフェース部111から返された検索結果一覧画面の情報を受け取ると、当該情報に従って、例えば図4に示す検索結果一覧画面をクライアント端末20の表示器に表示する。この検索結果一覧画面は、文書検索結果(文書リスト)で示される各文書の文書ID(文書名)の一覧41を含む。図4の例では、文書1、文書2、文書3及び文書4を含む文書の文書IDの一覧(文書検索結果一覧)41が表示されている。
また図4の検索結果一覧画面では、文書検索結果一覧41で示される各文書が文書分類項目X1〜X5のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧42が表示される。この分類結果一覧42は、文書検索結果一覧41で示される各文書とX1〜X5の各文書分類項目とにそれぞれ対応付けて表示される例えば矩形の分類マーク42aの集合である。ここでは、文書jと文書分類項目Xiとにそれぞれ対応付けられた分類マーク42aの矩形枠内を所定の色で塗りつぶすことにより、つまり矩形枠内が塗りつぶされた分類マーク42aの表示により、該当する文書jが文書分類項目Xiに分類されることを示している。また、分類マーク42aの矩形枠内を塗りつぶさないことにより、つまり矩形枠のみの分類マーク42aの表示により、該当する文書jが文書分類項目Xiに分類されないことを示している。この分類マーク42aの表示情報は、該当する文書jの文書分類項目Xiに関する分類結果を示すフラグFiに従って生成される。
また図4の検索結果一覧画面には、文書分類項目(分類)X1〜X5の項目名(または当該項目名の識別子)の一覧(分類項目名一覧)43が表示されている。分類項目名一覧43は、分類結果一覧42により示される文書分類項目X1〜X5の一種の見出しである。この分類項目名一覧43により示される文書分類項目Xiの項目名の表示位置と文書検索結果一覧41で示される文書jの文書IDの表示位置とにいずれも対応する位置には、文書jが文書分類項目Xiに分類されるか否かを示す分類マーク42aが表示されている。分類結果一覧42中の分類マーク42aの集合は、マトリクス状に配列されている。
また図4の検索結果一覧画面には、各文書IDに対応付けて、該当する文書の要約が表示されている。ここでは、文書1の要約44-1として「AはBBとCCの機能をもっている」が、文書2の要約44-2として「Aの価格は…」が、そして文書3の要約44-3として「株式会社DD(住所…)は製品Aを発表」が、それぞれ表示されている。図4の検索結果一覧画面の例では、各文書の文書分類項目X1〜X5毎の分類マーク42aの状態から明らかなように、文書1は文書分類項目X1のみに分類され、文書2は文書分類項目X1及びX5に分類される。また、文書3は文書分類項目X1及びX3に分類され、文書4は文書分類項目X5のみに分類される。
また図4の検索結果一覧画面には、キーワード一覧45も表示される。キーワード一覧45は、文書検索結果(文書リスト)で示される各文書から抽出された、文書分類項目X1〜X5にそれぞれ固有のキーワード(第2のキーワード)の群のうち、総出現個数が予め定められた個数を超えるキーワードの集合である。
本実施形態では、分類項目名一覧43中の分類項目X1〜X5は、クライアント端末20の入力部(例えばマウス)を用いた利用者の操作で選択可能である。今、分類項目Xi(iは1〜5のいずれか)が選択されたものとする。この場合、分類項目名一覧43中の分類項目Xiの表示形態(表示属性)が選択状態を示す特別の形態(表示属性)に切り替えられる。
分類項目名一覧43から分類項目Xiが選択されたことは、クライアント端末20から検索サーバ11のインタフェース部111に通知される。するとインタフェース部111は、要約抽出部114から受け取った検索結果の一覧の中から、選択された分類項目Xiに分類される文書のみを選択して、新たな検索結果一覧画面の情報を生成して、クライアント端末20に返す。ここでは、選択された分類項目XiがX5であるものとする。図4に示す検索結果一覧画面において、分類項目X5に分類される文書の集合は、文書2及び文書4を含む一方、文書1及び文書3を含まない。この場合、新たな検索結果一覧画面(中の文書検索結果一覧41)に検索結果として表示される文書は、図5に示すように、分類項目X5に分類される文書に絞られる。ここでは、文書2及び文書4は表示されるものの、文書1及び文書3は表示されない。これにより、クライアント端末20の利用者は、検索結果の絞り込み検索を行うことができる。なお、分類項目名一覧43から複数の分類項目を選択することも可能である。例えば、図4に示す検索結果一覧画面において、分類項目名一覧43から分類項目X1及びX3が選択された場合、分類項目X1及びX3に分類される文書だけが選択される。この場合、新たな検索結果一覧画面では、文書3は表示されるものの、文書1、文書2及び文書4は表示されない。
また本実施形態では、キーワード一覧45中のキーワードも、クライアント端末20の入力部を用いた利用者の操作で選択可能である。このキーワード一覧45が、図4に示すようにキーワード「BB」「CC」「DD」を含み、その中からキーワード「BB」が選択されたものとする。この場合、キーワード一覧45中のキーワード「BB」の表示形態が選択状態を示す特別の形態に切り替えられる。
キーワード一覧45からキーワード「BB」が選択されたことは、クライアント端末20から検索サーバ11のインタフェース部111に通知される。するとインタフェース部111は、要約抽出部114から受け取った検索結果の一覧の中から、選択されたキーワード「BB」を含む文書のみを選択して、新たな検索結果一覧画面の情報を生成して、クライアント端末20に返す。ここでは、文書1はキーワード「BB」を含むが、文書2、文書3及び文書4はキーワード「BB」を含まない。この場合、新たな検索結果一覧画面では、図6に示すように、文書1は表示されるものの、文書2、文書3及び文書4は表示されない。これにより、クライアント端末20の利用者は、検索結果の絞り込み検索を行うことができる。なお、キーワード一覧45から複数のキーワードを選択することも可能である。
上記実施形態では、検索要求解析部112は、質問文から検索用のキーワードを抽出している。しかし、検索要求解析部112が検索用のキーワードの抽出の他に、質問文の意味役割を解析して、質問のタイプまたは質問文に対する回答のタイプを判定するようにしても良い。この場合、質問タイプまたは回答タイプに合致する文書分類項目Xiに分類される文書は、利用者が必要とする文書である可能性が極めて高い。そこで、文書検索一覧画面からの利用者による文書選択を支援するために、文書検索結果(文書リスト)で示される各文書に対応して文書分類項目X1〜X5毎に表示される分類マーク42aのうち、質問タイプまたは回答タイプに合致する文書分類項目Xiに分類された文書に対応する当該Xiの分類マーク42aを、他の分類マーク42aとは異なる表示形態(属性)で強調表示すると良い。また、質問文形式の検索要求に代えて、キーワードを直接指定することによる検索要求を用いることも可能である。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係る文書検索システムの構成を示すブロック図。 図1中の分類用辞書122のデータ構造例を示す図。 同実施形態における検索サーバ11の動作手順を示すフローチャート。 同実施形態における検索結果一覧画面例を示す図。 図4中の分類項目名一覧43から分類項目X5が選択された場合の検索結果一覧画面例を示す図。 図4中のキーワード一覧45からキーワード「BB」が選択された場合の検索結果一覧画面例を示す図。
符号の説明
10…検索サーバ計算機、11…検索サーバ、12…記憶部、41…文書検索結果一覧、42…分類結果一覧、42a…分類マーク、43…分類項目名一覧(分類項目一覧)、44-1,44-2,44-3…要約、45…キーワード一覧、111…インタフェース部、112…検索要求解析部、113…文書検索部、114…要約抽出部、115…分類部、121…文書データベース、122…分類用辞書。

Claims (10)

  1. 与えられた文書検索要求に応じて該当する文書を検索する文書検索システムにおいて、
    検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類する分類手段と、
    文書検索結果の一覧と、前記分類手段による文書分類結果を示す分類結果一覧であって、前記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するインタフェース手段と
    を具備することを特徴とする文書検索システム。
  2. 前記分類結果一覧が、前記文書検索結果の一覧で示される各文書と前記各文書分類項目とにそれぞれ対応付けて表示され、該当する文書が対応する文書分類項目に分類されるか否かを示す分類マークの集合であることを特徴とする請求項1記載の文書検索システム。
  3. 前記インタフェース手段は、前記分類結果一覧の見出しとしての、前記各文書分類項目を示す分類項目一覧であって、利用者による分類項目の選択操作が可能な分類項目一覧を更に含む検索結果一覧画面の情報を生成することを特徴とする請求項1記載の文書検索システム。
  4. 前記インタフェース手段は、前記分類項目一覧中の任意の分類項目が選択された場合、前記文書検索結果の一覧に含まれる文書を、検索された文書のうちの選択された分類項目に分類される文書だけに絞ることを特徴とする請求項3記載の文書検索システム。
  5. 前記文書分類項目毎に対応する分類を特徴付けるキーワードの集合を格納した分類用辞書を更に具備し、
    前記分類手段は、検索された各文書について、当該文書中に、前記分類用辞書に前記文書分類項目毎に格納されているキーワード集合に含まれている少なくとも1つのキーワードが存在するかを、当該文書分類項目毎に判定することにより、当該文書が対応する分類に属しているかを判定する
    ことを特徴とする請求項1記載の文書検索システム。
  6. 前記分類手段は、検索された各文書について、当該文書から、前記分類用辞書に前記文書分類項目毎に格納されているキーワード集合に含まれているキーワードを抽出するキーワード抽出手段を含み、
    前記インタフェース手段は、前記キーワード抽出手段によって抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を更に含む検索結果一覧画面の情報を生成することを特徴とする請求項5記載の文書検索システム。
  7. 前記インタフェース手段は、前記キーワード一覧中の任意のキーワードが選択された場合、前記文書検索結果の一覧に含まれる文書を、検索された文書のうちの選択されたキーワードを含む文書だけに絞ることを特徴とする請求項6記載の文書検索システム。
  8. 与えられた文書検索要求に応じてコンピュータが文書検索を実行するのに用いられる文書検索プログラムであって、
    前記コンピュータに、
    検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類するステップと、
    文書検索結果の一覧と、文書分類結果を示す分類結果一覧であって、前記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するステップと
    を実行させるための文書検索プログラム。
  9. 前記検索結果一覧画面は、前記分類結果一覧の見出しとしての、前記各文書分類項目を示す分類項目一覧であって、利用者による分類項目の選択操作が可能な分類項目一覧を更に含むことを特徴とする請求項8記載の文書検索プログラム。
  10. 前記分類するステップは、前記文書分類項目毎に対応する分類を特徴付けるキーワードの集合を格納した分類用辞書を利用して、検索された各文書について、当該文書から、前記分類用辞書に前記文書分類項目毎に格納されているキーワード集合に含まれているキーワードを抽出するステップを含み、
    前記検索結果一覧画面は、前記キーワードを抽出するステップで抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を更に含む
    ことを特徴とする請求項8記載の文書検索プログラム。
JP2003364948A 2003-10-24 2003-10-24 文書検索システム及び文書検索プログラム Pending JP2005128872A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003364948A JP2005128872A (ja) 2003-10-24 2003-10-24 文書検索システム及び文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003364948A JP2005128872A (ja) 2003-10-24 2003-10-24 文書検索システム及び文書検索プログラム

Publications (1)

Publication Number Publication Date
JP2005128872A true JP2005128872A (ja) 2005-05-19

Family

ID=34643776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003364948A Pending JP2005128872A (ja) 2003-10-24 2003-10-24 文書検索システム及び文書検索プログラム

Country Status (1)

Country Link
JP (1) JP2005128872A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018342A (ja) * 2005-07-08 2007-01-25 Nec Corp 情報提供装置および情報提供方法
WO2007060726A1 (ja) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. 文献検索装置、方法及びプログラム
JP2008009671A (ja) * 2006-06-29 2008-01-17 National Institute Of Information & Communication Technology データ表示装置、データ表示方法及びデータ表示プログラム
JP2008176545A (ja) * 2007-01-18 2008-07-31 Cosmotec Patent Information Systems Inc データ検索のためのコンピュータシステムとそれを実現するためのコンピュータプログラムとその方法
JP2009110393A (ja) * 2007-10-31 2009-05-21 Toshiba Corp データ処理装置
JP2009230648A (ja) * 2008-03-25 2009-10-08 Hitachi East Japan Solutions Ltd 文書群分析支援装置
JP2009295186A (ja) * 2009-09-16 2009-12-17 Mitsubishi Space Software Kk 文献検索装置、文献検索方法および文献検索プログラム
JP2012123603A (ja) * 2010-12-08 2012-06-28 Yahoo Japan Corp 検索支援装置
JP2013168177A (ja) * 2013-05-07 2013-08-29 Fujitsu Ltd 情報提供プログラム、情報提供装置および検索サービスの提供方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04106663A (ja) * 1990-08-28 1992-04-08 Matsushita Electric Ind Co Ltd 文書分類装置
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置
JPH11161658A (ja) * 1997-11-27 1999-06-18 Nippon Telegr & Teleph Corp <Ntt> 追加検索語の優先度計算方法及び装置及び追加検索語の優先度計算プログラムを格納した記憶媒体
JP2002288189A (ja) * 2001-03-27 2002-10-04 Seiko Epson Corp 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04106663A (ja) * 1990-08-28 1992-04-08 Matsushita Electric Ind Co Ltd 文書分類装置
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置
JPH11161658A (ja) * 1997-11-27 1999-06-18 Nippon Telegr & Teleph Corp <Ntt> 追加検索語の優先度計算方法及び装置及び追加検索語の優先度計算プログラムを格納した記憶媒体
JP2002288189A (ja) * 2001-03-27 2002-10-04 Seiko Epson Corp 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018342A (ja) * 2005-07-08 2007-01-25 Nec Corp 情報提供装置および情報提供方法
WO2007060726A1 (ja) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. 文献検索装置、方法及びプログラム
JP2008009671A (ja) * 2006-06-29 2008-01-17 National Institute Of Information & Communication Technology データ表示装置、データ表示方法及びデータ表示プログラム
JP2008176545A (ja) * 2007-01-18 2008-07-31 Cosmotec Patent Information Systems Inc データ検索のためのコンピュータシステムとそれを実現するためのコンピュータプログラムとその方法
JP2009110393A (ja) * 2007-10-31 2009-05-21 Toshiba Corp データ処理装置
JP2009230648A (ja) * 2008-03-25 2009-10-08 Hitachi East Japan Solutions Ltd 文書群分析支援装置
JP2009295186A (ja) * 2009-09-16 2009-12-17 Mitsubishi Space Software Kk 文献検索装置、文献検索方法および文献検索プログラム
JP2012123603A (ja) * 2010-12-08 2012-06-28 Yahoo Japan Corp 検索支援装置
JP2013168177A (ja) * 2013-05-07 2013-08-29 Fujitsu Ltd 情報提供プログラム、情報提供装置および検索サービスの提供方法

Similar Documents

Publication Publication Date Title
CN107122400B (zh) 使用视觉提示细化查询结果的方法、计算***及存储介质
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
JPH0991314A (ja) 情報探索装置
TW200805095A (en) Data product search using related concepts
JPH08255172A (ja) 文書検索システム
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
US20120317141A1 (en) System and method for ordering of semantic sub-keys
US9875298B2 (en) Automatic generation of a search query
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2006323517A (ja) テキスト分類装置およびプログラム
JP4084647B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP4787590B2 (ja) 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
JPH08305724A (ja) 設計支援情報文書管理装置
JP2011053881A (ja) 文書管理システム
JP2004102818A (ja) 検索支援方法および検索支援装置
US20220327162A1 (en) Information search system
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2011018152A (ja) 情報提示装置、情報提示方法およびプログラム
WO2018084226A1 (ja) 文書検索方法及び装置
JPH06348756A (ja) 索引作成装置及び索引利用装置
KR100831055B1 (ko) 온톨로지 기반의 정보 검색 방법

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060724

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060822