JP4398992B2

JP4398992B2 - 情報検索装置、情報検索方法及び情報検索プログラム

Info

Publication number: JP4398992B2
Application number: JP2007087384A
Authority: JP
Inventors: 優鈴木; 康人石谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-29
Filing date: 2007-03-29
Publication date: 2010-01-13
Anticipated expiration: 2027-03-29
Also published as: JP2008250385A; US20080243791A1; CN101276372A; US8117177B2

Description

この発明は、文書の検索を行う情報検索装置、情報検索方法及び情報検索プログラムに関するものである。

近年、コンピュータ技術の向上及びコンピュータで用いられる記録媒体の容量の向上に伴い、記録媒体内を検索する技術が多く提案されている。例えば、利用者が日常利用している端末装置で用いられる検索する技術として、デスクトップ検索技術がある。

このデスクトップ検索技術は、ＰＣ等の端末装置において、ハードディスクなどの記憶媒体に記録された文書群から特定の文書を検索する技術である。利用者は検索時に文書に含まれるキーワードだけでなく、文書のファイル形式（メール、ワードプロセッサ、表計算、プレゼンテーション、など）、文書が作成された日時、文書が更新された日時、文書の作成者、メールとして送受信された日時、メールの送受信者などの属性情報を条件として設定することができる。このデスクトップ検索技術を利用することで、端末装置において所望の文書を検索することができる。

デスクトップ検索では、検索対象とする記憶媒体に、多量の文書が保存されている場合、適切なキーワードや適切な属性情報を検索条件として設定する必要がある。そして、利用者が、適切なキーワード又は属性条件を設定しない場合、多量の文書が検索結果として出力されることになり、所望する文書の検出が困難になることもある。

また、デスクトップ検索では、検索結果を出力する際に、ウェブ検索のように他の文書とのリンク関係に基づいて信頼性の高い文書を上位に出力する（例えば検索エンジンに用いられるページランクアルゴリズムなど）という技術を用いることができない。このように、デスクトップ検索では、利用者が所望する文書を、検索結果の上位に出力されるとは限らない。そのため、ユーザは出力された検索結果の中から所望の文書を探し出す必要があり、検索結果の探索に長い時間がかかってしまう。

これらの問題を避けるため、ユーザは適切なキーワードや適切な属性情報を検索条件として設定する必要があるが、検索条件の設定には手間や時間がかかってしまう。また、適切な検索条件を想起して設定するためには、利用者は設定できる属性情報について詳細を知っている必要があるため、検索行為に熟練した利用者でなければさらに検索条件の設定に手間と時間を要することになる。

ところで、現在では、指定された語句の内容から利用者の意図を判定する技術が提案されている。指定された語句の内容から判定した利用者の意図を用いれば、より適切な検索条件が設定できると考えられる。指定された語句の内容から利用者の意図を判定する技術としては、例えば特許文献１に記載された技術がある。

この特許文献１に記載された技術は、語句に関する辞書を備えている。そして、当該辞書を用いて、文書中に含まれる語句に対して、語句の意味を示した属性情報を付加しておく。そして、利用者が当該語句を選択した場合に、付加された属性情報により、利用者に指定された語句の内容を解析することが可能となる。

特開２００６−６５７５４号公報

しかしながら、特許文献１に記載された技術は、利用者により行われたアクションの意図を解析するためのもので、文書を検索するための検索条件を設定するためのものではなく、当該技術を検索条件として適用するのが難しい。

本発明は、上記に鑑みてなされたものであって、検索条件の設定を自動的に行うことでユーザアビリティを向上させる情報検索装置、情報検索方法及び情報検索プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明にかかる情報検索装置は、文書を蓄積する文書蓄積部と、前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第１の文字列に対して、当該第１の文字列と同一の文書に含まれ、当該第１の文字列と共起関係がある第２の文字列を、当該第１の文字列と共に検索キーとして用いられる文字列として、当該第２の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積部と、前記第２の文字列を抽象化した前記意味属性と、前記第１の文字列を抽象化した意味属性である又は前記第１の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、第１の文字列の入力を受け付ける入力受付部と、入力された前記第１の文字列を抽象化した意味属性を特定情報として取得し、又は当該第１の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得部と、前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第２の文字列を抽象化した前記意味属性を抽出する抽出部と、前記文字列蓄積部から、入力された前記第１の文字列と対応付けられ、抽出された前記意味属性にかかる前記第２の文字列を抽出する文字列抽出部と、入力された前記第１の文字列と、抽出された前記第２の文字列と、を含む文書を前記文書蓄積部から検索する検索部と、を備えることを特徴とする。

また、本発明にかかる情報検索方法は、情報検索装置で実行される情報検索方法であって、前記情報検索装置は、文書を蓄積する文書蓄積部と、前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第１の文字列に対して、当該第１の文字列と同一の文書に含まれ、当該第１の文字列と共起関係がある第２の文字列を、当該第１の文字列と共に検索キーとして用いられる文字列として、当該第２の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積部と、前記第２の文字列を抽象化した前記意味属性と、前記第１の文字列を抽象化した意味属性である又は前記第１の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、を備え、入力受付部が、第１の文字列の入力を受け付ける入力受付ステップと、特定情報取得部が、入力された前記第１の文字列を抽象化した意味属性を特定情報として取得し、又は当該第１の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得ステップと、抽出部が、前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第２の文字列を抽象化した前記意味属性を抽出する抽出ステップと、文字列抽出部が、前記文字列蓄積部から、入力された前記第１の文字列と対応付けられ、抽出された前記意味属性にかかる前記第２の文字列を抽出する文字列抽出部と、検索部が、入力された前記第１の文字列と、抽出された前記第２の文字列と、を含む文書を前記文書蓄積部から検索する検索ステップと、を有することを特徴とする。

また、本発明にかかる情報検索プログラムは、文書を検索するコンピュータで実行されるための情報検索プログラムであって、文書を蓄積する文書蓄積部と、前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第１の文字列に対して、当該第１の文字列と同一の文書に含まれ、当該第１の文字列と共起関係がある第２の文字列を、当該第１の文字列と共に検索キーとして用いられる文字列として、当該第２の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積部と、前記第２の文字列を抽象化した前記意味属性と、前記第１の文字列を抽象化した意味属性である又は前記第１の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、を備えたコンピュータで、第１の文字列の入力を受け付ける入力受付ステップと、入力された前記第１の文字列を抽象化した意味属性を特定情報として取得し、又は当該第１の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得ステップと、前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第２の文字列を抽象化した前記意味属性を抽出する抽出ステップと、前記文字列蓄積部から、入力された前記第１の文字列と対応付けられ、抽出された前記意味属性にかかる前記第２の文字列を抽出する文字列抽出ステップと、入力された前記第１の文字列と、抽出された前記第２の文字列と、を含む文書を前記文書蓄積部から検索する検索ステップと、を実行させることを特徴とする。

本発明によれば、検索キーである第２の文字列の絞込を自動的に行うことで、利用者が詳細に設定を行うことなく、検索条件が設定されるのでユーザアビリティが向上するという効果を奏する。

以下に添付図面を参照して、この発明にかかる情報検索装置、情報検索方法及び情報検索プログラムの最良な実施の形態を詳細に説明する。後述する実施形態においては、情報検索装置をデスクトップ検索装置に適用した例について説明する。なお、情報検索装置は、デスクトップ検索装置以外の様々な装置に対して適用することができる。

（第１の実施の形態）
図１に示すように、デスクトップ検索装置１００は、文書蓄積部１０１と、共起語句蓄積部１０２と、条件記憶部１０３と、履歴格納部１０４と、意味属性蓄積部１０５と、文書表示部１０６と、入力受付部１０７と、特徴語抽出部１０８と、意味属性取得部１０９と、条件抽出部１１０と、語句抽出部１１１と、語句表示処理部１１２と、語句選択受付部１１３と、検索部１１４と、検索結果表示処理部１１５と、抽出条件生成部１１６と、文書入力処理部１１７と、意味属性解析部１１８と、共起語句登録部１１９と、文書登録部１２０と、文書属性抽出部１２１と、検索条件登録部１２２と、を備える。

また、デスクトップ検索装置１００は、例えばワードプロセッサやウェブブラウザ等のアプリケーションに表示された文書から、利用者により選択されたキーワードを受け付け、受け付けたキーワードに関連する文書を文書蓄積部１０１から検索する装置とする。

文書蓄積部１０１は、検索の対象となる文書を、検索インデクス情報と共に蓄積する。検索インデクス情報の例としては、蓄積された文書に含まれる形態素、文書の形式、文書の作成日時、文書の作成者等とする。また、蓄積された文書が電子メールの場合、電子メールの送受信日時、送受信者、添付データの有無等を検索インデクス情報としてもよい。

また、文書蓄積部１０１の実現形態は、公知のデスクトップ検索技術を用いることで実現可能であり、説明を省略する。

共起語句蓄積部１０２は、文書蓄積部１０１に蓄積されている文書に含まれる語句と、共起関係になる語句とを、当該語句の示す意味属性別に関連づけて蓄積している。

図２に示すように、共起関係保持テーブルでは、語句と、当該語句と共起関係となる語句とを、意味属性別に対応付けて格納している。これら語句は、文書を検索する際に検索キーとして用いられる。

また、共起関係保持テーブルにおいて、語句と、共起関係として対応付けられている語句とは、文書蓄積部１０１に格納されている同一文書に含まれていることを示している。また、共起関係保持テーブルは、このような形式に制限するものではなく、同一文書に出現した語句間の共起関係を保持するとともに、このような共起関係にある語句が検索可能な形式であれば、どのような形式でも良い。また、共起関係保持テーブルの実現手法としては、例えば、リレーショナルデーベース管理システム（ＲＤＢＭＳ）を用いることで実現できる。

条件記憶部１０３は、汎化検索条件保持テーブルを保持している。当該汎化検索条件保持テーブルでは、利用者により選択されたキーワード、又は当該キーワードを含む文書から特定されるべき特定情報と、当該特定情報に対応する汎化検索条件を保持している。汎化検索条件とは、検索対象となる文書を絞り込むための条件であって、利用者が以前行った検索条件を汎化した検索条件とする。利用者が検索を行うときに当該汎化検索条件を用いることで、複雑な条件を設定せずとも、利用者は所望する検索を行うことが可能となる。なお、汎化検索条件は、後述する履歴格納部１０４に格納された履歴情報から生成されるものとする。詳細な生成手法については後述する。

この汎化検索条件は、共起関係保持テーブルから追加する検索キーワードとなる語句を抽出するための意味属性と、検索対象となる文書を絞り込むための絞込条件とを含むものとする。また、この意味属性は、検索キーワードとなる語句を抽象化した属性を示している。例えば、検索キーワードとなる語句が「小野」や「中村」であれば意味属性は「名前」となる。

また、本実施の形態にかかる文書を絞り込むための絞込条件としては、“作成者、送受信者”、又は“作成日、送受信日”とする。本実施の形態にかかる特定情報は、当該“キーワードの意味属性”又は当該キーワードを含む文書から抽出された“特徴語”とする。なお、キーワードの意味属性や特徴語以外を特定情報として用いても良い。

図３に示すように、汎化検索条件保持テーブルは、“キーワードの意味属性”と、“特徴語”と、“追加キーワードの意味属性”と、“検索時に絞り込む属性情報”と、“ファイル形式”と、“作成者、送受信者”と、“作成日、送受信日”とを対応付けて保持している。そして、汎化検索条件保持テーブルがこのようなテーブル構造を保持することで、キーワードの意味属性及びキーワードを含む文書から抽出された特徴語から、追加キーワードの意味属性、検索時に文書を絞り込むための絞込条件を特定することができる。また、“検索時に絞り込む属性条件”は、“ファイル形式”、“作成者、送受信者”及び“作成日、送受信日”のうちいずれか一つ以上が格納されている。つまり、“検索時に絞り込む属性条件”を参照することで、“ファイル形式”、“作成者、送受信者”、“作成日、送受信日”のいずれかを絞込条件として用いるフィールドとして特定できる。

また、汎化検索条件の格納手法としては、図３に示す汎化検索条件保持テーブルに制限するものではない。例えば、検索に用いるフィールドとして、キーワードや、キーワードに含まれる部分文字列を格納しても良い。このように、テーブル構造が異なる場合、後述する条件抽出部１１０においても、適宜テーブル構造に併せて汎化検索条件の抽出手法を変更させることとなる。例えば、汎化検索条件保持テーブルにキーワードやキーワードの部分文字列が格納されている場合、条件抽出部１１０は、検索キーにキーワードも用いて、汎化検索条件を抽出してもよい。

意味属性蓄積部１０５は、文書に含まれている語句から意味属性を特定するための意味属性対応テーブルを保持する。図４に示すように、意味属性対応テーブルは、文字列を判定するための“パタン”と、“意味属性”とを対応付けて格納している。例えば、図４に示した意味属性対応テーブルのレコード４０１は、パタン「株式会社（［＾あ−ん］＋）」と、意味属性「企業名」とを対応付けている。意味属性対応テーブルを用いることで、文字列に対応する意味属性を取得できる。

また、図４で示した例では、パタンは、Ｐｅｒｌ言語で用いられているのと同様の正規表現で記述されている。ただし、「＄企業名＄」などのパタンは、「＄」で囲まれた文字列に相当する意味属性、例えば「企業名」と対応付けられた任意のパタンと置換して評価される。なお、当該意味属性対応テーブルを用いて行う処理については後述する。このように、後述する意味属性取得部１０９が取得可能な意味属性の種類は、予め意味属性対応テーブル内に設定されているものとする。この意味属性の例としては、「人名」「企業名」「組織名」「施設名」「日時」等とする。

履歴格納部１０４は、利用者が選択したキーワードから文書を検出まで、利用者が選択した情報、及び検出された文書を絞り込むために用いた情報を履歴として格納する履歴格納テーブルを保持する。

図５に示すように履歴格納テーブルは、“キーワード”と、“キーワードの意味属性”と、“追加キーワードの意味属性”と、“選択された属性情報”と、“ファイル形式”と、“作成者、送受信者”と、“作成日、送受信日”と、“元文書の特徴語”とを対応付けて保持する。なお、各フィールドの説明については後述する。

文書表示部１０６は、利用者に対して任意の文書を表示処理する。文書表示部１０６が文書を表示する手段としては、デスクトップ検索装置１００専用の手段を用いても良いし、ワードプロセッサやウェブブラウザなどのアプリケーション等を用いてもよい。

特徴語抽出部１０８は、文書表示部１０６が表示した文書から、特徴となる文字列（以下、特徴語という）を抽出する。特徴語抽出部１０８が特徴語を抽出する実現手段として、あらゆる手法を用いても良いが、例えばＩＤＦ（ＩｎｖｅｒｔｅｄＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）などの公知の特徴量を用いて、抽出することができる。

入力受付部１０７は、文書表示部１０６が表示した文書から、利用者が選択した語句をキーワードとして入力を受け付ける。また、入力受付部１０７は、利用者がキーボードによって入力する任意の語句をキーワードとして受け付けてもよい。また、本実施形態とは異なるが、入力受付部１０７が、キーワードの入力を受け付けるためのダイアログを提示して、当該ダイアログに対して利用者によるキーワードの入力を受け付けてもよい。

意味属性取得部１０９は、入力受付部１０７が入力を受け付けたキーワードの意味属性を、意味属性蓄積部１０５から取得する。

意味属性取得部１０９は、図４に示した意味属性対応テーブルに格納されたパタンの条件と、入力を受け付けたキーワードの文字列が一致した場合、当該パタンに対応付けられた意味属性を、当該キーワードの意味属性として取得する。また、意味属性の取得手法は、上述した手法に限らず、あらゆる手法を用いても良い。

条件抽出部１１０は、特徴語抽出部１０８により抽出された特徴語、または／及び意味属性取得部１０９が取得したキーワードの意味属性を検索キーとして用いて、条件記憶部１０３から、汎化検索条件を抽出する。つまり、条件抽出部１１０は、汎化検索条件として、追加するキーワードとなる語句の意味属性、及び文書を検索する際の絞込条件を抽出したことになる。

そして、条件抽出部１１０が抽出した汎化検索条件は、後述する語句抽出部１１１がキーワードに共起する語句を検索する場合、又は／及び後述する検索部１１４により検出された文書を絞り込む場合に使用される。

また、条件抽出部１１０が複数の汎化検索条件を抽出した場合、これら複数の汎化検索条件を利用者に提示することで、使用するために最適な汎化検索条件を利用者に選択させてもよい。

また、条件抽出部１１０は、抽出した汎化検索条件を文書等の検索で、使用するか否かを、利用者に問い合わせてもよい。そして、利用者が使用することに承諾した場合に、当該汎化検索条件が文書の検索等で用いられる。

語句抽出部１１１は、キーワードと、条件抽出部１１０が抽出した汎化検索条件とから、共起語句蓄積部１０２からキーワードと共起関係にある語句を抽出する。例えば、条件抽出部１１０により抽出された汎化検索条件の“追加キーワードの意味属性”が“施設名”の場合、語句抽出部１１１は、共起語句蓄積部１０２において、キーワードと対応付けられた共起関係の語句から、フィールド“施設名”に格納されている語句を、検索に用いる語句として抽出する。

語句表示処理部１１２は、語句抽出部１１１が抽出した語句を表示処理する。語句選択受付部１１３は、語句表示処理部１１２が表示した語句から、検索に用いる語句の選択を利用者から受け付ける。そして、後述する検索部１１４は、利用者により選択された語句を追加キーワードとして検索に用いる。これにより、語句抽出部１１１が抽出した語句が複数存在する場合に、複数の語句から検索に用いる語句の選択を利用者から受け付けることができる。

検索部１１４は、入力受付部１０７に入力されたキーワード、及び語句選択受付部１１３が選択を受け付けた追加キーワードを含み、抽出された汎化検索条件を満足する文書を、文書蓄積部１０１から検索する。例えば抽出された汎化検索条件が、図３の汎化検索条件保持テーブルのフィールド“選択された属性情報”にパラメータ「ファイル形式」と設定され、フィールド“ファイル形式”にパラメータ「プレゼンテーション」が設定されている汎化検索条件の場合、検索部１１４は、ファイル形式がプレゼンテーションの文書のみ検索する。

また、検索部１１４は、汎化検索条件が抽出されなかった場合は、キーワード及び追加キーワードを含む文書を、文書蓄積部１０１から検索する。

文書属性抽出部１２１は、検索部１１４により検索された文書群の文書毎に、当該文書の属性情報を抽出する。本実施の形態では、文書属性抽出部１２１は、文書蓄積部１０１に格納された検索インデクス情報から、抽出された文書毎に、文書の形式、文書が作成された日時、文書の作成者、メールの送受信日時、メールの送受信者、添付文書の有無などの文書の属性情報を抽出する。また、文書属性抽出部１２１が文書の属性情報を抽出するのは、検索部１１４で検出された文書の数が予め定められた数より多い場合に限るものとし、少ない場合に属性抽出処理は行わないものとする。この予め定められた数はどのような数でも良いが、本実施の形態では‘７’とする。

検索結果表示処理部１１５は、検索部１１４が検索した結果、検出された文書の表示処理を行う。検索結果表示処理部１１５は、検出された文書を表示しても良いし、検出された文書名のみ表示してもよい。そして、文書名のみ表示した場合、検索結果表示処理部１１５は、利用者から文書名の選択を受け付けた場合に、選択された文書の表示を行う。

検索条件登録部１２２は、利用者により選択を受け付けたキーワードや、当該キーワードの意味属性、追加キーワードの意味属性、利用者に選択された検索を絞り込むための条件（文書の属性情報、ファイル形式、作成者、送受信者、作成日、送受信日）、そして文書から抽出された特徴語と、を対応付けたレコードを履歴格納部１０４の履歴格納テーブルに登録する。

抽出条件生成部１１６は、履歴判断部１２３を備え、汎化検索条件を生成するための処理を行う。この履歴判断部１２３は、履歴格納テーブルに新たなレコードが登録される度に、当該履歴格納テーブルに対して、所定のフィールドで同様の値を保持するレコードが予め定められた数以上存在するか否か判断する。

抽出条件生成部１１６は、履歴判断部１２３が予め定められた数以上存在すると判断した場合に、これらレコードに保持された履歴情報を汎化して、汎化検索条件を生成する。そして、抽出条件生成部１１６は、生成した汎化検索条件を条件記憶部１０３に蓄積する。なお、詳細な処理手順については後述する。

文書入力処理部１１７は、デスクトップ検索装置１００の文書蓄積部１０１に格納する文書の入力処理を行う。文書入力処理部１１７に入力される文書は、ワードプロセッサで作成された文書、メール、プレゼンテーション用文書、表計算文書、インターネットコンテンツなど様々な形式であってよい。

意味属性解析部１１８は、入力された文書を解析して、入力された文書に含まれる特徴語を抽出して、当該意味属性の判定を行う。特徴語の抽出手法及び意味属性の解析手法は上述した手法と同様として説明を省略する。また、意味属性解析部１１８が判定する意味属性の種類は予め定めておくこととする。本実施の形態では、意味属性解析部１１８は、例えば「人名」「企業名」「組織名」「施設名」「日時」から、意味属性の判定を行う。

共起語句登録部１１９は、意味属性解析部１１８で解析された特徴語と、当該特徴語の意味属性から共起関係を解析する。そして、共起語句登録部１１９は、共起関係を有する特徴語間を対応付けて、共起語句蓄積部１０２に登録する。共起関係の解析手法は、周知の手法を問わずあらゆる手法を用いても良い。そして、共起語句登録部１１９は、解析した共起関係にある特徴語を対応付けて、共起語句蓄積部１０２に登録する。

文書登録部１２０は、入力された文書を文書蓄積部１０１に登録する。また、文書登録部１２０は、文書を登録する際、入力された文書に含まれる形態素、入力された文書の形式、文書の作成日時（メールの場合は送受信日）、文書の作成者（メールの場合は送受信者）、さらに添付文書の有無などを抽出し、抽出した情報を検索インデックスに追加して、検索インデックスの更新処理を行う。

次に、図１に示すデスクトップ検索装置１００の検索処理の手順について、図６を用いて説明する。

まず、文書表示部１０６は、利用者に対して任意の文書を表示処理する（ステップＳ６０１）。図７に示すように、本処理手順では、表示する文書がスケジュール情報の場合について説明する。

図６に戻り、次に特徴語抽出部１０８は、文書表示部１０６が表示した文書から、特徴語を抽出する（ステップＳ６０２）。そして、本処理手順では、特徴語抽出部１０８は、文書から「スケジュール」、「訪問」、「企画」を特徴語として抽出したものとする。なお、特徴語抽出部１０８が行う処理手順の詳細については後述する。

次に、入力受付部１０７が、文書表示部１０６が表示した文書から、ポインティングデバイス等により利用者に選択されたキーワードの選択を受け付ける（ステップＳ６０３）。図８に示すように、入力受付部１０７はポインティングデバイスにより選択された範囲に含まれている文字列「株式会社東西保険」をキーワードとして入力処理する。

次に、意味属性取得部１０９が、入力受付部１０７が入力を受け付けたキーワードの意味属性を、意味属性蓄積部１０５から取得する（ステップＳ６０４）。例えば文字列が「株式会社東西保険」の場合、意味属性取得部１０９は、意味属性として「企業名」を取得する。

そして、条件抽出部１１０は、特徴語抽出部１０８により抽出された特徴語と、意味属性取得部１０９が取得したキーワードの意味属性を検索キーとして、条件記憶部１０３から汎化検索条件を抽出する（ステップＳ６０５）。つまり、条件抽出部１１０は、キーワードの意味属性「企業名」と、特徴語「スケジュール」、「訪問」及び「企画」のうちいずれか一つと、を検索キーとして、条件記憶部１０３の汎化検索条件保持テーブルから汎化検索条件の抽出を行う。本処理手順では、条件抽出部１１０は、意味属性「企業名」と、特徴語「スケジュール」とを検索キーとすることで、図３に示した汎化検索条件保持テーブルのレコード３０１を抽出することができる。

つまり、本処理手順では、意味属性取得部１０９が取得したキーワードの意味属性「企業名」が、レコード３０１のフィールド“キーワードの意味属性”の値と一致し、特徴語抽出部１０８が抽出した特徴語の１つである「スケジュール」がレコード３０１のフィールド“特徴語”の値と一致していることから、条件抽出部１１０は、レコード３０１の汎化検索条件を抽出する。

また、条件抽出部１１０がキーワードの意味属性及び特徴語と、レコードの値との照合を行う際、完全一致、部分一致のいずれであってもよい。また、本実施の形態とは異なるが、条件抽出部１１０は、キーワードの意味属性及び特徴語と、レコードの値との一致の度合いに応じて、抽出する汎化検索条件を順位付けるという処理を行ってもよい。

そして、条件抽出部１１０は、汎化検索条件を抽出できたか否か判断する（ステップＳ６０６）。

条件抽出部１１０が、汎化検索条件を抽出できた場合（ステップＳ６０６：Ｙｅｓ）、語句抽出部１１１は、抽出された汎化検索条件の“追加キーワードの意味属性”で示された意味属性を有する語句であって、共起語句蓄積部１０２でキーワードと対応付けられている語句を抽出する（ステップＳ６０７）。

例えば、図２に示す共起語句蓄積部１０２では、入力されているキーワード「株式会社東西保険」と対応付けられている語句は、意味属性“人名”の場合に「小野」、「中村」であり、意味属性“地名”の場合に「千代田」、「川崎」であり、意味属性“企業名”の場合に「南北電機」であり、意味属性“組織名”の場合に「研究開発センター」であり、意味属性“施設名”の場合に「東西保険川崎支店」、「東西本社ビル」であり、意味属性“日時”の場合に「２００６年７月２０日」、「２００６年８月２２日」である。本処理手順では、これらの語句から文書を検索するための追加キーワードが選択される。

そして、汎化検索条件が図３のレコード３０１の場合、“追加キーワードの意味属性”が「施設名」のため、語句抽出部１１１は、上述した語句から意味属性が「施設名」の語句である「東西保険川崎支店」、「東西本社ビル」を取得する。

そして、語句表示処理部１１２は、語句抽出部１１１が複数語句を抽出した場合に、当該複数の語句を表示処理する（ステップＳ６０８）。なお、語句抽出部１１１が複数の語句を抽出しなかった場合、抽出された１つの語句を追加キーワードとして、ステップＳ６０８の語句の表示処理及び後述するステップＳ６０９の語句の選択の受付を省略しても良い。

図９に示すように語句表示処理部１１２は、ウィンドウ９０１内に語句抽出部１１１が抽出した複数の語句を提示する。このように、語句表示処理部１１２に複数の語句を利用者に対して提示して、利用者に語句の選択を促してもよい。

そして、語句選択受付部１１３が、語句表示処理部１１２により表示された複数の語句から、利用者から選択された語句を受け付ける（ステップＳ６０９）。本処理手順では、利用者により「東西保険川崎支店」が追加キーワードとして選択されたものとする。

検索部１１４は、キーワードと、追加キーワードと、汎化検索条件と、に基づいて文書蓄積部１０１を検索する（ステップＳ６１０）。汎化検索条件が図３のレコード３０１の場合、“検索時に絞り込む属性情報”が「ファイル形式」であり、“ファイル形式”が「プレゼンテーション」であることから、検索部１１４は、文書蓄積部１０１から、キーワード「株式会社東西保険」及び追加キーワード「東西保険川崎支店」を含み、ファイル形式が「プレゼンテーション」である文書を検索する。なお、文書の検索手法は、公知のデスクトップ検索技術等を用いて実現することとして、説明を省略する。

そして、文書属性抽出部１２１は、検索部１１４が検出した文書が予め定められた数の‘７’個以上存在する場合、検出された各文書から、当該文書を示す属性情報を抽出する（ステップＳ６１１）。本処理手順では、文書属性抽出部１２１は、属性情報としてファイル形式と、ファイルの作成日時、ファイル作成者、メール送受信日時、メールの送受信者を抽出する。なお、検出された文書の数が７個以上存在しなかった場合、文書属性抽出部１２１は処理を行わず、検索結果表示処理部１１５が検出されたファイル名の表示処理のみ行う。

そして、検索結果表示処理部１１５は、文書属性抽出部１２１により抽出された属性情報を属性の種類別に分類し、当該属性の種類を表示する（ステップＳ６１２）。図１０に示すように検索結果表示処理部１１５は、属性の種類毎に複数の値を表示する（例えば属性の種類が作成・送信日時の場合には一週間以内、一ヶ月以内及びそれ以前）。また、図１０に示した例では、汎化検索条件によりファイル形式がプレゼンテーションに絞り込まれているので、ファイル形式以外の属性情報が提示されている。

また、検索結果表示処理部１１５は、文書属性抽出部１２１により抽出された属性情報のうち、各文書の共通な属性情報が予め設定された割合以上一致しない場合には表示処理をしなくてもよい。

また、図１０に示すように、検索結果表示処理部１１５は、ファイルの作成日時とメールの送受信日時、及びファイル作成者とメールの送受信者とをまとめて表示している。また、図１０では、作成日時及び送受信日時を「一週間以内」「一ヶ月以内」「それ以前」という期間毎に提示を行っているが、例えば「三ヶ月以内」「半年以内」等の期間を追加して提示しても良いし、「２００６年７月２０日１５時３２分」等の具体的な日時を提示してもよい。

図１０では、検索結果表示処理部１１５が表示した属性情報から、“作成日時・送受信日時」が「一ヶ月以内」の属性情報を利用者が選択した場合とする。この場合、さらに検索結果表示処理部１１５は、利用者に選択された属性情報（作成日時・送受信日時が一ヶ月以内）に合致する文書である「ＥＭＳシステム提案．ｐｐｔ」と「ワークフローシステム提案．ｐｐｔ」と、を表示処理する。これにより、さらに利用者は、文書「ＥＭＳシステム提案．ｐｐｔ」を所望するファイルとして選択することができる。

また、検索部１１４が２件しか文書を検出しなかった場合に、文書を属性情報毎に分類する必要がないので、検索結果表示処理部１１５は、図１１に示すように、属性情報の種類を表示せずに、文書名の表示処理のみ行う。これにより、利用者から表示する文書の選択を受け付けることができる。

そして、検索結果表示処理部１１５は、利用者から選択を受け付けた文書の表示処理を行う（ステップＳ６１３）。図１２に示すように、検索結果表示処理部１１５が検索結果として表示する文書には、キーワードである「株式会社東西保険」と、追加キーワードである「東西保険川崎支店」とが含まれていることが確認できる。

そして、条件抽出部１１０が汎化検索条件を抽出できなかった場合（ステップＳ６０６：Ｎｏ）、語句抽出部１１１は、共起語句蓄積部１０２でキーワードと対応付けられている語句を全て抽出する（ステップＳ６１４）。なお、汎化検索条件を抽出できなかった場合のみならず、利用者により抽出された汎化検索条件を使用しないと判断された場合もステップＳ６１４以降の処理を行うこととなる。

そして、語句表示処理部１１２は、語句抽出部１１１が抽出した語句を意味属性別に表示処理する（ステップＳ６１５）。図１３に示すように、語句表示処理部１１２は、キーワード「株式会社東西保険」と対応付けられた語句を、「地名」、「施設名」、「人名」、「組織名」、「日時」等の意味属性別に表示する。

そして、語句選択受付部１１３は、語句表示処理部１１２により表示された複数の語句から、利用者に選択された意味属性及び語句を受け付ける（ステップＳ６１６）。このような処理を行うこととしたのは、汎化検索条件が検出できなかった場合、追加キーワードや汎化検索条件によって文書を絞り込むことができない。そこで、キーワードに共起する語句を全て表示して、利用者から語句の選択を受け付けることとする。これにより、選択を受け付けた語句を追加キーワードとして文書を検索することができる。これにより利用者が所望する文書を検出することが容易になる。

図１３で示した例では、語句選択受付部１１３は、意味属性の１つである「施設名」と、当該施設名に含まれている語句「東西保険川崎支店」の選択を受け付けているものとする。この選択を受け付けたものとされた意味属性が、履歴格納テーブルの“選択された属性情報”に格納されることになる。

検索部１１４は、キーワードと、追加キーワードとに基づいて文書蓄積部１０１を検索する（ステップＳ６１７）。本処理手順ではキーワードが「株式会社東西保険」で、追加キーワードが「東西保険川崎支店」とする。その後、文書属性抽出部１２１は、検索部１１４が検出した文書から属性情報を抽出する（ステップＳ６１８）。

そして、検索結果表示処理部１１５が、文書属性抽出部１２１により抽出された属性情報を属性の種類別に分類し、当該属性の種類と属性毎の値を表示する（ステップＳ６１９）。図１４に示すように、検索結果表示処理部１１５は、ツリー構造で属性の種類毎に複数の値を表示する。図１４に示した例では、検索結果表示処理部１１５が表示した属性及び属性毎に値から、利用者は属性としてファイル形式を選択し、さらにその値である「プレゼンテーション」を選択したものとする。

そして、利用者により属性が選択された場合に、検索結果表示処理部１１５が、当該属性を有する文書名を表示処理する（ステップＳ６２０）。図１５に示すように、利用者の選択により、ファイル形式がプレゼンテーションでる文書に絞り込まれたので、検索結果表示処理部１１５は文書名として「ＥＭＳシステム提案．ｐｐｔ」及び「ワークフローシステム提案．ｐｐｔ」を表示処理している。そして、文書名が選択された場合、図１２に示すように文書を表示する。

そして、検索条件登録部１２２が、利用者により選択されたキーワードや、追加キーワード及び当該追加キーワードの意味属性、文書を選択する際に選択された属性等を対応付けて、履歴格納部１０４に格納する（ステップＳ６２１）。このような情報を履歴格納部に登録することで汎化検索条件の生成が可能となる。

この検索条件登録部１２２は、履歴格納部１０４に上述した情報を履歴情報として登録されるが、この登録される履歴情報について図５を用いて説明する。図５に示した履歴格納テーブルのフィールド“キーワード”は、入力受付部１０７に入力されたキーワードを格納する。フィールド“キーワードの意味属性”は、入力受付部１０７に入力されたキーワードについて意味属性取得部１０９が取得した意味属性の値を格納する。フィールド“選択された属性情報”は、利用者が図６のステップＳ６１６等で利用者から選択を受け付けた意味属性を格納する。そして、“ファイル形式”、“作成者、送受信者”、“作成日、送受信日”は、図６のステップＳ６１６において利用者が選択した、利用者の所望のファイルの属性情報を格納する。フィールド“元文書の特徴語”は、文書表示部１０６が表示した文書から、特徴語抽出部１０８が抽出した特徴語を格納する。これら情報を格納することで、汎化検索条件を生成することが可能となる。

これにより、利用者の所望する文書書を提示できたものとして処理を終了する。上述した処理手順により、汎化検索条件が使用できる場合には、デスクトップ検索装置１００が、利用者に対して提示する意味属性や属性情報の数が低減するので、利用者の設定負担を軽減させることが可能となる。

また、上述した処理手順では、汎化検索条件が使用できない場合、汎化検索条件が使用できる場合に比べると、利用者が指定しなければならない検索条件が多いものの、デスクトップ検索装置１００が提示する検索条件を閲覧しながら検索条件を設定していくことが可能となる。

次に、図６のステップＳ６０２で、特徴語抽出部１０８が文書から特徴語を抽出する処理手順について、図１６を用いて説明する。

まず、特徴語抽出部１０８は、文書蓄積部１０１に登録されている全文書数Ｎを取得する（Ｓ１６０１）。

次に、特徴語抽出部１０８は、文書表示部１０６に表示された文書を形態素解析し、自立語を抽出する（Ｓ１６０２）。

そして、特徴語抽出部１０８は、ｉ番目の自立語Ｔｉについて、文書蓄積部１０１中で自立語Ｔｉを含む文書の数ＤＦｉを取得する（Ｓ１６０３）。なお、ｉは０以上で抽出された自立語の数より小さい数までを表す変数とする。

次に、特徴語抽出部１０８は、ｉ番目の自立語Ｔｉについて、特徴量ＩＤＦｉ＝ｌｏｇ（Ｎ／ＤＦｉ）を算出する（Ｓ１６０４）。

そして、特徴語抽出部１０８は、算出されたＩＤＦｉの値が、予め定められた下限値ＩＤＦｍｉｎと上限値ＩＤＦｍａｘに対して、ＩＤＦｍｉｎ＜ＩＤＦｉ＜ＩＤＦｍａｘを満たすか否か判断する（ステップＳ１６０５）。

そして、特徴語抽出部１０８が上述した要件を満たすと判断した場合（ステップＳ１６０５：Ｙｅｓ）、自立語Ｔｉを特徴語として抽出する（Ｓ１６０６）。そして、特徴語抽出部１０８が上述した要件を満たさないと判断した場合（ステップＳ１６０５：Ｎｏ）、自立語Ｔｉについては特に処理を行わない。

そして、特徴語抽出部１０８は、全ての自立語Ｔｉについて処理を終了したか否か判断する（ステップＳ１６０７）。終了していないと判断した場合（ステップＳ１６０７：Ｎｏ）、特徴語抽出部１０８は、変数ｉに１増加させて、再びステップＳ１６０３〜Ｓ１６０６までの処理を実行する。

そして、特徴語抽出部１０８は、全ての自立語Ｔｉについて処理を終了したと判断した場合（ステップＳ１６０７：Ｙｅｓ）、全ての処理が終了したことになる。

次に、特徴語抽出部１０８の処理について、例を用いて説明する。まず文書蓄積部１０１に２００，０００文書の登録されていた場合、特徴語抽出部１０８は、ステップＳ１６０１において、Ｎ＝２００，０００を取得する。

そして、特徴語抽出部１０８は、ステップＳ１６０２において、図７に示した文書を形態素解析した場合、自立語として「週間」「スケジュール」「８」「３」「木」「４」「金」「５」「土」「高橋」「武」「東西保険」「訪問」「企画」「会議」を取得する。

次に、ステップＳ１６０３において、特徴語抽出部１０８は、例えば自立語「週間」が文書蓄積部１０１に登録された文書のうち６００文書に含まれていることから文書数ＤＦｉ＝６００を取得する。そして、特徴語抽出部１０８は、ステップＳ１６０４において、自立語「週間」の特徴量ＩＤＦｉの値として、ｌｏｇ（２０００００／６００）≒５．８１を取得する。

そして、ステップＳ１６０５において、例えばＩＤＦｍｉｎ＝４．０、ＩＤＦｍａｘ＝５．０の場合、「週間」のＩＤＦｉは５．８１であるからＩＤＦｉ＞ＩＤＦｍａｘとなる。このため、特徴語抽出部１０８は、「週間」を特徴語として抽出しない。

また、同様に自立語「スケジュール」が１，５００文書に含まれていることから、特徴語抽出部１０８は、ステップＳ１６０３において、文書数ＤＦｉ＝１５００を取得する。そして、特徴語抽出部１０８は、ステップＳ１６０４において、自立語「スケジュール」の特徴量ＩＤＦｉの値として、ｌｏｇ（２０００００／１５００）≒４．８９を取得する。

そして、ステップＳ１６０５において、「スケジュール」のＩＤＦｉの値は４．８９であるから、ＩＤＦｍｉｎ＜ＩＤＦｉ＜ＩＤＦｍａｘとなる。このため、ステップＳ１６０６において、特徴語抽出部１０８は、「スケジュール」を特徴語として抽出する。

なお、本処理手順では、ＩＤＦｍｉｎ及びＩＤＦｍａｘの値を定数としている。しかしながら、本処理手順は定数に制限するものではなく、例えば文書蓄積部１０１に登録されている文書群に含まれる各語句のＩＤＦの値に基づいて相対的に決定したり、更新したりしてもよい。

このような処理手順を自立語毎に行うことで、特徴語抽出部１０８は、図７に示した文書から「スケジュール」「訪問」「企画」を特徴語として抽出することができる。

次に、デスクトップ検索装置１００による汎化検索条件の生成処理の手順について図１７を用いて説明する。また、本実施の形態では、検索条件登録部１２２により履歴格納部１０４に情報が格納される度に汎化検索条件の生成を行こととする。なお、本実施の形態はこのようなタイミングで生成することに制限するものでなく、あらゆるタイミングで行ってもよい。

まず、抽出条件生成部１１６は、履歴格納部１０４に新たに追加された履歴情報の読み込み処理を行う（ステップＳ１７０１）。

次に、抽出条件生成部１１６は、履歴格納部１０４に登録されている履歴情報を１レコードだけ読み込み処理を行う（Ｓ１７０２）。

そして、履歴判断部１２３は、読み込んだ“キーワードの意味属性”が一致するか否か、“元文書の特徴語”に共通する語句を含むか否かを判断する（Ｓ１７０３）。

そして、履歴判断部１２３が、“キーワードの意味属性”が一致せず、“元文書の特徴語”に共通する語句を含まないと判断した場合（ステップＳ１７０３：Ｎｏ）、特に処理を行わない。

また、履歴判断部１２３が、“キーワードの意味属性”が一致する、また／および、“元文書の特徴語”に共通する語句を含むと判断した場合（ステップＳ１７０３：Ｙｅｓ）、抽出条件生成部１１６は、新たな汎化検索条件の生成処理を行う（ステップＳ１７０４）。なお、生成した段階では汎化検索条件に具体的な条件は設定されておらず、以下の処理を行うことで条件が設定される。

そして、抽出条件生成部１１６は、これら履歴情報間のキーワードの意味属性が一致しているか否か判断する（ステップＳ１７０５）。そして、抽出条件生成部１１６が一致していると判断した場合（ステップＳ１７０５：Ｙｅｓ）、汎化検索条件のキーワードの意味属性に、一致した意味属性を代入する（ステップＳ１７０６）。

次に、抽出条件生成部１１６は、キーワードの意味属性が一致していないと判断した場合（ステップＳ１７０５：Ｎｏ）及び一致した意味属性を代入した後（ステップＳ１７０６）、元文書の特徴語が共通しているか否か判断する（ステップＳ１７０７）。そして、抽出条件生成部１１６が元文書の特徴語が共通していると判断した場合（ステップＳ１７０７：Ｙｅｓ）、汎化検索条件の元言語の特徴語に、共通の語句を代入する（ステップＳ１７０８）。

そして、抽出条件生成部１１６は、元言語の特徴語が共通していないと判断した場合（ステップＳ１７０７：Ｎｏ）及び共通した特徴語を代入した後（ステップＳ１７０８）、読み込んだ履歴情報間の追加キーワードの意味属性が一致しているか否か判断する（ステップＳ１７０９）。そして、抽出条件生成部１１６が追加キーワードの意味属性が一致していると判断した場合（ステップＳ１７０９：Ｙｅｓ）、汎化検索条件の追加キーワードの意味属性に、一致した意味属性を代入する（ステップＳ１７１０）。

そして、抽出条件生成部１１６は、検索時に絞り込む追加キーワードの意味属性が一致していない判断した場合（ステップＳ１７０９：Ｎｏ）及び一致する意味属性を代入した後（ステップＳ１７１０）、読み取った履歴情報間の“検索時に絞り込む属性情報”が一致しているか否か判断する（ステップＳ１７１１）。そして、抽出条件生成部１１６が“検索時に絞り込む属性情報”が一致していると判断した場合（ステップＳ１７１１：Ｙｅｓ）、汎化検索条件の“検索時に絞り込む属性情報”に、一致した“検索時に絞り込む属性情報”を代入する（ステップＳ１７１２）。

そして、抽出条件生成部１１６は、“検索時に絞り込む属性情報”が一致していない判断した場合（ステップＳ１７１１：Ｎｏ）及び一致する“検索時に絞り込む属性情報”を代入した後（ステップＳ１７１２）、読み取った履歴情報間の“ファイル形式”、“作成者、送受信者”、“作成日、送受信日”のうちいずれかの属性情報が一致しているか否か判断する（ステップＳ１７１３）。そして、抽出条件生成部１１６が“ファイル形式”、“作成者、送受信者”、“作成日、送受信日”のうちいずれかの属性情報が一致していると判断した場合（ステップＳ１７１３：Ｙｅｓ）、汎化検索条件の各属性情報に、一致した属性情報を代入する（ステップＳ１７１４）。

そして、抽出条件生成部１１６は、履歴格納部１０４から全ての履歴情報を読み込んだか否か判断する（ステップＳ１７１５）。そして、抽出条件生成部１１６が全ての履歴情報を読み込んでいないと判断した場合（ステップＳ１７１５：Ｎｏ）、再びステップＳ１７０２のレコードの読み込みから処理を行う。これにより、全ての履歴情報について上述した処理が行われることになる。

そして、抽出条件生成部１１６が全ての履歴情報を読み込んだと判断した場合（ステップＳ１７１５：Ｙｅｓ）、全ての処理を終了する。

例えば、抽出条件生成部１１６は、図５に示した履歴格納テーブルで新たに追加された履歴情報（レコード５０１）と、予め格納されていた履歴情報（レコード５０２）との間で汎化検索条件を生成できるか否か判断した場合、キーワードの意味属性が一致し、元文書の特徴語に一致する語句を含むので、新たな汎化検索条件が生成されることになる。

図１８に示すように、抽出条件生成部１１６は、図１７で示した処理手順を行うことで、図５のレコード５０１とレコード５０２との間で一致するフィールド情報が格納された汎化検索条件を生成することになる。

図１７で示した処理手順では、新しく登録される検索履歴に類似の履歴情報が複数存在する場合、抽出条件生成部１１６は汎化検索条件を複数生成することになる。しかしながら、本実施の形態はこのような複数生成することに制限するものではなく、例えば、抽出条件生成部１１６が、生成された複数の汎化検索条件が類似すると判断した場合、これら汎化検索条件を結合したり、生成された汎化検索条件が既に条件記憶部１０３に蓄積されている汎化検索条件と類似している場合にこれら汎化検索条件を結合したりしても良い。

この汎化検索条件の結合手法の例としては、３個以上の検索履歴または汎化検索条件の間で、属性情報が全て一致した場合に限り、新たに生成する汎化検索条件の属性情報として代入するようにしても良いし、一部の検索履歴または汎化検索条件の間で属性情報が一致している場合には汎化検索条件の属性情報に複数の値を代入してもよい。そして、複数の値を代入した場合、当該汎化検索条件が再利用される際に、デスクトップ検索装置１００の語句選択受付部１１３等が、いずれの値を使用するか利用者に問い合わせてもよい。

そして、抽出条件生成部１１６は、このようにして生成された汎化検索条件を、条件記憶部１０３に登録する。そして、条件記憶部１０３に蓄積された汎化検索条件は、条件抽出部１１０により抽出されて、利用者が文書を検索する際に利用されることになる。

また、抽出条件生成部１１６は、生成した汎化検索条件を利用者が修正できるようにしてもよい。図１９に示すように、“検索方法の名前”欄１９０１に、利用者が検索条件の名称を付与することができる。さらに利用者は、図１９の“作成日、送受信日”欄１９０２に格納されている「一ヶ月前」を削除する操作を行った。

図２０に示すように、利用者による修正を受け付けた後では、“検索方法の名前”欄２００１が「提案資料を検索」と修正され、“作成日、送受信日”２００２の条件が削除されているのが確認できる。そして、利用者は修正を完了した後、登録ボタン２００３を押下することで修正の完了をデスクトップ検索装置１００に通知する。これにより、抽出条件生成部１１６は、修正された汎化検索条件を条件記憶部１０３に蓄積する。また、利用者が削除ボタン２００４を押下した場合、抽出条件生成部１１６は訂正された汎化検索条件を登録せず、破棄する処理を行う。

次に、汎化検索条件に「検索方法の名前」を付与した場合について説明する。図２１に示すように、利用者にキーワードが選択された場合に、汎化検索条件の名称を提示することで、利用者に汎化検索条件の内容を認識させることができる。そして、図２１に示した例では、利用者により「提案資料を探す」が選択されたものとする。

図２２に示すように、デスクトップ検索装置１００では、「提案資料を探す」に対応する汎化検索条件で設定されている条件に従って、共起する意味属性が提示されたり、検索時に文書が絞り込まれることになる。

本実施の形態にかかるデスクトップ検索装置１００では、汎化検索条件を用いて意味属性により追加キーワードの絞込を自動的に行うことで、利用者が詳細に設定を行うことなく、文書の検索条件が設定されるのでユーザアビリティが向上する。

（変形例）
また、上述した各実施の形態に限定されるものではなく、以下に例示するような種々の変形が可能である。

上述した第１の実施の形態において、キーワードが文書から選択された場合について説明した。しかしながら、入力受付部１０７によるキーワードの入力の受付は、第１の実施の形態の図８の例に制限するものではない。そこで本変形例では、別ウィンドウからキーワードの入力を受け付ける例について説明する。

図２３に示すように、文書を表示するウィンドウとは別ウィンドウでキーワードの入力を受け付けてもよい。

なお、本変形例の場合、図２３に示すウィンドウを画面上に呼び出すための操作を利用者が行う必要がある。この呼び出し操作は、どのような操作手法でも良いが、例えば画面上に予め設定された特定のボタンを押下する、マウス等の入力デバイスの特定のボタンを押下する等の手法を用いることが考えられる。

図２４に示すように、検索結果表示処理部１１５は、汎化検索条件に一致した語句を表示した後、語句の下に属性情報を種類毎に表示している。図２４に示すように１つのウィンドウ内にツリー構造をたどれるように表示しても良い。

図２５に示すように、上述した実施の形態または変形例にかかるデスクトップ検索装置１００は、ハードウェア構成として、デスクトップ検索処理プログラムなどが格納されているＲＯＭ２５０２と、ＲＯＭ２５０２内のプログラムに従って当該装置の各部を制御するＣＰＵ２５０１と、当該装置の制御に必要な種々のデータを記憶するＲＡＭ（Random Access Memory）２５０３と、上述した処理結果等を表示する表示装置２５０５と、ネットワークに接続する通信Ｉ／Ｆ２５０７と、ハードディスクなどの外部記憶装置２５０４と、各部を接続するバス２５０８と、を備えている。また、デスクトップ検索装置１００は、上述した構成を備えた一般的なコンピュータに適用することができる。

上述した実施の形態にかかるデスクトップ検索装置１００で実行されるデスクトップ検索処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

この場合には、デスクトップ検索処理プログラムは、デスクトップ検索装置１００において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、上述した実施の形態にかかるデスクトップ検索装置１００で実行されるデスクトップ検索処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態にかかるデスクトップ検索装置１００で実行されるデスクトップ検索処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

また、本実施形態のデスクトップ検索処理プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

以上のように、本発明にかかる情報検索装置、情報検索方法及び情報検索プログラムは、キーワードに基づいて利用者が所望する文書を検索する技術として有用である。

第１の実施の形態にかかるデスクトップ検索装置の構成を示すブロック図である。共起語句蓄積部が有する共起関係保持テーブルの構造を示した図である。条件記憶部が保持する汎化検索条件保持テーブルの構造を示した図である。意味属性対応テーブルの構造を示した図である。履歴格納テーブルの構造を示した図である。デスクトップ検索装置の検索処理の手順を示すフローチャートである。文書表示部が表示処理する文書の例を示した図である。表示処理部が表示した文書から、ポインティングデバイスによりキーワードが選択された状況を示した説明図である。語句表示処理部による語句の表示例を示した図である。検索結果表示処理部が、表示処理した属性の種類の例を示した図である。検索部が２件しか文書を検出しなかった場合に、検索結果表示処理部が、表示処理した文書名の例を示した図である。利用者から文書の選択を受け付けた場合に、検索結果表示処理部が表示処理する文書の例を示した図である。語句表示処理部が抽出した語句を意味属性別に表示した例を示した図である。検索結果表示処理部が、表示処理した属性の種類の例を示した図である。検索結果表示処理部が、表示処理した文書名の例を示した図である。特徴語抽出部の文書から特徴語を抽出する処理手順を示すフローチャートである。デスクトップ検索装置による汎化検索条件の生成処理の手順を示すフローチャートである。抽出条件生成部が新たに生成した汎化検索条件の例を示した図である。抽出条件生成部が生成した汎化検索条件を修正するためのユーザインタフェースの例を示した図である。利用者により修正する操作が行われた後の状態のユーザインタフェースの例を示した図である。利用者によりキーワードが選択された場合に、当該キーワードから抽出された汎化検索条件の名称を提示した例を示した図である。利用者により「提案資料を探す」の選択を受け付けた場合に、表示するウィンドウの例を示した図である。キーワードの入力を受け付けるために表示されたウィンドウの例を示した図である。キーワードが入力された後に検索を行った後、検索結果表示処理部は、入力されたキーワードに共起する語句を属性の種類毎に表示した例を示した図である。デスクトップ検索装置のハードウェア構成を示した図である。

符号の説明

１００デスクトップ検索装置
１０１文書蓄積部
１０２共起語句蓄積部
１０３条件記憶部
１０４履歴格納部
１０５意味属性蓄積部
１０６表示処理部
１０６文書表示部
１０７入力受付部
１０８特徴語抽出部
１０９意味属性取得部
１１０条件抽出部
１１１語句抽出部
１１２語句表示処理部
１１３語句選択受付部
１１４検索部
１１５検索結果表示処理部
１１６抽出条件生成部
１１７文書入力処理部
１１８意味属性解析部
１１９共起関係解析部
１２０文書登録部
１２１文書属性抽出部
１２２検索条件登録部
２５０１ＣＰＵ
２５０２ＲＯＭ
２５０３ＲＡＭ
２５０４外部記憶装置
２５０５表示装置
２５０６入力装置
２５０７通信Ｉ／Ｆ
２５０８バス

Claims

文書を蓄積する文書蓄積部と、
前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第１の文字列に対して、当該第１の文字列と同一の文書に含まれ、当該第１の文字列と共起関係がある第２の文字列を、当該第１の文字列と共に検索キーとして用いられる文字列として、当該第２の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積部と、
前記第２の文字列を抽象化した前記意味属性と、前記第１の文字列を抽象化した意味属性である又は前記第１の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、
第１の文字列の入力を受け付ける入力受付部と、
入力された前記第１の文字列を抽象化した意味属性を特定情報として取得し、又は当該第１の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得部と、
前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第２の文字列を抽象化した前記意味属性を抽出する抽出部と、
前記文字列蓄積部から、入力された前記第１の文字列と対応付けられ、抽出された前記意味属性にかかる前記第２の文字列を抽出する文字列抽出部と、
入力された前記第１の文字列と、抽出された前記第２の文字列と、を含む文書を前記文書蓄積部から検索する検索部と、
を備えることを特徴とする情報検索装置。
前記文字列抽出部により抽出された前記第２の文字列を、利用者に対して提示する文字列提示処理部と、
提示された前記第２の文字列から、検索キーとして用いられる第２の文字列の選択を受け付ける文字列選択受付部と、を備え、
前記検索部は、前記第１の文字列と、選択を受け付けた前記第２の文字列とを含む文書を、前記文書蓄積部から検索すること、
を特徴とする請求項１に記載の情報検索装置。
前記条件記憶部は、前記特定情報として、第１の文字列の意味属性を示す属性情報と、前記意味属性とを対応付けて記憶し、
前記特定情報取得部は、前記第１の文字列から、当該第１の文字列を示す属性情報を取得する属性取得部を有し、
前記条件抽出部は、前記条件記憶部に基づいて、取得した前記属性情報と対応付けられている前記意味属性を抽出すること、
を特徴とする請求項１又は２に記載の情報検索装置。
前記条件記憶部は、前記特定情報として、前記文書から抽出された抽出文字列と、前記意味属性とを対応付けて記憶し、
前記特定情報取得部は、前記第１の文字列を含む文書から第３の文字列を抽出する文字列抽出部を有し、
前記条件抽出部は、前記条件記憶部に基づいて、抽出された前記第３の文字列と一致する前記抽出文字列と対応付けられている前記意味属性を抽出すること、
を特徴とする請求項１又は２に記載の情報検索装置。
利用者により検索キーとして選択された第１の文字列と、前記第１の文字列又は前記第１の文字列を含む文書から特定される特定情報と、利用者により検索キーとして選択された前記第２の文字列から取得した意味属性と、を対応付けて格納する履歴格納部と、
前記履歴記憶部に格納された複数の特定情報が一致するか否か判断する履歴判断部と、
前記複数の特定情報が一致すると判断された場合に、当該特定情報と、当該特定情報と対応付けられている意味属性と、を対応付けて前記条件記憶部に登録する抽出条件生成部と、
をさらに備えることを特徴とする請求項１乃至４のいずれか一つに記載の情報検索装置。
文書を入力処理する文書入力処理部と、
入力処理した前記文書に含まれている第１の文字列と、前記文書に含まれている第２の文字列と、を対応付けて前記文字列蓄積部に格納する文字列登録部と、
入力処理した前記文書を、前記文書蓄積部に登録する文書登録部と、
をさらに備えることを特徴とする請求項１乃至５のいずれか一つに記載の情報検索装置。
前記検索部により検索された前記文書を、当該文書の意味属性毎に表示する検索結果表示処理部と、をさらに備えることを特徴とする請求項１乃至６のいずれか一つに記載の情報検索装置。
前記条件記憶部は、さらに文書を絞り込む絞込条件を対応付けて記憶し、
前記検索部は、さらに前記絞込条件を満足させる文書を検索すること、
を特徴とする請求項１乃至７のいずれか一つに記載の情報検索装置。
情報検索装置で実行される情報検索方法であって、
前記情報検索装置は、文書を蓄積する文書蓄積部と、
前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第１の文字列に対して、当該第１の文字列と同一の文書に含まれ、当該第１の文字列と共起関係がある第２の文字列を、当該第１の文字列と共に検索キーとして用いられる文字列として、当該第２の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積部と、
前記第２の文字列を抽象化した前記意味属性と、前記第１の文字列を抽象化した意味属性である又は前記第１の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、を備え、
入力受付部が、第１の文字列の入力を受け付ける入力受付ステップと、
特定情報取得部が、入力された前記第１の文字列を抽象化した意味属性を特定情報として取得し、又は当該第１の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得ステップと、
抽出部が、前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第２の文字列を抽象化した前記意味属性を抽出する抽出ステップと、
文字列抽出部が、前記文字列蓄積部から、入力された前記第１の文字列と対応付けられ、抽出された前記意味属性にかかる前記第２の文字列を抽出する文字列抽出部と、
検索部が、入力された前記第１の文字列と、抽出された前記第２の文字列と、を含む文書を前記文書蓄積部から検索する検索ステップと、
を有することを特徴とする情報検索方法。
文書を検索するコンピュータで実行されるための情報検索プログラムであって、
文書を蓄積する文書蓄積部と、
前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第１の文字列に対して、当該第１の文字列と同一の文書に含まれ、当該第１の文字列と共起関係がある第２の文字列を、当該第１の文字列と共に検索キーとして用いられる文字列として、当該第２の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積部と、
前記第２の文字列を抽象化した前記意味属性と、前記第１の文字列を抽象化した意味属性である又は前記第１の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、を備えたコンピュータで、
第１の文字列の入力を受け付ける入力受付ステップと、
入力された前記第１の文字列を抽象化した意味属性を特定情報として取得し、又は当該第１の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得ステップと、
前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第２の文字列を抽象化した前記意味属性を抽出する抽出ステップと、
前記文字列蓄積部から、入力された前記第１の文字列と対応付けられ、抽出された前記意味属性にかかる前記第２の文字列を抽出する文字列抽出ステップと、
入力された前記第１の文字列と、抽出された前記第２の文字列と、を含む文書を前記文書蓄積部から検索する検索ステップと、
を実行させるための情報検索プログラム。