JP4398992B2 - 情報検索装置、情報検索方法及び情報検索プログラム - Google Patents

情報検索装置、情報検索方法及び情報検索プログラム Download PDF

Info

Publication number
JP4398992B2
JP4398992B2 JP2007087384A JP2007087384A JP4398992B2 JP 4398992 B2 JP4398992 B2 JP 4398992B2 JP 2007087384 A JP2007087384 A JP 2007087384A JP 2007087384 A JP2007087384 A JP 2007087384A JP 4398992 B2 JP4398992 B2 JP 4398992B2
Authority
JP
Japan
Prior art keywords
character string
document
unit
search
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007087384A
Other languages
English (en)
Other versions
JP2008250385A (ja
Inventor
優 鈴木
康人 石谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007087384A priority Critical patent/JP4398992B2/ja
Priority to US12/043,232 priority patent/US8117177B2/en
Priority to CNA2008100874895A priority patent/CN101276372A/zh
Publication of JP2008250385A publication Critical patent/JP2008250385A/ja
Application granted granted Critical
Publication of JP4398992B2 publication Critical patent/JP4398992B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、文書の検索を行う情報検索装置、情報検索方法及び情報検索プログラムに関するものである。
近年、コンピュータ技術の向上及びコンピュータで用いられる記録媒体の容量の向上に伴い、記録媒体内を検索する技術が多く提案されている。例えば、利用者が日常利用している端末装置で用いられる検索する技術として、デスクトップ検索技術がある。
このデスクトップ検索技術は、PC等の端末装置において、ハードディスクなどの記憶媒体に記録された文書群から特定の文書を検索する技術である。利用者は検索時に文書に含まれるキーワードだけでなく、文書のファイル形式(メール、ワードプロセッサ、表計算、プレゼンテーション、など)、文書が作成された日時、文書が更新された日時、文書の作成者、メールとして送受信された日時、メールの送受信者などの属性情報を条件として設定することができる。このデスクトップ検索技術を利用することで、端末装置において所望の文書を検索することができる。
デスクトップ検索では、検索対象とする記憶媒体に、多量の文書が保存されている場合、適切なキーワードや適切な属性情報を検索条件として設定する必要がある。そして、利用者が、適切なキーワード又は属性条件を設定しない場合、多量の文書が検索結果として出力されることになり、所望する文書の検出が困難になることもある。
また、デスクトップ検索では、検索結果を出力する際に、ウェブ検索のように他の文書とのリンク関係に基づいて信頼性の高い文書を上位に出力する(例えば検索エンジンに用いられるページランクアルゴリズムなど)という技術を用いることができない。このように、デスクトップ検索では、利用者が所望する文書を、検索結果の上位に出力されるとは限らない。そのため、ユーザは出力された検索結果の中から所望の文書を探し出す必要があり、検索結果の探索に長い時間がかかってしまう。
これらの問題を避けるため、ユーザは適切なキーワードや適切な属性情報を検索条件として設定する必要があるが、検索条件の設定には手間や時間がかかってしまう。また、適切な検索条件を想起して設定するためには、利用者は設定できる属性情報について詳細を知っている必要があるため、検索行為に熟練した利用者でなければさらに検索条件の設定に手間と時間を要することになる。
ところで、現在では、指定された語句の内容から利用者の意図を判定する技術が提案されている。指定された語句の内容から判定した利用者の意図を用いれば、より適切な検索条件が設定できると考えられる。指定された語句の内容から利用者の意図を判定する技術としては、例えば特許文献1に記載された技術がある。
この特許文献1に記載された技術は、語句に関する辞書を備えている。そして、当該辞書を用いて、文書中に含まれる語句に対して、語句の意味を示した属性情報を付加しておく。そして、利用者が当該語句を選択した場合に、付加された属性情報により、利用者に指定された語句の内容を解析することが可能となる。
特開2006−65754号公報
しかしながら、特許文献1に記載された技術は、利用者により行われたアクションの意図を解析するためのもので、文書を検索するための検索条件を設定するためのものではなく、当該技術を検索条件として適用するのが難しい。
本発明は、上記に鑑みてなされたものであって、検索条件の設定を自動的に行うことでユーザアビリティを向上させる情報検索装置、情報検索方法及び情報検索プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明にかかる情報検索装置は、文書を蓄積する文書蓄積部と、前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第1の文字列に対して、当該第1の文字列と同一の文書に含まれ、当該第1の文字列と共起関係がある第2の文字列を、当該第1の文字列と共に検索キーとして用いられる文字列として、当該第2の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積部と、前記第2の文字列を抽象化した前記意味属性と、前記第1の文字列を抽象化した意味属性である又は前記第1の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、第1の文字列の入力を受け付ける入力受付部と、入力された前記第1の文字列を抽象化した意味属性を特定情報として取得し、又は当該第1の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得部と、前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第2の文字列を抽象化した前記意味属性を抽出する抽出部と、前記文字列蓄積部から、入力された前記第1の文字列と対応付けられ、抽出された前記意味属性にかかる前記第2の文字列を抽出する文字列抽出部と、入力された前記第1の文字列と、抽出された前記第2の文字列と、を含む文書を前記文書蓄積部から検索する検索部と、を備えることを特徴とする。
また、本発明にかかる情報検索方法は、情報検索装置で実行される情報検索方法であって、前記情報検索装置は、文書を蓄積する文書蓄積と、前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第1の文字列に対して、当該第1の文字列と同一の文書に含まれ、当該第1の文字列と共起関係がある第2の文字列を、当該第1の文字列と共に検索キーとして用いられる文字列として、当該第2の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積と、前記第2の文字列を抽象化した前記意味属性と、前記第1の文字列を抽象化した意味属性である又は前記第1の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶と、を備え、入力受付部が、第1の文字列の入力を受け付ける入力受付ステップと、特定情報取得部が、入力された前記第1の文字列を抽象化した意味属性を特定情報として取得し、又は当該第1の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得ステップと、抽出部が、前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第2の文字列を抽象化した前記意味属性を抽出する抽出ステップと、文字列抽出部が、前記文字列蓄積部から、入力された前記第1の文字列と対応付けられ、抽出された前記意味属性にかかる前記第2の文字列を抽出する文字列抽出部と、検索部が、入力された前記第1の文字列と、抽出された前記第2の文字列と、を含む文書を前記文書蓄積部から検索する検索ステップと、を有することを特徴とする。
また、本発明にかかる情報検索プログラムは、文書を検索するコンピュータで実行されるための情報検索プログラムであって、文書を蓄積する文書蓄積と、前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第1の文字列に対して、当該第1の文字列と同一の文書に含まれ、当該第1の文字列と共起関係がある第2の文字列を、当該第1の文字列と共に検索キーとして用いられる文字列として、当該第2の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積と、前記第2の文字列を抽象化した前記意味属性と、前記第1の文字列を抽象化した意味属性である又は前記第1の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、を備えたコンピュータで、第1の文字列の入力を受け付ける入力受付ステップと、入力された前記第1の文字列を抽象化した意味属性を特定情報として取得し、又は当該第1の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得ステップと、前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第2の文字列を抽象化した前記意味属性を抽出する抽出ステップと、前記文字列蓄積部から、入力された前記第1の文字列と対応付けられ、抽出された前記意味属性にかかる前記第2の文字列を抽出する文字列抽出ステップと、入力された前記第1の文字列と、抽出された前記第2の文字列と、を含む文書を前記文書蓄積部から検索する検索ステップと、を実行させることを特徴とする。
本発明によれば、検索キーである第2の文字列の絞込を自動的に行うことで、利用者が詳細に設定を行うことなく、検索条件が設定されるのでユーザアビリティが向上するという効果を奏する。
以下に添付図面を参照して、この発明にかかる情報検索装置、情報検索方法及び情報検索プログラムの最良な実施の形態を詳細に説明する。後述する実施形態においては、情報検索装置をデスクトップ検索装置に適用した例について説明する。なお、情報検索装置は、デスクトップ検索装置以外の様々な装置に対して適用することができる。
(第1の実施の形態)
図1に示すように、デスクトップ検索装置100は、文書蓄積部101と、共起語句蓄積部102と、条件記憶部103と、履歴格納部104と、意味属性蓄積部105と、文書表示部106と、入力受付部107と、特徴語抽出部108と、意味属性取得部109と、条件抽出部110と、語句抽出部111と、語句表示処理部112と、語句選択受付部113と、検索部114と、検索結果表示処理部115と、抽出条件生成部116と、文書入力処理部117と、意味属性解析部118と、共起語句登録部119と、文書登録部120と、文書属性抽出部121と、検索条件登録部122と、を備える。
また、デスクトップ検索装置100は、例えばワードプロセッサやウェブブラウザ等のアプリケーションに表示された文書から、利用者により選択されたキーワードを受け付け、受け付けたキーワードに関連する文書を文書蓄積部101から検索する装置とする。
文書蓄積部101は、検索の対象となる文書を、検索インデクス情報と共に蓄積する。検索インデクス情報の例としては、蓄積された文書に含まれる形態素、文書の形式、文書の作成日時、文書の作成者等とする。また、蓄積された文書が電子メールの場合、電子メールの送受信日時、送受信者、添付データの有無等を検索インデクス情報としてもよい。
また、文書蓄積部101の実現形態は、公知のデスクトップ検索技術を用いることで実現可能であり、説明を省略する。
共起語句蓄積部102は、文書蓄積部101に蓄積されている文書に含まれる語句と、共起関係になる語句とを、当該語句の示す意味属性別に関連づけて蓄積している。
図2に示すように、共起関係保持テーブルでは、語句と、当該語句と共起関係となる語句とを、意味属性別に対応付けて格納している。これら語句は、文書を検索する際に検索キーとして用いられる。
また、共起関係保持テーブルにおいて、語句と、共起関係として対応付けられている語句とは、文書蓄積部101に格納されている同一文書に含まれていることを示している。また、共起関係保持テーブルは、このような形式に制限するものではなく、同一文書に出現した語句間の共起関係を保持するとともに、このような共起関係にある語句が検索可能な形式であれば、どのような形式でも良い。また、共起関係保持テーブルの実現手法としては、例えば、リレーショナルデーベース管理システム(RDBMS)を用いることで実現できる。
条件記憶部103は、汎化検索条件保持テーブルを保持している。当該汎化検索条件保持テーブルでは、利用者により選択されたキーワード、又は当該キーワードを含む文書から特定されるべき特定情報と、当該特定情報に対応する汎化検索条件を保持している。汎化検索条件とは、検索対象となる文書を絞り込むための条件であって、利用者が以前行った検索条件を汎化した検索条件とする。利用者が検索を行うときに当該汎化検索条件を用いることで、複雑な条件を設定せずとも、利用者は所望する検索を行うことが可能となる。なお、汎化検索条件は、後述する履歴格納部104に格納された履歴情報から生成されるものとする。詳細な生成手法については後述する。
この汎化検索条件は、共起関係保持テーブルから追加する検索キーワードとなる語句を抽出するための意味属性と、検索対象となる文書を絞り込むための絞込条件とを含むものとする。また、この意味属性は、検索キーワードとなる語句を抽象化した属性を示している。例えば、検索キーワードとなる語句が「小野」や「中村」であれば意味属性は「名前」となる。
また、本実施の形態にかかる文書を絞り込むための絞込条件としては、“作成者、送受信者”、又は“作成日、送受信日”とする。本実施の形態にかかる特定情報は、当該“キーワードの意味属性”又は当該キーワードを含む文書から抽出された“特徴語”とする。なお、キーワードの意味属性や特徴語以外を特定情報として用いても良い。
図3に示すように、汎化検索条件保持テーブルは、“キーワードの意味属性”と、“特徴語”と、“追加キーワードの意味属性”と、“検索時に絞り込む属性情報”と、“ファイル形式”と、“作成者、送受信者”と、“作成日、送受信日”とを対応付けて保持している。そして、汎化検索条件保持テーブルがこのようなテーブル構造を保持することで、キーワードの意味属性及びキーワードを含む文書から抽出された特徴語から、追加キーワードの意味属性、検索時に文書を絞り込むための絞込条件を特定することができる。また、“検索時に絞り込む属性条件”は、“ファイル形式”、“作成者、送受信者”及び“作成日、送受信日”のうちいずれか一つ以上が格納されている。つまり、“検索時に絞り込む属性条件”を参照することで、“ファイル形式”、“作成者、送受信者”、“作成日、送受信日”のいずれかを絞込条件として用いるフィールドとして特定できる。
また、汎化検索条件の格納手法としては、図3に示す汎化検索条件保持テーブルに制限するものではない。例えば、検索に用いるフィールドとして、キーワードや、キーワードに含まれる部分文字列を格納しても良い。このように、テーブル構造が異なる場合、後述する条件抽出部110においても、適宜テーブル構造に併せて汎化検索条件の抽出手法を変更させることとなる。例えば、汎化検索条件保持テーブルにキーワードやキーワードの部分文字列が格納されている場合、条件抽出部110は、検索キーにキーワードも用いて、汎化検索条件を抽出してもよい。
意味属性蓄積部105は、文書に含まれている語句から意味属性を特定するための意味属性対応テーブルを保持する。図4に示すように、意味属性対応テーブルは、文字列を判定するための“パタン”と、“意味属性”とを対応付けて格納している。例えば、図4に示した意味属性対応テーブルのレコード401は、パタン「株式会社([^あ−ん]+)」と、意味属性「企業名」とを対応付けている。意味属性対応テーブルを用いることで、文字列に対応する意味属性を取得できる。
また、図4で示した例では、パタンは、Perl言語で用いられているのと同様の正規表現で記述されている。ただし、「$企業名$」などのパタンは、「$」で囲まれた文字列に相当する意味属性、例えば「企業名」と対応付けられた任意のパタンと置換して評価される。なお、当該意味属性対応テーブルを用いて行う処理については後述する。このように、後述する意味属性取得部109が取得可能な意味属性の種類は、予め意味属性対応テーブル内に設定されているものとする。この意味属性の例としては、「人名」「企業名」「組織名」「施設名」「日時」等とする。
履歴格納部104は、利用者が選択したキーワードから文書を検出まで、利用者が選択した情報、及び検出された文書を絞り込むために用いた情報を履歴として格納する履歴格納テーブルを保持する。
図5に示すように履歴格納テーブルは、“キーワード”と、“キーワードの意味属性”と、“追加キーワードの意味属性”と、“選択された属性情報”と、“ファイル形式”と、“作成者、送受信者”と、“作成日、送受信日”と、“元文書の特徴語”とを対応付けて保持する。なお、各フィールドの説明については後述する。
文書表示部106は、利用者に対して任意の文書を表示処理する。文書表示部106が文書を表示する手段としては、デスクトップ検索装置100専用の手段を用いても良いし、ワードプロセッサやウェブブラウザなどのアプリケーション等を用いてもよい。
特徴語抽出部108は、文書表示部106が表示した文書から、特徴となる文字列(以下、特徴語という)を抽出する。特徴語抽出部108が特徴語を抽出する実現手段として、あらゆる手法を用いても良いが、例えばIDF(Inverted Document Frequency)などの公知の特徴量を用いて、抽出することができる。
入力受付部107は、文書表示部106が表示した文書から、利用者が選択した語句をキーワードとして入力を受け付ける。また、入力受付部107は、利用者がキーボードによって入力する任意の語句をキーワードとして受け付けてもよい。また、本実施形態とは異なるが、入力受付部107が、キーワードの入力を受け付けるためのダイアログを提示して、当該ダイアログに対して利用者によるキーワードの入力を受け付けてもよい。
意味属性取得部109は、入力受付部107が入力を受け付けたキーワードの意味属性を、意味属性蓄積部105から取得する。
意味属性取得部109は、図4に示した意味属性対応テーブルに格納されたパタンの条件と、入力を受け付けたキーワードの文字列が一致した場合、当該パタンに対応付けられた意味属性を、当該キーワードの意味属性として取得する。また、意味属性の取得手法は、上述した手法に限らず、あらゆる手法を用いても良い。
条件抽出部110は、特徴語抽出部108により抽出された特徴語、または/及び意味属性取得部109が取得したキーワードの意味属性を検索キーとして用いて、条件記憶部103から、汎化検索条件を抽出する。つまり、条件抽出部110は、汎化検索条件として、追加するキーワードとなる語句の意味属性、及び文書を検索する際の絞込条件を抽出したことになる。
そして、条件抽出部110が抽出した汎化検索条件は、後述する語句抽出部111がキーワードに共起する語句を検索する場合、又は/及び後述する検索部114により検出された文書を絞り込む場合に使用される。
また、条件抽出部110が複数の汎化検索条件を抽出した場合、これら複数の汎化検索条件を利用者に提示することで、使用するために最適な汎化検索条件を利用者に選択させてもよい。
また、条件抽出部110は、抽出した汎化検索条件を文書等の検索で、使用するか否かを、利用者に問い合わせてもよい。そして、利用者が使用することに承諾した場合に、当該汎化検索条件が文書の検索等で用いられる。
語句抽出部111は、キーワードと、条件抽出部110が抽出した汎化検索条件とから、共起語句蓄積部102からキーワードと共起関係にある語句を抽出する。例えば、条件抽出部110により抽出された汎化検索条件の“追加キーワードの意味属性”が“施設名”の場合、語句抽出部111は、共起語句蓄積部102において、キーワードと対応付けられた共起関係の語句から、フィールド“施設名”に格納されている語句を、検索に用いる語句として抽出する。
語句表示処理部112は、語句抽出部111が抽出した語句を表示処理する。語句選択受付部113は、語句表示処理部112が表示した語句から、検索に用いる語句の選択を利用者から受け付ける。そして、後述する検索部114は、利用者により選択された語句を追加キーワードとして検索に用いる。これにより、語句抽出部111が抽出した語句が複数存在する場合に、複数の語句から検索に用いる語句の選択を利用者から受け付けることができる。
検索部114は、入力受付部107に入力されたキーワード、及び語句選択受付部113が選択を受け付けた追加キーワードを含み、抽出された汎化検索条件を満足する文書を、文書蓄積部101から検索する。例えば抽出された汎化検索条件が、図3の汎化検索条件保持テーブルのフィールド“選択された属性情報”にパラメータ「ファイル形式」と設定され、フィールド“ファイル形式”にパラメータ「プレゼンテーション」が設定されている汎化検索条件の場合、検索部114は、ファイル形式がプレゼンテーションの文書のみ検索する。
また、検索部114は、汎化検索条件が抽出されなかった場合は、キーワード及び追加キーワードを含む文書を、文書蓄積部101から検索する。
文書属性抽出部121は、検索部114により検索された文書群の文書毎に、当該文書の属性情報を抽出する。本実施の形態では、文書属性抽出部121は、文書蓄積部101に格納された検索インデクス情報から、抽出された文書毎に、文書の形式、文書が作成された日時、文書の作成者、メールの送受信日時、メールの送受信者、添付文書の有無などの文書の属性情報を抽出する。また、文書属性抽出部121が文書の属性情報を抽出するのは、検索部114で検出された文書の数が予め定められた数より多い場合に限るものとし、少ない場合に属性抽出処理は行わないものとする。この予め定められた数はどのような数でも良いが、本実施の形態では‘7’とする。
検索結果表示処理部115は、検索部114が検索した結果、検出された文書の表示処理を行う。検索結果表示処理部115は、検出された文書を表示しても良いし、検出された文書名のみ表示してもよい。そして、文書名のみ表示した場合、検索結果表示処理部115は、利用者から文書名の選択を受け付けた場合に、選択された文書の表示を行う。
検索条件登録部122は、利用者により選択を受け付けたキーワードや、当該キーワードの意味属性、追加キーワードの意味属性、利用者に選択された検索を絞り込むための条件(文書の属性情報、ファイル形式、作成者、送受信者、作成日、送受信日)、そして文書から抽出された特徴語と、を対応付けたレコードを履歴格納部104の履歴格納テーブルに登録する。
抽出条件生成部116は、履歴判断部123を備え、汎化検索条件を生成するための処理を行う。この履歴判断部123は、履歴格納テーブルに新たなレコードが登録される度に、当該履歴格納テーブルに対して、所定のフィールドで同様の値を保持するレコードが予め定められた数以上存在するか否か判断する。
抽出条件生成部116は、履歴判断部123が予め定められた数以上存在すると判断した場合に、これらレコードに保持された履歴情報を汎化して、汎化検索条件を生成する。そして、抽出条件生成部116は、生成した汎化検索条件を条件記憶部103に蓄積する。なお、詳細な処理手順については後述する。
文書入力処理部117は、デスクトップ検索装置100の文書蓄積部101に格納する文書の入力処理を行う。文書入力処理部117に入力される文書は、ワードプロセッサで作成された文書、メール、プレゼンテーション用文書、表計算文書、インターネットコンテンツなど様々な形式であってよい。
意味属性解析部118は、入力された文書を解析して、入力された文書に含まれる特徴語を抽出して、当該意味属性の判定を行う。特徴語の抽出手法及び意味属性の解析手法は上述した手法と同様として説明を省略する。また、意味属性解析部118が判定する意味属性の種類は予め定めておくこととする。本実施の形態では、意味属性解析部118は、例えば「人名」「企業名」「組織名」「施設名」「日時」から、意味属性の判定を行う。
共起語句登録部119は、意味属性解析部118で解析された特徴語と、当該特徴語の意味属性から共起関係を解析する。そして、共起語句登録部119は、共起関係を有する特徴語間を対応付けて、共起語句蓄積部102に登録する。共起関係の解析手法は、周知の手法を問わずあらゆる手法を用いても良い。そして、共起語句登録部119は、解析した共起関係にある特徴語を対応付けて、共起語句蓄積部102に登録する。
文書登録部120は、入力された文書を文書蓄積部101に登録する。また、文書登録部120は、文書を登録する際、入力された文書に含まれる形態素、入力された文書の形式、文書の作成日時(メールの場合は送受信日)、文書の作成者(メールの場合は送受信者)、さらに添付文書の有無などを抽出し、抽出した情報を検索インデックスに追加して、検索インデックスの更新処理を行う。
次に、図1に示すデスクトップ検索装置100の検索処理の手順について、図6を用いて説明する。
まず、文書表示部106は、利用者に対して任意の文書を表示処理する(ステップS601)。図7に示すように、本処理手順では、表示する文書がスケジュール情報の場合について説明する。
図6に戻り、次に特徴語抽出部108は、文書表示部106が表示した文書から、特徴語を抽出する(ステップS602)。そして、本処理手順では、特徴語抽出部108は、文書から「スケジュール」、「訪問」、「企画」を特徴語として抽出したものとする。なお、特徴語抽出部108が行う処理手順の詳細については後述する。
次に、入力受付部107が、文書表示部106が表示した文書から、ポインティングデバイス等により利用者に選択されたキーワードの選択を受け付ける(ステップS603)。図8に示すように、入力受付部107はポインティングデバイスにより選択された範囲に含まれている文字列「株式会社東西保険」をキーワードとして入力処理する。
次に、意味属性取得部109が、入力受付部107が入力を受け付けたキーワードの意味属性を、意味属性蓄積部105から取得する(ステップS604)。例えば文字列が「株式会社東西保険」の場合、意味属性取得部109は、意味属性として「企業名」を取得する。
そして、条件抽出部110は、特徴語抽出部108により抽出された特徴語と、意味属性取得部109が取得したキーワードの意味属性を検索キーとして、条件記憶部103から汎化検索条件を抽出する(ステップS605)。つまり、条件抽出部110は、キーワードの意味属性「企業名」と、特徴語「スケジュール」、「訪問」及び「企画」のうちいずれか一つと、を検索キーとして、条件記憶部103の汎化検索条件保持テーブルから汎化検索条件の抽出を行う。本処理手順では、条件抽出部110は、意味属性「企業名」と、特徴語「スケジュール」とを検索キーとすることで、図3に示した汎化検索条件保持テーブルのレコード301を抽出することができる。
つまり、本処理手順では、意味属性取得部109が取得したキーワードの意味属性「企業名」が、レコード301のフィールド“キーワードの意味属性”の値と一致し、特徴語抽出部108が抽出した特徴語の1つである「スケジュール」がレコード301のフィールド“特徴語”の値と一致していることから、条件抽出部110は、レコード301の汎化検索条件を抽出する。
また、条件抽出部110がキーワードの意味属性及び特徴語と、レコードの値との照合を行う際、完全一致、部分一致のいずれであってもよい。また、本実施の形態とは異なるが、条件抽出部110は、キーワードの意味属性及び特徴語と、レコードの値との一致の度合いに応じて、抽出する汎化検索条件を順位付けるという処理を行ってもよい。
そして、条件抽出部110は、汎化検索条件を抽出できたか否か判断する(ステップS606)。
条件抽出部110が、汎化検索条件を抽出できた場合(ステップS606:Yes)、語句抽出部111は、抽出された汎化検索条件の“追加キーワードの意味属性”で示された意味属性を有する語句であって、共起語句蓄積部102でキーワードと対応付けられている語句を抽出する(ステップS607)。
例えば、図2に示す共起語句蓄積部102では、入力されているキーワード「株式会社東西保険」と対応付けられている語句は、意味属性“人名”の場合に「小野」、「中村」であり、意味属性“地名”の場合に「千代田」、「川崎」であり、意味属性“企業名”の場合に「南北電機」であり、意味属性“組織名”の場合に「研究開発センター」であり、意味属性“施設名”の場合に「東西保険川崎支店」、「東西本社ビル」であり、意味属性“日時”の場合に「2006年7月20日」、「2006年8月22日」である。本処理手順では、これらの語句から文書を検索するための追加キーワードが選択される。
そして、汎化検索条件が図3のレコード301の場合、“追加キーワードの意味属性”が「施設名」のため、語句抽出部111は、上述した語句から意味属性が「施設名」の語句である「東西保険川崎支店」、「東西本社ビル」を取得する。
そして、語句表示処理部112は、語句抽出部111が複数語句を抽出した場合に、当該複数の語句を表示処理する(ステップS608)。なお、語句抽出部111が複数の語句を抽出しなかった場合、抽出された1つの語句を追加キーワードとして、ステップS608の語句の表示処理及び後述するステップS609の語句の選択の受付を省略しても良い。
図9に示すように語句表示処理部112は、ウィンドウ901内に語句抽出部111が抽出した複数の語句を提示する。このように、語句表示処理部112に複数の語句を利用者に対して提示して、利用者に語句の選択を促してもよい。
そして、語句選択受付部113が、語句表示処理部112により表示された複数の語句から、利用者から選択された語句を受け付ける(ステップS609)。本処理手順では、利用者により「東西保険川崎支店」が追加キーワードとして選択されたものとする。
検索部114は、キーワードと、追加キーワードと、汎化検索条件と、に基づいて文書蓄積部101を検索する(ステップS610)。汎化検索条件が図3のレコード301の場合、“検索時に絞り込む属性情報”が「ファイル形式」であり、“ファイル形式”が「プレゼンテーション」であることから、検索部114は、文書蓄積部101から、キーワード「株式会社東西保険」及び追加キーワード「東西保険川崎支店」を含み、ファイル形式が「プレゼンテーション」である文書を検索する。なお、文書の検索手法は、公知のデスクトップ検索技術等を用いて実現することとして、説明を省略する。
そして、文書属性抽出部121は、検索部114が検出した文書が予め定められた数の‘7’個以上存在する場合、検出された各文書から、当該文書を示す属性情報を抽出する(ステップS611)。本処理手順では、文書属性抽出部121は、属性情報としてファイル形式と、ファイルの作成日時、ファイル作成者、メール送受信日時、メールの送受信者を抽出する。なお、検出された文書の数が7個以上存在しなかった場合、文書属性抽出部121は処理を行わず、検索結果表示処理部115が検出されたファイル名の表示処理のみ行う。
そして、検索結果表示処理部115は、文書属性抽出部121により抽出された属性情報を属性の種類別に分類し、当該属性の種類を表示する(ステップS612)。図10に示すように検索結果表示処理部115は、属性の種類毎に複数の値を表示する(例えば属性の種類が作成・送信日時の場合には一週間以内、一ヶ月以内及びそれ以前)。また、図10に示した例では、汎化検索条件によりファイル形式がプレゼンテーションに絞り込まれているので、ファイル形式以外の属性情報が提示されている。
また、検索結果表示処理部115は、文書属性抽出部121により抽出された属性情報のうち、各文書の共通な属性情報が予め設定された割合以上一致しない場合には表示処理をしなくてもよい。
また、図10に示すように、検索結果表示処理部115は、ファイルの作成日時とメールの送受信日時、及びファイル作成者とメールの送受信者とをまとめて表示している。また、図10では、作成日時及び送受信日時を「一週間以内」「一ヶ月以内」「それ以前」という期間毎に提示を行っているが、例えば「三ヶ月以内」「半年以内」等の期間を追加して提示しても良いし、「2006年7月20日15時32分」等の具体的な日時を提示してもよい。
図10では、検索結果表示処理部115が表示した属性情報から、“作成日時・送受信日時」が「一ヶ月以内」の属性情報を利用者が選択した場合とする。この場合、さらに検索結果表示処理部115は、利用者に選択された属性情報(作成日時・送受信日時が一ヶ月以内)に合致する文書である「EMSシステム提案.ppt」と「ワークフローシステム提案.ppt」と、を表示処理する。これにより、さらに利用者は、文書「EMSシステム提案.ppt」を所望するファイルとして選択することができる。
また、検索部114が2件しか文書を検出しなかった場合に、文書を属性情報毎に分類する必要がないので、検索結果表示処理部115は、図11に示すように、属性情報の種類を表示せずに、文書名の表示処理のみ行う。これにより、利用者から表示する文書の選択を受け付けることができる。
そして、検索結果表示処理部115は、利用者から選択を受け付けた文書の表示処理を行う(ステップS613)。図12に示すように、検索結果表示処理部115が検索結果として表示する文書には、キーワードである「株式会社東西保険」と、追加キーワードである「東西保険川崎支店」とが含まれていることが確認できる。
そして、条件抽出部110が汎化検索条件を抽出できなかった場合(ステップS606:No)、語句抽出部111は、共起語句蓄積部102でキーワードと対応付けられている語句を全て抽出する(ステップS614)。なお、汎化検索条件を抽出できなかった場合のみならず、利用者により抽出された汎化検索条件を使用しないと判断された場合もステップS614以降の処理を行うこととなる。
そして、語句表示処理部112は、語句抽出部111が抽出した語句を意味属性別に表示処理する(ステップS615)。図13に示すように、語句表示処理部112は、キーワード「株式会社東西保険」と対応付けられた語句を、「地名」、「施設名」、「人名」、「組織名」、「日時」等の意味属性別に表示する。
そして、語句選択受付部113は、語句表示処理部112により表示された複数の語句から、利用者に選択された意味属性及び語句を受け付ける(ステップS616)。このような処理を行うこととしたのは、汎化検索条件が検出できなかった場合、追加キーワードや汎化検索条件によって文書を絞り込むことができない。そこで、キーワードに共起する語句を全て表示して、利用者から語句の選択を受け付けることとする。これにより、選択を受け付けた語句を追加キーワードとして文書を検索することができる。これにより利用者が所望する文書を検出することが容易になる。
図13で示した例では、語句選択受付部113は、意味属性の1つである「施設名」と、当該施設名に含まれている語句「東西保険川崎支店」の選択を受け付けているものとする。この選択を受け付けたものとされた意味属性が、履歴格納テーブルの“選択された属性情報”に格納されることになる。
検索部114は、キーワードと、追加キーワードとに基づいて文書蓄積部101を検索する(ステップS617)。本処理手順ではキーワードが「株式会社東西保険」で、追加キーワードが「東西保険川崎支店」とする。その後、文書属性抽出部121は、検索部114が検出した文書から属性情報を抽出する(ステップS618)。
そして、検索結果表示処理部115が、文書属性抽出部121により抽出された属性情報を属性の種類別に分類し、当該属性の種類と属性毎の値を表示する(ステップS619)。図14に示すように、検索結果表示処理部115は、ツリー構造で属性の種類毎に複数の値を表示する。図14に示した例では、検索結果表示処理部115が表示した属性及び属性毎に値から、利用者は属性としてファイル形式を選択し、さらにその値である「プレゼンテーション」を選択したものとする。
そして、利用者により属性が選択された場合に、検索結果表示処理部115が、当該属性を有する文書名を表示処理する(ステップS620)。図15に示すように、利用者の選択により、ファイル形式がプレゼンテーションでる文書に絞り込まれたので、検索結果表示処理部115は文書名として「EMSシステム提案.ppt」及び「ワークフローシステム提案.ppt」を表示処理している。そして、文書名が選択された場合、図12に示すように文書を表示する。
そして、検索条件登録部122が、利用者により選択されたキーワードや、追加キーワード及び当該追加キーワードの意味属性、文書を選択する際に選択された属性等を対応付けて、履歴格納部104に格納する(ステップS621)。このような情報を履歴格納部に登録することで汎化検索条件の生成が可能となる。
この検索条件登録部122は、履歴格納部104に上述した情報を履歴情報として登録されるが、この登録される履歴情報について図5を用いて説明する。図5に示した履歴格納テーブルのフィールド“キーワード”は、入力受付部107に入力されたキーワードを格納する。フィールド“キーワードの意味属性”は、入力受付部107に入力されたキーワードについて意味属性取得部109が取得した意味属性の値を格納する。フィールド“選択された属性情報”は、利用者が図6のステップS616等で利用者から選択を受け付けた意味属性を格納する。そして、“ファイル形式”、“作成者、送受信者”、“作成日、送受信日”は、図6のステップS616において利用者が選択した、利用者の所望のファイルの属性情報を格納する。フィールド“元文書の特徴語”は、文書表示部106が表示した文書から、特徴語抽出部108が抽出した特徴語を格納する。これら情報を格納することで、汎化検索条件を生成することが可能となる。
これにより、利用者の所望する文書書を提示できたものとして処理を終了する。上述した処理手順により、汎化検索条件が使用できる場合には、デスクトップ検索装置100が、利用者に対して提示する意味属性や属性情報の数が低減するので、利用者の設定負担を軽減させることが可能となる。
また、上述した処理手順では、汎化検索条件が使用できない場合、汎化検索条件が使用できる場合に比べると、利用者が指定しなければならない検索条件が多いものの、デスクトップ検索装置100が提示する検索条件を閲覧しながら検索条件を設定していくことが可能となる。
次に、図6のステップS602で、特徴語抽出部108が文書から特徴語を抽出する処理手順について、図16を用いて説明する。
まず、特徴語抽出部108は、文書蓄積部101に登録されている全文書数Nを取得する(S1601)。
次に、特徴語抽出部108は、文書表示部106に表示された文書を形態素解析し、自立語を抽出する(S1602)。
そして、特徴語抽出部108は、i番目の自立語Tiについて、文書蓄積部101中で自立語Tiを含む文書の数DFiを取得する(S1603)。なお、iは0以上で抽出された自立語の数より小さい数までを表す変数とする。
次に、特徴語抽出部108は、i番目の自立語Tiについて、特徴量IDFi=log(N/DFi)を算出する(S1604)。
そして、特徴語抽出部108は、算出されたIDFiの値が、予め定められた下限値IDFminと上限値IDFmaxに対して、IDFmin<IDFi<IDFmaxを満たすか否か判断する(ステップS1605)。
そして、特徴語抽出部108が上述した要件を満たすと判断した場合(ステップS1605:Yes)、自立語Tiを特徴語として抽出する(S1606)。そして、特徴語抽出部108が上述した要件を満たさないと判断した場合(ステップS1605:No)、自立語Tiについては特に処理を行わない。
そして、特徴語抽出部108は、全ての自立語Tiについて処理を終了したか否か判断する(ステップS1607)。終了していないと判断した場合(ステップS1607:No)、特徴語抽出部108は、変数iに1増加させて、再びステップS1603〜S1606までの処理を実行する。
そして、特徴語抽出部108は、全ての自立語Tiについて処理を終了したと判断した場合(ステップS1607:Yes)、全ての処理が終了したことになる。
次に、特徴語抽出部108の処理について、例を用いて説明する。まず文書蓄積部101に200,000文書の登録されていた場合、特徴語抽出部108は、ステップS1601において、N=200,000を取得する。
そして、特徴語抽出部108は、ステップS1602において、図7に示した文書を形態素解析した場合、自立語として「週間」「スケジュール」「8」「3」「木」「4」「金」「5」「土」「高橋」「武」「東西保険」「訪問」「企画」「会議」を取得する。
次に、ステップS1603において、特徴語抽出部108は、例えば自立語「週間」が文書蓄積部101に登録された文書のうち600文書に含まれていることから文書数DFi=600を取得する。そして、特徴語抽出部108は、ステップS1604において、自立語「週間」の特徴量IDFiの値として、log(200000/600)≒5.81を取得する。
そして、ステップS1605において、例えばIDFmin=4.0、IDFmax=5.0の場合、「週間」のIDFiは5.81であるからIDFi>IDFmaxとなる。このため、特徴語抽出部108は、「週間」を特徴語として抽出しない。
また、同様に自立語「スケジュール」が1,500文書に含まれていることから、特徴語抽出部108は、ステップS1603において、文書数DFi=1500を取得する。そして、特徴語抽出部108は、ステップS1604において、自立語「スケジュール」の特徴量IDFiの値として、log(200000/1500)≒4.89を取得する。
そして、ステップS1605において、「スケジュール」のIDFiの値は4.89であるから、IDFmin<IDFi<IDFmaxとなる。このため、ステップS1606において、特徴語抽出部108は、「スケジュール」を特徴語として抽出する。
なお、本処理手順では、IDFmin及びIDFmaxの値を定数としている。しかしながら、本処理手順は定数に制限するものではなく、例えば文書蓄積部101に登録されている文書群に含まれる各語句のIDFの値に基づいて相対的に決定したり、更新したりしてもよい。
このような処理手順を自立語毎に行うことで、特徴語抽出部108は、図7に示した文書から「スケジュール」「訪問」「企画」を特徴語として抽出することができる。
次に、デスクトップ検索装置100による汎化検索条件の生成処理の手順について図17を用いて説明する。また、本実施の形態では、検索条件登録部122により履歴格納部104に情報が格納される度に汎化検索条件の生成を行こととする。なお、本実施の形態はこのようなタイミングで生成することに制限するものでなく、あらゆるタイミングで行ってもよい。
まず、抽出条件生成部116は、履歴格納部104に新たに追加された履歴情報の読み込み処理を行う(ステップS1701)。
次に、抽出条件生成部116は、履歴格納部104に登録されている履歴情報を1レコードだけ読み込み処理を行う(S1702)。
そして、履歴判断部123は、読み込んだ“キーワードの意味属性”が一致するか否か、“元文書の特徴語”に共通する語句を含むか否かを判断する(S1703)。
そして、履歴判断部123が、“キーワードの意味属性”が一致せず、“元文書の特徴語”に共通する語句を含まないと判断した場合(ステップS1703:No)、特に処理を行わない。
また、履歴判断部123が、“キーワードの意味属性”が一致する、また/および、“元文書の特徴語”に共通する語句を含むと判断した場合(ステップS1703:Yes)、抽出条件生成部116は、新たな汎化検索条件の生成処理を行う(ステップS1704)。なお、生成した段階では汎化検索条件に具体的な条件は設定されておらず、以下の処理を行うことで条件が設定される。
そして、抽出条件生成部116は、これら履歴情報間のキーワードの意味属性が一致しているか否か判断する(ステップS1705)。そして、抽出条件生成部116が一致していると判断した場合(ステップS1705:Yes)、汎化検索条件のキーワードの意味属性に、一致した意味属性を代入する(ステップS1706)。
次に、抽出条件生成部116は、キーワードの意味属性が一致していないと判断した場合(ステップS1705:No)及び一致した意味属性を代入した後(ステップS1706)、元文書の特徴語が共通しているか否か判断する(ステップS1707)。そして、抽出条件生成部116が元文書の特徴語が共通していると判断した場合(ステップS1707:Yes)、汎化検索条件の元言語の特徴語に、共通の語句を代入する(ステップS1708)。
そして、抽出条件生成部116は、元言語の特徴語が共通していないと判断した場合(ステップS1707:No)及び共通した特徴語を代入した後(ステップS1708)、読み込んだ履歴情報間の追加キーワードの意味属性が一致しているか否か判断する(ステップS1709)。そして、抽出条件生成部116が追加キーワードの意味属性が一致していると判断した場合(ステップS1709:Yes)、汎化検索条件の追加キーワードの意味属性に、一致した意味属性を代入する(ステップS1710)。
そして、抽出条件生成部116は、検索時に絞り込む追加キーワードの意味属性が一致していない判断した場合(ステップS1709:No)及び一致する意味属性を代入した後(ステップS1710)、読み取った履歴情報間の“検索時に絞り込む属性情報”が一致しているか否か判断する(ステップS1711)。そして、抽出条件生成部116が“検索時に絞り込む属性情報”が一致していると判断した場合(ステップS1711:Yes)、汎化検索条件の“検索時に絞り込む属性情報”に、一致した“検索時に絞り込む属性情報”を代入する(ステップS1712)。
そして、抽出条件生成部116は、“検索時に絞り込む属性情報”が一致していない判断した場合(ステップS1711:No)及び一致する“検索時に絞り込む属性情報”を代入した後(ステップS1712)、読み取った履歴情報間の“ファイル形式”、“作成者、送受信者”、“作成日、送受信日”のうちいずれかの属性情報が一致しているか否か判断する(ステップS1713)。そして、抽出条件生成部116が“ファイル形式”、“作成者、送受信者”、“作成日、送受信日”のうちいずれかの属性情報が一致していると判断した場合(ステップS1713:Yes)、汎化検索条件の各属性情報に、一致した属性情報を代入する(ステップS1714)。
そして、抽出条件生成部116は、履歴格納部104から全ての履歴情報を読み込んだか否か判断する(ステップS1715)。そして、抽出条件生成部116が全ての履歴情報を読み込んでいないと判断した場合(ステップS1715:No)、再びステップS1702のレコードの読み込みから処理を行う。これにより、全ての履歴情報について上述した処理が行われることになる。
そして、抽出条件生成部116が全ての履歴情報を読み込んだと判断した場合(ステップS1715:Yes)、全ての処理を終了する。
例えば、抽出条件生成部116は、図5に示した履歴格納テーブルで新たに追加された履歴情報(レコード501)と、予め格納されていた履歴情報(レコード502)との間で汎化検索条件を生成できるか否か判断した場合、キーワードの意味属性が一致し、元文書の特徴語に一致する語句を含むので、新たな汎化検索条件が生成されることになる。
図18に示すように、抽出条件生成部116は、図17で示した処理手順を行うことで、図5のレコード501とレコード502との間で一致するフィールド情報が格納された汎化検索条件を生成することになる。
図17で示した処理手順では、新しく登録される検索履歴に類似の履歴情報が複数存在する場合、抽出条件生成部116は汎化検索条件を複数生成することになる。しかしながら、本実施の形態はこのような複数生成することに制限するものではなく、例えば、抽出条件生成部116が、生成された複数の汎化検索条件が類似すると判断した場合、これら汎化検索条件を結合したり、生成された汎化検索条件が既に条件記憶部103に蓄積されている汎化検索条件と類似している場合にこれら汎化検索条件を結合したりしても良い。
この汎化検索条件の結合手法の例としては、3個以上の検索履歴または汎化検索条件の間で、属性情報が全て一致した場合に限り、新たに生成する汎化検索条件の属性情報として代入するようにしても良いし、一部の検索履歴または汎化検索条件の間で属性情報が一致している場合には汎化検索条件の属性情報に複数の値を代入してもよい。そして、複数の値を代入した場合、当該汎化検索条件が再利用される際に、デスクトップ検索装置100の語句選択受付部113等が、いずれの値を使用するか利用者に問い合わせてもよい。
そして、抽出条件生成部116は、このようにして生成された汎化検索条件を、条件記憶部103に登録する。そして、条件記憶部103に蓄積された汎化検索条件は、条件抽出部110により抽出されて、利用者が文書を検索する際に利用されることになる。
また、抽出条件生成部116は、生成した汎化検索条件を利用者が修正できるようにしてもよい。図19に示すように、“検索方法の名前”欄1901に、利用者が検索条件の名称を付与することができる。さらに利用者は、図19の“作成日、送受信日”欄1902に格納されている「一ヶ月前」を削除する操作を行った。
図20に示すように、利用者による修正を受け付けた後では、“検索方法の名前”欄2001が「提案資料を検索」と修正され、“作成日、送受信日”2002の条件が削除されているのが確認できる。そして、利用者は修正を完了した後、登録ボタン2003を押下することで修正の完了をデスクトップ検索装置100に通知する。これにより、抽出条件生成部116は、修正された汎化検索条件を条件記憶部103に蓄積する。また、利用者が削除ボタン2004を押下した場合、抽出条件生成部116は訂正された汎化検索条件を登録せず、破棄する処理を行う。
次に、汎化検索条件に「検索方法の名前」を付与した場合について説明する。図21に示すように、利用者にキーワードが選択された場合に、汎化検索条件の名称を提示することで、利用者に汎化検索条件の内容を認識させることができる。そして、図21に示した例では、利用者により「提案資料を探す」が選択されたものとする。
図22に示すように、デスクトップ検索装置100では、「提案資料を探す」に対応する汎化検索条件で設定されている条件に従って、共起する意味属性が提示されたり、検索時に文書が絞り込まれることになる。
本実施の形態にかかるデスクトップ検索装置100では、汎化検索条件を用いて意味属性により追加キーワードの絞込を自動的に行うことで、利用者が詳細に設定を行うことなく、文書の検索条件が設定されるのでユーザアビリティが向上する。
(変形例)
また、上述した各実施の形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
上述した第1の実施の形態において、キーワードが文書から選択された場合について説明した。しかしながら、入力受付部107によるキーワードの入力の受付は、第1の実施の形態の図8の例に制限するものではない。そこで本変形例では、別ウィンドウからキーワードの入力を受け付ける例について説明する。
図23に示すように、文書を表示するウィンドウとは別ウィンドウでキーワードの入力を受け付けてもよい。
なお、本変形例の場合、図23に示すウィンドウを画面上に呼び出すための操作を利用者が行う必要がある。この呼び出し操作は、どのような操作手法でも良いが、例えば画面上に予め設定された特定のボタンを押下する、マウス等の入力デバイスの特定のボタンを押下する等の手法を用いることが考えられる。
図24に示すように、検索結果表示処理部115は、汎化検索条件に一致した語句を表示した後、語句の下に属性情報を種類毎に表示している。図24に示すように1つのウィンドウ内にツリー構造をたどれるように表示しても良い。
図25に示すように、上述した実施の形態または変形例にかかるデスクトップ検索装置100は、ハードウェア構成として、デスクトップ検索処理プログラムなどが格納されているROM2502と、ROM2502内のプログラムに従って当該装置の各部を制御するCPU2501と、当該装置の制御に必要な種々のデータを記憶するRAM(Random Access Memory)2503と、上述した処理結果等を表示する表示装置2505と、ネットワークに接続する通信I/F2507と、ハードディスクなどの外部記憶装置2504と、各部を接続するバス2508と、を備えている。また、デスクトップ検索装置100は、上述した構成を備えた一般的なコンピュータに適用することができる。
上述した実施の形態にかかるデスクトップ検索装置100で実行されるデスクトップ検索処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
この場合には、デスクトップ検索処理プログラムは、デスクトップ検索装置100において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、上述した実施の形態にかかるデスクトップ検索装置100で実行されるデスクトップ検索処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態にかかるデスクトップ検索装置100で実行されるデスクトップ検索処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態のデスクトップ検索処理プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
以上のように、本発明にかかる情報検索装置、情報検索方法及び情報検索プログラムは、キーワードに基づいて利用者が所望する文書を検索する技術として有用である。
第1の実施の形態にかかるデスクトップ検索装置の構成を示すブロック図である。 共起語句蓄積部が有する共起関係保持テーブルの構造を示した図である。 条件記憶部が保持する汎化検索条件保持テーブルの構造を示した図である。 意味属性対応テーブルの構造を示した図である。 履歴格納テーブルの構造を示した図である。 デスクトップ検索装置の検索処理の手順を示すフローチャートである。 文書表示部が表示処理する文書の例を示した図である。 表示処理部が表示した文書から、ポインティングデバイスによりキーワードが選択された状況を示した説明図である。 語句表示処理部による語句の表示例を示した図である。 検索結果表示処理部が、表示処理した属性の種類の例を示した図である。 検索部が2件しか文書を検出しなかった場合に、検索結果表示処理部が、表示処理した文書名の例を示した図である。 利用者から文書の選択を受け付けた場合に、検索結果表示処理部が表示処理する文書の例を示した図である。 語句表示処理部が抽出した語句を意味属性別に表示した例を示した図である。 検索結果表示処理部が、表示処理した属性の種類の例を示した図である。 検索結果表示処理部が、表示処理した文書名の例を示した図である。 特徴語抽出部の文書から特徴語を抽出する処理手順を示すフローチャートである。 デスクトップ検索装置による汎化検索条件の生成処理の手順を示すフローチャートである。 抽出条件生成部が新たに生成した汎化検索条件の例を示した図である。 抽出条件生成部が生成した汎化検索条件を修正するためのユーザインタフェースの例を示した図である。 利用者により修正する操作が行われた後の状態のユーザインタフェースの例を示した図である。 利用者によりキーワードが選択された場合に、当該キーワードから抽出された汎化検索条件の名称を提示した例を示した図である。 利用者により「提案資料を探す」の選択を受け付けた場合に、表示するウィンドウの例を示した図である。 キーワードの入力を受け付けるために表示されたウィンドウの例を示した図である。 キーワードが入力された後に検索を行った後、検索結果表示処理部は、入力されたキーワードに共起する語句を属性の種類毎に表示した例を示した図である。 デスクトップ検索装置のハードウェア構成を示した図である。
符号の説明
100 デスクトップ検索装置
101 文書蓄積部
102 共起語句蓄積部
103 条件記憶部
104 履歴格納部
105 意味属性蓄積部
106 表示処理部
106 文書表示部
107 入力受付部
108 特徴語抽出部
109 意味属性取得部
110 条件抽出部
111 語句抽出部
112 語句表示処理部
113 語句選択受付部
114 検索部
115 検索結果表示処理部
116 抽出条件生成部
117 文書入力処理部
118 意味属性解析部
119 共起関係解析部
120 文書登録部
121 文書属性抽出部
122 検索条件登録部
2501 CPU
2502 ROM
2503 RAM
2504 外部記憶装置
2505 表示装置
2506 入力装置
2507 通信I/F
2508 バス

Claims (10)

  1. 文書を蓄積する文書蓄積部と、
    前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第1の文字列に対して、当該第1の文字列と同一の文書に含まれ、当該第1の文字列と共起関係がある第2の文字列を、当該第1の文字列と共に検索キーとして用いられる文字列として、当該第2の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積部と、
    前記第2の文字列を抽象化した前記意味属性と、前記第1の文字列を抽象化した意味属性である又は前記第1の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、
    第1の文字列の入力を受け付ける入力受付部と、
    入力された前記第1の文字列を抽象化した意味属性を特定情報として取得し、又は当該第1の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得部と、
    前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第2の文字列を抽象化した前記意味属性を抽出する抽出部と、
    前記文字列蓄積部から、入力された前記第1の文字列と対応付けられ、抽出された前記意味属性にかかる前記第2の文字列を抽出する文字列抽出部と、
    入力された前記第1の文字列と、抽出された前記第2の文字列と、を含む文書を前記文書蓄積部から検索する検索部と、
    を備えることを特徴とする情報検索装置。
  2. 前記文字列抽出部により抽出された前記第2の文字列を、利用者に対して提示する文字列提示処理部と、
    提示された前記第2の文字列から、検索キーとして用いられる第2の文字列の選択を受け付ける文字列選択受付部と、を備え、
    前記検索部は、前記第1の文字列と、選択を受け付けた前記第2の文字列とを含む文書を、前記文書蓄積部から検索すること、
    を特徴とする請求項1に記載の情報検索装置。
  3. 前記条件記憶部は、前記特定情報として、第1の文字列の意味属性を示す属性情報と、前記意味属性とを対応付けて記憶し、
    前記特定情報取得部は、前記第1の文字列から、当該第1の文字列を示す属性情報を取得する属性取得部を有し、
    前記条件抽出部は、前記条件記憶部に基づいて、取得した前記属性情報と対応付けられている前記意味属性を抽出すること、
    を特徴とする請求項1又は2に記載の情報検索装置。
  4. 前記条件記憶部は、前記特定情報として、前記文書から抽出された抽出文字列と、前記意味属性とを対応付けて記憶し、
    前記特定情報取得部は、前記第1の文字列を含む文書から第3の文字列を抽出する文字列抽出部を有し、
    前記条件抽出部は、前記条件記憶部に基づいて、抽出された前記第3の文字列と一致する前記抽出文字列と対応付けられている前記意味属性を抽出すること、
    を特徴とする請求項1又は2に記載の情報検索装置。
  5. 利用者により検索キーとして選択された第1の文字列と、前記第1の文字列又は前記第1の文字列を含む文書から特定される特定情報と、利用者により検索キーとして選択された前記第2の文字列から取得した意味属性と、を対応付けて格納する履歴格納部と、
    前記履歴記憶部に格納された複数の特定情報が一致するか否か判断する履歴判断部と、
    前記複数の特定情報が一致すると判断された場合に、当該特定情報と、当該特定情報と対応付けられている意味属性と、を対応付けて前記条件記憶部に登録する抽出条件生成部と、
    をさらに備えることを特徴とする請求項1乃至4のいずれか一つに記載の情報検索装置。
  6. 文書を入力処理する文書入力処理部と、
    入力処理した前記文書に含まれている第1の文字列と、前記文書に含まれている第2の文字列と、を対応付けて前記文字列蓄積部に格納する文字列登録部と、
    入力処理した前記文書を、前記文書蓄積部に登録する文書登録部と、
    をさらに備えることを特徴とする請求項1乃至5のいずれか一つに記載の情報検索装置。
  7. 前記検索部により検索された前記文書を、当該文書の意味属性毎に表示する検索結果表示処理部と、をさらに備えることを特徴とする請求項1乃至6のいずれか一つに記載の情報検索装置。
  8. 前記条件記憶部は、さらに文書を絞り込む絞込条件を対応付けて記憶し、
    前記検索部は、さらに前記絞込条件を満足させる文書を検索すること、
    を特徴とする請求項1乃至7のいずれか一つに記載の情報検索装置。
  9. 情報検索装置で実行される情報検索方法であって、
    前記情報検索装置は、文書を蓄積する文書蓄積と、
    前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第1の文字列に対して、当該第1の文字列と同一の文書に含まれ、当該第1の文字列と共起関係がある第2の文字列を、当該第1の文字列と共に検索キーとして用いられる文字列として、当該第2の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積と、
    前記第2の文字列を抽象化した前記意味属性と、前記第1の文字列を抽象化した意味属性である又は前記第1の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶と、を備え、
    入力受付部が、第1の文字列の入力を受け付ける入力受付ステップと、
    特定情報取得部が、入力された前記第1の文字列を抽象化した意味属性を特定情報として取得し、又は当該第1の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得ステップと、
    抽出部が、前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第2の文字列を抽象化した前記意味属性を抽出する抽出ステップと、
    文字列抽出部が、前記文字列蓄積部から、入力された前記第1の文字列と対応付けられ、抽出された前記意味属性にかかる前記第2の文字列を抽出する文字列抽出部と、
    検索部が、入力された前記第1の文字列と、抽出された前記第2の文字列と、を含む文書を前記文書蓄積部から検索する検索ステップと、
    を有することを特徴とする情報検索方法。
  10. 文書を検索するコンピュータで実行されるための情報検索プログラムであって、
    文書を蓄積する文書蓄積と、
    前記文書蓄積部に蓄積された前記文書に含まれ、検索キーになりうる第1の文字列に対して、当該第1の文字列と同一の文書に含まれ、当該第1の文字列と共起関係がある第2の文字列を、当該第1の文字列と共に検索キーとして用いられる文字列として、当該第2の文字列を抽象化した意味属性別に対応付けて記憶する文字列蓄積と、
    前記第2の文字列を抽象化した前記意味属性と、前記第1の文字列を抽象化した意味属性である又は前記第1の文字列を含む前記同一の文書から抽出した特徴語である特定情報と、を予め対応付けて記憶する条件記憶部と、を備えたコンピュータで、
    第1の文字列の入力を受け付ける入力受付ステップと、
    入力された前記第1の文字列を抽象化した意味属性を特定情報として取得し、又は当該第1の文字列を含む文書から特徴語を抽出することで特定情報を取得する特定情報取得ステップと、
    前記条件記憶部から、取得した前記特定情報と対応付けられている、前記第2の文字列を抽象化した前記意味属性を抽出する抽出ステップと、
    前記文字列蓄積部から、入力された前記第1の文字列と対応付けられ、抽出された前記意味属性にかかる前記第2の文字列を抽出する文字列抽出ステップと、
    入力された前記第1の文字列と、抽出された前記第2の文字列と、を含む文書を前記文書蓄積部から検索する検索ステップと、
    を実行させるための情報検索プログラム。
JP2007087384A 2007-03-29 2007-03-29 情報検索装置、情報検索方法及び情報検索プログラム Expired - Fee Related JP4398992B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007087384A JP4398992B2 (ja) 2007-03-29 2007-03-29 情報検索装置、情報検索方法及び情報検索プログラム
US12/043,232 US8117177B2 (en) 2007-03-29 2008-03-06 Apparatus and method for searching information based on character strings in documents
CNA2008100874895A CN101276372A (zh) 2007-03-29 2008-03-28 信息搜索装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007087384A JP4398992B2 (ja) 2007-03-29 2007-03-29 情報検索装置、情報検索方法及び情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2008250385A JP2008250385A (ja) 2008-10-16
JP4398992B2 true JP4398992B2 (ja) 2010-01-13

Family

ID=39796052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007087384A Expired - Fee Related JP4398992B2 (ja) 2007-03-29 2007-03-29 情報検索装置、情報検索方法及び情報検索プログラム

Country Status (3)

Country Link
US (1) US8117177B2 (ja)
JP (1) JP4398992B2 (ja)
CN (1) CN101276372A (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4810469B2 (ja) * 2007-03-02 2011-11-09 株式会社東芝 検索支援装置、プログラム及び検索支援システム
US20090271388A1 (en) * 2008-04-23 2009-10-29 Yahoo! Inc. Annotations of third party content
JP5448412B2 (ja) * 2008-10-24 2014-03-19 キヤノン株式会社 情報処理装置およびその方法、プログラム、記録媒体
US8666972B2 (en) * 2009-02-12 2014-03-04 International Business Machines Corporation System and method for content management and determination of search conditions
JP5127751B2 (ja) * 2009-03-19 2013-01-23 株式会社東芝 情報検索装置及び方法
US8392973B2 (en) * 2009-05-28 2013-03-05 International Business Machines Corporation Autonomous intelligent user identity manager with context recognition capabilities
KR20110089012A (ko) * 2010-01-29 2011-08-04 삼성전자주식회사 전자책 단말기 및 그의 멀티태스킹 히스토리 제공방법
JP5185402B2 (ja) * 2011-01-11 2013-04-17 株式会社東芝 文書検索装置、文書検索方法、及び文書検索プログラム
JP5703958B2 (ja) * 2011-05-20 2015-04-22 日本電気株式会社 情報検索装置、情報検索方法および情報検索プログラム
CN103827854A (zh) * 2011-09-29 2014-05-28 富士通株式会社 检索方法以及信息管理装置
US9092428B1 (en) * 2011-12-09 2015-07-28 Guangsheng Zhang System, methods and user interface for discovering and presenting information in text content
US10984337B2 (en) * 2012-02-29 2021-04-20 Microsoft Technology Licensing, Llc Context-based search query formation
CN103365528A (zh) * 2012-04-02 2013-10-23 鸿富锦精密工业(深圳)有限公司 专利核驳历程显示***及方法
JP2012216239A (ja) * 2012-07-12 2012-11-08 Toshiba Corp 情報処理装置、プログラムおよび情報検索方法
WO2014025000A1 (ja) * 2012-08-08 2014-02-13 株式会社キーソフト 取引支援システム
KR102083209B1 (ko) * 2012-11-22 2020-03-02 삼성전자 주식회사 데이터 제공 방법 및 휴대 단말
CN103902280B (zh) * 2012-12-24 2017-04-12 中国电信股份有限公司 事务处理方法及装置
CN103220412B (zh) * 2013-03-20 2015-02-18 惠州Tcl移动通信有限公司 移动终端的日程表管理方法及***
CN104063400B (zh) * 2013-03-22 2017-05-24 腾讯科技(深圳)有限公司 数据搜索方法和装置
JP6028656B2 (ja) * 2013-03-28 2016-11-16 富士通株式会社 データ抽出方法、装置及びプログラム
JP6365195B2 (ja) * 2014-10-03 2018-08-01 富士通株式会社 命令履歴分析プログラム、命令履歴分析装置、および、命令履歴分析方法
CN104679848B (zh) * 2015-02-13 2019-05-03 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
US10582275B2 (en) * 2015-11-11 2020-03-03 The Syg Institute Co., Ltd. Real-time digit string-based information distribution system using smart terminal and method thereof
JP6613942B2 (ja) * 2016-02-10 2019-12-04 富士通株式会社 情報出力システム、情報出力方法および情報出力プログラム
CN107092616B (zh) * 2016-11-02 2020-08-28 北京星选科技有限公司 一种对象排序方法及装置
JP2019095848A (ja) * 2017-11-17 2019-06-20 富士ゼロックス株式会社 文書処理装置およびプログラム
JP7452011B2 (ja) 2019-12-27 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びコンピュータプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
EP0610760B1 (en) * 1993-01-28 2003-05-02 Kabushiki Kaisha Toshiba Document detection system with improved document detection efficiency
JP3015223B2 (ja) * 1993-05-14 2000-03-06 シャープ株式会社 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US6178416B1 (en) * 1998-06-15 2001-01-23 James U. Parker Method and apparatus for knowledgebase searching
JP4025443B2 (ja) * 1998-12-04 2007-12-19 富士通株式会社 文書データ提供装置及び文書データ提供方法
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム
JP3784060B2 (ja) * 2003-01-10 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース検索システム、その検索方法及びプログラム
WO2005036412A1 (en) * 2003-10-16 2005-04-21 Nhn Corporation A method of managing bulletin on internet and a system thereof
KR100806862B1 (ko) 2004-07-16 2008-02-26 (주)이네스트커뮤니케이션 웹 사이트에서의 1차 키워드 검색에 대해 관련성 있는 2차키워드의 리스트를 제공하는 방법 및 장치
JP4081056B2 (ja) 2004-08-30 2008-04-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
US20060287919A1 (en) * 2005-06-02 2006-12-21 Blue Mustard Llc Advertising search system and method
US7836065B2 (en) * 2005-11-01 2010-11-16 Sap Ag Searching multiple repositories in a digital information system
JP4247284B2 (ja) 2007-03-28 2009-04-02 株式会社東芝 情報検索装置、情報検索方法及び情報検索プログラム

Also Published As

Publication number Publication date
JP2008250385A (ja) 2008-10-16
US20080243791A1 (en) 2008-10-02
CN101276372A (zh) 2008-10-01
US8117177B2 (en) 2012-02-14

Similar Documents

Publication Publication Date Title
JP4398992B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
US7860872B2 (en) Automated media analysis and document management system
US9092417B2 (en) Systems and methods for extracting data from a document in an electronic format
EP1396799B1 (en) Content management system
US6353840B2 (en) User-defined search template for extracting information from documents
US20070185859A1 (en) Novel systems and methods for performing contextual information retrieval
US20070078814A1 (en) Novel information retrieval systems and methods
US20070136280A1 (en) Factoid-based searching
US9785707B2 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP2002278977A (ja) 質問回答装置、質問回答方法及び質問回答プログラム
US20070185832A1 (en) Managing tasks for multiple file types
JP2006323517A (ja) テキスト分類装置およびプログラム
EP1850246A1 (en) Data retrieval system, method and program
JP3425784B2 (ja) 文献情報検索装置
US20140156593A1 (en) Information processing apparatus, information processing method, and program
JPH11184924A (ja) スケジューリング装置
JP3998201B2 (ja) 文書検索方法
JPS63175965A (ja) 文書処理装置
JP2008033386A (ja) 情報処理提供システム
KR100963669B1 (ko) 토픽정보를 이용한 질의어 자동 입력 시스템 및 그 방법과그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체
JP4493825B2 (ja) 非テキスト入力に基づく概念検索装置およびコンピュータプログラムを記録した記録媒体
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
TWM529875U (zh) 拆解資料欄位以分類專利之檢索系統
JP3875510B2 (ja) 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090929

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091023

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131030

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees