JP2005010848A - 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 - Google Patents

情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2005010848A
JP2005010848A JP2003170997A JP2003170997A JP2005010848A JP 2005010848 A JP2005010848 A JP 2005010848A JP 2003170997 A JP2003170997 A JP 2003170997A JP 2003170997 A JP2003170997 A JP 2003170997A JP 2005010848 A JP2005010848 A JP 2005010848A
Authority
JP
Japan
Prior art keywords
information
word
attribute
concept
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003170997A
Other languages
English (en)
Inventor
Hiroyuki Kanza
浩幸 勘座
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003170997A priority Critical patent/JP2005010848A/ja
Publication of JP2005010848A publication Critical patent/JP2005010848A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】入力された語によって表現される概念と関連する情報を検索する装置であって、高い検索精度と高い再現性とを共に備える情報検索装置を提供する。
【解決手段】情報検索装置100は、文字列取得部102が取得した文字列が示す入力語と概念上の階層関係を持つ拡張語を、概念辞書記憶部104から収集する語拡張部106と、入力語及び拡張語を拡張検索キーとして、データベース108から拡張検索キーと一致するキーワードを検索するデータ検索部110と、入力語の属性と、拡張検索キーと一致するキーワードの属性との類似性を基準として、検索された情報の優先順位を決定するランク計算部114と、ランク計算部114が決定した優先順位に従って、出力する情報を選択し、出力部118から出力させるデータ選択部116とを含む。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、複数の情報の中から、所定の情報を検索する情報検索装置に関する。特に、問合せに対して広範囲の検索を行ない、利用者に相応しい情報を選択して出力する情報検索装置に関する。
【0002】
【従来の技術】
現在、情報を検索する方法として、入力された語と一致する語を含む情報を検索する方法が一般的に用いられている。この情報検索方法は、所望の情報の内容を端的に表現する語を利用者が思いつき、かつ利用者が思いついた語を含む情報が多量に存在する場合に、検索漏れの少ない検索結果を得る事ができる。
【0003】
ところが、利用者が所望の情報を端的に表現する語を思いつかず、所望の情報を得るには的外れな語を入力した場合、得られる情報も的外れな情報となる。また、利用者が思いついた語を含む情報が少量しかない場合、少量の情報の中に利用者が所望する情報が含まれている可能性は低い。これらの場合、利用者は思いついた語から連想する別の語を入力して検索を行なうという作業を、満足な検索結果が得られるまで繰返す必要に迫られる。
【0004】
この様な問題を解決するために、語の意味的関係を階層構造で記述し、その情報を利用して文書検索を行なう技術が、特許文献1に開示されている。特許文献1に記載されている検索方法は、語によって表現される概念同士の上位、及び下位関係を記憶した辞書データを参照して、入力した文字列が示す語の下位に位置する概念を表現する語を抽出し、抽出した語を検索キーとして文書を検索する検索方法である。
【0005】
図18に、語によって表現される概念同士の上位、及び下位関係を記憶した辞書データの模式図を示す。図18を参照して、この樹形図において、語902、904、…、918はそれぞれ樹形図のノードに配置されている。上位概念を表現する語と、その上位概念に属する下位概念を表現する語とは、それらの語によって表現される概念が互いに関連している事を示すパス900によってそれぞれ連結されている。
【0006】
特許文献1に記載の文書検索方法では、例えば「釣り」という語を示す文字列が入力されると、「釣り」という語908だけでなく、その下位概念を表現する語である「磯釣り」という語916と、「渓流釣り」という語918とを検索キーとして文書の検索を行なう。この様にして検索を行なう事により、大量の文書の中から、より具体的な情報を探し出す事ができる。
【0007】
また、特許文献1には、入力した文字列が示す語の上位に位置する概念を表現する語を抽出し、抽出した語、又は抽出した語によって表現される概念の下位に位置する概念を表現する語を検索キーとして文書を検索する検索方法も開示されている。例えば、「釣り」という語を示す文字列が入力されると、図18を参照して、「釣り」という語908だけでなく、その上位概念を表現する語である「アウトドア」という語914と、さらに上位概念を表現する「レクリエーション」という語902と、これらの語が表現する概念の下位概念を表現する語「キャンプ」910、「旅行」906、「温泉」912、「グルメ」914などの語を検索キーとして文書の検索を行なう。この様にして検索を行なう事により、関連性のある情報をより広範囲にわたって探し出す事ができる。
【0008】
【特許文献1】
特開平4−10062号公報
【発明が解決しようとする課題】
特許文献1に開示された方法を用いて情報を検索した場合、次の様な問題点がある。例えば、図18に示す辞書データに記載された語902から語918までのいずれかの語を検索キーとして検索する事によって、データベースから得られる情報の一覧が図19に示すものであるものとする。なお、図19を参照して、この情報の一覧は、情報940、942、及び944、並びにこれらの情報を得るための検索キー946、948、及び950を一覧にまとめたものである。
【0009】
特許文献1に記載の検索方法を用いて、与えられた語によって表現される概念の下位の概念を表現する語によって情報の検索を行なうと、大量の情報の中から、より具体的な情報を探し出す事ができる。しかし、下位の概念を表現する語を用いて検索を行なっても、十分な成果を得る事が期待できない場合がある。
【0010】
例えば、利用者によって入力された文字列が示す語が「釣り」という語908であったとする。図18を参照して「釣り」という語908の下位の概念を表現する語は、「磯釣り」916と「渓流釣り」918とである。この場合データベースには、利用者にとっては「釣り」と関係ある情報が含まれているかも知れない「キャンプ用品バーゲン情報」940という情報が保持されているが、この情報を探し出す事ができない。この様に、利用者は関係があると考えているかもしれない情報がデータベースに保持されているにもかかわらず、検索結果から漏れる恐れがある。
【0011】
逆に、上位概念を表現する語、及びその下位概念を表現する語によって情報の検索を行なうと、論理的には利用者が所望する情報に近い情報であっても、利用者が所望する情報の内容に対して抱くイメージと全く異なるイメージを想起させる情報である恐れがある。
【0012】
例えば、利用者によって入力された文字列の示す語が「釣り」という語であったとする。この検索方法では、上位概念を表現する語、及びその下位概念を表現する語を検索キーとして検索を行なう。すると、図19を参照して、「キャンプ用品バーゲン情報」という情報940、「近郊温泉施設」という情報942、及び「探検倶楽部」という情報944が得られる。ところが利用者が「釣り」と「温泉」とには「のんびりした」イメージを抱いており、「キャンプ」と「探検」とには「のんびりした」イメージを抱いていない場合がある。この様な場合、利用者が入力した「釣り」という語と、検索結果として得られた「キャンプ用品バーゲン情報」という情報940との関係、及び「釣り」という語と、「探検倶楽部」という情報944との関係が利用者には分からず、利用者はこれらの情報は無駄な情報であると感じる恐れがある。
【0013】
それゆえに本発明の目的は、利用者が入力した語によって表現される概念と関連する情報を検索する装置であって、高い検索精度と高い再現性とを共に備える情報検索装置を提供する事である。
【0014】
本発明の他の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、当該入力した語との間に高い関連性を有する情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0015】
本発明のさらに他の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、多面的な評価により、当該入力した語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0016】
本発明のさらに他の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、利用者が重視する情報の性質に関して、当該入力した語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0017】
本発明のさらに他の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、利用者が重視する情報の性質を推定する事により、当該入力した語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0018】
本発明の追加の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、当該入力した語が利用者に想起させるイメージと類似のイメージを利用者に想起させる情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0019】
【課題を解決するための手段】
本発明の第1の局面に係る情報検索装置は、第1の語を示す文字列を取得するための文字列取得手段と、複数の語に関して、語の概念間の階層的な関係を示す概念情報を保持するための概念情報保持手段と、第1の語によって表現される概念と関連性のある概念を表現する第2の語を、概念情報に基づいて、概念情報保持手段より収集するための語収集手段と、検索対象となる情報を保持するためのデータベースと、第1の語、及び第2の語を検索キーとして、データベースから、第1の語、及び第2の語のいずれかと一致するキーワード、並びに当該一致するキーワードに対応するデータベースに保持されている情報とを抽出するための抽出手段と、複数の語に関して、語の属性を示す情報を取得するための手段と、第1の語の属性と、当該一致するキーワードの属性との類似性を基準として、抽出手段が抽出した情報の優先順位を決定するための順位決定手段と、順位決定手段が決定した優先順位に従って、抽出手段が抽出した情報を出力するための出力手段とを含む。
【0020】
この情報検索装置の利用者によって入力される文字列が示す第1の語のみならず、第1の語と概念的な関連性を有する第2の語を検索キーとして情報を検索する事により、広範囲な情報から情報を検索する事ができる様になる。そのため、検索の再現性が向上する。さらに検索結果を、第1の語の属性との類似性という別の基準によって検証を行なう事により、利用者が入力した語との間に高い関連性を有する情報を検索できる。そのため、検索精度が向上する。
【0021】
好ましくは、順位決定手段は、語の属性を示す情報を取得するための手段が取得した、第1の語の属性を示す情報と、一致するキーワードの属性を示す情報とを元に、第1の語の属性と、一致するキーワードの属性との類似性を示す得点を算出するための得点算出手段と、得点算出手段が算出した得点を基準として、抽出手段が抽出した情報の優先順位を決定するための決定手段とを含む。
【0022】
第1の語の属性と、キーワードの属性との類似性を示す得点を算出する事により、具体的な基準に基づく優先順位の決定を行なう事ができる。よって、利用者が入力した語との間に高い関連性を有する情報を検索できる。
【0023】
好ましくは、語の属性を示す情報を取得するための手段は、複数の語の各々に関して、当該語の属性を、属性ごとに予め設定された属性値によって示す属性情報を保持するための属性情報保持手段を含み、順位決定手段は、属性情報保持手段に保持された、第1の語に関する属性情報と、一致するキーワードに関する属性情報とを元に、第1の語と、一致するキーワードとの心的距離を算出するための心的距離算出手段と、心的距離算出手段が算出した心的距離を基準とし、抽出手段が抽出した情報の優先順位を決定するための決定手段とを含む。
【0024】
第1の語の属性と、キーワードの属性との間の心的距離を算出する事により、さらに具体的な基準に基づく優先順位の決定を行なう事ができる。よって、利用者が入力した語との間に高い関連性を有する情報を検索できる。
【0025】
さらに好ましくは、順位決定手段はさらに、概念情報保持手段に保持された、第1の語に関する概念情報と、一致するキーワードに関する概念情報とを元に、第1の語と、一致するキーワードとの概念距離を算出するための概念距離算出手段と、第1の語と、一致するキーワードとの組合せごとに、心的距離と、概念距離とを統合した基準値を作成するための手段とを含み、決定手段は、心的距離と、概念距離とを統合した基準値を基準として、抽出手段が抽出した情報の優先順位を決定するための手段を含む。
【0026】
第1の語によって表現される概念と、キーワードによって表現される概念との関連性を概念距離によって具体化し、さらに、この概念距離と、心的距離とを用いて多面的に情報を評価する事により、利用者が入力した語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索できる。
【0027】
心的距離算出手段は、各属性の重要度を設定するための重要度設定手段と、属性情報保持手段に保持された、第1の語に関する属性情報、一致するキーワードに関する属性情報、及び重要度設定手段が設定した各属性の重要度を元に、第1の語と、一致するキーワードとの心的距離を算出するための手段とを含んでもよい。
【0028】
利用者が重視する情報の性質がどの様なものであるかを重要度設定手段による設定によって具体化する事ができる。そのため、この設定を加味して心的距離を算出する事により、利用者が重視する性質に関して、利用者が入力した語と高い関連性を有する情報を検索する事ができる。
【0029】
重要度設定手段は、出力手段が出力した情報の履歴を記録するための履歴記録手段と、履歴記録手段が記録した履歴に基づき、各属性の重要度を設定するための手段とを含んでもよい。
【0030】
各属性の重要度を設定するための手段は、履歴記録手段が記録した履歴と、データベースとを照合する事により、情報に対する利用者の嗜好を推定するための嗜好推定手段と、嗜好推定手段が推定した嗜好と、属性情報保持手段が保持する属性情報とを元に、各属性の重要度を設定するための手段とを含んでもよい。
【0031】
嗜好推定手段は、履歴記録手段が記録した履歴と、データベースとを照合し、キーワードごとに、キーワードに対応するデータベースに保持されている情報が出力された頻度を算出するための手段と、このキーワードごとの頻度、及び属性情報保持手段に保持されたキーワードの属性を元に、情報に対する利用者の嗜好を推定するための手段とを含んでもよい。
【0032】
過去に出力された情報から、重要度を算出する事により、利用者が重視する情報の性質を推定する事が可能となり、利用者が重視する性質に関して、入力された語と高い関連性を有する情報を検索する事ができる。よって、利用者が入力した語が利用者に想起させるイメージと類似のイメージを利用者に想起させる情報を検索できる。
【0033】
出力手段は、順位決定手段が決定した優先順位に従って、抽出した情報を優先順位によって示される順に、所定の順位まで出力するための手段を含んでもよい。
【0034】
出力する情報を絞込む事により、特に利用者にとって興味あると思われる情報を検索結果として提示する事ができる。よって、情報の検索結果が利用者にとって充実したものとなる。
【0035】
本発明の第2の局面に係る情報検索方法は、第1の語を示す文字列を取得するステップと、取得した文字列が示す第1の語によって表現される概念と関連性のある概念を表現する第2の語を収集するステップと、第1の語、及び第2の語を検索キーとして、キーワードに対応するデータベースに保持されている情報を検索するステップと、この検索するステップにおいて、検索キーによって得られた検索結果である情報に対応するキーワードの属性と、第1の語の属性との類似性を基準として、出力する検索結果である情報の優先順位を決定するステップと、この決定するステップにおいて決定された優先順位に従い、検索結果である情報を出力するステップとを含む。
【0036】
情報を検索する際に、この情報検索方法を用いる事により、入力した語との間に高い関連性を有する情報を、広範囲な情報から検索できる。
【0037】
本発明の第3の局面に係る情報検索プログラムは、コンピュータ上で実行されると、当該コンピュータを本発明の第1の局面に係る情報検索装置として動作させる。
【0038】
この情報検索プログラムを実行する事により、上記した第1の局面に係る発明の作用及び効果をコンピュータで実現する事が可能となる。
【0039】
本発明の第4の局面に係る記録媒体は、本発明の第3の局面に係る情報検索プログラムが記録された、コンピュータで読取可能な記録媒体である。
【0040】
この記録媒体に記録された情報検索プログラムをコンピュータで読取り、実行する事により、上記した第1の局面に係る発明の作用及び効果を実現できる。
【0041】
【発明の実施の形態】
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明に用いる図面では、同一の部品には同一の符号が付してある。それらの名称及び機能も同一である。従って、それらについての詳細な説明は繰返さない。
【0042】
[実施の形態1]
本発明の実施の形態1に係る情報検索装置の概要について説明する。本実施の形態1に係る情報検索装置は、特許文献1に記載の技術と同様、情報の検索を行なう前に、与えられた語について、その語によって表現される概念(以下、この概念を「語の概念」と呼ぶ。)と関連する概念を表現する語を集める。そして、そうした語を検索キーとして情報の検索を行なう。
【0043】
しかし本実施の形態1に係る情報検索装置はさらに、語に備わる性質(以下、この性質を「語の属性」と呼ぶ。)に基づいて、検索の結果を出力する際の優先順位を決定し、決定した優先順位に従って検索結果を出力する。
【0044】
ある語の属性は、本実施の形態に係る情報検索装置の利用者が当該の語、若しくは当該の語によって表現される事物に対して抱くイメージなどの心情的な性質、又は当該の語によって表現される時代的、若しくは地域的な背景など、論理的な概念によって関連性を示す事が困難な性質などがある。そのため、本実施の形態1に係る情報検索装置は、関連する概念の語を検索キーとして検索を行ない、複数種類の情報を得た場合、利用者が所望する情報に類似する印象を想起させる可能性の高い情報を優先的に出力する。
【0045】
図1に、本実施の形態1に係る情報検索装置の構成をブロック図形式で示す。図1を参照して、情報検索装置100は、キーボード、マウス、又はタッチパネルなどの入力装置からなり、検索キーを示す文字列を取得する文字列取得部102と、語の概念間の階層的な関係を示す概念辞書を記憶する概念辞書記憶部104と、文字列取得部102及び概念辞書記憶部104に接続され、文字列取得部102が取得した文字列によって構成される語(以下、この語を「入力語」と呼ぶ。)と関連性のある概念の語(以下、この語を「拡張語」と呼ぶ。)を概念辞書記憶部104から取得し、入力語と拡張語とからなる拡張検索キーを作成する語拡張部106とを含む。
【0046】
情報検索装置100はさらに、検索対象となるデータを、データを検索する際に用いるキーワードに対応付けて保持するデータベース108と、語拡張部106及びデータベース108に接続され、語拡張部より与えられた拡張検索キーを用いて、データベース108に保持されたデータを検索するデータ検索部110とを含む。
【0047】
情報検索装置100はさらに、語の属性を示す属性情報によって構成された属性辞書を記憶する属性辞書記憶部112と、データ検索部110、及び属性辞書記憶部112に接続され、データ検索部110による検索結果を、属性辞書記憶部112に記憶されている属性情報に基づいて検証し、検索結果であるデータに優先順位を付けるランク計算部114と、データベース108及びランク計算部114に接続され、検索結果であるデータの優先順位をランク計算部114から取得し、取得した優先順位に従って、データベース108からデータを取得するデータ選択部116と、データ選択部116が取得したデータを出力する出力部118とを含む。
【0048】
図2に、概念辞書記憶部104に記憶される語の概念の関連性を示す。図2を参照して、語の概念の関連性は、樹形図によって模式的に表現される。この樹形図において、語132、134、…、148、…はそれぞれ樹形図のノードに配置されている。上位概念を表現する語と、その上位概念に属する下位概念を表現する語とは、それらの語によって表現される概念が互いに関連している事を示すパス130によってそれぞれ連結されている。例えば、「釣り」という語138の概念は、「磯釣り」という語146の概念、及び「渓流釣り」という語148の概念の上位概念となる。また、「釣り」という語138の概念は、「アウトドア」という語134の概念の下位概念となる。また例えば、「釣り」という語138の概念と、「パラグライダー」という語140の概念との関連性は、「釣り」という語138の概念と、「温泉」と語142の概念との関連性より高い。
【0049】
図3に、概念辞書記憶部104に記憶されている概念辞書の構成を示す。図3を参照して、概念辞書160は、多数の項目162、164、…、182、…を含む。各項目は語186と、語を識別するためのユニークな語番号188と、語186によって表現される概念の関連を示す概念情報190とを含む。概念情報190は、図2に示す樹形図におけるパス130に相当する情報である。概念情報190は、上位概念を表現する語の語番号192と、下位概念を表現する語の語番号194とを含む。
【0050】
概念辞書160の各項目に記載された語が表現する概念の関連性は、概念情報190に格納された上位概念の語の語番号192、及び下位概念の語の語番号194によって示される。例えば、項目168に記載されている「釣り」という語の上位概念を表現する語の語番号は、「00123」である。語番号「00123」の語は、項目164に記載された「アウトドア」という語である。すなわち、「アウトドア」という語が、「釣り」という語の上位概念を表現する語となる。逆に語番号「00123」の「アウトドア」という語の下位概念を表現する語の語番号は「01734」と「02495」とである。即ち、「アウトドア」という語の下位概念を表現する語には、「釣り」という語に加えて、「パラグライダー」という語が含まれる。
【0051】
図4に、語拡張部106が、図3に示す概念辞書160に基づいて作成する拡張検索キーの構成を示す。図4を参照して、拡張検索キー200は、入力語202と、拡張語204とを含む。入力語202は、後の動作において図1に示すランク計算部114が、検索結果のランク付けを行なうために用いるので、拡張語204とは区別される。
【0052】
図5に、データベース108に保持されているデータの一例を示す。図5を参照して、データベース108に保持されているデータ210は、複数のデータ項目212、214、216、218、…を含む。各データ項目は、格納されたデータ220と、データ項目を識別するための項目番号222と、データ検索部110がデータを検索する際に参照するキーワード224とを含む。キーワード224として選ばれる語は、データ220の内容に関連する語である。例えば、データ220の内容を端的に示す単語であってもよいし、データ220内に出現する単語を抽出したものであってもよい。
【0053】
なお、図5に示すデータベースは、キーワードをデータと共に保持する形式で示されているが、これは説明の都合上のものであり、この形式に限定されるものではない。
【0054】
図1に示すデータ検索部110は、語拡張部106より与えられた拡張検索キーに含まれる語と同一の語がキーワードに含まれているデータ項目をデータベース108から検索し、検索結果をランク計算部114に与えるための検索結果情報を作成する機能を有する。図6に、データ検索部110が作成し、ランク計算部114に与える検索結果情報の一例を示す。図6を参照して、検索結果情報240は複数の項目242、244、246、…を含む。これらは、それぞれ検索結果であるデータ項目の項目番号248と、検索時に拡張検索キーと一致したキーワード250とを含む。
【0055】
図7に、属性辞書記憶部112(図1参照)に記憶されている属性辞書の構成を示す。図7を参照して、属性辞書260は、多数の項目262、264、266、268、…を含む。各項目は、語270と、語を識別するための語番号272と、語の属性を示す属性情報274とを含む。属性情報274は、語の属性を、属性の種類を示す属性項目276、278、280、…ごとにそれぞれ数値化した属性値を含む情報である。図7に示す属性辞書260では、語に、属性項目に示される属性が備わっている場合に属性値「1」を、備わっていない場合には属性値「0」が与えられている。これらの属性値は、調査に基づいて設定しておいてもよいし、利用者本人が設定する様にしてもよい。
【0056】
図1に示すランク計算部114は、与えられた検索結果情報を元に、属性辞書記憶部112に記憶されている属性辞書を参照して、出力するデータ項目の優先順位を付ける機能を有する。ランク計算部114が出力するデータ項目の優先順位を付ける方法の一例を説明する。
【0057】
例えば、属性辞書記憶部112に記憶されている属性辞書が、図7に示す属性辞書260であり、ランク計算部114に入力語として「釣り」という語が与えられ、検索結果情報として図6に示される検索結果情報240が与えられたとする。このとき、図6に示す検索結果情報240に記載されている項目244のキーワードは「温泉」である。図7を参照して、「温泉」という語を含む項目262と、入力語である「釣り」という語を含む項目266とは、属性項目「のんびり」276の属性値と、属性項目「和風」280の属性値が一致する。よって、図6に示す検索結果情報240の項目244の得点は2点となる。この様にして算出した得点の降順に出力するデータ項目の優先順位を決定する。
【0058】
図1から図7を参照して、本実施の形態に係る情報検索装置100は、以下の様に動作する。
【0059】
図1を参照して、利用者が文字列取得部102を用いて入力語を入力した事に応答して、文字列取得部102は、入力語を語拡張部106に与える。
【0060】
入力語を与えられた語拡張部106は、概念辞書記憶部104に記憶された図3に示す概念辞書160内で入力語が含まれている項目を探し出す。次に語拡張部106は、入力語が記載された項目の概念情報190を参照し、入力語の上位概念の語と、下位概念の語とを拡張語として取得する。語拡張部106は、取得した拡張語の概念情報190を参照して、拡張語の上位概念の語と下位概念の語とを取得する動作を所定の回数(本実施の形態では3回)繰返して拡張語を取得し、入力語及び取得した拡張語から拡張検索キーを作成する。作成された拡張検索キーは、データ検索部110に与えられる。
【0061】
データ検索部110は、与えられた拡張検索キーによって、データベース108に格納されているデータを検索する。データ検索部110は、拡張検索キーに含まれる語のいずれかと一致するキーワードを含むという条件に該当するデータ項目の項目番号と、一致したキーワードとをデータベース108から読出す。
【0062】
例えば、データベース108には図5に示すデータ210が記憶されており、データ検索部110には図4に示す拡張検索キー200が与えられたとする。このときデータ検索部110は、拡張検索キー200に含まれる語と一致するキーワードを含むデータ項目212、214、及び216の項目番号222とキーワード224とを検索結果として読出す。データ検索部110は、読出した項目番号及びキーワードを元に検索結果情報を作成する。作成された検索結果情報は入力語と共にランク計算部114に与える。
【0063】
入力語と検索結果情報とが与えられた事に応答して、ランク計算部114は、入力語の属性情報と、検索結果情報に含まれるキーワードの属性情報とを属性辞書記憶部112から読出す。ランク計算部114は、読出した属性情報の各属性項目について、入力語の属性値とキーワードの属性値とを比較し、両者の属性値が一致した数だけ検索結果情報に得点を付与する。この動作を検索結果情報に含まれるすべてのキーワードに対して行ない、当該の検索結果情報の得点とする。ランク計算部114は、算出した得点が高い順に、検索結果情報に記載された項目番号を並べたランク表を作成し、データ選択部116に与える。
【0064】
データ選択部116は、与えられたランク表の上位から、所定の数だけの項目番号を読出す。データ選択部116はさらに、読出した項目番号のデータ項目を、データベース108から読出して、読出したデータ項目を出力部118に与える。出力部118は与えられたデータを出力する。
【0065】
本実施の形態1に係る情報検索装置100は、一般的なコンピュータ、又は携帯情報端末装置と、それらの上で実行されるコンピュータプログラムにより実現できる。以下、情報検索装置100に関する所望の機能を実現するためのプログラムの制御構造について説明する。
【0066】
図8に情報検索装置100が実行するプログラムのフローチャートを示す。図8を参照して、情報検索装置100がプログラムを開始すると、制御はステップ(以下、ステップを単に「S」と表記する。)302に進む。S302では、情報検索装置100は検索キーとなる文字列を取得する。制御はS304に進む。
【0067】
S304では、取得した検索キーとなる文字列を入力語とし、入力語を元に、拡張検索キーを作成する。制御はS306に進む。
【0068】
S306では、入力語と、S304の制御によって作成した拡張検索キーによって、データベースに保持されているデータを検索し、検索結果であるデータ項目の項目番号と、当該のデータ項目に関連付けられたキーワードとを取得する。制御はS308に進む。
【0069】
S308では、S306の制御によって取得したキーワードの属性情報と入力語の属性情報とを比較し、各データ項目に得点を付ける。制御はS310に進む。
【0070】
S310では、出力するデータとして、高得点のデータ項目から順に所定の数のデータ項目を選択する。続くS312では、選択されたデータ項目のデータを出力する。以上の制御が終了した後、このプログラムは終了する。
【0071】
以上の様に本実施の形態1に係る情報検索装置100は、与えられた入力語から、拡張検索キーを作成してデータを検索するため、入力語によって表現される概念を含む広範囲の概念と符合する情報を検索する事ができる。また、検索の結果得られた情報に対して、語の属性に基づく順位付けを行ない、順位に基づいて検索結果を出力するため、入力語と類似した性質を表現する情報が優先的に出力される。そのため、入力された語との間に高い関連性を有する情報を検索結果として出力する事ができる。
【0072】
[実施の形態2]
実施の形態1に係る情報検索装置100は、語によって表現される概念に基づいてデータの検索範囲を拡張し、語の属性に基づいて検索結果を出力する際の優先順位を決定するものであった。しかし、本発明は、この様な実施の形態には限定されない。
【0073】
本実施の形態2に係る情報検索装置は、検索結果を出力する際の優先順位を決定する際に、入力語と、検索結果であるデータ項目のキーワードとの語の属性の類似性のみならず、入力語と、キーワードとの語の概念の関連性を加味した基準によって優先順位の決定を行なう。
【0074】
図9に、本実施の形態2に係る情報検索装置の構成を、ブロック図形式で示す。図9を参照して、本実施の形態2に係る情報検索装置400は、図1に示す実施の形態1に係る情報検索装置100と同一の文字列取得部102と、概念辞書記憶部104と、語拡張部106と、データベース108と、データ検索部110と、データ選択部116と、出力部118とを含む。
【0075】
情報検索装置400はさらに、図1に示す実施の形態1に係る属性辞書記憶部112に替えて、属性辞書記憶部112と異なり、語がどの程度属性を備えているかを数値化した属性値からなる属性情報によって構成された属性辞書を記憶する属性辞書記憶部412を含む。
【0076】
情報検索装置400はさらに、データ検索部110及び概念辞書記憶部104に接続され、概念辞書記憶部104に記憶されている概念情報に基づいて、検索結果であるデータ項目のキーワードと入力語との概念の関連性を示す値である概念距離を計算する概念距離計算部402と、データ検索部110及び属性辞書記憶部412に接続され、属性辞書記憶部412に記憶されている属性情報に基づいて、検索結果であるデータ項目が利用者に与える心情的な印象と、入力語とが利用者に与える心情的な印象との類似性を示す値である心的距離を計算する心的距離計算部404とを含む。
【0077】
情報検索装置400はさらに、図1に示すランク計算部114に替えて、概念距離計算部402、心的距離計算部404、及びデータ選択部116に接続され、概念距離計算部402によって数値化された概念距離と、心的距離計算部404によって数値化された心的距離とに基づいて、検索されたデータ項目をランク付けするランク計算部414を含む。
【0078】
概念距離計算部402は、概念辞書記憶部に記憶されている概念情報に基づいて、概念距離を計算する機能を有する。以下に、概念距離の計算方法の一例を示す。
【0079】
語の概念が図2に示す樹形図によって模式化されるとする。概念距離計計算部402は、図2を参照して、この樹形図上で語Wが位置するノードとWが位置するノードとを繋ぐパス130の本数を、2つの語W、W間の概念距離d(W,W)とする。この計算方法を用いると、例えば「釣り」という語138と、「アウトドア」という語134との間の概念距離d(「釣り」,「アウトドア」)は1と計算される。また例えば、「釣り」という語138と、「温泉」という語142との間の概念距離d(「釣り」,「温泉」)は4と計算される。また、入力語とキーワードが同一の語である場合、概念距離を0とする。以上の様にして計算した概念距離によると、語の概念の関連性が高いほど、概念距離は小さくなる。
【0080】
図10に、本実施の形態2に係る属性辞書記憶部412が記憶する属性辞書の構成を示す。図10を参照して、本実施の形態2に係る属性辞書記憶部412に記憶される属性辞書440は、多数の項目442、444、446、448、…を含む。各項目は図7に示す実施の形態1に係る属性辞書260と同様の構成を有するが、次の点で異なる。即ち、図7に示す属性辞書260の属性値は、各属性項目に関して、語が属性を備えているか否かを2値的に示した値であったのに対して、本実施の形態2に係る属性辞書440の属性値は、各属性項目に関して、語がどの程度属性を備えているかを示す「0」から「10」の整数値を属性値としている。その他の点については、実施の形態1に係る属性辞書260と実施の形態2に係る属性辞書440とは同一である。なお、属性辞書440の属性値には、調査に基づいて統計的に算出した値を用いてもよいし、利用者が設定した値を用いてもよい。
【0081】
心的距離計算部404は、図10に示す属性情報に基づいて、心的距離を計算する機能を有する。以下に、心的距離の計算方法の一例を説明する。
【0082】
属性辞書記憶部412(図9参照)に記憶されている語の属性情報が、図10に示す属性辞書440によって定義されているとする。図10を参照して、属性情報は先にも述べた様に、各属性項目に関して語がどの程度属性を備えているかを示す属性値を含む。定義されている属性項目の総数をnとし、ある語Wの属性項目A(1≦k≦n)における属性値をa とすると、この語Wの属性情報はa をそれぞれ成分とするn次元の属性情報ベクトルとして表現される。即ち語Wの属性は、n次元のベクトル空間上で属性情報ベクトルによって定義される。このベクトルをwとする。そして、語Wの属性と、語Wの属性との間のユークリッド距離の2乗を下記の数式1によって計算し、これから語Wと語Wとの間の心的距離s(W,W)を計算する。
【0083】
【数1】
Figure 2005010848
例えば、図10を参照して、第1の属性項目Aを属性項目「のんびり」276、第2の属性項目Aを属性項目「スリリンク」278、第3の属性項目Aを属性項目「和風」280とし、「釣り」という語を語W、「パラグライダー」という語を語Wとする。語Wi、及び語Wjの属性情報ベクトルw、wは、項目446及び項目448を参照して、それぞれ、w=(10,2,6)、w=(0,10,1)となる。よって、語Wと、語Wとの間の心的距離の2乗は、
【0084】
【数2】
Figure 2005010848
となる。よって、「釣り」という語と、「パラグライダー」という語との間の心的距離s(「釣り」,「パラグライダー」)は、
【0085】
【数3】
Figure 2005010848
となる。以上の様にして計算した心的距離によると、二つの語の属性が類似するほど、それらの語の間の心的距離は小さくなる。
【0086】
本実施の形態2に係る情報検索装置400は、以下の様に動作する。
【0087】
図9を参照して、実施の形態1に係る情報検索装置100と同様に、利用者が入力語を入力した事に応答し、文字列取得部102は、入力語を語拡張部106に与える。語拡張部106は、実施の形態1と同様の動作で拡張検索キーを作成し、データ検索部110に与える。データ検索部110は、実施の形態1と同様の動作で、拡張検索キーによって、データベース108に記憶されているデータの検索を行ない、検索結果情報を作成する。データ検索部110は、入力語と、作成した検索結果情報とを出力する。これらは概念距離計算部402、及び心的距離計算部404に与えられる。
【0088】
概念距離計算部402は、入力語と検索結果情報とが与えられた事に応答して、概念辞書記憶部104に記憶されている概念辞書に基づいて、入力語の概念と検索結果情報に含まれる各データ項目のキーワードの概念との間の概念距離を計算し、与えられた検索結果情報の各項目に、計算によって得られた入力語とキーワードとの間の概念距離を添付して、ランク計算部414に与える。
【0089】
一方、図9を参照して、心的距離計算部404は、データ検索部110から入力語及び検索結果情報が与えられた事に応答して、属性辞書記憶部412に記憶されている属性情報に基づいて、入力語と各データ項目のキーワードとの間の心的距離を計算し、与えられた検索結果情報の各項目に、計算によって得られた入力語とキーワードとの間の心的距離を添付して、ランク計算部414に与える。
【0090】
ランク計算部414、概念距離が添付された検索結果情報が概念距離計算部402から与えられたという条件、及び心的距離が添付された検索結果情報が心的距離計算部404から与えられたという条件の両方が満たされた事に応答して、検索結果情報に記載された各データ項目について、概念距離と心的距離との和をそれぞれ算出する。
【0091】
先述の通り、与えられた概念距離の値が小さいという事は、入力語の概念とキーワードの概念とが高い関連性をもっている事を示す。また、心的距離が小さいという事は、入力語の属性と、キーワードの属性との類似性が高い事を示す。そのため、ランク計算部414は、入力語の概念と高い関連性をもつデータ項目、又は入力語の属性と類似した属性のデータ項目を優先的に出力させるために、概念距離と心的距離との和が小さいデータ項目から順に、データ項目の項目番号を並べたランク表を作成し、データ選択部116に与える。
【0092】
データ選択部116は、与えられたランク表の上位から、所定の数だけ項目番号を読出し、読出した項目番号によって識別されるデータ項目を、データベース108から読出して、出力部118に与える。出力部118は与えられたデータを出力する。
【0093】
本実施の形態2に係る情報検索装置400は、実施の形態1に係る情報検索装置100と同様に、一般的なコンピュータ、又は携帯情報端末と、それらの上で実行されるコンピュータプログラムにより実現できる。以下、情報検索装置400に関する所望の機能を実現するためのプログラムの制御構造について説明する。
【0094】
図11に、本実施の形態2に係る情報検索装置400が実行するプログラムのフローチャートを示す。図11を参照して、本実施の形態2に係る情報検索装置400がプログラムを開始すると、まずS302で、入力語を取得し、S304では取得した入力語を元に拡張検索キーを作成する。続くS306では、作成した拡張検索キーを用いてデータベース108に保持されているデータを検索し、検索結果と、検索結果であるデータ項目と関連付けられているキーワードとを取得する。
【0095】
本実施の形態2に係る情報検索装置400が実行するプログラムにおいては、S306の処理が終了した後、制御はS508に進む。
【0096】
S508では、取得したキーワードについて、概念距離と心的距離との和をすべて算出したか否かを判定する。概念距離と心的距離との和をすべて算出しているならば、制御はS516に進む。算出していない検索結果があるならば、制御はS510に進む。
【0097】
S510では、入力語と、検索結果のデータ項目と関連付けられたキーワードとの間の概念距離を算出する。S512では、入力語とキーワードとの間の心的距離を算出する。続くS514では、概念距離と心的距離との和を算出する。制御はS508に戻る。
【0098】
S516では、概念距離と心的距離の和が小さな検索結果が上位になる様に、検索結果であるデータ項目にランク付けをする。制御は、S310に進む。
【0099】
S310では、図8に示す実施の形態1に係るプログラムによる制御と同様に、ランクが上位のデータ項目から順に所定数のデータ項目を選択し、続くS312で、選択したデータ項目を出力する。以上の制御が終了した後、このプログラムは終了する。
【0100】
以上の様に、実施の形態2に係る情報検索装置400は、検索の結果得られた情報に対して、属性の類似性、及び概念の関連性に基づく順位付けを行ない、順位に基づいて検索結果を出力する。そのため、概念的にも性質的にも、入力語と高い関連性を有する情報を検索結果として出力する事が可能となる。
【0101】
[実施の形態3]
実施の形態2において、概念距離、及び心的距離によって検索結果の優先順位を決定する機能を例示した。しかし本発明は、その様な実施の形態には限定されるものではない。
【0102】
本実施の形態に係る情報検索装置は、出力された情報の履歴に基づいて属性項目の重要度を算出し、算出した重要度によって、属性項目に重み付けを行なって心的距離の計算を行なう機能をさらに有する。
【0103】
図12に、本実施の形態3に係る情報検索装置の構成をブロック図形式で示す。図12を参照して、本実施の形態3に係る情報検索装置600は、図9に示す実施の形態2に係る情報検索装置400の文字列取得部102、概念辞書記憶部104、語拡張部106、データベース108データ検索部110、データ選択部116、出力部118に加えて、データ選択部116に接続され、データ選択部116によって選択されたデータ項目の項目番号を取得し、出力したデータ項目の履歴として記録する履歴記録部602と、履歴記録部602及びデータベース108に接続され、利用者の嗜好を示す嗜好データを作成する嗜好抽出部604と、属性辞書記憶部412、及び嗜好抽出部604に接続され、嗜好データ、及び属性辞書の属性情報を元に、属性辞書の各属性項目の重要度を算出する重み調整部606とを含む。
【0104】
本実施の形態3に係る情報検索装置600はさらに、図9に示す実施の形態2に示す心的距離計算部404に替えて、データ検索部110、属性辞書記憶部412、ランク計算部416、及び重み調整部606に接続され、属性辞書記憶部412に記憶されている情報、及び重み調整部606によって算出された重要度を元に、二つの語の間の心的距離を計算する心的距離計算部608を含む。
【0105】
図13に本実施の形態3に係る履歴記録部602が記録する履歴情報の構成を示す。図13を参照して、履歴情報620は、複数の履歴項目を含む。各履歴項目は、過去に情報検索装置600が出力したデータ項目の項目番号622と、データ項目が出力された日時624とを含む。項目番号622は、嗜好抽出部604(図12参照)が嗜好データを作成する際に用いられる。
【0106】
図14に嗜好抽出部604が作成する嗜好データの構成を示す。図14を参照して、嗜好データ640の各項目は、現在までに出力されたデータ項目と関連付けられているキーワードを示す出力キーワード642と、当該のキーワードと関連付けられているデータ項目が出力された回数を示す出力頻度644とを含む。出力頻度644は、出力されたデータ項目と関連付けられているキーワード群に、出力キーワード622が含まれている場合に加算される。この出力キーワードの出力頻度が高い値であるという事により、情報検索装置600の利用者が、当該の出力頻度が高いキーワードの属性を好む傾向がある事が示される。
【0107】
図12に示す重み調整部606は、先述の通り、嗜好抽出部604が作成する嗜好データ、及び属性辞書記憶部412に記憶されている属性情報を元に、属性項目の重要度を計算する機能を有する。以下に、重み調整部606が算出する重要度の計算方法の一例を説明する。
【0108】
与えられた嗜好データに、総数hの出力キーワードK(1≦m≦h)が含まれているものとする。出力キーワードKの出力頻度をfで表わす。出力キーワードKと一致する語の属性項目Aにおける属性値をal,mとする。このとき、属性項目Aの重要度Iは以下の数式4によって算出される。
【0109】
【数4】
Figure 2005010848
例えば、重み調整部606に図14に示す嗜好データ640が与えられ、図10に示す属性辞書440に記載された属性情報を元に、各属性項目の重要度を算出する場合を考える。属性項目236、238、240の重要度をそれぞれI、I、Iとすると、
【0110】
【数5】
Figure 2005010848
となる。
【0111】
本実施の形態3に係る心的距離計算部608が行なう心的距離の計算方法の一例を、以下に説明する。
【0112】
定義されている属性項目の総数をn、語Wの属性項目A(1≦k≦n)における属性値をai,k、属性項目Aの重要度をIとする。心的距離計算部608は、Iの逆数を重み値とする、語Wと語Wとの間の重み付きユークリッド距離の2乗を下記の数式6によって計算し、語Wと語W間の心的距離s(W,W)を計算する。
【0113】
【数6】
Figure 2005010848
【0114】
本実施の形態3に係る情報検索装置600は、以下の様に動作する。
【0115】
図12を参照して、情報検索装置600が起動すると、嗜好推定部604が、履歴記録部602に記録されている履歴情報を読出す。嗜好推定部602はさらに、履歴情報に記載されている項目番号のデータ項目と関連付けられているキーワードを、データベース108から読出す。読出したキーワードを出力キーワードとして、履歴情報に基づき出力頻度を算出し、嗜好データを作成する。作成した嗜好データは、重み調整部606に与えられる。
【0116】
嗜好データが与えられた事に応答して、重み調整部606は、嗜好データに含まれている出力キーワードと一致する語の属性情報を、属性辞書記憶部412から読出す。重み調整部606は、与えられた嗜好データと、読出した属性情報とを元に、各属性項目の重要度を算出する。算出した各属性項目の重要度は、心的距離計算部608に与えられる。
【0117】
一方、利用者が語を入力すると、文字列取得部102が入力語を語拡張部106に与える。語拡張部106は、概念辞書記憶部104に記憶された概念辞書を参照して拡張検索キーを作成し、データ検索部110に与える。データ検索部110は、拡張検索キーによって、データベース108に記憶されているデータの検索を行ない、検索結果情報を作成する。データ検索部110は、入力語と、作成した検索結果情報を出力する。出力された入力語と、作成した検索結果情報とは、概念距離計算部402、及び心的距離計算部608に与えられる。
【0118】
概念距離計算部402は、実施の形態2と同様に、入力語の概念と検索結果情報に含まれる各データ項目のキーワードの概念との間の概念距離を計算し、入力語とキーワードとに、概念距離を添付して、ランク計算部414に与える。
【0119】
一方、心的距離計算部608は、データ検索部110から入力語と検索結果情報とを与えられた事に応答して、属性辞書記憶部412に記憶されている属性情報、及び重み調整部606より与えられた各属性項目の重要度に基づいて、入力語の属性と、検索結果情報に記載された各データ項目のキーワードとの心的距離を計算する。
【0120】
図12を参照して、心的距離計算部608は、与えられた検索結果情報の各項目に、計算によって得られた入力語とキーワードとの間の心的距離を添付して、ランク計算部414に与える。
【0121】
ランク計算部414は、概念距離を含む検索結果情報が概念距離計算部402から与えられたという条件、及び心的距離を含む検索結果情報が心的距離計算部608から与えられたという条件の両方が満たされた事に応答して、検索結果情報に添付された概念距離、及び心的距離を読出し、検索結果情報に含まれる各データ項目について、概念距離と心的距離との和をそれぞれ算出する。
【0122】
ランク計算部414は、概念距離と心的距離との和の昇順に、データ項目の項目番号をソートしてランク表を作成し、データ選択部116に与える。データ選択部116は、与えられたランク表の上位から、所定の数だけデータ項目の項目番号を読出す。データ選択部116は、読出した項目番号のデータ項目を、データベース108から読出して、出力部118に与えると共に、読出したデータ項目の項目番号を、履歴記録部602に与える。出力部118は与えられたデータを出力し、履歴記録部602は、与えられた項目番号を履歴情報に加え、履歴情報を更新する。
【0123】
本実施の形態3に係る情報検索装置600は、実施の形態1、又は実施の形態2に係る情報検索装置と同様に、一般的なコンピュータ、又は携帯情報端末と、それらの上で実行されるコンピュータプログラムにより実現できる。以下、情報検索装置600に関する所望の機能を実現するためのプログラムの制御構造について説明する。
【0124】
図15に、本実施の形態3に係る情報検索装置600が実行するプログラムのフローチャートを示す。図15を参照して、まずS702で、記録されている履歴情報を読出し、データベースと照合して、出力キーワードを抽出する。S704では、履歴情報とデータベースとを照合して、S702で抽出した出力頻度を算出する。続くS706では、S702で抽出した出力キーワードと一致する語の属性情報、及びS704で算出した出力頻度に基づき、属性辞書に記載されている各属性項目の重要度を算出する。制御はS302に進む。
【0125】
図11に示す実施の形態2に係るプログラムと同様に、S302で、入力語を取得し、S304では取得した入力語を元に、拡張検索キーを作成する。続くS306では、S304で作成した拡張検索キーを用いて、データベースに保持されているデータを検索し、検索結果と、検索結果であるデータ項目と関連付けられているキーワードとを取得する。制御はS508に進む。
【0126】
S508では、取得したキーワードについて、入力語との間の概念距離と心的距離との和をすべて算出したか否かを判定する。概念距離と心的距離との和をすべて算出しているならば、制御はS516に進む。算出していない検索結果があるならば、制御はS510に進む。
【0127】
S510では、入力語と、検索結果のデータ項目と関連付けられたキーワードとの間の概念距離を算出する。制御はS708に進む。
【0128】
S708では、S706で算出した、各属性項目の重要度の逆数を重みとして、入力語とキーワードとの間の心的距離を算出する。続くS514では、図11に示す実施の形態2に係るプログラムによる制御と同様の制御で、概念距離と心的距離との和を算出する。制御はS508に戻る。
【0129】
S516では、概念距離と心的距離との和の昇順に、検索結果であるデータ項目をソートし、ランク付けをする。制御はS310に進み、図8に示す実施の形態1と同様に、上位のデータ項目から順に、所定の数のデータ項目を選択する。続くS312では、選択されたデータ項目を出力する。制御はS710に進む。
【0130】
S710では、S516で選択したデータ項目のデータ番号を元に、履歴情報を更新する。以上の制御が終了した後、このプログラムは終了する。
【0131】
本実施の形態3に係る情報検索装置600は、出力されたデータ項目の履歴に基づいて、利用者の嗜好を推定し、属性項目の重要度を算出する。算出した重要度が高い属性項目は、利用者が好む性質の項目であると考えられる。この属性項目の重要度を加味して心的距離を計算する事により、利用者が重視する情報の性質を推定し、利用者が重視する性質に関して、入力された語と高い関連性を有する情報を検索結果として出力する事が可能となる。
【0132】
実施の形態1から実施の形態3を例示するにあたり、拡張語を取得する方法の一例として、入力語の上位概念を表現する語と下位概念を表現する語とを取得し、取得した語のさらに上位概念を表現する語と、下位概念を表現する語とを取得する方法を例示した。しかし、拡張語を取得する方法は、この様な方法に限定されない。例えば、入力語の概念の下位概念を表現する語をすべて取得する様にしてもよい。
【0133】
実施の形態1から実施の形態3を例示するにあたり、概念辞書記憶部に記憶される概念辞書は、語の概念の上位、又は下位関係を示すものとしたが、概念辞書が示す語と語との関連性は、この様な上位、下位関係に限定しない。例えば、語と、その語の類義語とを関連付ける類義語辞典の様なものでもよい。概念辞書は、ある語と語との関連性を示すものであれば、その形態を問わない。
【0134】
また、実施の形態1に係る属性辞書は、実施の形態2又は実施の形態3に係る属性辞書の様な属性値を記載した辞書であってもよい。さらに、実施の形態1に係るランク計算部は、実施の形態2に係る心的距離を計算し、心的距離に基づくランク付けを行ってもよい。
【0135】
また、実施の形態1から実施の形態3に係る属性辞書に含まれる属性値は、語に備わる性質を、性質の種類ごとに数値化したものであれば、属性値、及び属性値の決定方法を問わない。
【0136】
実施の形態2、及び実施の形態3において、心的距離の計算方法として、ユークリッド距離、又は重み付きユークリッド距離を用いる計算方法を例示したが、心的距離を計算する方法はこの様な方法には限定されない。例えば、語の属性ベクトルに基づいてシティーブロック距離を算出する事により、心的距離を計算する様にしてもよい。
【0137】
実施の形態2、及び実施の形態3において、心的距離と、概念距離との和に基づいてデータ項目のランク付けを行なう例を示した。しかし、ランク付けを行なうために用いる値を算出するための計算方法は、この様な方法には限定されない。例えば、心的距離と概念距離とにそれぞれ所定の係数を掛けて正規化し、これら正規化した心的距離と正規化した概念距離との和をランク付けの基準となる値として用いてもよい。さらに、概念距離に掛ける係数と心的距離に掛ける係数とを利用者の好みに応じて設定し、概念距離と心的距離とを正規化する際に、設定した係数を掛ける様にしてもよい。また、ランク付けの基準となる値として、心的距離と概念距離との積を用いてもよい。
【0138】
実施の形態1から実施の形態3に係る情報検索装置の一例として、情報検索装置に含まれる各部が一体の構成を例示した。しかし本発明はそうした実施の形態には限定されない。例えば、情報検索装置を構成する各部が、2以上の筐体に分割されていてもよい。ただし、それらは互いに通信可能である必要がある。
【0139】
以上に例示した各実施の形態は前述の様に、コンピュータ及びコンピュータ上で動作するソフトウェアにより実現する事もできる。もちろん、以下に述べる機能の一部又は全部を、ソフトウェアでなくハードウェアで実現する事も可能である。
【0140】
図16に、本実施の形態で利用されるコンピュータシステム800の外観図を、図17にコンピュータシステム800のブロック図を、それぞれ示す。なおここに示すコンピュータシステム800はあくまで一例であり、この他にも種々の構成が可能である。
【0141】
図16を参照して、コンピュータシステム800は、コンピュータ820と、モニタ822、キーボード826、及びパッド型ポインティングデバイス828を含む。コンピュータ800にはさらに、CD―ROM(Compact Disc Read−Only Memory)ドライブ830が内蔵されている。
【0142】
図17を参照して、コンピュータシステム800はさらに、コンピュータ800に接続されるプリンタ824を含むが、これは図16には示していない。またコンピュータ800はさらに、CD―ROMドライブ830に接続されたバス846と、いずれもバス846に接続された中央演算装置(Central Processing Unit:CPU)836と、コンピュータシステム800のブートアッププログラムなどを記憶したROM(Read−Only Memory)838と、CPU836が使用する作業エリア及びCPU836により実行されるプログラムの格納エリアを提供するRAM(Random Access Memory)840と、データベース、概念辞書、又は属性辞書などを格納するハードディスク834とを含む。
【0143】
実施の形態1から実施の形態3で例示した情報検索装置の動作を実現するソフトウェアは、例えば、CD―ROM842の様な記録媒体上に記録されて流通し、CD―ROMドライブ830の様な読取装置を介してコンピュータ800に読込まれ、ハードディスク834に格納される。CPU836がこのプログラムを実行する際には、ハードディスク834からこのプログラムを読出してRAM840に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。CPU836は、処理対象のデータをハードディスク834から読出し、処理結果を同じくハードディスク834に格納する。
【0144】
コンピュータシステム800の動作自体は周知であるので、ここではその詳細については繰返さない。
【0145】
なお、ソフトウェアの流通形態は上記した様に記録媒体に固定された形には限定されない。例えば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通する事もあり得る。また、ソフトウェアの一部がハードディスク834中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク834に取込んで実行時に統合する様な形の流通形態もあり得る。
【0146】
現代のプログラムはコンピュータのオペレーティングシステム(OS)又はいわゆるサードパーティ等によって提供される汎用の機能を利用し、それらを所望の目的に従って組織化した形態で実行する事により、所望の目的を達成するものが一般的である。従って、実施の形態1から実施の形態3において例示した各機能のうち、OS又はサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合せだけを指定するプログラム(群)であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム(群)である限り、それらが本発明の技術的範囲に含まれる事は明らかである。
【0147】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【0148】
【発明の効果】
以上の様に、本発明の第1の局面によると、広範囲な情報から情報を検索する事ができる様になり、入力された語との間に高い関連性を有する情報を検索できる。そのため、検索精度と再現性とを向上できる。
【0149】
また、具体的な基準に基づく検証を行なったり、多面的に情報を評価する事により、入力された語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索をしたりする事ができる。
【0150】
さらに、利用者が重視する性質に関して、入力された語と高い関連性を有する情報を検索する事ができる。さらに、利用者が重視する情報の性質を推定する事が可能となり、利用者が入力した語が利用者に想起させるイメージと類似のイメージを利用者に想起させる情報を検索できる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る情報検索装置100の構成を示すブロック図である。
【図2】本発明の実施の形態に係る概念辞書記憶部104に記憶される語の概念の関連性を示す模式図である。
【図3】本発明の実施の形態に係る概念辞書記憶部104に記憶されている概念辞書の構成を示す図である。
【図4】本発明の実施の形態1に係る語拡張部106が作成した拡張検索キーの構成を示す図である。
【図5】本発明の実施の形態に係るデータベース108に保持されているデータの構成を示す図である。
【図6】本発明の実施の形態1に係るデータ検索部110が作成する検索結果情報の構成を示す図である。
【図7】本発明の実施の形態1に係る属性辞書記憶部112に記憶されている属性辞書の構成を示す図である。
【図8】本発明の実施の形態1に係る情報検索装置100が実行するプログラムのフローチャートである。
【図9】本発明の実施の形態2に係る情報検索装置400の構成を示すブロック図である。
【図10】本発明の実施の形態2に係る属性辞書記憶部412が記憶する属性辞書の構成を示す図である。
【図11】本発明の実施の形態2に係る情報検索装置400が実行するプログラムのフローチャートである。
【図12】本発明の実施の形態3に係る情報検索装置600の構成を示すブロック図である。
【図13】本発明の実施の形態3に係る履歴記録部602が記録する履歴情報の構成を示す図である。
【図14】本発明の実施の形態3に係る嗜好抽出部604が作成する嗜好データの構成を示す図である。
【図15】本発明の実施の形態3に係る情報検索装置600が実行するプログラムのフローチャートである。
【図16】本発明の実施の形態で利用されるコンピュータシステム800の外観図である。
【図17】本発明の実施の形態で利用されるコンピュータシステム800の構成を示すブロック図である。
【図18】従来の技術における、辞書データの模式図である。
【図19】従来の技術における、辞書データに記載された語を検索キーとして情報を検索したときに得られる情報の一例を示す図である。
【符号の説明】100、400、600 情報検索装置、102 文字列取得部、104 概念辞書記憶部、106 語拡張部、108 データベース、110 データ検索部、112、412 属性辞書記憶部、114、414 ランク計算部、116 データ選択部、118 出力部、160 概念辞書、260、440 属性辞書、402 概念距離計算部、404、608 心的距離計算部、602 履歴記録部、604 嗜好抽出部、606 重み調整部、620履歴情報、640 嗜好データ、800 コンピュータシステム、820 コンピュータ、822 モニタ、824 プリンタ、826 キーボード、828パッド型ポインティングデバイス、830 CD−ROMドライブ、834 ハードディスク、836 CPU、838 ROM、840 RAM、842 CD−ROM、846 バス

Claims (12)

  1. 第1の語を示す文字列を取得するための文字列取得手段と、
    複数の語に関して、語の概念間の階層的な関係を示す概念情報を保持するための概念情報保持手段と、
    前記文字列が示す前記第1の語によって表現される概念と関連性のある概念を表現する第2の語を、前記概念情報に基づいて、前記概念情報保持手段より収集するための語収集手段と、
    検索対象となる情報を保持するためのデータベースと、
    前記第1の語、及び前記第2の語を検索キーとして、前記データベースから、前記第1の語、及び前記第2の語のいずれかと一致するキーワードと、当該一致するキーワードに対応する前記データベースに保持されている情報とを抽出するための抽出手段と、
    複数の語に関して、語の属性を示す情報を取得するための手段と、
    前記第1の語の属性と、前記一致するキーワードの属性との類似性を基準として、前記抽出手段が抽出した情報の優先順位を決定するための順位決定手段と、
    前記順位決定手段が決定した優先順位に従って、前記抽出した情報を出力するための出力手段とを含む、情報検索装置。
  2. 前記順位決定手段は、
    前記取得するための手段が取得した、前記第1の語の属性を示す情報と、前記一致するキーワードの属性を示す情報とを元に、前記第1の語の属性と、前記一致するキーワードの属性との類似性を示す得点を算出するための得点算出手段と、
    前記得点算出手段が算出した得点を基準として、前記抽出手段が抽出した情報の優先順位を決定するための決定手段とを含む、請求項1に記載の情報検索装置。
  3. 前記取得するための手段は、複数の語の各々に関して、当該語の属性を、属性ごとに予め設定された属性値によって示す属性情報を保持するための属性情報保持手段を含み、
    前記順位決定手段は、
    前記属性情報保持手段に保持された、前記第1の語に関する属性情報と、前記一致するキーワードに関する属性情報とを元に、前記第1の語と、前記一致するキーワードとの心的距離を算出するための心的距離算出手段と、
    前記心的距離算出手段が算出した心的距離を基準とし、前記抽出手段が抽出した情報の優先順位を決定するための決定手段とを含む、請求項1に記載の情報検索装置。
  4. 前記順位決定手段は、
    前記概念情報保持手段に保持された、前記第1の語に関する概念情報と、前記一致するキーワードに関する概念情報とを元に、前記第1の語と、前記一致するキーワードとの概念距離を算出するための概念距離算出手段と、
    前記第1の語と、前記一致するキーワードとの組合せごとに、前記心的距離と、前記概念距離とを統合した基準値を作成するための手段とをさらに含み、
    前記決定手段は、前記基準値を基準として、前記抽出手段が抽出した情報の優先順位を決定するための手段を含む、請求項3に記載の情報検索装置。
  5. 前記心的距離算出手段は、
    前記各属性の重要度を設定するための重要度設定手段と、
    前記属性情報保持手段に保持された、前記第1の語に関する属性情報、前記一致するキーワードに関する属性情報、及び前記重要度設定手段が設定した前記各属性の重要度を元に、前記第1の語と、前記一致するキーワードとの心的距離を算出するための手段とを含む、請求項3に記載の情報検索装置。
  6. 前記重要度設定手段は、
    前記出力手段が出力した情報の履歴を記録するための履歴記録手段と、
    前記履歴記録手段が記録した履歴に基づき、前記各属性の重要度を設定するための手段とを含む、請求項5に記載の情報検索装置。
  7. 前記設定するための手段は、
    前記履歴と、前記データベースとを照合する事により、情報に対する利用者の嗜好を推定するための嗜好推定手段と、
    前記嗜好推定手段が推定した嗜好と、前記属性情報保持手段が保持する属性情報とを元に、前記各属性の重要度を設定するための手段とを含む、請求項6に記載の情報検索装置。
  8. 前記嗜好推定手段は、
    前記履歴と、前記データベースとを照合し、キーワードごとに、当該キーワードに対応する前記データベースに保持されている情報が出力された頻度を算出するための手段と、
    前記キーワードごとの頻度、及び前記属性情報保持手段に保持された前記キーワードの属性を元に、情報に対する利用者の嗜好を推定するための手段とを含む、請求項7に記載の情報検索装置。
  9. 前記出力手段は、前記順位決定手段が決定した優先順位に従って、前記抽出した情報を前記優先順位によって示される順に、所定の順位まで出力するための手段を含む、請求項1に記載の情報検索装置。
  10. 第1の語を示す文字列を取得するステップと、
    前記文字列が示す前記第1の語によって表現される概念と関連性のある概念を表現する第2の語を収集するステップと、
    前記第1の語、及び前記第2の語を検索キーとして、キーワードに対応するデータベースに保持されている情報を検索するステップと、
    前記検索するステップにおいて、前記検索キーによって得られた検索結果である情報に対応するキーワードの属性と、前記第1の語の属性との類似性を基準として、出力する検索結果である情報の優先順位を決定するステップと、
    前記決定するステップにおいて決定された優先順位に従い、前記検索結果である情報を出力するステップとを含む、情報検索方法。
  11. コンピュータ上で実行されると、当該コンピュータを請求項1から請求項9のいずれかに記載の情報検索装置として動作させる、コンピュータで実行可能な情報検索プログラム。
  12. 請求項11に記載の情報検索プログラムが記録された、コンピュータで読取可能な記録媒体。
JP2003170997A 2003-06-16 2003-06-16 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 Pending JP2005010848A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003170997A JP2005010848A (ja) 2003-06-16 2003-06-16 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003170997A JP2005010848A (ja) 2003-06-16 2003-06-16 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2005010848A true JP2005010848A (ja) 2005-01-13

Family

ID=34095633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003170997A Pending JP2005010848A (ja) 2003-06-16 2003-06-16 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2005010848A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047903A (ja) * 2005-08-08 2007-02-22 Nippon Telegr & Teleph Corp <Ntt> 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
JP2007102487A (ja) * 2005-10-04 2007-04-19 Ricoh Co Ltd 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
JP2007304744A (ja) * 2006-05-10 2007-11-22 Hiromichi Saito イメージ検索システム
JP2009110231A (ja) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
JP2010039781A (ja) * 2008-08-05 2010-02-18 Yahoo Japan Corp クリック履歴を用いたWeb検索における検索処理をパーソナライズする検索処理システム、検索処理装置、端末装置及び検索処理方法。
CN101930437A (zh) * 2009-06-19 2010-12-29 日电(中国)有限公司 与特定查询相关的不一致和不确定本体的推理方法和设备
JP2014044721A (ja) * 2012-08-24 2014-03-13 Samsung Electronics Co Ltd 友達推薦方法及びそのためのサーバ、並びに端末
CN111209378A (zh) * 2019-12-26 2020-05-29 航天信息股份有限公司企业服务分公司 一种基于业务字典权重的有序分级排序方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047903A (ja) * 2005-08-08 2007-02-22 Nippon Telegr & Teleph Corp <Ntt> 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
JP4728063B2 (ja) * 2005-08-08 2011-07-20 日本電信電話株式会社 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
JP2007102487A (ja) * 2005-10-04 2007-04-19 Ricoh Co Ltd 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
JP2007304744A (ja) * 2006-05-10 2007-11-22 Hiromichi Saito イメージ検索システム
JP2009110231A (ja) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
JP2010039781A (ja) * 2008-08-05 2010-02-18 Yahoo Japan Corp クリック履歴を用いたWeb検索における検索処理をパーソナライズする検索処理システム、検索処理装置、端末装置及び検索処理方法。
CN101930437A (zh) * 2009-06-19 2010-12-29 日电(中国)有限公司 与特定查询相关的不一致和不确定本体的推理方法和设备
JP2011008782A (ja) * 2009-06-19 2011-01-13 Nec (China) Co Ltd 特定のクエリに関する不確定かつ不整合オントロジの推論方式および装置
JP2014044721A (ja) * 2012-08-24 2014-03-13 Samsung Electronics Co Ltd 友達推薦方法及びそのためのサーバ、並びに端末
US10061825B2 (en) 2012-08-24 2018-08-28 Samsung Electronics Co., Ltd. Method of recommending friends, and server and terminal therefor
CN111209378A (zh) * 2019-12-26 2020-05-29 航天信息股份有限公司企业服务分公司 一种基于业务字典权重的有序分级排序方法
CN111209378B (zh) * 2019-12-26 2024-03-12 航天信息股份有限公司企业服务分公司 一种基于业务字典权重的有序分级排序方法

Similar Documents

Publication Publication Date Title
JP3673487B2 (ja) 階層的統計分析のシステム及び方法
JP4638439B2 (ja) ウェブ検索の個人化
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
KR100304335B1 (ko) 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템
JP4011906B2 (ja) プロファイル情報の情報検索方法、プログラム、記録媒体及び装置
US8046363B2 (en) System and method for clustering documents
US20040049499A1 (en) Document retrieval system and question answering system
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20090094223A1 (en) System and method for classifying search queries
KR20090007626A (ko) 문서 데이터베이스에서 문서들의 도메인 식별방법
WO2000075809A1 (fr) Procede de triage d&#39;informations, trieur d&#39;informations, support enregistre sur lequel le programme de triage d&#39;informations est enregistre
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JP5565568B2 (ja) 情報推薦装置、情報推薦方法およびプログラム
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
KR101178208B1 (ko) 키워드 추출 장치 및 방법
JP6639040B2 (ja) 情報検索装置及びプログラム
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JP2010003134A (ja) 検索キーワードを推薦するサーバ、方法、およびプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP3646011B2 (ja) 検索システム、及び、当該検索システムのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
JPWO2015125209A1 (ja) 情報構造化システム及び情報構造化方法
JP3249743B2 (ja) 文書検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090324