JP4935243B2 - 検索プログラム、情報検索装置及び情報検索方法 - Google Patents

検索プログラム、情報検索装置及び情報検索方法 Download PDF

Info

Publication number
JP4935243B2
JP4935243B2 JP2006229048A JP2006229048A JP4935243B2 JP 4935243 B2 JP4935243 B2 JP 4935243B2 JP 2006229048 A JP2006229048 A JP 2006229048A JP 2006229048 A JP2006229048 A JP 2006229048A JP 4935243 B2 JP4935243 B2 JP 4935243B2
Authority
JP
Japan
Prior art keywords
query
decomposition
search
candidate
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006229048A
Other languages
English (en)
Other versions
JP2008052548A (ja
Inventor
哲朗 ▲高▼橋
寛治 内野
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006229048A priority Critical patent/JP4935243B2/ja
Publication of JP2008052548A publication Critical patent/JP2008052548A/ja
Application granted granted Critical
Publication of JP4935243B2 publication Critical patent/JP4935243B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P20/00Technologies relating to chemical industry
    • Y02P20/50Improvements relating to the production of bulk chemicals
    • Y02P20/52Improvements relating to the production of bulk chemicals using catalysts, e.g. selective catalysts

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ウェブページなどのテキストを対象とした検索プログラム、情報検索装置及び情報検索方法に関し、特にユーザが入力したクエリによる検索失敗時に候補クエリを自動生成して再検索可能とする検索プログラム、情報検索装置及び情報検索方法に関する。
従来、ウェブページなどの文書検索にあっては、ユーザは検索目的に合わせてクエリを作成して検索を行う対話型の情報検索が行われている。
ここで、クエリとはデータベース管理システムに対しデータの抽出や更新といった問合せを文字列として表したものであり、例えば「今日の東京地方の天気はどうなりそう?」といった文字列であり、近年、ウェブページの検索にも利用されている。
このようなクエリを使用したウェブページ等の情報検索によれば、1又は複数の単語をキーワードとして行う検索に比べ、ユーザの検索したい内容が適確に表現でき、ユーザが期待している内容に絞り込まれた検索結果が得られ、キーワード検索にように多数の検索結果の中から改めてユーザがページを開きながら希望する検索結果を探し出すという手間を解消することができる。

特開平11−053382号公報 特開2004−139154号公報 特開2005−251092号公報
しかしながら、このような従来のクエリを使用した対話型の情報検索にあっては、適切なクエリの作成にはスキルが必要であり、クエリが適切でない場合には検索結果の件数が非常に少ないか又は0件の検索結果になり、必要とするページにたどり着くために手間と時間がかかるという問題がある。
このように入力されたクエリでは1件も見付からない原因、所謂0件ヒットの原因は,その大部分はクエリが長すぎることが挙げられる。一般的な検索エンジンでは、入力されたクエリの文字列を含むページが検索結果として返されるが、例えば「今日の東京地方の天気はどうなりそう?」などのような長いクエリが入力された場合、その文字列と同じ文字列が含まれる文書がない場合に、0件ヒットとなる。
本発明は、ユーザが入力したクエリが適切でない場合に、適切な候補クエリをユーザに提示して検索のヒット件数をコントロールし、少ない手間と時間でユーザを適切なページへ導くことを可能とする検索プログラム、情報検索装置及び情報検索方法を提供する。
また本発明は、過去のクエリ変換履歴を元にユーザへの候補クエリの提示を行なうことにより、ユーザのクエリを作成するスキルを向上させる検索プログラム、情報検索装置及び情報検索方法を提供する。
(プログラム)
本発明は検索プログラムを提供する。本発明の検索プログラムは、コンピュータに、
ユーザが指定したクエリを入力するクエリ入力ステップと、
クエリを使用して検索する検索ステップと、
検索ステップで検索に失敗した場合、前記クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索ステップで検索させる候補クエリ生成ステップと、
を実行させ、
更に、候補クエリ生成ステップは、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、前記設定した分解条件に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成することを特徴とする。
候補クエリ生成ステップは、検索ステップにより検索結果が1件も得られない0件ヒットの場合に検索失敗と判定して候補クエリ生成処理を実行する。
本発明の検索プログラムは、コンピュータに、更に、
クエリ入力ステップで入力した分解前クエリと前記候補クエリ生成ステップでユーザが選択した分解後クエリの組について、各々の特徴量を抽出してクエリ分解知識データベースに登録するステップを実行させ、
候補クエリ生成ステップは、処理対象としている分解前クエリと分解後クエリの組について各々の特徴量を抽出し、知識データベースに登録されている分解前クエリと分解後クエリの組の各特徴量との類似度からスコアを算出して処理対象の分解後クエリに付与し、スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させる。
また本発明の検索プログラムは、コンピュータに、更に、
検索ステップで検索に成功した分解後クエリの特徴量を抽出してクエリ選考知識データベースに登録するステップを実行させ、
候補クエリ生成ステップは、処理対象としている分解後クエリの特徴量を抽出し、クエリ選考知識データベースに登録されている分解後クエリとの特徴量との類似度からスコアを算出して処理対象の分解後クエリに付与し、スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させる。
分解前クエリの特徴量は、形態素解析された構成要素、単語数、特定の意味をもつ内容語の1又は複数の組合せを含み、
分解後クエリの特徴量は、名詞のみの抽出、名詞と動詞のみの抽出又は名詞句の抽出の分解手法、抽出した単語の分解前クエリ上の位置、抽出した単語の位置、抽出した単語数を示す要素数、分解前クエリの単語数に対する分解後の要素数の割合、又は抽出した単語の意味を示す意味ラベルの1又は複数の組合せを含む。
(装置)
本発明は情報検索装置を提供する。本発明の情報検索装置は、
ユーザが指定したクエリを入力するクエリ入力部と、
クエリを使用して検索する検索部と、
検索部で検索に失敗した場合、クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索部に検索させる候補クエリ生成部と、
を備え、
更に、候補クエリ生成部は、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、設定した分解手法に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成することを特徴とする。
(方法)
本発明は情報検索方法を提供する。本発明の情報検索方法は、
ユーザが指定したクエリを入力するクエリ入力ステップと、
クエリを使用して検索する検索ステップと、
前記検索ステップで検索に失敗した場合、クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索ステップで検索させる候補クエリ生成ステップと、
を備え、
更に、候補クエリ生成ステップは、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、設定した分解条件に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成することを特徴とする。
本発明によれば、検索結果が0件ヒットとなるユーザが入力したクエリが適切でない場合に、ユーザが入力したクエリを例えば名詞と動詞のみを抽出するという分解手法に基づいて分解し、分解した単語またはその組合せを候補クエリとして生成してユーザに提示し、ユーザが選択した候補クエリによる再検索により、少ない手間と時間(少ないコスト)で例えばユーザを適切なページへ導くような検索結果を得ることができる。
また過去のユーザによる選択した分解前クエリと分解後クエリの組合せや、検索に成功した分解後クエリの履歴を知識データベースとして保存し、新たに候補クエリを生成する際に、知識データベースの履歴との類似度に応じたコストを候補クエリに付与してユーザに提示することで、候補クエリをコストにより評価可能とし、コストの高い候補クエリを選択する過程を通じた学習効果により、ユーザのクエリを作成するスキルを向上させることができる。
図1は本発明による情報検索装置の実施形態を示した機能構成のブロック図である。図1において、本実施形態の情報検索装置は、クエリ入力部10、検索制御部12、検索部として機能する検索エンジン14、検索結果表示部18、候補クエリ処理部20、分解候補表示指定部22、知識記録部24、クエリ分解知識データベース30及びクエリ選考知識データベース32を備えている。
また候補クエリ処理部20には、分解候補生成部34、スコア付与部36及び分解候補提示部38の機能が設けられている。また知識記録部24にはクエリ分解知識記録部26とクエリ選考知識記録部28が設けられている。
クエリ分解知識記録部26はクエリ分解知識データベース30に対し登録処理を行うもので、分解前クエリ特徴抽出部40、検索成功クエリ特徴抽出部42及びデータベース登録部44を備えている。クエリ選考知識記録部28はクエリ選考知識データベース32に対する登録を行うもので、検索成功クエリ特徴抽出部46及びデータベース登録部48を備えている。
クエリ入力部10はユーザが指定した検索のための文字列であるクエリを入力する。検索制御部12はクエリ入力部10から入力されたクエリを検索エンジン14に出力し、これを受けて検索エンジン14がインターネット16上に存在するウェブページの検索を行い、検索結果を検索結果表示部18に表示することになる。
検索制御部12は、クエリ入力部10からの入力クエリを使用した検索エンジン14による検索結果が失敗した場合、本実施形態にあっては検索結果が1件も得られずに0件ヒットとなった場合には候補クエリ処理部20を動作する。
候補クエリ処理部20は、検索エンジン14で0件ヒットとなった場合に、クエリ入力部10から入力されたクエリを分解して複数の候補クエリを生成し、この候補クエリを分解候補表示指定部22に表示し、ユーザが選択したクエリを使用して検索エンジン14に検索を行わせる。
候補クエリ処理部20による候補クエリの生成は、分解前のクエリ(入力クエリ)の分解手法として例えば次の手法を設定している。
(1)名詞のみ抽出
(2)名詞と動詞のみ抽出
(3)名詞句の抽出
このような分解手法につき、いずれかの分解手法を予め設定しておくことで、設定した分解手法に基づいて分解前クエリから語句を抽出し、抽出した語句及び語句の組合せを候補クエリとして生成する。この処理は分解候補生成部34により行われる。
スコア付与部36は、クエリ分解知識データベース30またはクエリ選考知識データベース32に保存されている履歴知識を利用して、分解候補生成部34で生成した各分解候補にスコアを付与する。分解候補提示部38は、スコアが付与された分解候補をスコア順にソートした後に、分解候補表示指定部22に表示し、ユーザの指定を受ける。
ここでクエリ分解知識データベース30には、クエリ入力部10で入力した分解前クエリと、候補クエリ処理部20で生成してユーザが選択した分解後クエリの組(ペア)について、各々の特徴量を抽出してクエリ分解知識として登録されている。このクエリ分解知識データベース30に対する登録は、知識記録部24に設けたクエリ分解知識記録部26により行われる。
一方、クエリ選考知識データベース32には、検索エンジン14による検索で検索に成功した分解後クエリの特徴量を抽出してクエリ選考知識として登録している。このクエリ選考知識データベース32の登録は、知識記録部24に設けたクエリ選考知識記録部28により行われる。
クエリ分解知識データベース30を利用したスコア付与部36によるスコアの付与は、現在処理対象としている分解前のクエリと分解後のクエリの組につき各々の特徴量を抽出し、クエリ分解知識データベース30に登録されている分解前クエリと分解後クエリの各特徴量との類似度からスコアを算出して、分解候補である分解後クエリに付与する。
またスコア付与部36によるクエリ選考知識データベース32を利用したスコア付与にあっては、処理対象としている検索に成功した分解後クエリの特徴量を抽出し、クエリ選考知識データベース32に登録されている分解後クエリの特徴量との類似度からスコアを計算して付与する。
図2は図1の実施形態の機能を実現する本実施形態の検索プログラムが実行されるコンピュータのハードウェア環境のブロック図である。図2において、CPU50のバス52に対しては、RAM54、ROM55、ハードディスクドライブ56、キーボード60,マウス62及びディスプレイ64を接続するデバイスインタフェース58、更にインターネットと接続されるネットワークアダプタ66が接続されている。
本実施形態による検索プログラムはハードディスクドライブ56に格納されており、コンピュータを起動すると、BIOSの動作により、ハードディスクドライブ56からブートプログラムがRAM54に読み出されて実行されることで起動し、ハードディスクドライブ56からRAM54にOSを読出し配置して実行した後に、ハードディスクドライブ56から本実施形態の検索プログラムをROM54に読出し配置して、CPU50により実行する。
図3は本実施形態による情報検索処理のフローチャートである。図3において、図1の実施形態を参照して処理を説明すると次のようになる。
まずステップS1でユーザが作成した入力クエリをクエリ入力部10から読み込み、ステップS2で検索エンジン14により入力クエリを使用したインターネット16上のウェブページの検索を行う。
この検索結果につき、ステップS3で0件ヒットか否かを判定する。0件ヒットでなければステップS9に進み、検索結果を検索結果表示部18に出力した後、ステップS10で知識記録部24に設けているクエリ選考知識記録部28によりクエリ選考知識記録処理をクエリ選考知識データベース32に対し行う。
一方、ステップS3で検索に失敗して0件ヒットが判別された場合には、ステップS4に進み、候補クエリ処理部20による候補クエリ生成処理を行い、分解候補表示指定部22に候補クエリを表示する。
続いてステップS5でユーザの分解候補選択を判別すると、ステップS6に進み、ユーザが選択した分解クエリである候補クエリを使用した検索を検索エンジン14で行い、ステップS7で検索結果を検索結果表示部18に出力する。続いてステップS8で、知識記録部24に設けているクエリ分解知識記録部26によりクエリ分解知識記録処理を実行し、クエリ分解知識データベース30に処理結果を登録する。
図4は図3のステップS8のクエリ分解知識記録処理の詳細を示したフローチャートである。図4において、クエリ分解知識記録処理は、ステップS1で現在処理対象となっている分解前クエリ(入力クエリ)の特徴量を抽出し、次にステップS2でユーザが選択した分解クエリの特徴量を抽出し、ステップS3で分解前クエリの特徴量と分解後クエリの特徴量のペアをクエリ分解知識としてクエリ分解知識データベース30に登録する。
図5は図4に対応した図1のクエリ分解知識記録部26の具体的な処理動作を示した説明図である。図5にあっては、ユーザが作成して入力した分解前クエリ68として「今日の東京地方の天気はどうなりそう?」を処理対象としており、この分解前クエリ68からユーザが分解クエリとして「今日+東京地方+天気」を選択して検索を行って検索に成功し、これが検索成功クエリ70として得られている。
クエリ分解知識記録部26にあっては、まず分解前クエリ特徴抽出部40により分解前クエリ68の特徴量72を抽出する。分解前クエリ68の特徴量72としては、その文字列に含んでいる要素を形態素解析により分類し、それぞれの品詞を抽出する。
また分解前クエリ68の文字列を構成する「単語数」を抽出しており、この場合には「単語数:9」となっている。また入力前クエリ68に含まれる特定の意味を持つ内容語につき「内容語数」を抽出しており、この場合には「内容語数:3」となっている。更に、分解前クエリ68の文末のフレーズとして「述語」を抽出している。
次に検索成功クエリ特徴量抽出部42において、検索成功クエリ70から特徴量74を抽出する。検索成功クエリ70における特徴量74の抽出は、検索成功クエリ70の分解手法として、この例では「名詞のみ」、分解前クエリ68における検索成功クエリ70の各単語の位置、この実施形態にあっては「今日」は1番目、「東京地方」は3番目、「天気」は5番目であることから、「位置(単語):1,3,5」を抽出している。
また検索成功クエリ70における各単語の位置として「位置(内容語):1,2,3」を抽出している。また検索成功クエリ70の単語数として「単語数:3」を抽出している。また検索成功クエリ70における要素数の割合(要素数/単語数)として「3/9」を抽出している。更に検索成功クエリ70における単語の意味ラベルとして、この例では「東京地方」に対応して「LOCATION」を抽出している。
図5に示す特徴量72,74の抽出は一例であり、これ以外にも必要に応じて、分解前クエリ68及び検索成功クエリ70における各文字列に関する適宜の特徴を抽出することができる。
図6は図3のステップS10のクエリ選考知識記録処理の詳細を示したフローチャートである。図6において、クエリ選考知識記録処理部28は検索成功となった状態で、まずステップS1で検索成功クエリが分解後クエリか否かチェックする。分解後クエリであった場合にはステップS2に進み、分解後クエリの特徴量の抽出を実行し、ステップS3で抽出した特徴量をクエリ選考知識データベース32に登録する。一方、ステップS1で検索成功クエリが分解前クエリ、即ち入力クエリであった場合には、ステップS2,S3の特徴量抽出と登録はスキップし、クエリ選考知識の登録は行わない。
図7は図6に対応した図1のクエリ選考知識記録部28による具体的な処理動作を示した説明図である。図7にあっては、検索成功クエリ70として分解後クエリである「今日+東京地方+天気」を対象としており、これを検索成功クエリ特徴抽出部46で特徴量の抽出を行い、特徴量74を取得する。この特徴量74の内容は、図5の検索成功クエリ特徴抽出部42で抽出した特徴量74と同じである。続いて、データベース登録部48が特徴量74をクエリ選考知識データベース32に登録する。
図8は図3のステップS4の候補クエリ生成処理の詳細を示したフローチャートである。図8において、候補クエリ生成処理は、まずステップS1で予め設定している候補クエリの分解手法を取得する。この分解手法は
(1)名詞抽出のみ
(2)名詞及び動詞抽出のみ
(3)名詞句抽出のみ
のいずれかである。続いてステップS2に進み、分解候補生成部34によりステップS1で取得した分解手法を使用して候補クエリを分解して、単語及び単語の組合せからなる分解候補を生成する。次にステップS3で分解前クエリと分解候補の各特徴量を抽出し、ステップS4で分解前クエリと分解後クエリのペアごとにクエリ分解知識データベース30の保存知識との類似度に基づくスコアを計算する。
このステップS3の特徴量抽出とステップS4のスコア計算は、スコア付与部36により行われる。最終的に、ステップS5で分解候補提示部38がスコア順にソートした後に分解候補をユーザに提示することになる。
図9は図8に対応した図1の候補クエリ処理部20の具体的な処理動作を示した説明図である。図9において、分解前クエリ76として「今日の川崎の天気は?」が分解候補生成部34に入力されている。分解候補生成部34は、そのとき設定されている分解手法に基づき、例えば「今日」、「川崎」、「天気」、「今日の川崎」、川崎の天気」、「今日+川崎」、「今日+川崎+天気」などの分解候補を生成した分解候補一覧78を生成する。
ここで分解候補一覧78の「川崎の天気」まではスコア付与部36によるスコア計算で求めたスコアがカッコ内の数値で示すように既に付与されている。
次に分解候補80についてスコアを計算する場合を説明すると次のようになる。まず分解前クエリ76について特徴量76−1を抽出する。これは最初の分解候補「今日」の際に予め行われていることから、それを使用する。
一方、現在処理対象となっている分解候補80である「今日+川崎」につき特徴量80−1を抽出する。この特徴量80−1の抽出処理は、図5に示したクエリ分解知識記録部26に設けた分解前クエリ特徴抽出部40及び検索成功クエリ特徴抽出部42による処理と同じになる。
このようにして分解前クエリ76の特徴量76−1と現在処理対象としている分解候補80の特徴量80−1が得られたならば、特徴量76−1と特徴量80−1をペアとし、クエリ分解知識データベース30に、このとき登録されている保存知識82−1〜82−3のそれぞれとの類似度を計算する。
この例では、保存知識82−1に含まれる分解前クエリ特徴量84と分解後クエリ特徴量86のペアとの間で特徴量76−1と特徴量80−1の類似度sim1,sim2をそれぞれ計算し、両者の乗算結果として、保存知識82−1との間のスコアを求める。このようなスコア計算を残りの保存知識82−2,82−3との間で行って、その総和をスコアとして求め、分解候補80に算出したスコアを付与する。
スコア付与部36における類似度計算88は次式で行われる。
Figure 0004935243
スコア付与部36による分解候補一覧78のそれぞれに対するスコア付与が済むと、分解候補一覧78をスコア順にソートした後、分解候補一覧78を分解候補表示指定部22に表示し、ユーザによる分解候補の選択指定を行わせることになる。
図10は図3のステップS4の候補クエリ生成処理の他の実施形態を示したフローチャートであり、この実施形態にあっては、図1のクエリ選考知識データベース32を使用して、分解候補につきスコアを付与するようにしたことを特徴とする。
図10において、候補クエリ生成処理のステップS1,S2,S3については、図8のクエリ分解知識データベース30を使用する場合と同じであるが、ステップS4にあっては分解候補ごとにクエリ選考知識データベース32の保存知識との類似度に基づくスコアを計算して付与しており、ステップS5でスコア順にソートしてユーザに分解候補を提示して選択させることになる。
図11は図10に対応した図1の候補クエリ処理部20による他の実施形態の具体的動作である。図11において、分解候補生成部34は図9の場合と同様、分解前クエリ76に設定された分解手法を適用して分解候補一覧78を生成している。分解候補一覧78にあっては、4行目の「川崎の天気」まではスコアの付与が終了しており、次の分解候補80である「今日+川崎」のスコア計算を例にとっている。
このスコア計算はスコア付与部36で行われる。スコア付与部36は、対象とする分解候補80から特徴量80−1を抽出し、クエリ選考知識データベース32に登録されている保存知識90−1〜90−3のそれぞれとの間で類似度を計算して、その総和をスコアとして求める。
例えば保存知識90−1については検索成功クエリ特徴量92が保存されており、これと分解候補80の特徴量80−1との間で類似度計算94を行ってスコアsim3を求める。そして、このような類似度計算を残りの保存知識90−2,90−3との間で行って、その総和をスコアとする。この場合の類似度計算94は次式で行われる。
Figure 0004935243
図12は図1のクエリ分解知識記録部26による処理動作の他の具体例を示した説明図である。図12において、この具体例にあっては、分解前クエリ96が「立川にある災害医療センターの電話番号」であり、検索成功クエリ98が「立川+災害医療センター+電話番号」の場合であり、この分解前クエリ96と検索成功クエリ98をクエリ分解知識記録部26に入力して処理する。
まず分解前クエリ特徴抽出部40は、分解前クエリ96から特徴量100を抽出している。続いて検索成功クエリ特徴抽出部42が検索成功クエリ98から特徴量102を抽出している。このようにして抽出した特徴量100,102をペアとして、データベース登録部44がクエリ分解知識データベース30にクエリ分解知識として登録することになる。
図13は図1のクエリ選考知識記録部28による処理動作の他の具体例を示した説明図である。図13にあっては、検索成功クエリ104として「立川+災害医療センター+電話番号」を対象としており、この検索成功クエリ104を検索成功クエリ特徴抽出部46で処理して特徴量102を抽出する。
この特徴量102は図12の検索成功クエリ特徴抽出部46による特徴量と同じである。続いてデータベース登録部48が、抽出した特徴量102をクエリ選考知識データベース32に登録する。
図14は図1の候補クエリ処理部20による処理動作の他の具体例を示した説明図である。図14にあっては、分解前クエリ96として「立川にある災害医療センターの電話番号」を対象としており、まず分解候補生成部34で分解候補一覧105を生成する。
続いてスコア付与部36が分解前クエリ96から特徴量96−1を抽出し、また処理対象としている分解候補106である「立川+電話番号」から特徴量106−1を抽出する。続いて、クエリ分解知識データベース30に登録されている保存知識108−1,108−2,108−3のそれぞれの保存ペア、例えば保存知識108−1にあっては分解前クエリ特徴量110と分解後クエリ特徴量111との間で類似度計算114により類似度sim1,sim2を計算して乗算し、これを全ての保存知識につき繰り返す。
具体的には前記(1)式に示した類似度計算を行ってスコアを求め、分解候補106に付与する。全ての分解候補につきスコア計算が終了したならば、分解候補提示部38がスコア順にソートして分解候補表示指定部22に提示してユーザの指定を受けることになる。
図15は図1の候補クエリ処理部20の他の実施形態による処理動作の他の具体例を示した説明図である。図15にあっては、クエリ選考知識データベース32を利用したスコア計算であり、分解前クエリ96に対し分解候補生成部34で分解候補一覧105を生成する点は図14と同じである。
続いてスコア付与部36が現在処理対象としている分解候補106から特徴量106−1を抽出し、クエリ選考知識データベース32に保存されている保存知識116−1〜116−3のクエリ選考知識、例えば保存知識116−1における検索成功クエリ特徴量118との間で類似度計算120を行い、これを全ての保存知識116−1〜116−3について行って総和を求める前記(1)を実行することでスコアを求め、分解候補106に付与する。
全ての分解文字列のスコア計算が済んだならば、分解候補提示部38でスコア順にソートした後に、分解候補表示指定部22に表示してユーザによる選択指定を受けることになる。
また本発明は情報検索用のプログラムを提供するものであり、このプログラムは図3,図4,図6,図8,図10のフローチャートに示した処理内容を持つことになる。
また本発明はコンピュータにより読取可能な検索プログラムを格納した記録媒体を提供する。ここでCD−ROM、フロッピィディスク(R)、DVDディスク、光磁気ディスク、ICカードなどの可搬型記憶媒体や、コンピュータシステムの内外に備えられたハードディスクドライブなどの記憶装置の他、回線を介してプログラムを保持するデータベース、あるいは他のコンピュータシステム並びにそのデータベースや、更に回線上の伝送媒体を含むものである。
また図1に示した本発明の情報検索装置としての機能は、スタンドアローンでネットワークに接続されて個人的に使用されるパーソナルコンピュータに組み込まれてもよいし、企業内の内部ネットワークに設置しているサーバに組み込まれ、サーバに対し接続しているクライアントからのクエリを使用した検索要求に対し検索処理を実行して検索結果を返すようにしてもよい。
なお本発明は、その目的と利点を損なうことのない適宜の変形を含み、更に上記の実施形態に示した数値による限定は受けない。
ここで本発明の特徴をまとめて列挙すると次の付記のようになる。

(付記)
(付記1)
コンピュータに、
ユーザが指定したクエリを入力するクエリ入力ステップと、
前記クエリを使用して検索する検索ステップと、
前記検索ステップで検索に失敗した場合、前記クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索ステップで検索させる候補クエリ生成ステップと、
を実行させ、
更に、前記候補クエリ生成ステップは、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、前記設定した分解条件に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成することを特徴とする検索プログラム。(1)
(付記2)
付記1記載の検索プログラムに於いて、前記候補クエリ生成ステップは、前記検索ステップにより検索結果が1件も得られない0件ヒットの場合に検索失敗と判定して候補クエリ生成処理を実行することを特徴とする検索プログラム。
(付記3)
付記1記載の検索プログラムに於いて、前記コンピュータに、更に、前記クエリ入力ステップで入力した分解前クエリと前記候補クエリ生成ステップでユーザが選択した分解後クエリの組について、各々の特徴量を抽出してクエリ分解知識データベースに登録するステップを実行させ、
前記候補クエリ生成ステップは、処理対象としている分解前クエリと分解後クエリの組について各々の特徴量を抽出し、前記知識データベースに登録されている分解前クエリと分解後クエリの組の各特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする検索プログラム。(2)
(付記4)
付記1記載の検索プログラムに於いて、前記コンピュータに、更に、前記検索ステップで検索に成功した分解後クエリの特徴量を抽出してクエリ選考知識データベースに登録するステップを実行させ、
前記候補クエリ生成ステップは、処理対象としている分解後クエリの特徴量を抽出し、前記クエリ選考知識データベースに登録されている分解後クエリとの特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする検索プログラム。(3)
(付記5)
付記1又は2記載の検索プログラムに於いて、
前記分解前クエリの特徴量は、形態素解析された構成要素、単語数、特定の意味をもつ内容語の1又は複数の組合せを含み、
前記分解後クエリの特徴量は、名詞のみの抽出、名詞と動詞のみの抽出又は名詞句の抽出の分解手法、抽出した単語の分解前クエリ上の位置、抽出した単語の位置、抽出した単語数を示す要素数、分解前クエリの単語数に対する分解後の要素数の割合、又は抽出した単語の意味を示す意味ラベルの1又は複数の組合せを含むことを特徴とする検索プログラム。
(付記6)
ユーザが指定したクエリを入力するクエリ入力部と、
前記クエリを使用して検索する検索部と、
前記検索部で検索に失敗した場合、前記クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索部に検索させる候補クエリ生成部と、
を備え、
更に、前記候補クエリ生成部は、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、前記設定した分解手法に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成することを特徴とする情報検索装置。(4)
(付記7)
付記6記載の情報検索装置に於いて、前記候補クエリ生成部は、前記検索部により検索結果が1件も得られない0件ヒットの場合に検索失敗と判定して候補クエリ生成処理を実行することを特徴とする情報検索装置。
(付記8)
付記6記載の情報検索装置に於いて、更に、前記クエリ入力部で入力した分解前クエリと前記候補クエリ生成部でユーザが選択した分解後クエリの組について、各々の特徴量を抽出して登録したクエリ分解知識データベースを備え、
前記候補クエリ生成部は、処理対象としている分解前クエリと分解後クエリの組について各々の特徴量を抽出し、前記クエリ分解知識データベースに登録されている分解前クエリと分解後クエリの組の各特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする情報検索装置。
(付記9)
付記6記載の情報検索装置に於いて、更に、前記検索部で検索に成功した分解後クエリの特徴量を抽出して登録したクエリ選考知識データベースを備え、
前記候補クエリ生成部は、処理対象としている分解後クエリの特徴量を抽出し、前記クエリ選考知識データベースに登録されている分解後クエリとの特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする情報検索装置。
(付記10)
付記6又は7記載の情報検索装置に於いて、
前記分解前クエリの特徴量は、形態素解析された構成要素、単語数、特定の意味をもつ内容語の1又は複数の組合せを含み、
前記分解後クエリの特徴量は、名詞のみの抽出、名詞と動詞のみの抽出又は名詞句の抽出の分解手法、抽出した単語の分解前クエリ上の位置、抽出した単語の位置、抽出した単語数を示す要素数、分解前クエリの単語数に対する分解後の要素数の割合、又は抽出した単語の意味を示す意味ラベルの1又は複数の組合せを含むことを特徴とする情報検索装置。
(付記11)
ユーザが指定したクエリを入力するクエリ入力ステップと、
前記クエリを使用して検索する検索ステップと、
前記検索ステップで検索に失敗した場合、前記クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索ステップで検索させる候補クエリ生成ステップと、
を備え、
更に、前記候補クエリ生成ステップは、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、前記設定した分解条件に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成することを特徴とする情報検索方法。たことを特徴とする情報検索方法。(5)
(付記12)
付記11記載の情報検索方法に於いて、前記候補クエリ生成ステップは、前記検索ステップにより検索結果が1件も得られない0件ヒットの場合に検索失敗と判定して候補クエリ生成処理を実行することを特徴とする情報検索方法。
(付記13)
付記11記載の情報検索方法に於いて、更に、前記クエリ入力ステップで入力した分解前クエリと前記候補クエリ生成ステップでユーザが選択した分解後クエリの組について、各々の特徴量を抽出してクエリ分解知識データベースに登録するステップを備え、
前記候補クエリ生成ステップは、処理対象としている分解前クエリと分解後クエリの組について各々の特徴量を抽出し、前記クエリ分解知識データベースに登録されている分解前クエリと分解後クエリの組の各特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする情報検索方法。
(付記14)
付記11記載の情報検索方法に於いて、更に、前記検索ステップで検索に成功した分解後クエリの特徴量を抽出してクエリ選考知識データベースに登録するステップを備え、
前記候補クエリ生成ステップは、処理対象としている分解後クエリの特徴量を抽出し、前記クエリ選考知識データベースに登録されている分解後クエリとの特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする情報検索方法。
(付記15)
付記11又は12記載の情報検索方法に於いて、
前記分解前クエリの特徴量は、形態素解析された構成要素、単語数、特定の意味をもつ内容語の1又は複数の組合せを含み、
前記分解後クエリの特徴量は、名詞のみの抽出、名詞と動詞のみの抽出又は名詞句の抽出の分解手法、抽出した単語の分解前クエリ上の位置、抽出した単語の位置、抽出した単語数を示す要素数、分解前クエリの単語数に対する分解後の要素数の割合、又は抽出した単語の意味を示す意味ラベルの1又は複数の組合せを含むことを特徴とする情報検索方法。
本発明による情報検索装置の実施形態を示した機能構成のブロック図 本実施形態の検索プログラムが実行されるコンピュータのハードウェア環境のブロック図 本発明による情報検索処理のフローチャート 図3のステップS8のクエリ分解知識記録処理の詳細を示したフローチャート 図4に対応した図1のクエリ分解知識記録処理部の動作を示した説明図 図3のステップS10のクエリ選考知識記録処理の詳細を示したフローチャート 図6に対応した図1のクエリ選考知識記録部の動作を示した説明図 図3のステップS4の候補クエリ生成処理の詳細を示したフローチャート 図8に対応した図1の候補クエリ処理部の動作を示した説明図 図3のステップS4の候補クエリ生成処理の他の実施形態を示したフローチャート 図10に対応した図1の候補クエリ処理部の動作を示した説明図 図1のクエリ分解知識記録処理部による動作の他の具体例を示した説明図 図1のクエリ選考知識記録部による動作の他の具体例を示した説明図 図1の候補クエリ処理部による動作の他の具体例を示した説明図 図1の候補クエリ処理部の他の実施形態による動作の他の具体例を示した説明図
符号の説明
10:クエリ入力部
12:検索制御部
14:検索エンジン
16:インターネット
18:検索結果表示部
20:候補クエリ処理部
22:分解候補表示指定部
24:知識記録部
26:クエリ分解知識記録部
28:クエリ選考知識記録部
30:クエリ分解知識データベース
32:クエリ選考知識データベース
34:分解候補生成部
36:スコア付与部
38:分解候補提示部
40:分解前クエリ特徴抽出部
42,46:検索成功クエリ特徴抽出部
44,48:データベース登録部
50:CPU
52:バス
54:RAM
55:ROM
56:ハードディスクドライブ
58:デバイスインタフェース
60:キーボード
62:マウス
64:ディスプレイ
66:ネットワークアダプタ
68,76,96:分解前クエリ
70,98,104:検索成功クエリ
72,74,76−1,80−1,96−1,100,102,106−1:特徴量
78,105:分解候補一覧
80,106:分解後クエリ(候補クエリ)
82−1〜82−3,90−1〜90−3,108−1〜108−3,116−1〜116−3:保存知識
84,110:分解前クエリ特徴量
86,112:分解後クエリ特徴量
88,94,114:類似度計算
92:検索成功クエリ特徴量

Claims (4)

  1. コンピュータに、
    ユーザが指定したクエリを入力するクエリ入力ステップと、
    前記クエリを使用して検索する検索ステップと、
    前記検索ステップで検索に失敗した場合、前記クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索ステップで検索させる候補クエリ生成ステップと、
    前記クエリ入力ステップで入力した分解前クエリと前記候補クエリ生成ステップでユーザが選択した分解後クエリの組について、各々の特徴量を抽出してクエリ分解知識データベースに登録するクエリ分解知識データベース登録ステップと、
    を実行させ、
    更に、前記候補クエリ生成ステップは、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、前記設定した分解条件に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成すると共に処理対象としている分解前クエリと分解後クエリの組について各々の特徴量を抽出し、前記クエリ分解知識データベースに登録されている分解前クエリと分解後クエリの組の各特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする検索プログラム。

  2. 請求項1記載の検索プログラムに於いて、前記コンピュータに、更に、前記検索ステップで検索に成功した分解後クエリの特徴量を抽出してクエリ選考知識データベースに登録するクエリ選考知識データベース登録ステップと、
    を実行させ、
    前記候補クエリ生成ステップは、処理対象としている分解後クエリの特徴量を抽出し、前記クエリ選考知識データベースに登録されている分解後クエリとの特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする検索プログラム。
  3. ユーザが指定したクエリを入力するクエリ入力部と、
    前記クエリを使用して検索する検索部と、
    前記検索部で検索に失敗した場合、前記クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索部に検索させる候補クエリ生成部と、
    前記クエリ入力ステップで入力した分解前クエリと前記候補クエリ生成ステップでユーザが選択した分解後クエリの組について、各々の特徴量を抽出してクエリ分解知識データベースに登録するクエリ分解知識データベース登録部と、
    を備え、
    更に、前記候補クエリ生成部は、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、前記設定した分解手法に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成すると共に処理対象としている分解前クエリと分解後クエリの組について各々の特徴量を抽出し、前記クエリ分解知識データベースに登録されている分解前クエリと分解後クエリの組の各特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とする
    ことを特徴とする情報検索装置。
  4. コンピュータが、
    ユーザが指定したクエリを入力するクエリ入力ステップと、
    前記クエリを使用して検索する検索ステップと、
    前記検索ステップで検索に失敗した場合、前記クエリを分解して生成した複数の候補クエリをユーザに提示し、ユーザが選択したクエリを使用して前記検索ステップで検索させる候補クエリ生成ステップと、
    前記クエリ入力ステップで入力した分解前クエリと前記候補クエリ生成ステップでユーザが選択した分解後クエリの組について、各々の特徴量を抽出してクエリ分解知識データベースに登録するクエリ分解知識データベース登録ステップと、
    を備え、
    更に、前記候補クエリ生成ステップは、分解前クエリの分解手法として、名詞のみの抽出、名詞と動詞のみの抽出、名詞句の抽出のいずれかを予め設定し、前記設定した分解条件に基づいて分解前クエリから抽出した語句及び語句の組合わせを候補クエリとして生成すると共に処理対象としている分解前クエリと分解後クエリの組について各々の特徴量を抽出し、前記クエリ分解知識データベースに登録されている分解前クエリと分解後クエリの組の各特徴量との類似度からスコアを算出して前記処理対象の分解後クエリに付与し、前記スコア順にソートした分解後クエリを候補クエリとしてユーザに提示して選択させることを特徴とことを特徴とする情報検索方法。
JP2006229048A 2006-08-25 2006-08-25 検索プログラム、情報検索装置及び情報検索方法 Expired - Fee Related JP4935243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006229048A JP4935243B2 (ja) 2006-08-25 2006-08-25 検索プログラム、情報検索装置及び情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006229048A JP4935243B2 (ja) 2006-08-25 2006-08-25 検索プログラム、情報検索装置及び情報検索方法

Publications (2)

Publication Number Publication Date
JP2008052548A JP2008052548A (ja) 2008-03-06
JP4935243B2 true JP4935243B2 (ja) 2012-05-23

Family

ID=39236538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006229048A Expired - Fee Related JP4935243B2 (ja) 2006-08-25 2006-08-25 検索プログラム、情報検索装置及び情報検索方法

Country Status (1)

Country Link
JP (1) JP4935243B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101557960B1 (ko) 2013-07-15 2015-10-06 주식회사 다음카카오 핵심 키워드 선정 장치, 핵심 키워드 선정 방법 및 이를 이용한 검색 서비스 제공 방법
JP6549441B2 (ja) * 2015-08-04 2019-07-24 Kddi株式会社 入力支援装置、プログラムおよび入力支援方法
CN108182186B (zh) * 2016-12-08 2020-10-02 广东精点数据科技股份有限公司 一种基于随机森林算法的网页排序方法
JP6906419B2 (ja) * 2017-10-13 2021-07-21 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム
JP7396190B2 (ja) 2020-04-30 2023-12-12 富士通株式会社 抽出プログラム、抽出方法及び抽出装置
JP7224392B2 (ja) * 2021-04-09 2023-02-17 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230037A (ja) * 2001-01-31 2002-08-16 Kddi Corp 検索システム、方法及びプログラム
JP2002259426A (ja) * 2001-02-28 2002-09-13 Toshiba Corp 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム

Also Published As

Publication number Publication date
JP2008052548A (ja) 2008-03-06

Similar Documents

Publication Publication Date Title
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP3691844B2 (ja) 文書処理方法
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
JP4814238B2 (ja) 法律上の要点をサーチするシステム及び方法
US10552467B2 (en) System and method for language sensitive contextual searching
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
US9031949B1 (en) Creation of inferred queries for use as query suggestions
US9317608B2 (en) Systems and methods for parsing search queries
JP2009169541A (ja) Webページ検索サーバ及びクエリ推薦方法
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
US6505198B2 (en) Sort system for text retrieval
US9286405B2 (en) Index-side synonym generation
WO2018156351A1 (en) Corpus specific generative query completion assistant
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
US10102199B2 (en) Corpus specific natural language query completion assistant
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
JPH0773197A (ja) 異表記語辞書作成支援装置
JP4301496B2 (ja) データベース検索装置、データベース検索方法およびプログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP4592629B2 (ja) 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4935243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees