JP2011076264A - 検索制御装置、検索制御方法、及びプログラム - Google Patents

検索制御装置、検索制御方法、及びプログラム Download PDF

Info

Publication number
JP2011076264A
JP2011076264A JP2009225459A JP2009225459A JP2011076264A JP 2011076264 A JP2011076264 A JP 2011076264A JP 2009225459 A JP2009225459 A JP 2009225459A JP 2009225459 A JP2009225459 A JP 2009225459A JP 2011076264 A JP2011076264 A JP 2011076264A
Authority
JP
Japan
Prior art keywords
search
preliminary
query
result
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009225459A
Other languages
English (en)
Other versions
JP2011076264A5 (ja
JP5379627B2 (ja
Inventor
Naoto Abe
直人 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2009225459A priority Critical patent/JP5379627B2/ja
Publication of JP2011076264A publication Critical patent/JP2011076264A/ja
Publication of JP2011076264A5 publication Critical patent/JP2011076264A5/ja
Application granted granted Critical
Publication of JP5379627B2 publication Critical patent/JP5379627B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ウェブ検索において、内容の集中度の高い検索結果を自動的に取得する。
【解決手段】ネットワークに接続される検索制御装置において、検索クエリに基づき、予備検索クエリを複数個生成し、各予備検索クエリを用いてウェブ検索を行い、予備検索結果を予備検索クエリ毎に予備検索結果記憶手段に格納する予備検索手段と、前記予備検索結果記憶手段から予備検索結果を読み出し、当該予備検索結果の内容の集中度を評価する処理を予備検索クエリ毎に実行し、内容の集中度が最も高い予備検索結果に対応する予備検索クエリを、検索クエリとして検索クエリ記憶手段に格納する予備検索結果評価手段と、前記検索クエリ記憶手段に格納された前記検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果が所定の条件を満たす場合に、当該検索結果を出力するウェブ検索手段とを備える。
【選択図】図1

Description

本発明は、検索語を用いてウェブ検索を行う技術に関し、特に、検索語に関連した内容を多く含む適切な検索結果を自動的に得るための技術に関するものである。
新聞や番組、映像、写真など様々なコンテンツをネットワーク上で提供するサービスが広く普及している。このようなサービスでは、コンテンツに、その詳細が記載されたメタデータが付与されている。メタデータにより、サービス利用者は容易に所望のコンテンツを取得できる。
このようなサービスでは、一般に、メタデータはサービス提供者により作成され、コンテンツと共に管理される。しかし、コンテンツの数は膨大になってきており、各コンテンツに対して詳細なメタデータを付与し、管理することを人手で行うことは困難になりつつある。そこで、人手でごく僅かなメタデータを作成し、それを自動的に拡張する技術が提案されている。
メタデータを自動的に拡張する技術として、ウェブ検索を利用する技術がある。例えば、特許文献1に記載された技術では、ファイアウォールにおけるアクセスログを利用して、メタデータの情報源(ウェブサーバ等)を限定し、当該情報源に対して検索語(基となるメタデータ)に基づき検索を行って、検索語に関連するコンテンツを取得し、当該コンテンツから拡張に用いる新たなメタデータを抽出している。
特開2007−149036号公報
さて、一般的にネットワーク上で提供されているウェブ検索サービスにおけるウェブ検索は、入力された検索語を含む情報を、検索語に関連する内容を有する情報としてウェブ上から収集するものである。しかし、現状のウェブ検索は、使用する検索語の選び方によっては、検索語と関連性が低い多くの様々なコンテンツ情報が検索結果に含まれることがある。このような場合、特許文献1に記載された技術では、適切な拡張用メタデータを得ることができない。
また、ウェブブラウザを備えたPC端末からウェブ検索を行うなどの一般のウェブ検索においては、1回の検索で適切な検索結果を得られない場合が少なからず発生し、このような場合、利用者は、目的とする内容を多く含む検索結果を得るために、様々な検索語を用いて検索を試行しなければならず、時間と手間がかかるという問題がある。
ここで、ウェブ検索は、基本的に検索語に関連する情報を収集するものであるから、ウェブ検索結果の内容の散らばり度合いが小さく、ある内容に集中している場合、そのウェブ検索結果は、入力した検索語に関する内容に集中した適切な検索結果である蓋然性が極めて高い。このような適切な検索結果を、人手による再検索を行うことなく自動的に取得することはウェブ検索における課題である。
本発明は上記の点に鑑みてなされたものであり、入力された検索語を用いてウェブ検索を実行し、検索結果を出力する技術において、内容の集中度の高い検索結果を自動的に取得する技術を提供することを目的とする。
上記の課題を解決するために、本発明は、ウェブ検索サービスが提供されるネットワークに接続される検索制御装置であって、入力された検索語から生成された検索クエリに基づき、予備検索クエリを複数個生成し、各予備検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果を、予備検索結果として予備検索クエリ毎に予備検索結果記憶手段に格納する予備検索手段と、前記予備検索結果記憶手段から予備検索結果を読み出し、当該予備検索結果の内容の集中度を評価する処理を予備検索クエリ毎に実行し、内容の集中度が最も高い予備検索結果に対応する予備検索クエリを、検索クエリとして検索クエリ記憶手段に格納する予備検索結果評価手段と、前記検索クエリ記憶手段に格納された前記検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果が所定の条件を満たす場合に、当該検索結果を出力するウェブ検索手段とを備えたことを特徴とする検索制御装置として構成される。
本発明によれば、入力された検索語を用いてウェブ検索を実行し、検索結果を出力する技術において、内容の集中度の高い検索結果を自動的に取得することが可能となる。
本発明の実施の形態に係る検索システムの構成図である。 本発明の実施の形態に係る検索システムの動作を示すフローチャートである。 検索クエリ生成部13の処理を示すフローチャートである。 検索語と検索クエリの例を示す図である。 ウェブ検索部15の処理を示すフローチャートである。 予備検索実行部16の処理を示すフローチャートである。 ウェブ検索の検索結果をブラウザ表示した場合の例を示す図である。 検索結果であるHTMLテキストの一部を示す図である。 予備検索結果の例を示す図である。 予備検索結果評価部18の処理を示すフローチャートである。 予備検索結果評価部18における評価処理を説明するための図である。 予備検索結果評価部18による出力結果の例を示す図である。
以下、図面を参照して本発明の実施の形態を説明する。
(システム構成)
図1に、本発明の実施の形態に係る検索システムの構成を示す。図1に示すとおり、本実施の形態に係る検索システムは、検索制御装置1、及び検索利用装置3を有する。検索制御装置1は、ウェブ検索サービスが提供されるインターネット等のネットワーク4に接続される。
検索利用装置3と検索制御装置1との間はWANやインターネット等の広域ネットワークで接続してもよいし、LAN等のローカルなネットワークで接続してもよい。また、検索利用装置3の中に、検索制御装置1の機能を含めて構成してもよい。もしくは、検索利用装置3を用いず、検索制御装置1内に、情報の入出力を行うためのユーザインタフェースを備え、利用者が検索制御装置1に対して検索語を入力し、検索制御装置1が検索結果を利用者に対して表示する構成としてもよい。
検索利用装置3は、検索語を検索制御装置1に送信し、検索結果を検索制御装置1から受信する装置である。検索利用装置3は、例えば、ウェブブラウザを備えたPC端末や、特許文献1に記載されたメタデータ生成装置のような、ウェブ検索結果を利用して、メタデータを拡張するための装置である。
図1に示すように、検索制御装置1は、入力部11、検索語記憶部12、検索クエリ生成部13、検索クエリ記憶部14、ウェブ検索部15、予備検索実行部16、予備検索結果記憶部17、予備検索結果評価部18、評価結果記憶部19、出力部20、及び制御部21を備える。
入力部11は、検索利用装置3から受信した検索語を、制御部21を介して検索語記憶部12に格納する。検索語記憶部12には、入力部11から入力された検索語が格納される。
検索クエリ生成部13は、メモリ等の記憶装置に格納された設定ファイルの内容に基づき、検索語から、ウェブ検索に不適な文字や記号を削除し、検索制御装置1からウェブ検索を行う際に使用する検索クエリを生成する。そして、生成した検索クエリを制御部21を介して検索クエリ記憶部14に格納する。検索クエリ記憶部14には、検索クエリ生成部13で作成された検索クエリが格納される。
ウェブ検索部15は、検索クエリ記憶部14に格納されている検索クエリを使用して、ネットワーク4を介してウェブ検索を行い、検索結果と、検索結果に含まれるコンテンツ情報の件数を取得する。本実施の形態において、検索結果は、HTMLで記述されたテキストとして得られるものである。ここでの検索件数に応じて、制御部21は、検索結果を出力部20に出力するか、もしくは、予備検索実行部16に処理を移すかの制御を行なう。
予備検索実行部16は、検索クエリ記憶部14に格納されている検索クエリから、複数の単語からなる予備検索クエリを複数個生成し、各予備検索クエリを用いてネットワーク4を介してウェブ検索(予備検索という)を実行し、予備検索結果を得る。後に詳細に説明するように、予備検索結果には、上記ウェブ検索の検索結果から抽出された複数の要約文が含まれる。
予備検索実行後、予備検索実行部16は、予備検索結果を制御部21を介して予備検索結果記憶部17に格納する。予備検索結果記憶部17には、予備検索実行部16で得られた予備検索結果が予備検索クエリ毎に格納される。
予備検索結果評価部18は、予備検索結果記憶部17に格納されている予備検索結果に対し、評価関数を用いて内容の集中度を評価し、集中度の高い予備検索結果を特定し、評価結果を評価結果記憶部19に格納する。評価結果記憶部19には、予備検索結果評価部18で得られた評価結果が格納される。出力部20は、検索結果を検索利用装置3に対して出力する機能部である。
制御部21は、予め定めた処理手順に従って、各機能部に処理実行を指示する等の処理制御を行う機能部である。つまり、例えば、各機能部が、プログラムのモジュール(関数の実体等)で実現される場合において、制御部21は、処理手順に応じた機能部に対応するプログラムを呼び出し、実行する処理を行う。
図1に示す検索制御装置1は、記憶装置及びCPUを備える一般的なコンピュータに、上記各機能部に対応する処理を行うためのプログラムを搭載することにより実現できる。当該プログラムは、メモリやディスク等の記録媒体から上記コンピュータにインストールしてもよいし、ネットワーク上のサーバから上記コンピュータにダウンロードし、インストールすることとしてもよい。
また、検索制御装置1の上記各機能部は、1つのコンピュータ内に備える必要はなく、例えば、上記機能部のうちの1つ又は複数の機能部を有するコンピュータを、複数個ネットワーク接続した構成を、検索制御装置1として用いてもよい。
(システムの動作)
次に、本実施の形態に係る検索システム(主に検索制御装置1)の処理動作を、図2に示す処理の流れに沿って詳細に説明する。なお、図2には、各ステップを実行する処理の主体と、処理に関わる情報を格納する各記憶部が示されている。
まず、入力部11が、検索利用装置3から検索語を受信し、当該検索語を制御部21を介して検索語記憶部12に格納する(ステップ1)。
次に、制御部21による制御に基づき、検索クエリ生成部13が検索クエリの生成を行う(ステップ2)。検索クエリ生成部13の処理を、図3のフローチャートを参照して説明する。
まず、検索クエリ生成部13は、制御部21を介して検索語記憶部12に格納された検索語を読み出す(図3のステップ21)。そして、検索クエリ生成部13は、設定ファイルに設定された区切り文字で指定された表現と一致する箇所で検索語を分割し(ステップ22)、設定ファイルに不要文字列として指定された表現に一致する文字列を検索語から削除し(ステップ23)、これらの処理を施した検索語を検索クエリとして出力し、検索クエリ記憶部14に格納する。(ステップ24)。
例えば、設定ファイルとして図3に示す設定ファイルを使用し、検索語として図4(a)に示す検索語が入力されたものとすると、検索クエリ生成部13は、図4(b)に示す検索クエリを生成し、検索クエリ記憶部14に格納する。
次に、図2のステップ3において、ウェブ検索部15が検索処理を実行する。図5のフローチャートを参照して、ウェブ検索部15の検索処理を説明する。
まず、ウェブ検索部15は、制御部21を介して検索クエリ記憶部14から検索クエリを読み出す(ステップ31)。そして、ネットワーク4を介して、検索クエリを用いてウェブ検索を行い、HTMLのテキストである検索結果を取得し、更に、検索されたコンテンツ情報の件数(検索件数)も取得する(ステップ32)。
図2のステップ3の後、ウェブ検索部15もしくは制御部21は、検索件数が予め定めた閾値以上がどうか判定する(ステップ4)。判定の結果、検索件数が予め定めた閾値未満であればステップ5に進み、検索件数が閾値以上であれば、ステップ7に進む。
ステップ5において、予備検索実行部16が、ステップ3で使用した検索クエリから複数の予備検索クエリを生成し、複数の予備検索クエリを用いて予備検索結果を取得する予備検索処理を実行する。図6のフローチャートを参照して、予備検索実行部16の処理を詳細に説明する。
まず、予備検索実行部16は、制御部21を介して検索クエリ記憶部14から検索クエリを読み出す(ステップ51)。ここで、読み出された検索クエリに含まれる単語の数をKとする。予備検索実行部16は、K個の単語からなる検索クエリから、当該検索クエリの中のK−1個の単語を含む検索クエリである予備検索クエリを複数個生成し、生成した複数の予備検索クエリを予備検索結果記憶部に格納しておく(ステップ52)。
例えば、検索クエリが、(「ABCde郷土料理」、「ニッポン全国」、「ぎゅう・とり・ぶう〜」)の3つの単語を有するものであった場合(K=3)、予備検索実行部16は、(「ABCde郷土料理」、「ニッポン全国」)、(「ニッポン全国」、「ぎゅう・とり・ぶう〜」)、及び(「ABCde郷土料理」、「ぎゅう・とり・ぶう〜」)という3つの予備検索クエリを生成する。
単語の数をK−1とした予備検索クエリを複数生成した後、予備検索実行部16は、生成した複数の予備検索クエリの中の1つの予備検索クエリを用いてウェブ検索を行い、検索結果を得る(ステップ53)。そして、予備検索実行部16は、HTMLで記述されたテキストからなる検索結果の中のHTMLタグを解析し、予め定めた1以上の数であるN個のコンテンツ情報の各々から要約文を抽出する(ステップ54)。
図7に、ウェブ検索の検索結果をブラウザ表示した場合の例を示す。本実施の形態において、要約文とは、図7の例において四角の枠で囲んだ部分に対応するHTMLテキストであり、コンテンツ情報とは、図7の例の中の下線が引かれたタイトルから、要約文の下にあるURLが記載された行までの情報に対応するHTMLテキストのことである。
図8に、図7の検索結果の最上段にあるコンテンツ情報に対応するHTMLテキストの一部を示す。図8における<div class="abs">から</div>までのテキストが要約文に相当する。予備検索実行部16は、この要約文を、N個のコンテンツ情報から取得することにより、N個の要約文を予備検索結果として取得する。
その後、図6のステップ54において、予備検索実行部16は、各要約文に含まれる不要なタグを除去し(ステップ55)、不要なタグを除去した要約文を、予備検索結果として処理対象の予備検索クエリと対応付けて予備検索結果記憶部17に格納する(ステップ56)。予備検索実行部16は、全ての予備検索クエリについての処理が終了するまで、1つづつステップ53からステップ56の処理を実行する(ステップ57)。
検索クエリが(「ABCde郷土料理」、「ニッポン全国」、「ぎゅう・とり・ぶう〜」)である場合において、上記の処理の結果、予備検索結果記憶部17に格納される予備検索クエリ毎の予備検索結果の例を図9に示す。
次に、図2のステップ6において、制御部21による制御に基づき、予備検索結果評価部18が、予備検索結果評価処理を実行する。図10のフローチャートを参照して、予備検索結果評価部18による予備検索結果評価処理を説明する。
まず、予備検索結果評価部18は、制御部21を介して予備検索結果記憶部17から1つの予備検索クエリに対応する予備検索結果を読み出す(ステップ61)。そして、予備検索結果評価部18は、処理対象の予備検索結果におけるN個の要約文のそれぞれを単語ベクトルに変換する(ステップ62)。ここでの単語とは、名詞、形容詞、形容動詞、動詞、副詞のものを指し、活用形の無い単語はそのまま利用し、活用形のある単語は原形のものを利用する。
例えば、図11(a)に示すようなN=10個の要約文(T〜T10)を有する予備検索結果に対する単語ベクトルとして、図11(b)に示すように10個の単語ベクトルが得られる。
本実施の形態における単語ベクトルとは、予備検索結果について定めた特定の複数の単語の各々について、要約文における当該単語の有無を0(含まれない)または1(含む)で表現したベクトルである。
例えば、上記特定の複数の単語が、単語ベクトルの要素の並びの順に、「天気」、「日食」、「キャンプ」、「晴れる」....である場合、図11(a)に示す要約文Tは、「天気」、「日食」という単語を含むため、Tに対してV=(1,1,0,0,…)という単語ベクトルが得られる。
単語ベクトルの生成後、図10のステップ63において、予備検索結果評価部18は、生成された単語ベクトル同士の距離を測り、単語ベクトルのグループ化を行う。つまり、ここでは実質的に、要約文の内容の近さに応じてグループ化が行われる。ここでの処理において、本実施の形態では、2つの単語ベクトル間の距離を以下の式を用いて測る。
Figure 2011076264
上記の式において、i = 1,2,…N, j = 1,2,…, N, i ≠ jである。wi tは単語tの要素位置における単語ベクトルの値である。例えば、図11の例において、i=1, j=2とすると、t=日食に対して、w1 日食=1、w2 日食=0である。この式は、コサイン距離を求める式であり、0以上1以下の値をとり、2つの単語ベクトルの近さを測る際によく用いられる式である。 より詳細には、2つの単語ベクトルの共通性が高い場合には1に近い値をとり、共通性が低い場合は、0に近い値をとる。2つの単語ベクトル間の共通性が高いということは、単語ベクトルの元となった2つの要約文の内容が似ていると解釈できる。図11(c)に、図11(a)の予備検索結果に対してグループ化をした結果の例を示す。
なお、要約文をグループ化する手法は上記の手法に限られるわけでない。要約文の内容の近さに応じてグループ化を行うことができる手法であればどのような手法を用いてもよい。
続いて、図10のステップ64において、予備検索結果評価部18は、得られたグループ化結果を用いて、予備検索結果における要約文の内容の異なり度合い(すなわち、予備検索結果の内容の集中度)を評価し(ステップ64)、評価値を対象の予備検索結果に対応する予備検索クエリとともに評価結果格納部19に格納する(ステップ65)。
そして、予備検索結果評価部18は、全ての予備検索結果に対する処理が終了するまで、ステップ61〜ステップ65の処理を繰り返す(ステップ66)。
本実施の形態では、以下の評価式を用いて予備検索結果内の要約文の異なり度合い(予備検索結果の内容の集中度)を評価している。
Figure 2011076264
上記の評価式において、Mは、対象とする予備検索結果から生成されたグループの個数、njはグループiに含まれる単語ベクトルの数である。例えば、図11(c)に示す例では、10個の単語ベクトルが4つのグループに分けられており、グループの個数は4である。つまり、N=10, M=4である。また、n1= 2, n2=3, n3=1, n4=4である。
上記の評価式は、情報エントロピーを求めるための式であり、ある事象が起こる確率を用いて事象全体の偏りを評価するための式である。全ての事象が均等に起こる場合に最大値をとり、特定の事象だけが起こる場合に最小値をとる。この性質を利用して、本実施の形態では予備検索結果の内容の偏りを判定している。すなわち、各グループにおける単語ベクトル数のNに対する割合(ni/N (i=1,2,…,M))を、事象の出現確率とみなし、上記の評価式に代入して、予備検索結果の内容の偏りを評価している。
例えば、N個の要約文が、ある1つの内容に関するものであれば、グループ化を行うとN個の単語ベクトルは全て1つのグループにまとまる。このとき、M=1,n1/N=1となり、評価式は最小値0をとる。
逆に、N個の要約文が全て異なる内容であれば、1つの単語ベクトルが1つのグループとなり、N個のグループができる。このとき、M=N, n1/N=1/N, n2/N=1/N,….nM/N=1/Nとなり、評価式の値は最大値1をとる。
より具体的に説明すると、図9に示すような予備検索結果が得られた場合、予備検索結果評価部18は、図12に示す結果を算出し、これを評価結果記憶部19に格納する。図12に示すように、予備検索クエリ:(「ABCde郷土料理」、「ニッポン全国」)に対する評価値が最小である。
実際に、図9に示すように、予備検索クエリ:(「ABCde郷土料理」、「ニッポン全国」)に対する予備検索結果が、他の予備検索結果に比べて、クエリに関連する内容が多く含まれていることがわかる。予備検索クエリ:(「ニッポン全国」、「ぎゅう・とり・ぶう〜」)については、複数の要約文が予備検索結果として得られているものの、要約文にはクエリとは異なる内容が多く含まれており、内容の集中度が低いため、評価値が高くなっている。
以上の結果から、複数の予備検索結果において、評価式の値が最小となる予備検索結果が、内容の集中度が最も高い予備検索結果であるといえる。なお、内容の集中度を評価する手法は上記の手法に限られるわけでない。内容の集中度を適切に評価できる手法であればどのような手法を用いてもよい。
全ての予備検索結果について図10に示すステップ61〜ステップ65の処理が終了すると、予備検索結果評価部18は、評価結果記憶部19から、評価値が最小となった予備検索クエリを読み出し、当該予備検索クエリを、制御部21を介して検索クエリとして検索クエリ記憶部14に格納する(ステップ67)。図12の例では、予備検索クエリ:(「ABCde郷土料理」、「ニッポン全国」)が読み出され、検索クエリ記憶部14に格納される。
その後、図2のステップ3において、ウェブ検索部15は、予備検索結果評価部18により検索クエリ記憶部14に格納された検索クエリを読み出し、ウェブ検索を行う。
このウェブ検索の結果、ステップ4において、Yesの判定結果が得られれば、出力部20が、検索結果を検索利用装置3に対して出力する(図2のステップ7)。判定結果がNoであれば、今回の検索クエリに基づいて、再びステップ5からの処理が行われる。この処理は、ステップ4において、Yesの判定結果が得られるまで繰り返し行われる。
ステップ7の後、検索利用装置3は、例えば、検索結果を利用してメタデータの拡張を行う。また、検索利用装置3が一般的なウェブ検索を行うブラウザを備えたPC端末である場合、当該検索利用装置3は、検索結果の表示を行う。
(実施の形態の効果)
本実施の形態で説明した検索制御装置1によれば、ある検索語から、内容の集中度の高い検索結果を自動的に取得することができる。
例えば、検索利用装置3として、ウェブ検索を用いたメタデータ拡張用の装置を適用した場合、従来であればウェブ検索に失敗した場合には、コンテンツの管理者が検索語の再入力等の人手による操作を行うことが必要であったところ、本実施の形態の技術では、自動的に再検索を行うので、人手による操作を一切行うことなくメタデータの拡張を適切に行うことができる。
また、例えば、検索利用装置3として、一般的なウェブ検索を行うPC端末を適用した場合、本実施の形態によれば、利用者は検索語の再入力を行うことなく適切な検索結果を迅速に得ることができる。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 検索制御装置
3 検索利用装置
4 ネットワーク
11 入力部
12 検索語記憶部
13 検索クエリ生成部
14 検索クエリ記憶部
15 ウェブ検索部
16 予備検索実行部
17 予備検索結果記憶部
18 予備検索結果評価部
19 評価結果記憶部
20 出力部
21 制御部

Claims (8)

  1. ウェブ検索サービスが提供されるネットワークに接続される検索制御装置であって、
    入力された検索語から生成された検索クエリに基づき、予備検索クエリを複数個生成し、各予備検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果を、予備検索結果として予備検索クエリ毎に予備検索結果記憶手段に格納する予備検索手段と、
    前記予備検索結果記憶手段から予備検索結果を読み出し、当該予備検索結果の内容の集中度を評価する処理を予備検索クエリ毎に実行し、内容の集中度が最も高い予備検索結果に対応する予備検索クエリを、検索クエリとして検索クエリ記憶手段に格納する予備検索結果評価手段と、
    前記検索クエリ記憶手段に格納された前記検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果が所定の条件を満たす場合に、当該検索結果を出力するウェブ検索手段と
    を備えたことを特徴とする検索制御装置。
  2. 前記予備検索手段は、複数の単語を含む前記検索クエリから1つの単語を削除し、1つの単語を削除した当該検索クエリを前記予備検索クエリとすることを特徴とする請求項1に記載の検索制御装置。
  3. 前記予備検索手段は、前記予備検索クエリに基づく検索結果に含まれる所定数のコンテンツ情報の各々から要約文を抽出し、当該所定数の要約文を前記予備検索結果として前記予備検索結果記憶手段に格納することを特徴とする請求項1または2に記載の検索制御装置。
  4. 前記予備検索結果評価手段は、前記所定数の要約文の各々から単語ベクトルを抽出し、当該所定数の単語ベクトルをグループ化し、当該グループ化の結果を用いて前記集中度を評価することを特徴とする請求項3に記載の検索制御装置。
  5. 前記予備検索結果評価手段は、前記所定数に対する各グループ内の単語ベクトルの数の割合を単語ベクトルの出現確率とし、当該出現確率を用いて情報エントロピーを算出することにより前記集中度を評価することを特徴とする請求項4に記載の検索制御装置。
  6. 前記ウェブ検索手段において、前記所定の条件は、前記検索結果に含まれるコンテンツ情報の件数が所定の閾値以上であることであり、
    前記検索結果が当該条件を満たさない場合に、前記ウェブ検索手段で用いた検索クエリに基づき、前記予備検索手段、前記予備検索結果評価手段、及び前記ウェブ検索手段による処理を再度実行することを特徴とする請求項1ないし5のうちいずれか1項に記載の検索制御装置。
  7. ウェブ検索サービスが提供されるネットワークに接続される検索制御装置が実行する検索制御方法であって、
    入力された検索語から生成された検索クエリに基づき、予備検索クエリを複数個生成し、各予備検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果を、予備検索結果として予備検索クエリ毎に予備検索結果記憶手段に格納する予備検索ステップと、
    前記予備検索結果記憶手段から予備検索結果を読み出し、当該予備検索結果の内容の集中度を評価する処理を予備検索クエリ毎に実行し、内容の集中度が最も高い予備検索結果に対応する予備検索クエリを、検索クエリとして検索クエリ記憶手段に格納する予備検索結果評価ステップと、
    前記検索クエリ記憶手段に格納された前記検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果が所定の条件を満たす場合に、当該検索結果を出力するウェブ検索ステップと
    を備えたことを特徴とする検索制御方法。
  8. コンピュータを、ウェブ検索サービスが提供されるネットワークに接続される検索制御装置として機能させるプログラムであって、コンピュータを、
    入力された検索語から生成された検索クエリに基づき、予備検索クエリを複数個生成し、各予備検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果を、予備検索結果として予備検索クエリ毎に予備検索結果記憶手段に格納する予備検索手段、
    前記予備検索結果記憶手段から予備検索結果を読み出し、当該予備検索結果の内容の集中度を評価する処理を予備検索クエリ毎に実行し、内容の集中度が最も高い予備検索結果に対応する予備検索クエリを、検索クエリとして検索クエリ記憶手段に格納する予備検索結果評価手段、
    前記検索クエリ記憶手段に格納された前記検索クエリを用いてウェブ検索を行い、当該ウェブ検索の検索結果が所定の条件を満たす場合に、当該検索結果を出力するウェブ検索手段、
    として機能させるプログラム。
JP2009225459A 2009-09-29 2009-09-29 検索制御装置、検索制御方法、及びプログラム Active JP5379627B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009225459A JP5379627B2 (ja) 2009-09-29 2009-09-29 検索制御装置、検索制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009225459A JP5379627B2 (ja) 2009-09-29 2009-09-29 検索制御装置、検索制御方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2011076264A true JP2011076264A (ja) 2011-04-14
JP2011076264A5 JP2011076264A5 (ja) 2012-03-01
JP5379627B2 JP5379627B2 (ja) 2013-12-25

Family

ID=44020197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009225459A Active JP5379627B2 (ja) 2009-09-29 2009-09-29 検索制御装置、検索制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5379627B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012234133A (ja) * 2011-05-09 2012-11-29 Mic Ware:Kk 地図出力装置、地図出力方法、およびプログラム
JP2018506113A (ja) * 2014-12-30 2018-03-01 マイクロソフト テクノロジー ライセンシング,エルエルシー ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
KR20180078428A (ko) * 2016-12-29 2018-07-10 서울대학교산학협력단 추가 질의에 대한 쌍별 비교 데이터를 이용한 업데이트된 다중랭킹 추정 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086970A (ja) * 1994-06-15 1996-01-12 Ado In Kenkyusho:Kk 情報検索装置
JP2003281183A (ja) * 2002-03-20 2003-10-03 Fuji Xerox Co Ltd 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
JP2005173847A (ja) * 2003-12-10 2005-06-30 Fujitsu Ltd 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体
JP2007172179A (ja) * 2005-12-20 2007-07-05 Nec Corp 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP2009015796A (ja) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
WO2009019860A1 (ja) * 2007-08-09 2009-02-12 Panasonic Corporation コンテンツ検索装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086970A (ja) * 1994-06-15 1996-01-12 Ado In Kenkyusho:Kk 情報検索装置
JP2003281183A (ja) * 2002-03-20 2003-10-03 Fuji Xerox Co Ltd 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
JP2005173847A (ja) * 2003-12-10 2005-06-30 Fujitsu Ltd 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体
JP2007172179A (ja) * 2005-12-20 2007-07-05 Nec Corp 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP2009015796A (ja) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
WO2009019860A1 (ja) * 2007-08-09 2009-02-12 Panasonic Corporation コンテンツ検索装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012234133A (ja) * 2011-05-09 2012-11-29 Mic Ware:Kk 地図出力装置、地図出力方法、およびプログラム
JP2018506113A (ja) * 2014-12-30 2018-03-01 マイクロソフト テクノロジー ライセンシング,エルエルシー ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
US11386268B2 (en) 2014-12-30 2022-07-12 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
KR20180078428A (ko) * 2016-12-29 2018-07-10 서울대학교산학협력단 추가 질의에 대한 쌍별 비교 데이터를 이용한 업데이트된 다중랭킹 추정 방법
KR101953839B1 (ko) * 2016-12-29 2019-03-06 서울대학교산학협력단 추가 질의에 대한 쌍별 비교 데이터를 이용한 업데이트된 다중랭킹 추정 방법

Also Published As

Publication number Publication date
JP5379627B2 (ja) 2013-12-25

Similar Documents

Publication Publication Date Title
US10235681B2 (en) Text extraction module for contextual analysis engine
US9990422B2 (en) Contextual analysis engine
CN109033358B (zh) 新闻聚合与智能实体关联的方法
US10430806B2 (en) Input/output interface for contextual analysis engine
JP5384837B2 (ja) 文書に注釈を付するシステムと方法
JP5222581B2 (ja) 文書に注釈を付するシステムと方法
US9172666B2 (en) Locating a user based on aggregated tweet content associated with a location
JP4878624B2 (ja) 文書処理装置および文書処理方法
US20060184512A1 (en) Content searching and configuration of search results
US20180114136A1 (en) Trend identification using multiple data sources and machine learning techniques
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
US20190259040A1 (en) Information aggregator and analytic monitoring system and method
CN103530339A (zh) 移动应用信息推送方法和装置
JP5379627B2 (ja) 検索制御装置、検索制御方法、及びプログラム
JP2020098596A (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
JP2007193697A (ja) 情報収集装置,情報収集方法およびプログラム
JP5200750B2 (ja) 情報検索装置、情報検索方法、プログラム、および記録媒体
JP5317638B2 (ja) Web文書主要コンテンツ抽出装置及びプログラム
JP6763433B2 (ja) 情報収集システム、情報収集方法、及び、プログラム
US9195940B2 (en) Jabba-type override for correcting or improving output of a model
CN112148869B (zh) 文本参考信息生成方法、装置、电子设备及存储介质
US9530094B2 (en) Jabba-type contextual tagger
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
Adhiya et al. AN EFFICIENT AND NOVEL APPROACH FOR WEB SEARCH PERSONALIZATION USING WEB USAGE MINING.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130927

R150 Certificate of patent or registration of utility model

Ref document number: 5379627

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250