JP2010108363A - クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム - Google Patents

クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム Download PDF

Info

Publication number
JP2010108363A
JP2010108363A JP2008281481A JP2008281481A JP2010108363A JP 2010108363 A JP2010108363 A JP 2010108363A JP 2008281481 A JP2008281481 A JP 2008281481A JP 2008281481 A JP2008281481 A JP 2008281481A JP 2010108363 A JP2010108363 A JP 2010108363A
Authority
JP
Japan
Prior art keywords
page
score
search
authority
click
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008281481A
Other languages
English (en)
Other versions
JP4824070B2 (ja
Inventor
Sumio Fujita
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008281481A priority Critical patent/JP4824070B2/ja
Publication of JP2010108363A publication Critical patent/JP2010108363A/ja
Application granted granted Critical
Publication of JP4824070B2 publication Critical patent/JP4824070B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特定の専門分野についてのウェブページを効率的に収集し、かつ、ウェブページの収集漏れを抑制することのできる検索処理装置、検索処理方法及びプログラムを提供すること。
【解決手段】検索処理装置20は、専門分野クリックログを抽出し、抽出した専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて専門分野の検索に適したオーソリティページを抽出する。そして、抽出したオーソリティページへのバックリンク及び/又はフォワードリンクを探索し、抽出したオーソリティページをノードとし、探索したバックリンク及び/又はフォワードリンクを有向辺とする有向グラフを生成する。そして、有向グラフの各ノードであるオーソリティページのスコアを算出し、算出したスコアが所定値以上である場合、このスコアが算出されたオーソリティページを所定の専門分野の検索対象のクロールを行うためのハブページとして決定する。
【選択図】図3

Description

本発明は、クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラムに関する。
従来、一般的なウェブページの検索において、ウェブページの情報を収集するためのクローラは、全てのウェブページを収集の対象としている。そして、クローラは、一定の周期でWWW(World Wide Web)上のウェブページを収集するように制御されている。
しかし、クローラが全てのウェブページを同一の条件で収集することは非効率的であるため、クローラには、ウェブページを効率的に収集するための様々な技術が用いられている。
このようなクローラの情報収集に関する技術としては、例えば特許文献1のような技術が提案されている。
特開2001−60198号公報
ここで、特定の専門分野についてのウェブページの検索において、クローラは、一般的なウェブページの検索と同様に全てのウェブページを収集の対象とすると更新頻度が少ないウェブページ等の収集が遅れ、このようなウェブページが検索結果に反映されなくなるおそれがある。
一方、クローラに特定の専門分野向けのシードドキュメントを適用すれば、収集の対象となるウェブページが制限されるため更新頻度の少ないウェブページを検索結果に含むことが可能になる。しかしながら、この場合、本来ならば収集すべきである特定の専門分野のウェブページが収集されないおそれがある。
そこで、本発明は、特定の専門分野についてのウェブページを効率的に収集し、かつ、ウェブページの収集漏れを抑制することのできる検索処理装置、検索処理方法及びプログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1)ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段と、前記記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出手段と、前記専門分野クリックログ抽出手段により抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出手段と、前記オーソリティページ抽出手段により抽出された前記オーソリティページへのバックリンク及び/又はフォワードリンクを探索する探索手段と、前記オーソリティページ抽出手段により抽出された前記オーソリティページをノードとし、前記探索手段により探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成手段と、前記グラフ生成手段により生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出手段と、前記スコア算出手段により算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定手段とを備える検索処理装置。
(1)の構成によれば、検索処理装置は、ユーザの操作する端末装置からのクエリと、このクエリに対する検索結果のうち、端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段と、記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出し、抽出した専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて専門分野の検索に適したオーソリティページを抽出する。そして、抽出したオーソリティページへのバックリンクを及び/又はフォワードリンク探索し、抽出したオーソリティページをノードとし、探索したバックリンク及び/又はフォワードリンクを有向辺とする有向グラフを生成する。そして、生成した有向グラフの各ノードであるオーソリティページのスコアを算出し、算出したスコアが所定値以上である場合、このスコアが算出されたオーソリティページを所定の専門分野の検索対象のクロールを行うためのハブページとして決定する。
これにより、ハブページは、スコアが所定値以上のウェブページであるため、所定の専門分野の検索対象に適した良質なウェブページに接続可能である。したがって、クローラは、ハブページを特定するURLをシードURLとして用いて所定の専門分野の検索対象におけるクロールを行うことにより、少ない時間で多数の良質なウェブページを収集することができる。
(2)前記スコア算出手段は、前記スコアとして、PageRankのスコア及びHITSによるHubスコアのいずれか一つを算出する(1)に記載の検索処理装置。
(2)の構成によれば、検索処理装置は、スコアとして、PageRankのスコア及びHITSによるHubスコアのいずれか一つを算出する。これにより、シードURLとして好適なURLを抽出することができる。
(3)ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、前記専門分野クリックログ抽出ステップにより抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、前記オーソリティページ抽出ステップにより抽出された前記オーソリティページのバックリンク及び/又はフォワードリンクを探索する探索ステップと、前記オーソリティページ抽出ステップにより抽出された前記オーソリティページをノードとし、前記探索ステップにより探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、前記スコア算出ステップにより算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとをコンピュータに実行させる検索処理方法。
(3)の構成によれば、(1)の検索処理装置と同様な作用効果を奏する発明を方法として提供可能である。
(4)ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、前記専門分野クリックログ抽出ステップにより抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、前記オーソリティページ抽出ステップにより抽出された前記オーソリティページのバックリンク及び/又はフォワードリンクを探索する探索ステップと、前記オーソリティページ抽出ステップにより抽出された前記オーソリティページをノードとし、前記探索ステップにより探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、前記スコア算出ステップにより算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとをコンピュータに実行させるコンピュータプログラム。
(4)の構成によれば、(1)の検索処理装置と同様な作用効果を奏する発明をコンピュータプログラムとして提供可能である。
本発明によれば、特定の専門分野についてのウェブページを効率的に収集し、かつ、ウェブページの収集漏れを抑制することのできる検索処理装置、検索処理方法及びプログラムを提供することができる。
以下、本発明の実施形態について図を参照しながら説明する。
[全体構成]
図1は、本発明の一実施形態に係る検索システム1を含む構成の概略を示す図である。検索システム1、端末装置3及び外部サーバ4は、ネットワーク2を介して通信可能に接続されている。
端末装置3は、パソコン、携帯電話機、PHS(Personal Handy−phone System:登録商標)、モバイル、ノートPC、PDA(Personal Digital Assistant)等の端末装置を代表とするものであり、有線又は無線通信を行うネットワーク2を介して、検索システム1から送信される情報を参照できるものであればどのようなものでもよい。また、検索システム1は、必要に応じてウェブサーバ、データベース(以下、データベースをDBという)サーバ及びアプリケーションサーバを含んで構成してよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。また、検索システム1は、検索処理装置20を含んで構成される。
[検索処理装置20のハードウェア構成]
図2は、本実施形態の検索処理装置20のハードウェア構成を示す図である。図2に示すように、制御部200を構成するCPU(Central Processing Unit)210(マルチプロセッサ構成ではCPU220等複数のCPUが追加されてもよい)、バスライン100、通信I/F(I/F:インタフェース)230、メインメモリ240、BIOS(Basic Input Output System)250、I/Oコントローラ260、ハードディスク270、光ディスクドライブ280及び半導体メモリ290を備える。なお、ハードディスク270、光ディスクドライブ280及び半導体メモリ290はまとめて記憶装置310と呼ばれる。
制御部200は、検索処理装置20を統括的に制御する部分であり、ハードディスク270に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本実施形態に係る各種機能を実現している。
通信I/F230は、検索処理装置20がネットワーク2を介して端末装置3等の他の装置と情報を送受信する場合のネットワーク・アダプタである。
BIOS250は、検索処理装置20の起動時にCPU210が実行するブートプログラムや、検索処理装置20のハードウェアに依存するプログラム等を記録する。
I/Oコントローラ260には、ハードディスク270、光ディスクドライブ280及び半導体メモリ290等の記憶装置310を接続することができる。
ハードディスク270は、本ハードウェアを検索処理装置20として機能させるための各種プログラム、本実施形態の機能を実行するプログラム及び後述するデータベース等を記憶する。なお、検索処理装置20は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ280としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ及びCD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク300を使用する。光ディスク300から光ディスクドライブ280によりプログラム又はデータを読み取り、I/Oコントローラ260を介してメインメモリ240又はハードディスク270に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、検索処理装置20は、記憶装置310、制御部200等を備えた情報処理装置により構成される。
以上の例は、検索処理装置20について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した検索処理装置20により実現される機能は、上述の方法を当該コンピュータにより実行することにより、又は上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
[検索システム1の機能構成]
図3は、本実施形態の検索システム1の機能構成を示す機能ブロック図である。検索システム1は、検索エンジン11と、検索処理装置20と、シードDB31と、クローラ32とを備える。
検索エンジン11は、端末装置3からクエリを受け付け、受け付けたクエリに応じたURLを含む情報を検索結果として端末装置3へ提示する。端末装置3を操作するユーザは、検索結果の中から任意のURLを選択し、外部サーバ4にて管理されるウェブページを閲覧する。
検索処理装置20は、クリックログDB12(記憶手段)と、抽出部21(専門分野クリックログ抽出手段)と、オーソリティページ抽出部22(オーソリティページ抽出手段)と、探索部23(探索手段)と、グラフ生成部24(グラフ生成手段)と、スコア算出部25(スコア算出手段)と、スコア判定部26と、ハブページ決定部27(ハブページ決定手段)と、オーソリティページDB28と、を備える。
クリックログDB12は、ユーザの操作する端末装置3からのクエリに対する検索エンジン11による検索結果のうち、端末装置3の操作に応じて選択されたURL(以下、クリックURLという)を記憶する。図4は、クリックログDB12に記憶されるクリックURLの一例を示すクリックデータテーブルである。図4に示すように、クリックログDB12には、クリックURLを選択した端末装置3のIPアドレスと、クリックURLを選択した時間と、セッションと、クリックURLの検索ランクと、クエリと、クリックURLとを対応付けさせて記憶させている。
また、クリックログDB12は、任意のURLからのリンク先、又はリンク元を示すURL接続テーブルが記憶される。図5は、URL接続テーブルの一例を示す図である。図5に示すように、クリックログDB12には、URL接続テーブルとして、URLと、URLのリンク先と、URLのリンク元とを記憶させている。
制御部200は、機能部として、抽出部21と、オーソリティページ抽出部22と、探索部23と、グラフ生成部24と、スコア算出部25と、スコア判定部26と、ハブページ決定部27とを有する。また、クリックログDB12及びオーソリティページDB28は、記憶装置310内に格納される。
抽出部21は、検索対象としての所定の専門分野を特徴付けるキーワードに基づいて、専門分野のクリックログであるクエリ及びクリックURLをクリックログDB12から抽出する。所定の専門分野の検索対象としては、例えば、学術的な分野や、画像、WWW(World Wide Web)上で商取引が行われる商品、音声、音楽等が挙げられる。
具体的には、図4に示すクリックログDB12から、専門分野として「火山」が検索対象である場合、抽出部21は、専門分野を特徴付けるキーワードとして、「火山」に関連する文字列を含むクエリに対応するクリックURLをクリックログDB12から全て抽出する。
また、専門分野として「画像」が検索対象である場合、抽出部21は、専門分野を特徴付けるキーワードとして、「画像」に関連する文字列である「画像」、「jpeg」及び「jpg」を含むクエリに対応するクリックURLをクリックログDB12から全て抽出する。
なお、専門分野と、その専門分野を特徴付けるキーワードとは、一致してもよく、専門分野と、その専門分野を特徴付けるキーワードとが一致しない場合は、予め記憶装置310に専門分野及びその専門分野を特徴付けるキーワードを記憶させてもよい。
オーソリティページ抽出部22は、抽出部21により抽出されたクリックURLに基づいて、オーソリティページを抽出する。具体的には、オーソリティページ抽出部22は、抽出部21によりクリックログDB12から抽出したクリックURLが端末装置3により選択された頻度であるクリック頻度を算出する。
そして、オーソリティページ抽出部22は、算出したクリック頻度が一定値以上であるか否かを判定する。クリック頻度が一定値以上である場合、オーソリティページ抽出部22は、そのクリック頻度に対応するクリックURLにより特定されるウェブページをオーソリティページとして、オーソリティページDB28に記憶する。図6は、オーソリティページDB28に記憶されるクリックURLの一例を示すテーブルである。
なお、オーソリティページ抽出部22は、クリック頻度に基づいてオーソリティページを抽出したがこれに限らず、クリックURLに関連するデータを用いてオーソリティページを抽出することができる。例えば、クリックURLに対するドメイン名からオーソリティページを抽出してもよい。
探索部23は、少なくとも、オーソリティページ抽出部22により抽出されたオーソリティページへのバックリンクを探索する。具体的には、探索部23は、URL接続テーブルを参照して、オーソリティページDB28に記憶された各々のオーソリティページについてのリンク先(バックリンク)及び/又はリンク元(フォワードリンク)のURLを探索する。
グラフ生成部24は、オーソリティページ抽出部22により抽出されたオーソリティページをノードとして用い、探索部23により探索されたバックリンク及び/又はフォワードリンクのURLを有向辺として用い、これらのノードと有向辺とから構成される有向グラフを生成する。
図7は、図5に示したURL接続テーブルに基づいて、グラフ生成部24により作成されたグラフGを示す模式図である。図7に示すように、有向グラフであるグラフGは、各々のオーソリティページを特定するURLからなるノードと、URLのバックリンク及び/又はフォワードリンクからなる有向辺とから構成される。
スコア算出部25は、グラフ生成部24により生成された有向グラフの各ノードであるオーソリティページのスコアを算出する。
オーソリティページのスコアを算出する手法としては、例えばPageRank(登録商標)のスコアや、HITS(Hyperlink Induced Topic Search)によるHubスコア等の公知の手法を用いることができる。
PageRankをウェブページのスコアとして用いる場合、主として式(1)を用いて処理を行うことによりPageRankを算出することができる。
ページT1,T2,・・・,TNからリンクされているページAのPageRankのスコアであるPR(A)は、式(1)により定義される。
PR(A)=(1−d)+d(PR(T1)/C(T1)+PR(T2)/C(T2)+・・・+PR(TN)/C(TN))・・・(1)
ただし、0≦d≦1
HITSは、ページnのオーソリティスコアauth(n)と、ハブスコアhub(n)からなり、以下のように定義される。
全てのページのauth(n)=hub(n)=1・・・(2)
オーソリティスコア及びハブスコアが収束するまで以下の式(3)及び(4)の処理を繰り返す。
auth(n)=Σhub(m) for all m(m→n)・・・(3)
hub(n)=Σauth(m) for all m(m→n)・・・(4)
スコア判定部26は、スコア算出部25により算出されたスコア、すなわちPageRankのスコア又はHubスコアが所定値以上であるか判定する。
ハブページ決定部27は、スコア判定部26によりスコアが所定値以上であると判定された場合、そのスコアが算出されたオーソリティページを、所定の専門分野の検索対象のクロールを行うためのハブページとして決定する。そして、ハブページ決定部27は、決定したハブページを特定するためURLをシードURLとして、シードDB31に記憶させる。
シードDB31は、図8に示すように、クローラ32が所定の専門分野の検索対象のクロールを行うためのシードURLを記憶する。
クローラ32は、ネットワーク2を介して、WWW33上のウェブページ等の文書情報を収集する。なお、クローラとは一般的に検索ロボットともいわれ、ネットワーク2を通じて、ウェブページ等を収集するプログラムである。そして、クローラが、ウェブサイトを探し出す手段や、対象とするウェブページの種類は様々であり、クローラの管理者の設定により、収集されるウェブページの種類や分野も異なる。ここで、本実施形態のクローラ32は、少なくともシードDB31に記憶されたシードURLに基づいて、ウェブサイトを探し出し、ウェブページを収集する。
このように、本実施形態の検索処理装置20によれば、クリックログDB12を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野のクエリ及びクリックURLを抽出し、抽出したクリックURLに対するクリック頻度に基づいて、専門分野の検索に適したオーソリティページを抽出する。そして、抽出したオーソリティページへのバックリンク及び/又はフォワードリンクを探索し、抽出したオーソリティページをノードとし、探索したバックリンク及び/又はフォワードリンクを有向辺とする有向グラフを生成する。そして、生成した有向グラフの各ノードであるオーソリティページのスコアを算出し、算出したスコアが所定値以上である場合、このスコアが算出されたオーソリティページを所定の専門分野の検索対象のクロールを行うためのハブページとして決定する。
ハブページは、スコアが所定値以上のウェブページであり、所定の専門分野の検索対象に適した良質なウェブページに接続可能である。したがって、クローラは、ハブページを特定するURLをシードURLとして用いて所定の専門分野の検索対象におけるクロールを行うことにより、少ない時間で多数の良質なウェブページを収集することができる。
また、良質なウェブページに接続可能なシードURLへのクロールを優先的に行うことにより、より良質なウェブページを頻繁に収集し、収集されたウェブページをクエリに対する検索結果に反映することができる。
また、本実施形態の検索処理装置20によれば、スコアとして、PageRankのスコア及びHITSによるHubスコアのいずれか一つを算出する。これにより、シードURLとして好適なURLを抽出することができる。
また、本実施形態の検索処理装置20によれば、学術分野、画像、音声、音楽及び商品情報を検索対象とした専門分野についてのクロールを好適に実行することができる。
[処理の流れ]
次に、本実施形態の検索処理装置20の処理の流れについて図9のフローチャートを参照しながら説明する。
ステップS1において、抽出部21は、検索対象である専門分野を特徴付けるキーワードに基づいて、その専門分野に関する文字列を含むクエリに対応したクリックURLを、クリックログDB12から全て抽出する。
ステップS2において、オーソリティページ抽出部22は、抽出部21によりクリックログDB12から抽出したクリックURLを集計して、クリックURLが端末装置3により選択された頻度であるクリック頻度を算出する。
ステップS3において、オーソリティページ抽出部22は、ステップS2において算出したクリック頻度が一定値以上であるか否かを判定する。クリック頻度が一定値以上である場合(Yes)には、ステップS4へ移る。一方、クリック頻度が一定値未満である場合(No)には、一連の処理を終了する。
ステップS4において、オーソリティページ抽出部22は、ステップS3において判定されたクリック頻度に対応するクリックURLにより特定されるウェブページをオーソリティページとしてオーソリティページDB28に記憶する。
ステップS5において、探索部23は、URL接続テーブルを参照して、オーソリティページDB28に記憶された各々のオーソリティページについてのバックリンク及び/又はフォワードリンクのURLを探索する。
ステップS6において、グラフ生成部24は、ステップS5におけるオーソリティページのバックリンク及び/又はフォワードリンクのウェブページのURLの探索が所定回数以上であるか否か判定する。URLの探索が所定回数以上である場合(Yes)には、ステップS7へ移る。一方、URLの探索が所定回数未満である場合(No)には、一連の処理を終了する。
ステップS7において、グラフ生成部24は、オーソリティページを特定するURLをノードとして用い、各々のオーソリティページについてのバックリンク及び/又はフォワードリンクを有向辺として用いて、これらのノードと有向辺とから構成される有向グラフを生成する。
ステップS8において、スコア算出部25は、グラフ生成部24により生成されたグラフの各ノードであるオーソリティページのスコアを算出する。
ステップS9において、スコア判定部26は、スコア算出部25により算出されたスコアが所定値以上であるか判定する。スコアが所定値以上である場合(Yes)には、ステップS10へ移る。一方、スコアが所定値未満である場合(No)には、一連の処理を終了する。
ステップS10において、ハブページ決定部27は、ステップS8において算出されたスコアに基づくオーソリティページを、専門分野の検索対象のクロールを行うためのハブページとして決定し、決定したハブページを特定するURLをシードURLとしてシードDB31に記憶させる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の一実施形態に係る検索システム1を含む構成の概略を示す図である。 本実施形態の検索処理装置20のハードウェア構成を示す図である。 本実施形態の検索システム1の機能構成を示す機能ブロック図である。 クリックログDB12に記憶されるクリックURLの一例を示すテーブルである。 URL接続テーブルの一例を示す図である。 オーソリティページDB28に記憶されるオーソリティページの一例を示すテーブルである。 グラフ生成部24により作成されたグラフGを示す模式図である。 シードURLの一例を示すテーブルである。 本実施形態の検索処理装置20の処理の流れについて示すフローチャートである。
1 検索システム
2 ネットワーク
3 端末装置
4 外部サーバ
11 検索エンジン
12 クリックログDB(記憶手段)
20 検索処理装置
21 抽出部(専門分野クリックログ抽出手段)
22 オーソリティページ抽出部(オーソリティページ抽出手段)
23 探索部(探索手段)
24 グラフ生成部(グラフ生成手段)
25 スコア算出部(スコア算出手段)
26 スコア判定部
27 ハブページ決定部(ハブページ決定手段)
28 オーソリティページDB
31 シードDB
32 クローラ

Claims (4)

  1. ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段と、
    前記記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出手段と、
    前記専門分野クリックログ抽出手段により抽出されたクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出手段と、
    前記オーソリティページ抽出手段により抽出されたオーソリティページへのバックリンクを探索するバックリンク探索手段と、
    前記オーソリティページ抽出手段により抽出されたオーソリティページをノードとし、前記バックリンク探索手段により探索されたバックリンクを有向辺とする有向グラフを生成するグラフ生成手段と、
    前記グラフ生成手段により生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出手段と、
    前記スコア算出手段により算出されたスコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定手段とを備える検索処理装置。
  2. 前記スコア算出手段は、前記スコアとして、PageRankのスコア、HITSによるHubスコアのいずれか一つを算出する請求項1に記載の検索処理装置。
  3. ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、
    前記専門分野クリックログ抽出ステップにより抽出されたクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、
    前記オーソリティページ抽出ステップにより抽出されたオーソリティページのバックリンクを探索するバックリンク探索ステップと、
    前記オーソリティページ抽出ステップにより抽出されたオーソリティページをノードとし、前記バックリンク探索ステップにより探索されたバックリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、
    前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、
    前記スコア算出ステップにより算出されたスコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとを備える検索処理方法。
  4. ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、
    前記専門分野クリックログ抽出ステップにより抽出されたクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、
    前記オーソリティページ抽出ステップにより抽出されたオーソリティページのバックリンクを探索するバックリンク探索ステップと、
    前記オーソリティページ抽出ステップにより抽出されたオーソリティページをノードとし、前記バックリンク探索ステップにより探索されたバックリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、
    前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、
    前記スコア算出ステップにより算出されたスコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとをコンピュータに実行させるコンピュータプログラム。
JP2008281481A 2008-10-31 2008-10-31 クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム Expired - Fee Related JP4824070B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008281481A JP4824070B2 (ja) 2008-10-31 2008-10-31 クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008281481A JP4824070B2 (ja) 2008-10-31 2008-10-31 クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010108363A true JP2010108363A (ja) 2010-05-13
JP4824070B2 JP4824070B2 (ja) 2011-11-24

Family

ID=42297735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008281481A Expired - Fee Related JP4824070B2 (ja) 2008-10-31 2008-10-31 クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4824070B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011077955A1 (ja) 2009-12-22 2011-06-30 株式会社日本触媒 排水処理用触媒及びその触媒を用いた排水の処理方法
CN103116660A (zh) * 2013-03-15 2013-05-22 人民搜索网络股份公司 网站权威值的获取方法及装置
CN103793421A (zh) * 2012-10-31 2014-05-14 北京拓尔思信息技术股份有限公司 基于网页结构的信息动态采集更新调度方法
JP2017173910A (ja) * 2016-03-18 2017-09-28 Jcc株式会社 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム
JP2019133262A (ja) * 2018-01-29 2019-08-08 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263448A (ja) * 2002-03-11 2003-09-19 Toshiba Corp Web収集プログラム及びシステム並びに方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263448A (ja) * 2002-03-11 2003-09-19 Toshiba Corp Web収集プログラム及びシステム並びに方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011077955A1 (ja) 2009-12-22 2011-06-30 株式会社日本触媒 排水処理用触媒及びその触媒を用いた排水の処理方法
CN103793421A (zh) * 2012-10-31 2014-05-14 北京拓尔思信息技术股份有限公司 基于网页结构的信息动态采集更新调度方法
CN103116660A (zh) * 2013-03-15 2013-05-22 人民搜索网络股份公司 网站权威值的获取方法及装置
JP2017173910A (ja) * 2016-03-18 2017-09-28 Jcc株式会社 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム
JP2019133262A (ja) * 2018-01-29 2019-08-08 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム

Also Published As

Publication number Publication date
JP4824070B2 (ja) 2011-11-24

Similar Documents

Publication Publication Date Title
US9940398B1 (en) Customization of search results for search queries received from third party sites
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
KR101934449B1 (ko) 검색 쿼리에 응답하여 콘텐츠에 매칭될 이미지에 대해 동적 랭킹을 진행하기 위한 방법 및 시스템
JP4908422B2 (ja) リンクベースのスパム検出
JP5494454B2 (ja) 検索結果生成方法、検索結果生成プログラムおよび検索システム
CN103870461B (zh) 主题推荐方法、装置和服务器
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US10296535B2 (en) Method and system to randomize image matching to find best images to be matched with content items
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
Choudhary et al. Role of ranking algorithms for information retrieval
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP2010286888A (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2008234559A (ja) ドキュメント絞り込み検索装置、方法及びプログラム
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5384884B2 (ja) 情報検索装置および情報検索プログラム
JP4962973B2 (ja) 検索サーバ、方法及びプログラム
JP5411802B2 (ja) 代表語抽出装置、代表語抽出方法および代表語抽出プログラム
JP2010086210A (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP2004264928A (ja) Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体
JP2003186912A (ja) Webページ検索の適合度計算方法とその装置、Webページ検索の検索結果表示方法とその装置、並びにそれらの方法の実行プログラムとそれらの方法の実行プログラムを記録した記録媒体
JP2011128669A (ja) 情報検索装置および情報検索プログラム
JP6042162B2 (ja) ウェブ検索装置、ウェブ検索方法及びプログラム
JP4029680B2 (ja) 検索端末装置、検索端末プログラムおよび検索システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110907

R150 Certificate of patent or registration of utility model

Ref document number: 4824070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350