JP2010108363A - クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム - Google Patents
クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム Download PDFInfo
- Publication number
- JP2010108363A JP2010108363A JP2008281481A JP2008281481A JP2010108363A JP 2010108363 A JP2010108363 A JP 2010108363A JP 2008281481 A JP2008281481 A JP 2008281481A JP 2008281481 A JP2008281481 A JP 2008281481A JP 2010108363 A JP2010108363 A JP 2010108363A
- Authority
- JP
- Japan
- Prior art keywords
- page
- score
- search
- authority
- click
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 4
- 230000009193 crawling Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 3
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 claims 1
- 102100026983 Protein FAM107B Human genes 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 7
- 238000000034 method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000003796 beauty Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- CCEKAJIANROZEO-UHFFFAOYSA-N sulfluramid Chemical group CCNS(=O)(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F CCEKAJIANROZEO-UHFFFAOYSA-N 0.000 description 2
- 230000001934 delay Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】検索処理装置20は、専門分野クリックログを抽出し、抽出した専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて専門分野の検索に適したオーソリティページを抽出する。そして、抽出したオーソリティページへのバックリンク及び/又はフォワードリンクを探索し、抽出したオーソリティページをノードとし、探索したバックリンク及び/又はフォワードリンクを有向辺とする有向グラフを生成する。そして、有向グラフの各ノードであるオーソリティページのスコアを算出し、算出したスコアが所定値以上である場合、このスコアが算出されたオーソリティページを所定の専門分野の検索対象のクロールを行うためのハブページとして決定する。
【選択図】図3
Description
図1は、本発明の一実施形態に係る検索システム1を含む構成の概略を示す図である。検索システム1、端末装置3及び外部サーバ4は、ネットワーク2を介して通信可能に接続されている。
図2は、本実施形態の検索処理装置20のハードウェア構成を示す図である。図2に示すように、制御部200を構成するCPU(Central Processing Unit)210(マルチプロセッサ構成ではCPU220等複数のCPUが追加されてもよい)、バスライン100、通信I/F(I/F:インタフェース)230、メインメモリ240、BIOS(Basic Input Output System)250、I/Oコントローラ260、ハードディスク270、光ディスクドライブ280及び半導体メモリ290を備える。なお、ハードディスク270、光ディスクドライブ280及び半導体メモリ290は、まとめて記憶装置310と呼ばれる。
図3は、本実施形態の検索システム1の機能構成を示す機能ブロック図である。検索システム1は、検索エンジン11と、検索処理装置20と、シードDB31と、クローラ32とを備える。
ただし、0≦d≦1
次に、本実施形態の検索処理装置20の処理の流れについて図9のフローチャートを参照しながら説明する。
2 ネットワーク
3 端末装置
4 外部サーバ
11 検索エンジン
12 クリックログDB(記憶手段)
20 検索処理装置
21 抽出部(専門分野クリックログ抽出手段)
22 オーソリティページ抽出部(オーソリティページ抽出手段)
23 探索部(探索手段)
24 グラフ生成部(グラフ生成手段)
25 スコア算出部(スコア算出手段)
26 スコア判定部
27 ハブページ決定部(ハブページ決定手段)
28 オーソリティページDB
31 シードDB
32 クローラ
Claims (4)
- ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段と、
前記記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出手段と、
前記専門分野クリックログ抽出手段により抽出されたクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出手段と、
前記オーソリティページ抽出手段により抽出されたオーソリティページへのバックリンクを探索するバックリンク探索手段と、
前記オーソリティページ抽出手段により抽出されたオーソリティページをノードとし、前記バックリンク探索手段により探索されたバックリンクを有向辺とする有向グラフを生成するグラフ生成手段と、
前記グラフ生成手段により生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出手段と、
前記スコア算出手段により算出されたスコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定手段とを備える検索処理装置。 - 前記スコア算出手段は、前記スコアとして、PageRankのスコア、HITSによるHubスコアのいずれか一つを算出する請求項1に記載の検索処理装置。
- ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、
前記専門分野クリックログ抽出ステップにより抽出されたクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、
前記オーソリティページ抽出ステップにより抽出されたオーソリティページのバックリンクを探索するバックリンク探索ステップと、
前記オーソリティページ抽出ステップにより抽出されたオーソリティページをノードとし、前記バックリンク探索ステップにより探索されたバックリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、
前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、
前記スコア算出ステップにより算出されたスコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとを備える検索処理方法。 - ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、
前記専門分野クリックログ抽出ステップにより抽出されたクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、
前記オーソリティページ抽出ステップにより抽出されたオーソリティページのバックリンクを探索するバックリンク探索ステップと、
前記オーソリティページ抽出ステップにより抽出されたオーソリティページをノードとし、前記バックリンク探索ステップにより探索されたバックリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、
前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、
前記スコア算出ステップにより算出されたスコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとをコンピュータに実行させるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008281481A JP4824070B2 (ja) | 2008-10-31 | 2008-10-31 | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008281481A JP4824070B2 (ja) | 2008-10-31 | 2008-10-31 | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010108363A true JP2010108363A (ja) | 2010-05-13 |
JP4824070B2 JP4824070B2 (ja) | 2011-11-24 |
Family
ID=42297735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008281481A Expired - Fee Related JP4824070B2 (ja) | 2008-10-31 | 2008-10-31 | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4824070B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011077955A1 (ja) | 2009-12-22 | 2011-06-30 | 株式会社日本触媒 | 排水処理用触媒及びその触媒を用いた排水の処理方法 |
CN103116660A (zh) * | 2013-03-15 | 2013-05-22 | 人民搜索网络股份公司 | 网站权威值的获取方法及装置 |
CN103793421A (zh) * | 2012-10-31 | 2014-05-14 | 北京拓尔思信息技术股份有限公司 | 基于网页结构的信息动态采集更新调度方法 |
JP2017173910A (ja) * | 2016-03-18 | 2017-09-28 | Jcc株式会社 | 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム |
JP2019133262A (ja) * | 2018-01-29 | 2019-08-08 | ヤフー株式会社 | 抽出装置、抽出方法、及び抽出プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263448A (ja) * | 2002-03-11 | 2003-09-19 | Toshiba Corp | Web収集プログラム及びシステム並びに方法 |
-
2008
- 2008-10-31 JP JP2008281481A patent/JP4824070B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263448A (ja) * | 2002-03-11 | 2003-09-19 | Toshiba Corp | Web収集プログラム及びシステム並びに方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011077955A1 (ja) | 2009-12-22 | 2011-06-30 | 株式会社日本触媒 | 排水処理用触媒及びその触媒を用いた排水の処理方法 |
CN103793421A (zh) * | 2012-10-31 | 2014-05-14 | 北京拓尔思信息技术股份有限公司 | 基于网页结构的信息动态采集更新调度方法 |
CN103116660A (zh) * | 2013-03-15 | 2013-05-22 | 人民搜索网络股份公司 | 网站权威值的获取方法及装置 |
JP2017173910A (ja) * | 2016-03-18 | 2017-09-28 | Jcc株式会社 | 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム |
JP2019133262A (ja) * | 2018-01-29 | 2019-08-08 | ヤフー株式会社 | 抽出装置、抽出方法、及び抽出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4824070B2 (ja) | 2011-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9940398B1 (en) | Customization of search results for search queries received from third party sites | |
JP6266080B2 (ja) | 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム | |
KR101934449B1 (ko) | 검색 쿼리에 응답하여 콘텐츠에 매칭될 이미지에 대해 동적 랭킹을 진행하기 위한 방법 및 시스템 | |
JP4908422B2 (ja) | リンクベースのスパム検出 | |
JP5494454B2 (ja) | 検索結果生成方法、検索結果生成プログラムおよび検索システム | |
CN103870461B (zh) | 主题推荐方法、装置和服务器 | |
JP5084858B2 (ja) | サマリ作成装置、サマリ作成方法及びプログラム | |
US20090299978A1 (en) | Systems and methods for keyword and dynamic url search engine optimization | |
US10296535B2 (en) | Method and system to randomize image matching to find best images to be matched with content items | |
JP4824070B2 (ja) | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム | |
Choudhary et al. | Role of ranking algorithms for information retrieval | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP2010286888A (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
JP2008234559A (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
JP2010072909A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5384884B2 (ja) | 情報検索装置および情報検索プログラム | |
JP4962973B2 (ja) | 検索サーバ、方法及びプログラム | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
JP2010086210A (ja) | 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
JP2004264928A (ja) | Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体 | |
JP2003186912A (ja) | Webページ検索の適合度計算方法とその装置、Webページ検索の検索結果表示方法とその装置、並びにそれらの方法の実行プログラムとそれらの方法の実行プログラムを記録した記録媒体 | |
JP2011128669A (ja) | 情報検索装置および情報検索プログラム | |
JP6042162B2 (ja) | ウェブ検索装置、ウェブ検索方法及びプログラム | |
JP4029680B2 (ja) | 検索端末装置、検索端末プログラムおよび検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110816 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110907 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4824070 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140916 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |