JP5040396B2 - Webページ検索プログラム、方法、及び装置 - Google Patents

Webページ検索プログラム、方法、及び装置 Download PDF

Info

Publication number
JP5040396B2
JP5040396B2 JP2007085738A JP2007085738A JP5040396B2 JP 5040396 B2 JP5040396 B2 JP 5040396B2 JP 2007085738 A JP2007085738 A JP 2007085738A JP 2007085738 A JP2007085738 A JP 2007085738A JP 5040396 B2 JP5040396 B2 JP 5040396B2
Authority
JP
Japan
Prior art keywords
web page
page
search
priority
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007085738A
Other languages
English (en)
Other versions
JP2008243050A (ja
Inventor
啓之 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007085738A priority Critical patent/JP5040396B2/ja
Priority to US12/050,591 priority patent/US20080243835A1/en
Publication of JP2008243050A publication Critical patent/JP2008243050A/ja
Application granted granted Critical
Publication of JP5040396B2 publication Critical patent/JP5040396B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、検索対象Webサーバに格納されたWebページを検索するプログラム、方法、及び装置に関し、特に、検索により抽出された複数のWebページに優先度を与える手段の改良に関する。
例えば、インターネット上のWebページを検索する場合には、検索エンジンがよく使用される。検索エンジンは、クライアントから入力された検索条件を示す入力キーワードに基づいて、Webサーバ上のWebページから抽出されたインデックスデータを検索し、検索条件にヒットしたWebページに優先度(ランキング)を与え、ヒットしたWebページと優先度とをクライアントに返し、クライアントの画面上にヒットしたWebページを優先度順に表示させる。
優先度のスコアを算出する手段としては、従来、主に以下のような4つの方法が知られている。
1) データの内容によるもの
例えば、検索キーワードのデータ中の出現頻度、出現位置や分布情報などに基づいて優先度のスコアを算出する。
2) データの属性情報によるもの
例えば、ファイルタイプ、作成者名などに基づいて優先度のスコアを算出する。
3) Webページのリンク関係によるもの
例えば、他のWebページからリンクされている頻度、リンク元Webページの信頼性や重要度などに基づいて優先度のスコアを算出する。多くのページからリンクされているページは重要な情報であるという価値判断を前提とする。後述の非特許文献1は、この方式を開示している。
4) 検索結果の表示リストの中でのアクセス頻度によるもの
検索結果の表示リストの中で、どのデータがアクセスされたかを検索エンジン側で記録し、アクセス頻度の高いデータほど優先度のスコアを上げる。後述の特許文献1は、この方式を開示している。
特に、インターネットの検索では、検索要求者の期待する順に結果を表示するために、3)および4)の方法が重視されている。
The Anatomy of a Large-Scale Hypertextual Web Search Engine, Sergey Brin and Lawrence Page (Computer Science Department, Stanford University) 特開2005−258492号公報
しかしながら、上記の3)の方法による優先度の算出には、Webページを閲覧するユーザが次にどのリンクにアクセスするかといった動的な情報が含まれていないため、十分な信頼性を確保できなかった。例えば、リンクの頻度が高いとしても、ユーザが実際にそのリンクを辿ってリンク先にアクセスしていない場合には、当該ユーザにとっての優先度は低いと考えられるが、そのような事情は考慮されていない。さらに、リンクを辿ってリンク先にアクセスする頻度が時間的特性によって変化する場合には、検索を要求した期日や時刻などの時間的特性に応じて優先度を算出すべきと考えられるが、そのような事情は考慮されていない。
なお、正確な優先度の決定のためには、上記3)の方法のようにページ間のリンクも考慮した方が望ましいのに対し、4)の方法は、Webページ単独でのデータのアクセス頻度のみを考慮するものであってWebページのリンクを考慮したものではないため、優先度の算出精度が上がらなかった。
本発明は、上述した従来技術の問題点に鑑みてなされたものであり、Webページを閲覧するユーザが実際にどのリンクを辿るかという動的な情報を考慮に入れて、より実情に合致した正確な優先度の決定が可能なWebページ検索プログラム、方法、及び装置を提供することを目的(課題)とする。
本発明にかかるWebページ検索プログラムは、上記の目的を達成させるため、Webページに張られたリンクに対し、Webページを参照するユーザがどのようなリンクを辿るかを考慮に入れて優先度を決定するようにしたことを特徴とする。具体的には、本発明のWebページ検索プログラムは、コンピュータを、Webサーバによりネットワーク上に公開されたWebページを対象として検索するWebページ検索装置として機能させるプログラムにおいて、コンピュータを、入力された検索条件であるキーワードに基づいて検索対象から当該キーワードに関連するWebページを抽出する検索手段と、抽出されたWebページに対応するWebサーバに格納され、ユーザのアクセス毎に、当該ユーザがどのページからのリンクを辿って当該Webページにアクセスしたかを記録するアクセスログファイルを参照し、当該Webページに張られたリンク毎に、当該リンクを辿った当該ページへのアクセスを集計してアクセス頻度を算出し、算出されたアクセス頻度を反映させて抽出されたWebページの表示の際の優先度を決定し、決定された優先度を付与する優先度付与手段と、として機能させることを特徴とする。
優先度付与部は、Webページへのアクセス頻度を時系列により区分して管理するようにしてもよい。なお、本発明のWebページ検索方法は、コンピュータが上記プログラムの各手段と同等の手順を実行することにより実現され、Webページ検索装置は、上記のプログラムが実行されるコンピュータと等価である。
本発明によれば、検索により抽出されたWebページの優先度を決める際に、Webページを閲覧するユーザが実際にどのリンクを辿るかの頻度に基づいて検索により抽出されたWebページの優先度を決定できるため、適切な優先度を設定することができる。
以下、本発明にかかるWebページ検索装置の実施形態を説明する。図1は、実施形態のWebページ検索装置を含むコンピュータネットワークの構成を概念的に示すブロック図である。このネットワークは、検索要求ユーザにより操作される入出力装置10と、データアクセス要求ユーザによりアクセスされ、検索対象となるWebページのデータファイルが格納された検索対象Webサーバ20と、検索対象Webサーバ20に格納されたデータを収集して検索のためのインデックスを作成するデータ収集/インデックス作成装置30と、管理者により制御され、作成されたインデックスを保存するインデックス保存装置40と、入出力装置40から検索の依頼があったときに、インデックス保存装置40により保存されたインデックス情報に基づいてファイルを検索する検索装置50とを備えている。
入出力装置10は、検索要求ユーザにより入力されたキーワードを検索装置50に送って検索を実行させる検索キーワード入力部11と、検索装置50から戻される検索結果を検索要求ユーザに表示する検索結果表示部12とを備える。
検索対象Webサーバ20は、ネットワーク上に公開されると共に、検査対象となるWebページのデータファイルが格納された検索対象データ媒体21と、Webページへのアクセスを制御するデータアクセス機構22と、Webページへのアクセスログを記録するアクセスログDB23とを備えている。アクセスログDB23は、ユーザのアクセス毎に、当該ユーザがどのページからのリンクを辿って当該Webページにアクセスしたかを記録するアクセスログファイルに相当する。
データ収集/インデックス作成装置30は、データ収集やインデックス作成のスケジュールを管理するデータ収集/インデックス作成スケジュール機構31と、スケジュールにしたがって検索対象データ媒体21に格納されたデータを収集するデータ収集機構32と、収集されたデータをテキスト化して形態素解析やN-Gram等の公知の方法でインデックスを作成するインデックス作成機構33と、アクセスログDB23を参照するログ参照機構34と、アクセスログに含まれるリファラーを解析して作成したインデックスにアクセス頻度を付加するリファラー解析機構35とを備える。
インデックス保存装置40は、作成されたインデックスを記録するインデックステーブルと、アクセス頻度を記録するリンク情報テーブルとを有するインデックスDB41を備えている。
検索装置50は、入出力装置10の検索キーワード入力部11から送られたキーワードに基づいてインデックスDB41を検索する検索機構51と、検索の結果抽出された複数のWebページについて、各ページのリンク情報とリンクを辿ったアクセス頻度とをインデックスDB41から読み出して優先度を決定する優先度決定機構52とを備えている。
なお、上記の構成では、入出力装置10と検索装置50の検索機構51とが検索手段に該当し、データ収集/インデックス作成装置30と検索装置50の優先度決定機構52とが優先度決定手段に該当する。
上記のように構成された実施形態のネットワークの作用について、図2以下のフローチャートに基づいて説明する。なお、ここでは、検査対象データ媒体21には以下の表1に示す5つのWebページのデータファイルが格納されているものと仮定する。
図2は、データアクセス要求ユーザによる検索対象Webサーバ20に対するアクセス処理の手順を示すフローチャートである。ここでは、ステップS001でデータアクセス機構22がユーザからのアクセスを受け付け、ステップS002でアクセスログDB23にユーザから要求されたデータへのアクセスがあったことを記録する。アクセスログDB23には、ユーザがどのページからのリンクを辿って当該Webページにアクセスしたか、あるいは、当該Webページからどのリンクを辿って他のページにアクセスしたか等が記録される。
図3は、Webページのリンクを辿ってアクセスする頻度を記録する期間を設定するための期間設定処理の手順を示すフローチャートである。ここでは、管理者がインデックス保存装置30にアクセスして期間を設定する。ステップS101では、インデックス保存装置40が算出期間の区分の設定を受け付け、ステップS102では、インデックスDB41にリンクを利用したアクセス頻度算出期間の区分を設定する。
図4及び図5は、検索に利用するためのインデックス作成のためのデータ収集処理を示す。ここでは、検査対象Webサーバ20の検査対象データ媒体21に登録されたWebページのデータファイルを取り込み、解析してキーワードを切り出して図7に示すようなインデックステーブルに登録すると共に、アクセスログDB23に記録されたアクセスログを解析して図8に示すようなリンク情報テーブルに登録する。
データ収集処理の最初のステップS201(図4)では、検索対象Webサーバ20の検索対象データ媒体21の基点となるWebページからリンクを辿り、リンクされた全てのWebページのURLを参照して作業域に記録する。そして、記録したURL毎に1ページずつデータを参照し(S202)、テキストファイルであればそのまま、テキストファイルでなければ可能であればテキストファイルに変換し(S203, S204, S205)、S206に進む。
ステップS206では、形態素解析やN-Gramといった公知の方法で検索語(キーワード)を切り出してインデックスを作成する。このステップS202〜S206の処理を記録したURLが最後になるまで(S207の判定がYとなるまで)繰り返し実行する。
ステップS207の判定がYとなると、図5に示すステップS208に処理が進められる。ステップS208では、記録したURLで示されるWebページ毎にアクセスログDB23からアクセスログを検索し、アクセス日時とリファラーを参照する。ステップS209ではURL毎、期間毎、リンクを辿ったページ毎に、アクセス頻度を算出する。
リファラーを含んだログの形式の例を以下に示す。
「10.0.51.101 - - [25/Dec/2006:17:30:05 +0900] "GET /doc3.html HTTP/1.1" 200 100 "http://www.aaa.com/doc1.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows(登録商標) NT 5.1)" 」
各情報は、「ホスト名、識別情報、認証ユーザ、日時、リクエスト、ステータス、バイト数、リファラー、ユーザーエージェント」の順に並んでいる。この例の場合、日本時間の2006年12月25日17時30分5秒に10.0.51.101からWindows XPのMicrosoft Internet Explorer 6.0でdoc3.htmlにアクセスして成功。リンクアクセス元はwww.aaa.com/doc1.htmlであることがわかる。
ステップS210では、算出された頻度に基づいて、インデックスDB41内のリンク情報テーブルに、期間毎、リンクを辿った元ページ毎のアクセス頻度を付加する。このステップS208〜S210の処理を記録したURLが最後になるまで(S211の判定がYとなるまで)繰り返し実行し、最後まで実行するとデータ収集処理を終了する。これにより、検索対象データ媒体21内のWebページについて、図7に示すようなインデックステーブルが作成され、かつ、図8に示すようなリンク情報テーブルが作成される。インデックステーブルでは、表1に示した5つのWebページの内容を例にして各検索語を切り出した結果を示している。
次に、検索要求ユーザが入出力装置10を操作して所定のキーワードを検索条件として入力して検索を実行した場合の処理について図6のフローチャートに基づいて説明する。
検索処理の最初のステップS301において、検索要求ユーザが検索キーワード入力部11に検索キーワードを入力すると、ステップS302において検索機構51が検索要求を受け付け、インデックスDB41を参照して検索キーワードに該当するエントリを全て抽出する。例えば、キーワードを「検索」とした場合、図7に示されるように、4つのWebページがヒットする。
続いてステップS304において、優先度決定機構52が優先度(ランキング)のスコアを算出する。このとき、検索により抽出された各Webページについて、期間毎、リンクを辿った元ページ毎のアクセス頻度をインデックスDB41内のリンク情報テーブルから読み出し、優先度のスコアを計算する。この例では、過去1ヶ月のアクセス頻度を集計して優先度の算出に利用している。
そして、ステップS305でランキングのスコア順に検索結果をソートし、ステップS306において検索結果表示部12に検索結果を表示させ、検索処理を終了する。
優先度のスコア算出式として、例えばここでは、ページAの優先度PR(A)を決定する際に、ページAに対して外部ページT1〜Tnからリンクが張られていると仮定したとき、各外部ページの優先度をPR(T1)〜PR(Tn)、各外部ページT1〜TnからページAを含む全てのリンク先へのアクセス総数をA(T1)〜A(Tn)、各外部ページT1〜TnからページAへのアクセス頻度をM(A, T1)〜M(A, Tn)、リンクを辿って特定のWebページにたどり着く確率をダンピングファクターdとして、以下の式、
PR(A)=(1-d) + d(PR(T1)×(M(A,T1)/A(T1)) + ...
+ PR(Tn)×(M(A,Tn)/A(Tn)))
を用いる。
具体的なスコアを表1に示したリンク関係を前提として、図7に示されたインデックスと図8に示されたアクセス頻度とに基づいて計算してみる。最初に、各Webページの優先度のスコアを算出する。
エントリ0のWebページを起点とし、スコアPR(doc1)=1であると設定する。ダンピングファクターはd=1とする。エントリ1のWebページ(doc2.html)は、エントリ0の外部ページからのみリンクが張られ、エントリ0の外部ページからのアクセス総数は100、そのうち、エントリ1のWebページへのアクセス数は90である。したがって、エントリ1のWebページのスコアは、
PR(doc2)=PR(doc1) × 90/100 = 0.9
となる。
エントリ2のWebページ(doc3.html)は、エントリ0の外部ページと、エントリ1の外部ページとからリンクが張られ、エントリ0の外部ページからのアクセス総数は100、そのうち、エントリ2のWebページへのアクセス数は10、エントリ1の外部ページからのアクセス総数は90、そのうち、エントリ2のWebページへのアクセス数は60である。したがって、エントリ2のWebページのスコアは、
PR(doc3)=PR(doc1) × 10/100 + PR(doc2) × 60/90 = 0.6
となる。
エントリ3のWebページ(doc4.html)は、エントリ1の外部ページからのみリンクが張られ、エントリ1の外部ページからのアクセス総数は90、そのうち、エントリ3のWebページへのアクセス数は20である。したがって、エントリ3のWebページのスコアは、
PR(doc4)=PR(doc2) × 20/90 = 0.2
となる。
エントリ4のWebページ(doc5.html)は、エントリ1の外部ページからのみリンクが張られ、エントリ1の外部ページからのアクセス総数は90、そのうち、エントリ4のWebページへのアクセス数は10である。したがって、エントリ4のWebページのスコアは、
PR(doc5)=PR(doc2) × 10/90 = 0.1
となる。
ここで、例えばキーワード「検索」が入力されて検索が実行されると、エントリ0、1、2、3の4つのWebページがヒットして抽出されるが、それらのWebページの優先度のスコアはそれぞれ、1.0、0.9、0.6、0.2であるため、検索結果は、以下の表2に示す順序でリストされる。
なお、リンクを辿るアクセス頻度の集計は、上記のように過去の一定の期間を範囲としてもよいし、頻度の変化を時系列的に捉えて、所定の期間毎の優先度を算出してもよい。次に、このようなアクセス頻度の時系列的な変化を考慮した例について説明する。
ここでは1ヶ月を3つの期間に分け、1日〜10日のアクセス頻度、11日〜20日のアクセス頻度、21日〜31日のアクセス頻度に分けて集計する。これは、例えば月内の期間によって頻度が変化するようなファイルについては、そのような頻度の変化を反映させ、当該期間内では優先度を上げ、他の期間では優先度を下げるような処理をするために設定される。
図9は、上記のように1ヶ月を3つの期間に分けて集計した結果の例を示している。このようにアクセス頻度を3つの期間に分けて集計しているため、優先度のスコアがそれぞれの期間毎に変化することとなる。エントリ1〜4のWebページの優先度のスコアの各期間の計算結果を以下に示す。リンク関係は表1に示したものと同様であり、上記の算出式に基づき、PR(doc1)=1、d=1として、図9に示す頻度を用いて計算したものである。個々の式に対する説明は省略する。
1日〜10日
PR(doc2)=PR(doc1) × 20/30 = 0.666
PR(doc3)=PR(doc1) × 10/30 + PR(doc2) × 3/12 = 0.5
PR(doc4)=PR(doc2) × 6/12 = 0.25
PR(doc5)=PR(doc2) × 3/12 = 0.125
11日〜20日
PR(doc2)=PR(doc1) × 20/30 = 0.666
PR(doc3)=PR(doc1) × 10/30 + PR(doc2) × 3/12 = 0.5
PR(doc4)=PR(doc2) × 6/12 = 0.25
PR(doc5)=PR(doc2) × 3/12 = 0.125
21日〜31日
PR(doc2)=PR(doc1) × 20/120 = 0.166
PR(doc3)=PR(doc1) × 100/120 + PR(doc2) × 3/12 = 0.874
PR(doc4)=PR(doc2) × 6/12 = 0.083
PR(doc5)=PR(doc2) × 3/12 = 0.041
上記の具体例の場合、「検索」をキーワードにして抽出される4つのWebページの優先度のスコアは、5日に検索した場合と、30日に検索した場合、検索結果は、以下の表3に示す順序でリストされる。表3では、上の欄ほど優先度が高いことを示す。www.ccc.com/doc3.htmlは、21日〜31日の期間にスコアの高いwww.aaa.com/doc1.htmlからのアクセス頻度が高いため、30日に検索すると、スコアが高くなる。
(付記1)
コンピュータを、Webサーバによりネットワーク上に公開されたWebページを対象として検索するWebページ検索装置として機能させるWebページ検索プログラムにおいて、
コンピュータを、
入力された検索条件であるキーワードに基づいて検索対象から当該キーワードに関連するWebページを抽出する検索手段と、
抽出されたWebページに対応するWebサーバに格納され、ユーザのアクセス毎に、当該ユーザがどのページからのリンクを辿って当該Webページにアクセスしたかを記録するアクセスログファイルを参照し、当該Webページに張られたリンク毎に、当該リンクを辿った当該ページへのアクセスを集計してアクセス頻度を算出し、算出されたアクセス頻度を反映させて抽出されたWebページの表示の際の優先度を決定し、決定された優先度を付与する優先度付与手段と、
として機能させることを特徴とするWebページ検索プログラム。
(付記2)
前記優先度付与部は、特定ページの優先度を決定する際に、特定ページに対して複数の外部ページからリンクが張られていると仮定したとき、各外部ページ毎に、外部ページの優先度と当該外部ページから特定ページへのアクセス頻度との積を当該外部ページから特定ページを含む全てのリンク先へのアクセス総数で割った値を求め、この値の全外部ページについての総和に、リンクを辿って特定のWebページにたどり着く確率を乗じ、この積と、リンクを辿らずに特定のWebページにたどり着く確率との和を特定ページの優先度とすることを特徴とする付記1に記載のWebページ検索プログラム。
(付記3)
前記優先度付与部は、Webページへのアクセス頻度を時系列により区分して管理することを特徴とする付記1又は2に記載のWebページ検索プログラム。
(付記4)
Webサーバによりネットワーク上に公開されたWebページを対象として検索するWebページ検索方法において、
コンピュータが、
入力された検索条件であるキーワードに基づいて検索対象から当該キーワードに関連するWebページを抽出する検索手順と、
抽出されたWebページに対応するWebサーバに格納され、ユーザのアクセス毎に、当該ユーザがどのページからのリンクを辿って当該Webページにアクセスしたかを記録するアクセスログファイルを参照し、当該Webページに張られたリンク毎に、当該リンクを辿った当該ページへのアクセスを集計してアクセス頻度を算出し、算出されたアクセス頻度を反映させて抽出されたWebページの表示の際の優先度を決定し、決定された優先度を付与する優先度付与手順と、
を実行することを特徴とするWebページ検索方法。
(付記5)
前記優先度付与部は、特定ページの優先度を決定する際に、特定ページに対して複数の外部ページからリンクが張られていると仮定したとき、各外部ページ毎に、外部ページの優先度と当該外部ページから特定ページへのアクセス頻度との積を当該外部ページから特定ページを含む全てのリンク先へのアクセス総数で割った値を求め、この値の全外部ページについての総和に、リンクを辿って特定のWebページにたどり着く確率を乗じ、この積と、リンクを辿らずに特定のWebページにたどり着く確率との和を特定ページの優先度とすることを特徴とする付記4に記載のWebページ検索方法。
(付記6)
前記優先度付与部は、Webページへのアクセス頻度を時系列により区分して管理することを特徴とする付記4又は5に記載のWebページ検索方法。
(付記7)
Webサーバによりネットワーク上に公開されたWebページを対象として検索するWebページ検索装置において、
入力された検索条件であるキーワードに基づいて検索対象から当該キーワードに関連するWebページを抽出する検索手段と、
抽出されたWebページに表示の際の優先度を付与する優先度付与手段とを備え、
前記優先度付与手段は、抽出されたWebページに対応するWebサーバに格納され、ユーザのアクセス毎に、当該ユーザがどのページからのリンクを辿って当該Webページにアクセスしたかを記録するアクセスログファイルを参照し、当該Webページに張られたリンク毎に、当該リンクを辿った当該ページへのアクセスを集計してアクセス頻度を算出し、算出されたアクセス頻度を優先度の決定に反映させることを特徴とするWebページ検索装置。
(付記8)
前記優先度付与部は、特定ページの優先度を決定する際に、特定ページに対して複数の外部ページからリンクが張られていると仮定したとき、各外部ページ毎に、外部ページの優先度と当該外部ページから特定ページへのアクセス頻度との積を当該外部ページから特定ページを含む全てのリンク先へのアクセス総数で割った値を求め、この値の全外部ページについての総和に、リンクを辿って特定のWebページにたどり着く確率を乗じ、この積と、リンクを辿らずに特定のWebページにたどり着く確率との和を特定ページの優先度とすることを特徴とする付記7に記載のWebページ検索装置。
(付記9)
前記優先度付与部は、Webページへのアクセス頻度を時系列により区分して管理することを特徴とする付記7又は8に記載のWebページ検索装置。
本発明の実施形態に係るWebページ検索装置を含むコンピュータネットワークを示すブロック図である。 図1のWebページ検索装置によるアクセス処理の内容を示すフローチャートである。 図1のWebページ検索装置による期間設定処理の内容を示すフローチャートである。 図1のWebページ検索装置によるデータ収集処理の前半の内容を示すフローチャートである。 図1のWebページ検索装置によるデータ収集処理の後半の内容を示すフローチャートである。 図1のWebページ検索装置による検索処理の内容を示すフローチャートである。 図1のWebページ検索装置により生成されるインデックステーブルの例を示す説明図である。 図1のWebページ検索装置により生成されるリンク情報テーブルの例を示す説明図である。 図1のWebページ検索装置により生成されるリンク情報テーブルの他の例を示す説明図である。
符号の説明
10 入出力装置
20 検索対象装置
30 データ収集/インデックス作成装置
40 インデックス保存装置
50 検索装置

Claims (7)

  1. コンピュータを、Webサーバによりネットワーク上に公開されたWebページを対象として検索するWebページ検索装置として機能させるWebページ検索プログラムにおいて、
    コンピュータを、
    入力された検索条件であるキーワードに基づいて検索対象から当該キーワードに関連するWebページを抽出する検索手段と、
    抽出されたWebページに対応するWebサーバに格納され、ユーザのアクセス毎に、当該ユーザがどの他のWebページからのリンクを辿って当該Webページにアクセスしたかを記録するアクセスログファイルを参照し、当該Webページへのリンクが張られた前記他のWebページ毎に、当該リンクを辿った当該Webページへのアクセスを集計してアクセス頻度を算出し、算出されたアクセス頻度を反映させて抽出されたWebページの表示の際の優先度を決定し、決定された優先度を付与する優先度付与手段と、
    として機能させることを特徴とするWebページ検索プログラム。
  2. 前記優先度付与手段は、Webページへのアクセス頻度を時系列により区分して管理する
    ことを特徴とする請求項1に記載のWebページ検索プログラム。
  3. 前記優先度付与手段は、特定ページの優先度を決定する際に、特定ページに対して複数の外部ページからリンクが張られていると仮定したとき、各外部ページ毎に、外部ページの優先度と当該外部ページから特定ページへのアクセス頻度との積を当該外部ページから特定ページを含む全てのリンク先へのアクセス総数で割った値を求め、この値の全外部ページについての総和に、リンクを辿って特定のWebページにたどり着く確率を乗じ、この
    積と、リンクを辿らずに特定のWebページにたどり着く確率との和を特定ページの優先度
    とする請求項1に記載のWebページ検索プログラム。
  4. Webサーバによりネットワーク上に公開されたWebページを対象として検索するWebページ検索方法において、
    コンピュータが、
    入力された検索条件であるキーワードに基づいて検索対象から当該キーワードに関連するWebページを抽出する検索手順と、
    抽出されたWebページに対応するWebサーバに格納され、ユーザのアクセス毎に、当該ユーザがどの他のWebページからのリンクを辿って当該Webページにアクセスしたかを記録するアクセスログファイルを参照し、当該Webページへのリンクが張られた前記他のWebページ毎に、当該リンクを辿った当該Webページへのアクセスを集計してアクセス頻度を算出し、算出されたアクセス頻度を反映させて、抽出されたWebページの表示の際の優先度を決定し、決定された優先度を付与する優先度付与手順と、
    を実行することを特徴とするWebページ検索方法。
  5. 前記優先度付与手順は、特定ページの優先度を決定する際に、特定ページに対して複数の外部ページからリンクが張られていると仮定したとき、各外部ページ毎に、外部ページの優先度と当該外部ページから特定ページへのアクセス頻度との積を当該外部ページから特定ページを含む全てのリンク先へのアクセス総数で割った値を求め、この値の全外部ページについての総和に、リンクを辿って特定のWebページにたどり着く確率を乗じ、この
    積と、リンクを辿らずに特定のWebページにたどり着く確率との和を特定ページの優先度
    とする請求項4に記載のWebページ検索方法。
  6. Webサーバによりネットワーク上に公開されたWebページを対象として検索するWebページ検索装置において、
    入力された検索条件であるキーワードに基づいて検索対象から当該キーワードに関連するWebページを抽出する検索手段と、
    抽出されたWebページに表示の際の優先度を付与する優先度付与手段とを備え、
    前記優先度付与手段は、抽出されたWebページに対応するWebサーバに格納され、ユーザのアクセス毎に、当該ユーザがどの他のWebページからのリンクを辿って当該Webページにアクセスしたかを記録するアクセスログファイルを参照し、当該Webページへのリンクが張られた前記他のWebページ毎に、当該リンクを辿った当該Webページへのアクセスを集計してアクセス頻度を算出し、算出されたアクセス頻度を優先度の決定に反映させることを特徴とするWebページ検索装置。
  7. 前記優先度付与手段は、特定ページの優先度を決定する際に、特定ページに対して複数の外部ページからリンクが張られていると仮定したとき、各外部ページ毎に、外部ページの優先度と当該外部ページから特定ページへのアクセス頻度との積を当該外部ページから特定ページを含む全てのリンク先へのアクセス総数で割った値を求め、この値の全外部ページについての総和に、リンクを辿って特定のWebページにたどり着く確率を乗じ、この
    積と、リンクを辿らずに特定のWebページにたどり着く確率との和を特定ページの優先度
    とする請求項6に記載のWebページ検索装置。
JP2007085738A 2007-03-28 2007-03-28 Webページ検索プログラム、方法、及び装置 Expired - Fee Related JP5040396B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007085738A JP5040396B2 (ja) 2007-03-28 2007-03-28 Webページ検索プログラム、方法、及び装置
US12/050,591 US20080243835A1 (en) 2007-03-28 2008-03-18 Program, method and apparatus for web page search

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007085738A JP5040396B2 (ja) 2007-03-28 2007-03-28 Webページ検索プログラム、方法、及び装置

Publications (2)

Publication Number Publication Date
JP2008243050A JP2008243050A (ja) 2008-10-09
JP5040396B2 true JP5040396B2 (ja) 2012-10-03

Family

ID=39796084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007085738A Expired - Fee Related JP5040396B2 (ja) 2007-03-28 2007-03-28 Webページ検索プログラム、方法、及び装置

Country Status (2)

Country Link
US (1) US20080243835A1 (ja)
JP (1) JP5040396B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5485997B2 (ja) * 2009-08-13 2014-05-07 株式会社日立ソリューションズ 重複排除機能付きデータ格納装置及び当該データ格納装置の検索インデックスを作成する制御装置
JP2011138340A (ja) * 2009-12-28 2011-07-14 Canon Inc サーバ装置、サーバ装置のログ監査方法およびプログラム
JP5418295B2 (ja) * 2010-02-25 2014-02-19 日本電気株式会社 検索装置
JP5928248B2 (ja) * 2012-08-27 2016-06-01 富士通株式会社 評価方法、情報処理装置およびプログラム
US9886664B2 (en) * 2013-09-25 2018-02-06 Avaya Inc. System and method of message thread management
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
JP2018005509A (ja) * 2016-06-30 2018-01-11 キヤノン株式会社 情報処理装置、制御方法、及びプログラム
JP6053249B1 (ja) * 2016-08-26 2016-12-27 株式会社シンメトリック Webページの閲覧回数を推定するための装置、プログラムおよび記録媒体
CN106533989B (zh) * 2016-12-01 2019-08-20 携程旅游网络技术(上海)有限公司 用于企业跨地域访问网络的优化方法及优化***
US11294859B2 (en) * 2020-01-15 2022-04-05 Microsoft Technology Licensing, Llc File usage recorder program for classifying files into usage states
CN116680367B (zh) * 2023-08-04 2023-11-24 深圳市智慧城市科技发展集团有限公司 数据匹配方法、数据匹配装置及计算机可读存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5897670A (en) * 1996-07-12 1999-04-27 Sun Microsystems, Inc. Method and system for efficient organization of selectable elements on a graphical user interface
US20020111847A1 (en) * 2000-12-08 2002-08-15 Word Of Net, Inc. System and method for calculating a marketing appearance frequency measurement
US20030128231A1 (en) * 2002-01-09 2003-07-10 Stephane Kasriel Dynamic path analysis
US7565367B2 (en) * 2002-01-15 2009-07-21 Iac Search & Media, Inc. Enhanced popularity ranking
US7454417B2 (en) * 2003-09-12 2008-11-18 Google Inc. Methods and systems for improving a search ranking using population information
US7464076B2 (en) * 2004-05-15 2008-12-09 International Business Machines Corporation System and method and computer program product for ranking logical directories
JP2006065395A (ja) * 2004-08-24 2006-03-09 Fujitsu Ltd ハイパーリンク生成装置、ハイパーリンク生成方法及びハイパーリンク生成プログラム
US8600811B2 (en) * 2005-08-24 2013-12-03 Linkconnector Corporation Affiliate marketing method that provides inbound affiliate link credit without coded URLs
US8065292B2 (en) * 2006-04-17 2011-11-22 Cisco Technology, Inc. Generating an index for a network search engine
US8676961B2 (en) * 2006-07-27 2014-03-18 Yahoo! Inc. System and method for web destination profiling
US7593935B2 (en) * 2006-10-19 2009-09-22 Paxfire Methods and systems for node ranking based on DNS session data
US7788253B2 (en) * 2006-12-28 2010-08-31 International Business Machines Corporation Global anchor text processing

Also Published As

Publication number Publication date
US20080243835A1 (en) 2008-10-02
JP2008243050A (ja) 2008-10-09

Similar Documents

Publication Publication Date Title
JP5040396B2 (ja) Webページ検索プログラム、方法、及び装置
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
JP5078674B2 (ja) 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
KR100859918B1 (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
KR20110009198A (ko) 최다 클릭된 다음 객체들을 갖는 검색 결과
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
JP5226241B2 (ja) タグを付与する方法
JP2009122807A (ja) 連想検索システム
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5191499B2 (ja) 検索結果順位付け方法および検索結果順位付けシステム
US8612431B2 (en) Multi-part record searches
JP5466133B2 (ja) 画像付文書検索装置及び画像付文書検索プログラム
JP5181504B2 (ja) データ処理方法、プログラム及び情報処理装置
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2010026724A (ja) Webページ提供装置、webページのランキング連動方法及びそのプログラム
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5396845B2 (ja) 文書群検出方法及び文書群検出装置
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP2006277061A (ja) 知識検索システム、知識検索方法及びプログラム
JP4634821B2 (ja) 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体
JP4088164B2 (ja) ドキュメントスコア計算方法及び装置並びにプログラム
JP2010122932A (ja) 文書検索装置、文書検索方法、および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120625

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees