JP2006228116A - ウェブページリンク判定方法およびウェブページリンク判定装置 - Google Patents

ウェブページリンク判定方法およびウェブページリンク判定装置 Download PDF

Info

Publication number
JP2006228116A
JP2006228116A JP2005044154A JP2005044154A JP2006228116A JP 2006228116 A JP2006228116 A JP 2006228116A JP 2005044154 A JP2005044154 A JP 2005044154A JP 2005044154 A JP2005044154 A JP 2005044154A JP 2006228116 A JP2006228116 A JP 2006228116A
Authority
JP
Japan
Prior art keywords
link
url
web page
items
links
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005044154A
Other languages
English (en)
Inventor
Yukio Kikutani
幸雄 菊谷
Masakatsu Ota
昌克 太田
Masayasu Yamaguchi
正泰 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005044154A priority Critical patent/JP2006228116A/ja
Publication of JP2006228116A publication Critical patent/JP2006228116A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

【課題】 機械的に付与される同一Blog外へのリンクを、より精度良くかつ少ない処理量で効率的に除外する。
【解決手段】 RSSフィード収集機能部10は、RSSフィードのURLリストを保持し、リストに従い各RSSフィードを巡回してRSSを入手する。RSSフィード解析機能部11は、入手したRSSを解析し、アイテムのURLを取得する。アイテム収集機能部12は、このURLを基に各アイテムにアクセスしてアイテムを収集する。アイテム解析機能部13は、アイテムを解析してリンクを抽出する。リンク判定機能部18は、リンクを記述しているURLと同一URLを指すリンクが他にある場合、そのリンクは、機械的記述によって付加された物であると判定し、削除ないし削除を意味するフラグ付けを行う。
【選択図】 図2

Description

本発明は、Blogのリンクを解析して有用な記事を検出するなどの処理を行う際の計算量削減や不要な結果の削減を実現するためのウェブページリンク判定方法およびウェブページリンク判定装置に関する。
ここでは、Blogをぺ一ジのメタ情報を保持し、ツールによって書き手が容易に書くことが可能なWebぺ一ジと定義する。メタ情報としては、RSS(例えば非特許文献1参照)、Atom(例えば非特許文献2参照)などにより配信される技術が既に規定され、実際に配布されている。
Blogでは、コンテンツたる記事を公開すると共に、その記事のメタ情報を公開し、読み手に対して新着記事の紹介などを行うことができる。読み手は、このメタ情報を定期的に入手することにより、Blogの最新情報を確認して読むことが可能になる。これにより、読み手は、注目している特定のBlogについて読むことが容易になるという利点がある。
この反面、特定のBlogに関連している他のBlogを探して読む場合には、読み手は、従来のWeb同様にリンクを辿ることになる。このため、Blogにおいては特定のBlogを見るのには便利だが、関連するBlogを見るには通常のWebと同程度の利便性しかなく、特定のBlogのみを見る傾向が生じる。さらに、この問題は、書き手に対しても同様のことが言え、書き手は、自身のBlogに関連するBlogを発見するのが難しく、結果的には個々のBlogが孤立して書かれていくという傾向が生じる。
このような問題に対して、従来のBlogにおいては、トラックバックによってある程度の解決を行なおうとしている。トラックハックとは、Blog−1の書き手が他のBlog−2の記事に対して関連する記事を書く際に、そのBlog−2の記事に対して外部からBlog−1の記事へのリンクを作成することを可能とする仕組である。これにより、Blog−2の読者は、その記事に関連するBlog−1の記事を発見することが可能となり、複数のBlogが緩やかな連携を保ちながら共同して書かれることが可能になる。しかしながら、トラックバックは、あくまでリンクであって、読み手にとってトラックバックを辿るだけでは従来のWebと同程度の利便性しかもたらさない。また、個々のBlogにおいてトラックバックに対するポリシーには差があり、そもそも全くトラックバックを許さないものや、トラックバックを選択して削除する権利を留保し、実際に削除を行なっているものなどがある。これらの存在からトラックバックに頼ったBlog間の関係の利用が常に可能であるとは限らない。
このトラックバックを利用したBlogの関係の利用とは別に、Blog記事中(以下、RSSでの用語に従いアイテム(item)と呼ぶ)に記述されたリンクを機械的に処理して関連する他Blogのアイテムを発見してユーザに提示する方法がある。これにより、ユーザは、一々Blogのトラックバックを含むリンクを辿らなくても関連するアイテムを発見できるため、従来のWebに比較して利便性がより向上する。この方法としては、Webぺ一ジのグルーピングとして行なわれてきたHITS(例えば非特許文献3参照)、完全二部グラフ発見アルゴリズム(例えば非特許文献4参照)、MaxF1owアルゴリズム(例えば非特許文献5参照)、文書間の共参照リンク分析(例えば非特許文献6参照)といった方法や、特定のBlog記事から一定数のトラックバックで辿れる全ての記事を提示する方法(例えば非特許文献7参照)などがある。
"RSS1.O Specification"、インターネット<URL:http:://web.resource.org/rss/1.0/spec> "The Atom Syndication Fromat0.3(PRE-DRAFT)draft-nottingham-atom-format-02" J.M K1einberg:"Authoritative Source in a Hyper linked Environment", Proc. ACM-SIAM-Symposium on Discrete A1gorithms,pp668-677 1998 R.Kumar,P.Raghavan,S.Rajagopa1an A.Tomkins:"Traw1ing the web for emerging cyver-communities",Proc.8th Imitational WWW conference,pp.1481-1493、1999 今藤紀子、喜連川優:"Max−F1aw コミュニティグラフとその特徴分析"、DEWS2−4,6_B_05、2004 原田昌紀、風間一洋、佐藤進也:"参照狂気分析のWebデイレクトリヘの適用"、情報処理学会研究会資料2001−FI−61−7、pp45−52 沼晃介、他:"Weblogにおけるエゴセントリック検索の提案と実装"、人口知能学会研究会資料SIG−SWO−A401−06
しかしながら、これらの方法を実現するに当たり、Blogがツールで書かれたことに伴って、当該Blogには機械的に付加されたリンクが記載されてしまうという問題がある。Blogは、複数のアイテムで時系列的な記述が行なわれることが多いので、時系列的に前のアイテム、後のアイテムに対するリンクが張られていることは多い。また、Blogツールを提供するサービスプロバイダが載せている広告、サービスブロバイダ内の他のBlogの最新記事へのリンクなどが大量に張られているケースも多い。測定結果によれば、アイテム当り平均で40個程度のリンクを持っている。実際に書き手が書いているリンクはせいぜい数個以内であることが多いことを考えると、Blogにおいて機械的に付加されたリンクが大部分を占めることが分かる。
これらの機械的付加リンクは、様々な問題点を生じさせる。第1に関連アイテム抽出の際に対象とすべきアイテムの総数が大幅に増大することにより、処理負荷が増大することである。第2に記事間の関係を考えずに作成されている機械的付加リンクを辿ることで、無関係なアイテムを多数抽出してしまうことである。第2の問題は、アイテムのグルーピングの際の抽出手法によってある程度カバーすることができるが、この時には第1の問題が大きな障害となる。
これらの問題を解決する方法として、従来行なわれているのは、リンク一般を相手にするのではなく、トラックバックのみを抽出して利用する方法である。一般にトラックバックは、アイテム中に記述される際に通常のリンクとは区別できる方法で書かれることが多い。これによりトラックバックのみを抽出できる可能性はある。但し、前述したトラックバックに対する各Blogのポリシーの問題により、トラックバックで全ての関連性を把握できる訳ではない。
また、RSS内のチャネル(channel:Blogサイトにおいて各アイテムをカテゴリ化した際の単位)のURI(同一Blogサイトであることの識別子)や、各アイテムの属するチャネルを用いることにより、同一blog内部へのリンクを削除することは可能である。機械的に付与されるリンクのかなりの部分は、同一Blog内へのリンクであることから、この削除は有効である。但し、機械的に付与されるリンクのうちで、同一Blog内にリンクされる以外のリンクもそれなりの割合存在する。Blogの解析を効率的に行い、関連する他のアイテムを抽出するためには、機械的に付与される同一Blog外へのリンクの効率的な除去の方法が必要である。しかしながら、従来はこのような方法がなく、アイテムの抽出において余計なリンクからの影響が少ないアルゴリズムを使用する以外に対処の方法がなかった。
本発明は、このような事情を考慮してなされたものであり、その目的は、機械的に付与される同一Blog外へのリンクを効率的に除外し、関連する他Blogのアイテムをより精度良くかつ少ない処理量で抽出してユーザに提示することができるウェブページリンク判定方法およびウェブページリンク判定装置を提供することにある。
上述した課題を解決するために、本発明は、メタ情報を伴いツールによって書かれるウェブページ内のリンクを判定するウェブページリンク判定方法であって、1つのチャネル内のアイテムに属するリンクを抽出し、抽出したリンクが保持するURLを抽出し、抽出されたURL毎に存在するリンクの数を計数し、計数されたURL当りのリンク数が一定数以上である場合に、そのリンクを後工程で使用しないように設定することを特徴とする。
本発明は、上記の発明において、1つのチャネル内のアイテムの数を計数し、前記URL当りのリンク数が前記アイテム数に定数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定することを特徴とする。
本発明は、上記の発明において、前記URL当りのリンク数が前記アイテム数の関数によって得られる変数以上である場合に、そのリンクを後工程で使用しないように設定することを特徴とする。
本発明は、上記の発明において、前記URL当りのリンク数が、前記アイテム数に該アイテム数の関数によって得られる変数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定することを特徴とする。
本発明は、上記の発明の抽出において、一定時間内または一定回数以内の動作で取得したチャネル内の複数のアイテムに属するリンクを対象として判定することを特徴とする。
本発明は、上記の発明において、前記抽出されたリンクは、チャネル内の複数のアイテムの中でメタ情報から抽出された書き込み時間が一定範囲に属することを特徴とする。
本発明は、上記の発明において、前記抽出されたリンクが、既に後工程で使用しないように不使用に設定されたリンクのURLのリストに存在する場合には、後から取得したリンクについても、後工程で使用しないように不使用に設定することを特徴とする。
本発明は、上記の発明において、特定のリンクがトラックバックあるいは手動で付与されたものであることが他の処理部によって判明されている場合には、当該特定のリンクを判定処理対象外とすることを特徴とする。
本発明は、上記の発明において、後工程で使用しないように設定するために、該当リンクを除外するか、あるいは使用不可であることを明示するフラグを付加することを特徴とする。
また、上述した課題を解決するために、本発明は、メタ情報を伴いツールによって書かれるウェブページ内のリンクを判定するウェブページリンク判定装置であって、1つのチャネル内のアイテムに属するリンクを抽出するリンク抽出手段と、前記リンク抽出手段によって抽出されたリンクが保持するURLを抽出するURL抽出手段と、前記URL抽出手段によって抽出されたURL毎に存在するリンクの数を計数するリンク数計数手段と、前記リンク数計数手段によって計数されたURL当りのリンク数が所定の閾値を上回る場合に、そのリンクを後工程で使用しないように設定する使用不可リンク設定手段とを具備することを特徴とする。
この発明によれば、1つのチャネル内のアイテムに属するリンクを抽出し、抽出したリンクが保持するURLを抽出し、抽出されたURL毎に存在するリンクの数を計数し、計数されたURL当りのリンク数が一定数以上である場合に、そのリンクを後工程で使用しないように設定する。したがって、機械的に付与される同一Blog外へのリンクを効率的に除外し、関連する他Blogのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。
また、本発明によれば、1つのチャネル内のアイテムの数を計数し、前記URL当りのリンク数が前記アイテム数に定数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定する。したがって、Blog内のアイテム数が少ない場合にも対処することができ、機械的に付与される同一Blog外へのリンクを効率的に除外し、関連する他Blogのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。
また、本発明によれば、前記URL当りのリンク数が前記アイテム数の関数によって得られる変数以上である場合に、そのリンクを後工程で使用しないように設定する。したがって、Blog内のアイテム数が少ない場合にも対処することができ、機械的に付与される同一Blog外へのリンクを効率的に除外し、関連する他Blogのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。
また、本発明によれば、前記URL当りのリンク数が、前記アイテム数に該アイテム数の関数によって得られる変数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定する。したがって、Blog内のアイテム数が少ない場合にも対処することができ、機械的に付与される同一Blog外へのリンクを効率的に除外し、関連する他Blogのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。
また、本発明によれば、前記抽出において、一定時間内または一定回数以内の動作で取得したチャネル内の複数のアイテムに属する。したがって、機械的に付与されるリンクが時刻などによって変化するような場合であっても、機械的に付与される同一Blog外へのリンクを効率的に除外し、リンクの抽出精度を向上させることができるという利点が得られる。
また、本発明によれば、前記抽出されたリンクは、チャネル内の複数のアイテムの中でメタ情報から抽出された書き込み時間が一定範囲に属する。したがって、機械的に付与されたリンクが作成時刻によって固定されている場合であっても、機械的に付与される同一Blog外へのリンクを効率的に除外し、関連する他Blogのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。
また、本発明によれば、前記抽出されたリンクが、既に後工程で使用しないように不使用に設定されたリンクのURLのリストに存在する場合には、後から取得したリンクについても、後工程で使用しないように不使用に設定する。したがって、一般に機械的付与されたURLの重なり度合は高いので、新たに機械的付与されたURLの判定を行うよりも少ない労力で機械的付与されたリンクを発見することができ、関連する他Blogのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。
また、本発明によれば、特定のリンクがトラックバックあるいは手動で付与されたものであることが他の処理部によって判明されている場合には、当該特定のリンクを判定処理対象外とする。したがって、トラックバックないしは手動付与であるリンクを除外して処理を行なうことで、より少ない労力で機械的付与されたリンクを発見することができ、関連する他Blogのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。
また、本発明によれば、後工程で使用しないように設定するために、該当リンクを除外するか、あるいは使用不可であることを明示するフラグを付加する。機械的に付与される同一Blog外へのリンクを効率的に除外し、関連する他Blogのアイテムをより精度良くかつ少ない処理量で抽出してユーザに提示することができるという利点が得られる。
また、この発明によれば、リンク抽出手段により、1つのチャネル内のアイテムに属するリンクを抽出し、URL抽出手段により、前記リンク抽出手段によって抽出されたリンクが保持するURLを抽出し、リンク数計数手段により、前記URL抽出手段によって抽出されたURL毎に存在するリンクの数を計数し、使用不可リンク設定手段により、前記リンク数計数手段によって計数されたURL当りのリンク数が所定の閾値を上回る場合に、そのリンクを後工程で使用しないように設定する。したがって、機械的に付与される同一Blog外へのリンクを効率的に除外し、関連する他Blogのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。
以下、本発明の一実施形態によるウェブページリンク判定装置を、図面を参照して説明する。
本実施形態では、Blogのリンク解析の予備処理として、機械的に付与されたリンクと見られるリンクを除去することを特徴とする。本実施形態においては、Blogが同一作者ないし作者グループによって書かれるものであり、Blogの関連性を示す情報は、基本的に作者の書いたリンクによるものであり、これらは同一Blog内で何度も繰り返して書かれないのに対して、機械的に付与されたリンクはこのような特徴を持たず同一のBlog内で繰返し書かれる傾向が多いことを利用する。
Blogのアイテム(item)の取得は、RSSやAtomなどのメタ情報から行なわれるので、同一Blog内のアイテムであるかどうかを判定することは可能である。これにより取得したアイテム内のリンク(Link)がどのBlogに属するかを判定することは容易に行なうことができる。このとき、リンクが記述しているURLを同一Blog内で比較し、同一URLを指すリンクが他にある場合(繰り返し書かれている場合)、そのリンクは、機械的記述によって付加された物である可能性が高い。そこで、所定の閾値を設定して一定数以上同一URLを指すリンクが他にある場合には、これを機械的記述による物であると判定し、削除ないし削除を意味するフラグ付けを行うことにより、その後のリンク解析において使用不可とする。
また、アイテムを取得する際には、一度に取得したBlog内から取得するようにしてもよい。一般に機械的に付与されるリンクは時刻などによって変化する可能性の多い。例としては、現時点でBlog環境を提供するサービスブロバイダ内で最新のBlogの記事(同一サービスプロバイダではあるが他のBlogの記事である場合が多い)へのリンクや、コメント、トラックバックを多く受けている記事リンク、時間毎に変わる広告へのリンクなどである。このような場合には、一度に取得したBlog内のアイテムで比較することで機械的付与されたリンクの抽出精度を向上させることができる。また、チャネル内の複数のアイテムの中でメタ情報から抽出された書き込み時間が一定範囲に属するリンクを抽出するようにしてもよい。これは、機械的に付与されたリンクが作成時刻によって固定されている場合に、機械的付与されたリンクの抽出精度を向上させることができる。
A.実施形態の構成
以下、本実施形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態において対象となる典型的なBlogサイトの概略を示す概念図である。Blogサイト1は、チャネル(channel)を表すURI2と、アイテム1つ1つのメタ情報を蓄積して配送するRSS等(図中ではRSS3に代表させた)を持つ。また、個々のアイテム4−1〜4−3にはURL5−1〜5−3が対応付けられており、これはメタ情報内に構造化されて記録されている。RSS3は、URLを持つRSSフィード(RSS配信処理部)から通信ネットワークを介して外部に公開され、読み手はこれを読むことでBlogのアイテム4−1〜4−3の更新状況などを知ることが可能になる。アイテム4−1は、他のBlogサイト6のアイテム7−2にリンクされており、アイテム4−3は、他のBlogサイト6のアイテム7−3をリンクしている。
図2は、本実施形態において前提となるであろうBlogサイトのデータ収集および蓄積システムの構成を示すブロック図である。Blogサイトのデータ収集および蓄積システム(以下、収集蓄積システム)は、RSSフィード収集機能部10、RSSフィード解析機能部11、アイテム収集機能部12、アイテム解析機能部13、Blogデータベース17およびリンク判定機能部18からなる。RSSフィード収集機能部10は、RSSフィードのURLリストを保持し、リストに従い各RSSフィードを巡回してRSSを入手する。また、RSSフィード解析機能部11は、入手したRSSを解析し、アイテムのURLを取得する。さらに、アイテム収集機能部12は、上記URLを基に各アイテムにアクセスしてアイテムを収集する。アイテム解析機能部13は、アイテムを解析してリンク等を抽出する。Blogデータベース17は、これらの機能部によって得られたチャネル14、アイテム15、リンク16の情報を後述する図3に示すデータ構造で保存する。リンク判定機能部18は、リンクが記述しているURLを同一Blog内で比較し、同一URLを指すリンクが他にある場合(繰り返し書かれている場合)、そのリンクは、機械的記述によって付加された物であると判定し、削除ないし削除を意味するフラグ付けを行う。
図3は、本実施形態による収集蓄積システムが保持するデータの構造の一例を示す概念図である。各Blogサイトに相当するチャネル14があり、アイテム15はチャネル14に属すると共に、自身のぺ一ジから張られたリンク16がアイテム15に属する構造を持つ。アイテム15およびリンク16は、それぞれURLを、チャネル14はRSSフィードのURLおよびチャネル14のURI、必要なら取得時刻ならびにRSSから抽出されたアイテム15の書き込み時刻を保持する。また、リンク16は、必要ならトラックバックと判定されたか否かを示すフィールドを持ってもよい。
チャネル14、アイテム15、リンク16の各データは、URL、URIおよび自分が属するチャネルやアイテムによって検索可能であり、この検索条件に取得時刻を含めることも可能である。また、リンク16は、機械的に生成されたと判別された際に特定の値が書き込まれるフィールドを有する。これは一例であり、機械的に生成されたと判別された際に該当リンクのデータを削除するようにしてもよい。
B.実施形態の動作
図4は、本実施形態による機械的付加リンク判定処理を説明するためのフローチャートである。図3におけるデータ構造において、まず、各チャネルを列挙してスタック#1に保持する(ステップS10)。次に、スタック#1にまだチャネルがあるか否かを判断し(ステップS12)、チャネルがある場合には、スタック#1からチャネルを1つ取り出し(ステップS14)、該チャネルに属するリンクを列挙してスタック#2に保持する(ステップS16)。次に、スタックにまだリンクがあるか否かを判断し(ステップS18)、リンクがまだある場合には、ステップS12へ戻り、チャネルに属するリンクのスタック#2への保持を繰り返す。
より具体的には、取り出したチャネルに属するアイテムを列挙し、さらに、そのチャネルに属するリンクの中で、指定された取得時刻ないし書き込み時刻に関する条件に合致したリンクの情報(URLなど)を列挙する。但し、取得時刻条件および書き込み時刻による条件はなくてもよい。また、リンクがトラックバックないし手動付与であることが認識されている場合には、列挙することなく、該当するリンクを除外して処理を行うようにしてもよい。アイテムがHTMLで書かれていて、トラックバックが特定の書式で指示されている場合があることから、リンクがトラックバックとして書かれたか否かを認識することは可能である。また、Blogの書き手が実際に書いた本文であることがHTMLの構造解析で判明する可能性もあり得る。このため、トラックバックが誤って複数書かれた場合や、トラックバックあるいは書き手が書いたリンクと偶然同じURLが書かれていた場合に対処することができる。
リンクの列挙が終わると、次に、列挙された各リンクのURLをスタック#2から順に読みだし、同一URLのリンクを検索してその数を数える(ステップS20)。そして、同一URLのリンク数を比較判定ルーテインヘ送り、判定を受ける(ステップS22)。該判定ルーチンの詳細については後述する。この判定に基づき同一URLを保持するリンク群が機械的付与か否かを判断し(ステップS24)、機械的付与でなければ、ステップS18へ戻り、スタック#2からのリンクの取り出しを繰り返す。一方、同一URLを保持するリンク群が機械的付与である場合には、該当リンク群に機械的付与URLであることを示すフラグを立てた後、スタック#2から削除する(ステップS26)。
図5は、前述した判定ルーチン(ステップS22)の詳細な動作を示すフローチャートである。判定ルーチンでは、同一URLを有するリンク群に含まれるリンク数Aとチャネル内のアイテム数Bとを入力し(ステップS30)、判定関数Fを計算する(ステップS32)。判定関数Fとしては、所定の閾値、チャネル内のアイテム数Bに定数を乗算した値、アイテム数Bの関数によって得られる変数(アイテム数Bに応じて変化する値)、アイテム数Bの関数によって得られる変数をアイテム数Bに乗算した値などを用いる。
次に、上記リンク数Aが判定判定関数Fを上回ったか否かを判断し(ステップS34)、上記リンク数Aが判定判定関数Fを上回った場合には、機械的付与リンクであると判定し、判定結果を前述した機械的付加リンク判定処理へ出力する(ステップS36)。一方、上記リンク数Aが判定判定関数Fを上回らなかった場合には、機械的付与リンクでないと判定し、判定結果を前述した機械的付加リンク判定処理へ出力する(ステップS38)。なお、判定結果は、チャネル毎に機械的付与URLと判定されたURLのリストとして出力される。
図6および図7は、上述した処理により付与された、後工程で使用されないためのフラグを利用して、後から収集されたアイテムのリンクを効率的に処理を説明するためのフローチャートである。まず、各チャネルを列挙してスタック#1に保持する(ステップS40)。次に、スタック#1にまだチャネルがあるか否かを判断し(ステップS42)、チャネルがある場合には、スタック#1からチャネルを1つ取り出し(ステップS44)、該チャネルに属するリンクを列挙してスタック#2に保持する(ステップS46)。次に、スタックにまだリンクがあるか否かを判断し(ステップS48)、リンクがまだある場合には、ステップS42へ戻り、チャネルに属するリンクのスタック#2への保持を繰り返す。
そして、スタック#1にリンクがなくなると、チャネル毎に機械的付与URLと判定されたURLのリストからなる判定結果をリンクのURLで照合し(ステップS50)、同一URLが機械的付与URLリストに存在していないか否かを判断する(ステップS52)。そして、機械的付与URLリストに存在しない場合には、スタック#2からリンクを取り出し、同じチャネル内で同じURLを有するリンクの数を数える(ステップS54)。
次に、同一URLのリンク数を前述した比較判定ルーテインヘ送り、判定を受ける(ステップS56)。この判定に基づき同一URLを保持するリンク群が機械的付与か否かを判断し(ステップS58)、機械的付与でなければ、ステップS48へ戻り、スタック#2からのリンクの取り出しを繰り返す。一方、同一URLを保持するリンク群が機械的付与である場合には、該当リンク群に機械的付与URLであることを示すフラグを立てた後、スタック#2から削除し、機械的付与URLのリストに該当URLを追加する(ステップS60)。これにより図4に示す処理を最初から行なうよりも少ない数のリンクを対象に処理することが可能となる。その後、ステップS48へ戻り、スタック#2からのリンクの取り出しを繰り返す。
一方、同一URLが機械的付与URLリストに存在する場合には、該当リンク群に機械的付与URLであることを示すフラグを立てた後、スタック#2から削除する(ステップS62)。その後、ステップS48へ戻り、スタック#2からのリンクの取り出しを繰り返す。
C.本実施形態の結果
図8は、本実施形態において、実際に約3ヵ月に渡って国内の20万強のチャネルから560万強のアイテムを取得した際のリンクの分析結果を示す図である。このとき、リンクの総数は、約2億弱であった。図8の左側は、チャネルの内側へのリンクと外側へのリンクとの比率を示すグラフであり、右側はチャネル内のリンクの中で、同一URLが重複して表れているものを重複した回数範囲毎に出現数比率をとったグラフである。
実際に本実施形態を適用し、チャネルの内向きのリンクを削除した後に、前述した方法で、1チャネル当りにアイテムが50個以内の場合には重複回数2回以上を、1チャネル当りにアイテムが200個以内の場合には重複回数3回以上を、1チャネル当りアイテムが200個以上の場合には重複回数4回以上を、機械的付与リンクと判定し、削除を行なうことにより、機械的付与リンクではないと判定されたリンク数は、当初の2億弱から550万強にまで削減された。
また、本出願人によりチャネル、アイテム、リンクを無向グラフとして、この二連結成分分解を行なうことによりグルーピングを行なう、ウェブページグルーピング装置およびウェブページグルーピング方法が既に出願されている(特願2004−253958)。このウェブページグルーピング装置およびウェブページグルーピング方法に対して、1つのRSSチャネルの周囲に対して2回リンクを辿る設定で実行した結果、本実施形態による処理前のリンクを使用した際には処理の終了に9703秒を要したが、本実施形態による処理後のリンクを使用した際には4秒で処理を終了することが可能になった。このように、リンク数の削減およびこれによるリンクを用いるBlogの解析に当たって本発明の効果は顕著であると言える。
なお、上述した実施形態においては、RSSフィード収集機能部10、RSSフィード解析機能部11、アイテム収集機能部12およびアイテム解析機能部13などは、コンピュータシステム内で実行されてもよい。そして、上述したRSSフィード収集機能部10、RSSフィード解析機能部11、アイテム収集機能部12およびアイテム解析機能部13による一連の処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。すなわち、RSSフィード収集機能部10、RSSフィード解析機能部11、アイテム収集機能部12およびアイテム解析機能部13における、各処理手段、処理部は、CPU等の中央演算処理装置がROMやRAM等の主記憶装置に上記プログラムを読み出して、情報の加工・演算処理を実行することにより、実現されてもよい。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
本発明の実施形態において対象となる典型的なBlogサイトの概略を示す概念図である。 本実施形態において前提となるであろうBlogサイトのデータ収集および蓄積システムの構成を示すブロック図である。 本実施形態による収集蓄積システムが保持するデータの構造の一例を示す概念図である。 本実施形態による機械的付加リンク判定処理を説明するためのフローチャートである。 判定ルーチン(ステップS22)の詳細な動作を示すフローチャートである。 後工程で使用されないためのフラグを利用して、後から収集されたアイテムのリンクを効率的に処理を説明するためのフローチャートである。 後工程で使用されないためのフラグを利用して、後から収集されたアイテムのリンクを効率的に処理を説明するためのフローチャートである。 本実施形態において、実際に約3ヵ月に渡って国内の20万強のチャネルから560万強のアイテムを取得した際のリンクの分析結果を示す図である。
符号の説明
10 RSSフィード収集機能部
11 RSSフィード解析機能部(URL抽出手段)
12 アイテム収集機能部
13 アイテム解析機能部(リンク抽出手段)
14 Blogデータベース
18 リンク判定部(リンク数計数手段、使用不可リンク設定手段)

Claims (10)

  1. メタ情報を伴いツールによって書かれるウェブページ内のリンクを判定するウェブページリンク判定方法であって、
    1つのチャネル内のアイテムに属するリンクを抽出し、抽出したリンクが保持するURLを抽出し、抽出されたURL毎に存在するリンクの数を計数し、計数されたURL当りのリンク数が一定数以上である場合に、そのリンクを後工程で使用しないように設定することを特徴とするウェブページリンク判定方法。
  2. 1つのチャネル内のアイテムの数を計数し、前記URL当りのリンク数が前記アイテム数に定数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定することを特徴とする請求項1記載のウェブページリンク判定方法。
  3. 前記URL当りのリンク数が前記アイテム数の関数によって得られる変数以上である場合に、そのリンクを後工程で使用しないように設定することを特徴とする請求項2記載のウェブページリンク判定方法。
  4. 前記URL当りのリンク数が、前記アイテム数に該アイテム数の関数によって得られる変数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定することを特徴とする請求項2記載のウェブページリンク判定方法。
  5. 前記抽出において、一定時間内または一定回数以内の動作で取得したチャネル内の複数のアイテムに属するリンクを対象として判定することを特徴とする請求項1から4のいずれかに記載のウェブページリンク判定方法。
  6. 前記抽出されたリンクは、チャネル内の複数のアイテムの中でメタ情報から抽出された書き込み時間が一定範囲に属することを特徴とする請求項1から5のいずれかに記載のウェブページリンク判定方法。
  7. 前記抽出されたリンクが、既に後工程で使用しないように不使用に設定されたリンクのURLのリストに存在する場合には、後から取得したリンクについても、後工程で使用しないように不使用に設定することを特徴とする請求項1から6のいずれかに記載のウェブページリンク判定方法。
  8. 特定のリンクがトラックバックあるいは手動で付与されたものであることが他の処理部によって判明されている場合には、当該特定のリンクを判定処理対象外とすることを特徴とする請求項1から7のいずれかに記載のウェブページリンク判定方法。
  9. 後工程で使用しないように設定するために、該当リンクを除外するか、あるいは使用不可であることを明示するフラグを付加することを特徴とする請求項1から8のいずれかに記載のウェブページリンク判定方法。
  10. メタ情報を伴いツールによって書かれるウェブページ内のリンクを判定するウェブページリンク判定装置であって、
    1つのチャネル内のアイテムに属するリンクを抽出するリンク抽出手段と、
    前記リンク抽出手段によって抽出されたリンクが保持するURLを抽出するURL抽出手段と、
    前記URL抽出手段によって抽出されたURL毎に存在するリンクの数を計数するリンク数計数手段と、
    前記リンク数計数手段によって計数されたURL当りのリンク数が所定の閾値を上回る場合に、そのリンクを後工程で使用しないように設定する使用不可リンク設定手段と
    を具備することを特徴とするウェブページリンク判定装置。
JP2005044154A 2005-02-21 2005-02-21 ウェブページリンク判定方法およびウェブページリンク判定装置 Pending JP2006228116A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005044154A JP2006228116A (ja) 2005-02-21 2005-02-21 ウェブページリンク判定方法およびウェブページリンク判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005044154A JP2006228116A (ja) 2005-02-21 2005-02-21 ウェブページリンク判定方法およびウェブページリンク判定装置

Publications (1)

Publication Number Publication Date
JP2006228116A true JP2006228116A (ja) 2006-08-31

Family

ID=36989425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005044154A Pending JP2006228116A (ja) 2005-02-21 2005-02-21 ウェブページリンク判定方法およびウェブページリンク判定装置

Country Status (1)

Country Link
JP (1) JP2006228116A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008293318A (ja) * 2007-05-25 2008-12-04 Nec Biglobe Ltd トラックバック遮断システムおよびトラックバック遮断方法
CN101262450B (zh) * 2007-03-05 2010-12-22 国际商业机器公司 用于相关博客发布的内联显示的装置和方法
JP2011507104A (ja) * 2007-12-11 2011-03-03 マイクロソフト コーポレーション ウェブページ・ドメインの監視
JP2012014227A (ja) * 2010-06-29 2012-01-19 Kyocera Communication Systems Co Ltd 診断サーバ装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101262450B (zh) * 2007-03-05 2010-12-22 国际商业机器公司 用于相关博客发布的内联显示的装置和方法
JP2008293318A (ja) * 2007-05-25 2008-12-04 Nec Biglobe Ltd トラックバック遮断システムおよびトラックバック遮断方法
JP4666314B2 (ja) * 2007-05-25 2011-04-06 Necビッグローブ株式会社 トラックバック遮断システムおよびトラックバック遮断方法
JP2011507104A (ja) * 2007-12-11 2011-03-03 マイクロソフト コーポレーション ウェブページ・ドメインの監視
JP2012014227A (ja) * 2010-06-29 2012-01-19 Kyocera Communication Systems Co Ltd 診断サーバ装置

Similar Documents

Publication Publication Date Title
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
US8005823B1 (en) Community search optimization
US8719308B2 (en) Method and system to process unstructured data
JP4797069B2 (ja) キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法
JP4322887B2 (ja) スレッド順位付け装置及び方法
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
JP4714710B2 (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
JP4542993B2 (ja) 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
Costa et al. Evaluating web archive search systems
JP2006228116A (ja) ウェブページリンク判定方法およびウェブページリンク判定装置
JP2010061587A (ja) 類似文書判定装置、類似判定方法およびそのプログラム
CN107644033B (zh) 一种在非关系型数据库中进行数据查询的方法与设备
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
Khan et al. Analyzing readers behavior in downloading articles from IEEE digital library: A study of two selected journals in the field of education
Sluban et al. URL Tree: Efficient unsupervised content extraction from streams of web documents
Zhou et al. Evaluating large-scale distributed vertical search
JP2010286888A (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2008003717A (ja) 情報提供拠点評価装置
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP2011100302A (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
CN109460518B (zh) 一种基于用户网站访问记录的图书推荐方法
JP5213668B2 (ja) 操作シーケンス抽出方法及び装置及びプログラム
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP4088164B2 (ja) ドキュメントスコア計算方法及び装置並びにプログラム
Zhao et al. Drexel at TREC 2014 Federated Web Search Track.