JP2006228116A

JP2006228116A - ウェブページリンク判定方法およびウェブページリンク判定装置

Info

Publication number: JP2006228116A
Application number: JP2005044154A
Authority: JP
Inventors: Yukio Kikutani; 幸雄菊谷; Masakatsu Ota; 昌克太田; Masayasu Yamaguchi; 正泰山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-02-21
Filing date: 2005-02-21
Publication date: 2006-08-31

Abstract

【課題】機械的に付与される同一Ｂｌｏｇ外へのリンクを、より精度良くかつ少ない処理量で効率的に除外する。
【解決手段】ＲＳＳフィード収集機能部１０は、ＲＳＳフィードのＵＲＬリストを保持し、リストに従い各ＲＳＳフィードを巡回してＲＳＳを入手する。ＲＳＳフィード解析機能部１１は、入手したＲＳＳを解析し、アイテムのＵＲＬを取得する。アイテム収集機能部１２は、このＵＲＬを基に各アイテムにアクセスしてアイテムを収集する。アイテム解析機能部１３は、アイテムを解析してリンクを抽出する。リンク判定機能部１８は、リンクを記述しているＵＲＬと同一ＵＲＬを指すリンクが他にある場合、そのリンクは、機械的記述によって付加された物であると判定し、削除ないし削除を意味するフラグ付けを行う。
【選択図】図２

Description

本発明は、Ｂｌｏｇのリンクを解析して有用な記事を検出するなどの処理を行う際の計算量削減や不要な結果の削減を実現するためのウェブページリンク判定方法およびウェブページリンク判定装置に関する。

ここでは、Ｂｌｏｇをぺ一ジのメタ情報を保持し、ツールによって書き手が容易に書くことが可能なＷｅｂぺ一ジと定義する。メタ情報としては、ＲＳＳ（例えば非特許文献１参照）、Ａｔｏｍ（例えば非特許文献２参照）などにより配信される技術が既に規定され、実際に配布されている。

Ｂｌｏｇでは、コンテンツたる記事を公開すると共に、その記事のメタ情報を公開し、読み手に対して新着記事の紹介などを行うことができる。読み手は、このメタ情報を定期的に入手することにより、Ｂｌｏｇの最新情報を確認して読むことが可能になる。これにより、読み手は、注目している特定のＢｌｏｇについて読むことが容易になるという利点がある。

この反面、特定のＢｌｏｇに関連している他のＢｌｏｇを探して読む場合には、読み手は、従来のＷｅｂ同様にリンクを辿ることになる。このため、Ｂｌｏｇにおいては特定のＢｌｏｇを見るのには便利だが、関連するＢｌｏｇを見るには通常のＷｅｂと同程度の利便性しかなく、特定のＢｌｏｇのみを見る傾向が生じる。さらに、この問題は、書き手に対しても同様のことが言え、書き手は、自身のＢｌｏｇに関連するＢｌｏｇを発見するのが難しく、結果的には個々のＢｌｏｇが孤立して書かれていくという傾向が生じる。

このような問題に対して、従来のＢｌｏｇにおいては、トラックバックによってある程度の解決を行なおうとしている。トラックハックとは、Ｂｌｏｇ−１の書き手が他のＢｌｏｇ−２の記事に対して関連する記事を書く際に、そのＢｌｏｇ−２の記事に対して外部からＢｌｏｇ−１の記事へのリンクを作成することを可能とする仕組である。これにより、Ｂｌｏｇ−２の読者は、その記事に関連するＢｌｏｇ−１の記事を発見することが可能となり、複数のＢｌｏｇが緩やかな連携を保ちながら共同して書かれることが可能になる。しかしながら、トラックバックは、あくまでリンクであって、読み手にとってトラックバックを辿るだけでは従来のＷｅｂと同程度の利便性しかもたらさない。また、個々のＢｌｏｇにおいてトラックバックに対するポリシーには差があり、そもそも全くトラックバックを許さないものや、トラックバックを選択して削除する権利を留保し、実際に削除を行なっているものなどがある。これらの存在からトラックバックに頼ったＢｌｏｇ間の関係の利用が常に可能であるとは限らない。

このトラックバックを利用したＢｌｏｇの関係の利用とは別に、Ｂｌｏｇ記事中（以下、ＲＳＳでの用語に従いアイテム（ｉｔｅｍ）と呼ぶ）に記述されたリンクを機械的に処理して関連する他Ｂｌｏｇのアイテムを発見してユーザに提示する方法がある。これにより、ユーザは、一々Ｂｌｏｇのトラックバックを含むリンクを辿らなくても関連するアイテムを発見できるため、従来のＷｅｂに比較して利便性がより向上する。この方法としては、Ｗｅｂぺ一ジのグルーピングとして行なわれてきたＨＩＴＳ（例えば非特許文献３参照）、完全二部グラフ発見アルゴリズム（例えば非特許文献４参照）、ＭａｘＦ１ｏｗアルゴリズム（例えば非特許文献５参照）、文書間の共参照リンク分析（例えば非特許文献６参照）といった方法や、特定のＢｌｏｇ記事から一定数のトラックバックで辿れる全ての記事を提示する方法（例えば非特許文献７参照）などがある。
"RSS1.O Specification"、インターネット＜ＵＲＬ：http:://web.resource.org/rss/1.0/spec＞ "The Atom Syndication Fromat0.3(PRE-DRAFT)draft-nottingham-atom-format-02" J.M K1einberg:"Authoritative Source in a Hyper linked Environment", Proc. ACM-SIAM-Symposium on Discrete A1gorithms,pp668-677 1998 R.Kumar,P.Raghavan,S.Rajagopa1an A.Tomkins:"Traw1ing the web for emerging cyver-communities",Proc.8th Imitational WWW conference,pp.1481-1493、1999 今藤紀子、喜連川優："Ｍａｘ−Ｆ１ａｗコミュニティグラフとその特徴分析"、ＤＥＷＳ２−４，６＿Ｂ＿０５、２００４原田昌紀、風間一洋、佐藤進也："参照狂気分析のＷｅｂデイレクトリヘの適用"、情報処理学会研究会資料２００１−ＦＩ−６１−７、ｐｐ４５−５２沼晃介、他："Ｗｅｂｌｏｇにおけるエゴセントリック検索の提案と実装"、人口知能学会研究会資料ＳＩＧ−ＳＷＯ−Ａ４０１−０６

しかしながら、これらの方法を実現するに当たり、Ｂｌｏｇがツールで書かれたことに伴って、当該Ｂｌｏｇには機械的に付加されたリンクが記載されてしまうという問題がある。Ｂｌｏｇは、複数のアイテムで時系列的な記述が行なわれることが多いので、時系列的に前のアイテム、後のアイテムに対するリンクが張られていることは多い。また、Ｂｌｏｇツールを提供するサービスプロバイダが載せている広告、サービスブロバイダ内の他のＢｌｏｇの最新記事へのリンクなどが大量に張られているケースも多い。測定結果によれば、アイテム当り平均で４０個程度のリンクを持っている。実際に書き手が書いているリンクはせいぜい数個以内であることが多いことを考えると、Ｂｌｏｇにおいて機械的に付加されたリンクが大部分を占めることが分かる。

これらの機械的付加リンクは、様々な問題点を生じさせる。第１に関連アイテム抽出の際に対象とすべきアイテムの総数が大幅に増大することにより、処理負荷が増大することである。第２に記事間の関係を考えずに作成されている機械的付加リンクを辿ることで、無関係なアイテムを多数抽出してしまうことである。第２の問題は、アイテムのグルーピングの際の抽出手法によってある程度カバーすることができるが、この時には第１の問題が大きな障害となる。

これらの問題を解決する方法として、従来行なわれているのは、リンク一般を相手にするのではなく、トラックバックのみを抽出して利用する方法である。一般にトラックバックは、アイテム中に記述される際に通常のリンクとは区別できる方法で書かれることが多い。これによりトラックバックのみを抽出できる可能性はある。但し、前述したトラックバックに対する各Ｂｌｏｇのポリシーの問題により、トラックバックで全ての関連性を把握できる訳ではない。

また、ＲＳＳ内のチャネル（ｃｈａｎｎｅｌ：Ｂｌｏｇサイトにおいて各アイテムをカテゴリ化した際の単位）のＵＲＩ（同一Ｂｌｏｇサイトであることの識別子）や、各アイテムの属するチャネルを用いることにより、同一ｂｌｏｇ内部へのリンクを削除することは可能である。機械的に付与されるリンクのかなりの部分は、同一Ｂｌｏｇ内へのリンクであることから、この削除は有効である。但し、機械的に付与されるリンクのうちで、同一Ｂｌｏｇ内にリンクされる以外のリンクもそれなりの割合存在する。Ｂｌｏｇの解析を効率的に行い、関連する他のアイテムを抽出するためには、機械的に付与される同一Ｂｌｏｇ外へのリンクの効率的な除去の方法が必要である。しかしながら、従来はこのような方法がなく、アイテムの抽出において余計なリンクからの影響が少ないアルゴリズムを使用する以外に対処の方法がなかった。

本発明は、このような事情を考慮してなされたものであり、その目的は、機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、関連する他Ｂｌｏｇのアイテムをより精度良くかつ少ない処理量で抽出してユーザに提示することができるウェブページリンク判定方法およびウェブページリンク判定装置を提供することにある。

上述した課題を解決するために、本発明は、メタ情報を伴いツールによって書かれるウェブページ内のリンクを判定するウェブページリンク判定方法であって、１つのチャネル内のアイテムに属するリンクを抽出し、抽出したリンクが保持するＵＲＬを抽出し、抽出されたＵＲＬ毎に存在するリンクの数を計数し、計数されたＵＲＬ当りのリンク数が一定数以上である場合に、そのリンクを後工程で使用しないように設定することを特徴とする。

本発明は、上記の発明において、１つのチャネル内のアイテムの数を計数し、前記ＵＲＬ当りのリンク数が前記アイテム数に定数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定することを特徴とする。

本発明は、上記の発明において、前記ＵＲＬ当りのリンク数が前記アイテム数の関数によって得られる変数以上である場合に、そのリンクを後工程で使用しないように設定することを特徴とする。

本発明は、上記の発明において、前記ＵＲＬ当りのリンク数が、前記アイテム数に該アイテム数の関数によって得られる変数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定することを特徴とする。

本発明は、上記の発明の抽出において、一定時間内または一定回数以内の動作で取得したチャネル内の複数のアイテムに属するリンクを対象として判定することを特徴とする。

本発明は、上記の発明において、前記抽出されたリンクは、チャネル内の複数のアイテムの中でメタ情報から抽出された書き込み時間が一定範囲に属することを特徴とする。

本発明は、上記の発明において、前記抽出されたリンクが、既に後工程で使用しないように不使用に設定されたリンクのＵＲＬのリストに存在する場合には、後から取得したリンクについても、後工程で使用しないように不使用に設定することを特徴とする。

本発明は、上記の発明において、特定のリンクがトラックバックあるいは手動で付与されたものであることが他の処理部によって判明されている場合には、当該特定のリンクを判定処理対象外とすることを特徴とする。

本発明は、上記の発明において、後工程で使用しないように設定するために、該当リンクを除外するか、あるいは使用不可であることを明示するフラグを付加することを特徴とする。

また、上述した課題を解決するために、本発明は、メタ情報を伴いツールによって書かれるウェブページ内のリンクを判定するウェブページリンク判定装置であって、１つのチャネル内のアイテムに属するリンクを抽出するリンク抽出手段と、前記リンク抽出手段によって抽出されたリンクが保持するＵＲＬを抽出するＵＲＬ抽出手段と、前記ＵＲＬ抽出手段によって抽出されたＵＲＬ毎に存在するリンクの数を計数するリンク数計数手段と、前記リンク数計数手段によって計数されたＵＲＬ当りのリンク数が所定の閾値を上回る場合に、そのリンクを後工程で使用しないように設定する使用不可リンク設定手段とを具備することを特徴とする。

この発明によれば、１つのチャネル内のアイテムに属するリンクを抽出し、抽出したリンクが保持するＵＲＬを抽出し、抽出されたＵＲＬ毎に存在するリンクの数を計数し、計数されたＵＲＬ当りのリンク数が一定数以上である場合に、そのリンクを後工程で使用しないように設定する。したがって、機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、関連する他Ｂｌｏｇのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。

また、本発明によれば、１つのチャネル内のアイテムの数を計数し、前記ＵＲＬ当りのリンク数が前記アイテム数に定数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定する。したがって、Ｂｌｏｇ内のアイテム数が少ない場合にも対処することができ、機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、関連する他Ｂｌｏｇのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。

また、本発明によれば、前記ＵＲＬ当りのリンク数が前記アイテム数の関数によって得られる変数以上である場合に、そのリンクを後工程で使用しないように設定する。したがって、Ｂｌｏｇ内のアイテム数が少ない場合にも対処することができ、機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、関連する他Ｂｌｏｇのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。

また、本発明によれば、前記ＵＲＬ当りのリンク数が、前記アイテム数に該アイテム数の関数によって得られる変数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定する。したがって、Ｂｌｏｇ内のアイテム数が少ない場合にも対処することができ、機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、関連する他Ｂｌｏｇのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。

また、本発明によれば、前記抽出において、一定時間内または一定回数以内の動作で取得したチャネル内の複数のアイテムに属する。したがって、機械的に付与されるリンクが時刻などによって変化するような場合であっても、機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、リンクの抽出精度を向上させることができるという利点が得られる。

また、本発明によれば、前記抽出されたリンクは、チャネル内の複数のアイテムの中でメタ情報から抽出された書き込み時間が一定範囲に属する。したがって、機械的に付与されたリンクが作成時刻によって固定されている場合であっても、機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、関連する他Ｂｌｏｇのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。

また、本発明によれば、前記抽出されたリンクが、既に後工程で使用しないように不使用に設定されたリンクのＵＲＬのリストに存在する場合には、後から取得したリンクについても、後工程で使用しないように不使用に設定する。したがって、一般に機械的付与されたＵＲＬの重なり度合は高いので、新たに機械的付与されたＵＲＬの判定を行うよりも少ない労力で機械的付与されたリンクを発見することができ、関連する他Ｂｌｏｇのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。

また、本発明によれば、特定のリンクがトラックバックあるいは手動で付与されたものであることが他の処理部によって判明されている場合には、当該特定のリンクを判定処理対象外とする。したがって、トラックバックないしは手動付与であるリンクを除外して処理を行なうことで、より少ない労力で機械的付与されたリンクを発見することができ、関連する他Ｂｌｏｇのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。

また、本発明によれば、後工程で使用しないように設定するために、該当リンクを除外するか、あるいは使用不可であることを明示するフラグを付加する。機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、関連する他Ｂｌｏｇのアイテムをより精度良くかつ少ない処理量で抽出してユーザに提示することができるという利点が得られる。

また、この発明によれば、リンク抽出手段により、１つのチャネル内のアイテムに属するリンクを抽出し、ＵＲＬ抽出手段により、前記リンク抽出手段によって抽出されたリンクが保持するＵＲＬを抽出し、リンク数計数手段により、前記ＵＲＬ抽出手段によって抽出されたＵＲＬ毎に存在するリンクの数を計数し、使用不可リンク設定手段により、前記リンク数計数手段によって計数されたＵＲＬ当りのリンク数が所定の閾値を上回る場合に、そのリンクを後工程で使用しないように設定する。したがって、機械的に付与される同一Ｂｌｏｇ外へのリンクを効率的に除外し、関連する他Ｂｌｏｇのアイテムを高い効率で抽出してユーザに提示することができるという利点が得られる。

以下、本発明の一実施形態によるウェブページリンク判定装置を、図面を参照して説明する。

本実施形態では、Ｂｌｏｇのリンク解析の予備処理として、機械的に付与されたリンクと見られるリンクを除去することを特徴とする。本実施形態においては、Ｂｌｏｇが同一作者ないし作者グループによって書かれるものであり、Ｂｌｏｇの関連性を示す情報は、基本的に作者の書いたリンクによるものであり、これらは同一Ｂｌｏｇ内で何度も繰り返して書かれないのに対して、機械的に付与されたリンクはこのような特徴を持たず同一のＢｌｏｇ内で繰返し書かれる傾向が多いことを利用する。

Ｂｌｏｇのアイテム（ｉｔｅｍ）の取得は、ＲＳＳやＡｔｏｍなどのメタ情報から行なわれるので、同一Ｂｌｏｇ内のアイテムであるかどうかを判定することは可能である。これにより取得したアイテム内のリンク（Ｌｉｎｋ）がどのＢｌｏｇに属するかを判定することは容易に行なうことができる。このとき、リンクが記述しているＵＲＬを同一Ｂｌｏｇ内で比較し、同一ＵＲＬを指すリンクが他にある場合（繰り返し書かれている場合）、そのリンクは、機械的記述によって付加された物である可能性が高い。そこで、所定の閾値を設定して一定数以上同一ＵＲＬを指すリンクが他にある場合には、これを機械的記述による物であると判定し、削除ないし削除を意味するフラグ付けを行うことにより、その後のリンク解析において使用不可とする。

また、アイテムを取得する際には、一度に取得したＢｌｏｇ内から取得するようにしてもよい。一般に機械的に付与されるリンクは時刻などによって変化する可能性の多い。例としては、現時点でＢｌｏｇ環境を提供するサービスブロバイダ内で最新のＢｌｏｇの記事（同一サービスプロバイダではあるが他のＢｌｏｇの記事である場合が多い）へのリンクや、コメント、トラックバックを多く受けている記事リンク、時間毎に変わる広告へのリンクなどである。このような場合には、一度に取得したＢｌｏｇ内のアイテムで比較することで機械的付与されたリンクの抽出精度を向上させることができる。また、チャネル内の複数のアイテムの中でメタ情報から抽出された書き込み時間が一定範囲に属するリンクを抽出するようにしてもよい。これは、機械的に付与されたリンクが作成時刻によって固定されている場合に、機械的付与されたリンクの抽出精度を向上させることができる。

Ａ．実施形態の構成
以下、本実施形態について図面を参照して詳細に説明する。
図１は、本発明の実施形態において対象となる典型的なＢｌｏｇサイトの概略を示す概念図である。Ｂｌｏｇサイト１は、チャネル（ｃｈａｎｎｅｌ）を表すＵＲＩ２と、アイテム１つ１つのメタ情報を蓄積して配送するＲＳＳ等（図中ではＲＳＳ３に代表させた）を持つ。また、個々のアイテム４−１〜４−３にはＵＲＬ５−１〜５−３が対応付けられており、これはメタ情報内に構造化されて記録されている。ＲＳＳ３は、ＵＲＬを持つＲＳＳフィード（ＲＳＳ配信処理部）から通信ネットワークを介して外部に公開され、読み手はこれを読むことでＢｌｏｇのアイテム４−１〜４−３の更新状況などを知ることが可能になる。アイテム４−１は、他のＢｌｏｇサイト６のアイテム７−２にリンクされており、アイテム４−３は、他のＢｌｏｇサイト６のアイテム７−３をリンクしている。

図２は、本実施形態において前提となるであろうＢｌｏｇサイトのデータ収集および蓄積システムの構成を示すブロック図である。Ｂｌｏｇサイトのデータ収集および蓄積システム（以下、収集蓄積システム）は、ＲＳＳフィード収集機能部１０、ＲＳＳフィード解析機能部１１、アイテム収集機能部１２、アイテム解析機能部１３、Ｂｌｏｇデータベース１７およびリンク判定機能部１８からなる。ＲＳＳフィード収集機能部１０は、ＲＳＳフィードのＵＲＬリストを保持し、リストに従い各ＲＳＳフィードを巡回してＲＳＳを入手する。また、ＲＳＳフィード解析機能部１１は、入手したＲＳＳを解析し、アイテムのＵＲＬを取得する。さらに、アイテム収集機能部１２は、上記ＵＲＬを基に各アイテムにアクセスしてアイテムを収集する。アイテム解析機能部１３は、アイテムを解析してリンク等を抽出する。Ｂｌｏｇデータベース１７は、これらの機能部によって得られたチャネル１４、アイテム１５、リンク１６の情報を後述する図３に示すデータ構造で保存する。リンク判定機能部１８は、リンクが記述しているＵＲＬを同一Ｂｌｏｇ内で比較し、同一ＵＲＬを指すリンクが他にある場合（繰り返し書かれている場合）、そのリンクは、機械的記述によって付加された物であると判定し、削除ないし削除を意味するフラグ付けを行う。

図３は、本実施形態による収集蓄積システムが保持するデータの構造の一例を示す概念図である。各Ｂｌｏｇサイトに相当するチャネル１４があり、アイテム１５はチャネル１４に属すると共に、自身のぺ一ジから張られたリンク１６がアイテム１５に属する構造を持つ。アイテム１５およびリンク１６は、それぞれＵＲＬを、チャネル１４はＲＳＳフィードのＵＲＬおよびチャネル１４のＵＲＩ、必要なら取得時刻ならびにＲＳＳから抽出されたアイテム１５の書き込み時刻を保持する。また、リンク１６は、必要ならトラックバックと判定されたか否かを示すフィールドを持ってもよい。

チャネル１４、アイテム１５、リンク１６の各データは、ＵＲＬ、ＵＲＩおよび自分が属するチャネルやアイテムによって検索可能であり、この検索条件に取得時刻を含めることも可能である。また、リンク１６は、機械的に生成されたと判別された際に特定の値が書き込まれるフィールドを有する。これは一例であり、機械的に生成されたと判別された際に該当リンクのデータを削除するようにしてもよい。

Ｂ．実施形態の動作
図４は、本実施形態による機械的付加リンク判定処理を説明するためのフローチャートである。図３におけるデータ構造において、まず、各チャネルを列挙してスタック＃１に保持する（ステップＳ１０）。次に、スタック＃１にまだチャネルがあるか否かを判断し（ステップＳ１２）、チャネルがある場合には、スタック＃１からチャネルを１つ取り出し（ステップＳ１４）、該チャネルに属するリンクを列挙してスタック＃２に保持する（ステップＳ１６）。次に、スタックにまだリンクがあるか否かを判断し（ステップＳ１８）、リンクがまだある場合には、ステップＳ１２へ戻り、チャネルに属するリンクのスタック＃２への保持を繰り返す。

より具体的には、取り出したチャネルに属するアイテムを列挙し、さらに、そのチャネルに属するリンクの中で、指定された取得時刻ないし書き込み時刻に関する条件に合致したリンクの情報（ＵＲＬなど）を列挙する。但し、取得時刻条件および書き込み時刻による条件はなくてもよい。また、リンクがトラックバックないし手動付与であることが認識されている場合には、列挙することなく、該当するリンクを除外して処理を行うようにしてもよい。アイテムがＨＴＭＬで書かれていて、トラックバックが特定の書式で指示されている場合があることから、リンクがトラックバックとして書かれたか否かを認識することは可能である。また、Ｂｌｏｇの書き手が実際に書いた本文であることがＨＴＭＬの構造解析で判明する可能性もあり得る。このため、トラックバックが誤って複数書かれた場合や、トラックバックあるいは書き手が書いたリンクと偶然同じＵＲＬが書かれていた場合に対処することができる。

リンクの列挙が終わると、次に、列挙された各リンクのＵＲＬをスタック＃２から順に読みだし、同一ＵＲＬのリンクを検索してその数を数える（ステップＳ２０）。そして、同一ＵＲＬのリンク数を比較判定ルーテインヘ送り、判定を受ける（ステップＳ２２）。該判定ルーチンの詳細については後述する。この判定に基づき同一ＵＲＬを保持するリンク群が機械的付与か否かを判断し（ステップＳ２４）、機械的付与でなければ、ステップＳ１８へ戻り、スタック＃２からのリンクの取り出しを繰り返す。一方、同一ＵＲＬを保持するリンク群が機械的付与である場合には、該当リンク群に機械的付与ＵＲＬであることを示すフラグを立てた後、スタック＃２から削除する（ステップＳ２６）。

図５は、前述した判定ルーチン（ステップＳ２２）の詳細な動作を示すフローチャートである。判定ルーチンでは、同一ＵＲＬを有するリンク群に含まれるリンク数Ａとチャネル内のアイテム数Ｂとを入力し（ステップＳ３０）、判定関数Ｆを計算する（ステップＳ３２）。判定関数Ｆとしては、所定の閾値、チャネル内のアイテム数Ｂに定数を乗算した値、アイテム数Ｂの関数によって得られる変数（アイテム数Ｂに応じて変化する値）、アイテム数Ｂの関数によって得られる変数をアイテム数Ｂに乗算した値などを用いる。

次に、上記リンク数Ａが判定判定関数Ｆを上回ったか否かを判断し（ステップＳ３４）、上記リンク数Ａが判定判定関数Ｆを上回った場合には、機械的付与リンクであると判定し、判定結果を前述した機械的付加リンク判定処理へ出力する（ステップＳ３６）。一方、上記リンク数Ａが判定判定関数Ｆを上回らなかった場合には、機械的付与リンクでないと判定し、判定結果を前述した機械的付加リンク判定処理へ出力する（ステップＳ３８）。なお、判定結果は、チャネル毎に機械的付与ＵＲＬと判定されたＵＲＬのリストとして出力される。

図６および図７は、上述した処理により付与された、後工程で使用されないためのフラグを利用して、後から収集されたアイテムのリンクを効率的に処理を説明するためのフローチャートである。まず、各チャネルを列挙してスタック＃１に保持する（ステップＳ４０）。次に、スタック＃１にまだチャネルがあるか否かを判断し（ステップＳ４２）、チャネルがある場合には、スタック＃１からチャネルを１つ取り出し（ステップＳ４４）、該チャネルに属するリンクを列挙してスタック＃２に保持する（ステップＳ４６）。次に、スタックにまだリンクがあるか否かを判断し（ステップＳ４８）、リンクがまだある場合には、ステップＳ４２へ戻り、チャネルに属するリンクのスタック＃２への保持を繰り返す。

そして、スタック＃１にリンクがなくなると、チャネル毎に機械的付与ＵＲＬと判定されたＵＲＬのリストからなる判定結果をリンクのＵＲＬで照合し（ステップＳ５０）、同一ＵＲＬが機械的付与ＵＲＬリストに存在していないか否かを判断する（ステップＳ５２）。そして、機械的付与ＵＲＬリストに存在しない場合には、スタック＃２からリンクを取り出し、同じチャネル内で同じＵＲＬを有するリンクの数を数える（ステップＳ５４）。

次に、同一ＵＲＬのリンク数を前述した比較判定ルーテインヘ送り、判定を受ける（ステップＳ５６）。この判定に基づき同一ＵＲＬを保持するリンク群が機械的付与か否かを判断し（ステップＳ５８）、機械的付与でなければ、ステップＳ４８へ戻り、スタック＃２からのリンクの取り出しを繰り返す。一方、同一ＵＲＬを保持するリンク群が機械的付与である場合には、該当リンク群に機械的付与ＵＲＬであることを示すフラグを立てた後、スタック＃２から削除し、機械的付与ＵＲＬのリストに該当ＵＲＬを追加する（ステップＳ６０）。これにより図４に示す処理を最初から行なうよりも少ない数のリンクを対象に処理することが可能となる。その後、ステップＳ４８へ戻り、スタック＃２からのリンクの取り出しを繰り返す。

一方、同一ＵＲＬが機械的付与ＵＲＬリストに存在する場合には、該当リンク群に機械的付与ＵＲＬであることを示すフラグを立てた後、スタック＃２から削除する（ステップＳ６２）。その後、ステップＳ４８へ戻り、スタック＃２からのリンクの取り出しを繰り返す。

Ｃ．本実施形態の結果
図８は、本実施形態において、実際に約３ヵ月に渡って国内の２０万強のチャネルから５６０万強のアイテムを取得した際のリンクの分析結果を示す図である。このとき、リンクの総数は、約２億弱であった。図８の左側は、チャネルの内側へのリンクと外側へのリンクとの比率を示すグラフであり、右側はチャネル内のリンクの中で、同一ＵＲＬが重複して表れているものを重複した回数範囲毎に出現数比率をとったグラフである。

実際に本実施形態を適用し、チャネルの内向きのリンクを削除した後に、前述した方法で、１チャネル当りにアイテムが５０個以内の場合には重複回数２回以上を、１チャネル当りにアイテムが２００個以内の場合には重複回数３回以上を、１チャネル当りアイテムが２００個以上の場合には重複回数４回以上を、機械的付与リンクと判定し、削除を行なうことにより、機械的付与リンクではないと判定されたリンク数は、当初の２億弱から５５０万強にまで削減された。

また、本出願人によりチャネル、アイテム、リンクを無向グラフとして、この二連結成分分解を行なうことによりグルーピングを行なう、ウェブページグルーピング装置およびウェブページグルーピング方法が既に出願されている（特願２００４−２５３９５８）。このウェブページグルーピング装置およびウェブページグルーピング方法に対して、１つのＲＳＳチャネルの周囲に対して２回リンクを辿る設定で実行した結果、本実施形態による処理前のリンクを使用した際には処理の終了に９７０３秒を要したが、本実施形態による処理後のリンクを使用した際には４秒で処理を終了することが可能になった。このように、リンク数の削減およびこれによるリンクを用いるＢｌｏｇの解析に当たって本発明の効果は顕著であると言える。

なお、上述した実施形態においては、ＲＳＳフィード収集機能部１０、ＲＳＳフィード解析機能部１１、アイテム収集機能部１２およびアイテム解析機能部１３などは、コンピュータシステム内で実行されてもよい。そして、上述したＲＳＳフィード収集機能部１０、ＲＳＳフィード解析機能部１１、アイテム収集機能部１２およびアイテム解析機能部１３による一連の処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。すなわち、ＲＳＳフィード収集機能部１０、ＲＳＳフィード解析機能部１１、アイテム収集機能部１２およびアイテム解析機能部１３における、各処理手段、処理部は、ＣＰＵ等の中央演算処理装置がＲＯＭやＲＡＭ等の主記憶装置に上記プログラムを読み出して、情報の加工・演算処理を実行することにより、実現されてもよい。

ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

本発明の実施形態において対象となる典型的なＢｌｏｇサイトの概略を示す概念図である。本実施形態において前提となるであろうＢｌｏｇサイトのデータ収集および蓄積システムの構成を示すブロック図である。本実施形態による収集蓄積システムが保持するデータの構造の一例を示す概念図である。本実施形態による機械的付加リンク判定処理を説明するためのフローチャートである。判定ルーチン（ステップＳ２２）の詳細な動作を示すフローチャートである。後工程で使用されないためのフラグを利用して、後から収集されたアイテムのリンクを効率的に処理を説明するためのフローチャートである。後工程で使用されないためのフラグを利用して、後から収集されたアイテムのリンクを効率的に処理を説明するためのフローチャートである。本実施形態において、実際に約３ヵ月に渡って国内の２０万強のチャネルから５６０万強のアイテムを取得した際のリンクの分析結果を示す図である。

符号の説明

１０ＲＳＳフィード収集機能部
１１ＲＳＳフィード解析機能部（ＵＲＬ抽出手段）
１２アイテム収集機能部
１３アイテム解析機能部（リンク抽出手段）
１４Ｂｌｏｇデータベース
１８リンク判定部（リンク数計数手段、使用不可リンク設定手段）

Claims

メタ情報を伴いツールによって書かれるウェブページ内のリンクを判定するウェブページリンク判定方法であって、
１つのチャネル内のアイテムに属するリンクを抽出し、抽出したリンクが保持するＵＲＬを抽出し、抽出されたＵＲＬ毎に存在するリンクの数を計数し、計数されたＵＲＬ当りのリンク数が一定数以上である場合に、そのリンクを後工程で使用しないように設定することを特徴とするウェブページリンク判定方法。
１つのチャネル内のアイテムの数を計数し、前記ＵＲＬ当りのリンク数が前記アイテム数に定数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定することを特徴とする請求項１記載のウェブページリンク判定方法。
前記ＵＲＬ当りのリンク数が前記アイテム数の関数によって得られる変数以上である場合に、そのリンクを後工程で使用しないように設定することを特徴とする請求項２記載のウェブページリンク判定方法。
前記ＵＲＬ当りのリンク数が、前記アイテム数に該アイテム数の関数によって得られる変数を乗算した値を上回る場合に、そのリンクを後工程で使用しないように設定することを特徴とする請求項２記載のウェブページリンク判定方法。
前記抽出において、一定時間内または一定回数以内の動作で取得したチャネル内の複数のアイテムに属するリンクを対象として判定することを特徴とする請求項１から４のいずれかに記載のウェブページリンク判定方法。
前記抽出されたリンクは、チャネル内の複数のアイテムの中でメタ情報から抽出された書き込み時間が一定範囲に属することを特徴とする請求項１から５のいずれかに記載のウェブページリンク判定方法。
前記抽出されたリンクが、既に後工程で使用しないように不使用に設定されたリンクのＵＲＬのリストに存在する場合には、後から取得したリンクについても、後工程で使用しないように不使用に設定することを特徴とする請求項１から６のいずれかに記載のウェブページリンク判定方法。
特定のリンクがトラックバックあるいは手動で付与されたものであることが他の処理部によって判明されている場合には、当該特定のリンクを判定処理対象外とすることを特徴とする請求項１から７のいずれかに記載のウェブページリンク判定方法。
後工程で使用しないように設定するために、該当リンクを除外するか、あるいは使用不可であることを明示するフラグを付加することを特徴とする請求項１から８のいずれかに記載のウェブページリンク判定方法。
メタ情報を伴いツールによって書かれるウェブページ内のリンクを判定するウェブページリンク判定装置であって、
１つのチャネル内のアイテムに属するリンクを抽出するリンク抽出手段と、
前記リンク抽出手段によって抽出されたリンクが保持するＵＲＬを抽出するＵＲＬ抽出手段と、
前記ＵＲＬ抽出手段によって抽出されたＵＲＬ毎に存在するリンクの数を計数するリンク数計数手段と、
前記リンク数計数手段によって計数されたＵＲＬ当りのリンク数が所定の閾値を上回る場合に、そのリンクを後工程で使用しないように設定する使用不可リンク設定手段と
を具備することを特徴とするウェブページリンク判定装置。