JP4550939B1 - Information propagation path identification device, information propagation path identification method, information propagation path identification program - Google Patents
Information propagation path identification device, information propagation path identification method, information propagation path identification program Download PDFInfo
- Publication number
- JP4550939B1 JP4550939B1 JP2010015400A JP2010015400A JP4550939B1 JP 4550939 B1 JP4550939 B1 JP 4550939B1 JP 2010015400 A JP2010015400 A JP 2010015400A JP 2010015400 A JP2010015400 A JP 2010015400A JP 4550939 B1 JP4550939 B1 JP 4550939B1
- Authority
- JP
- Japan
- Prior art keywords
- web page
- information
- web
- propagation path
- web pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】従来、ウェブにおける情報の伝播経路を精度よく特定する技術は存在しない。
【解決手段】情報伝播経路特定装置100は、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部2と、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部5とを有する。
【選択図】図2Conventionally, there is no technique for accurately identifying a propagation path of information on the web.
An information propagation path identifying device detects a common character string between each of a plurality of evaluation target web pages and each of the other evaluation target web pages, and configures the detected character string. The number of characters is specified as a relevance level label, the common character string number specifying unit 2 that specifies the maximum relevance level label as an evaluation label, and each web page has a character string in common with it, and more When there are multiple web pages with relatively earlier creation times, the process of identifying one web page pair having the largest evaluation label from among the plurality of web page pairs is performed for all web page pairs. And an information propagation path specifying unit 5 for specifying the information propagation path on the web.
[Selection] Figure 2
Description
本発明は、ウェブにおける情報の伝播経路を特定する技術に関する。 The present invention relates to a technique for specifying a propagation path of information on a web.
近年、企業は、ウェブページを用いて情報を発信しており、個人も、ウェブページ、ブログ、及びSNS(Social Network Service)を用いて情報を発信している。各情報は、他の情報の影響を受けて発信されることがある。例えば、ある企業が新製品を発売することをウェブページにおいて発表すると、そのウェブページを見たある個人がその情報とともにその新製品についての意見をブログにより公表することがある。このように、ある情報がウェブにおいて伝播することがある。 In recent years, companies have transmitted information using web pages, and individuals have also transmitted information using web pages, blogs, and SNS (Social Network Service). Each information may be transmitted under the influence of other information. For example, when a company announces on the web page that a new product will be released, an individual who views the web page may publish an opinion about the new product on the blog along with the information. In this way, certain information may propagate on the web.
ところで、ウェブページにおいて公表された情報の伝播を不快に感じることがある。例えば、不祥事が発生していないのにもかかわらず、企業を中傷する情報が多数のウェブページに広がると、多数の人がその情報を知ってしまい、その企業の経済活動が阻害される可能性があるからである。そのような場合、その企業に属する人は、経済活動が阻害されることを防止するために、その情報の伝播経路を知りたいと考える。 By the way, propagation of information published on a web page may be uncomfortable. For example, if there is no scandal and information that slanders a company spreads over many web pages, many people may know the information and hinder the economic activity of the company Because there is. In such a case, a person belonging to the company wants to know the propagation path of the information in order to prevent economic activity from being hindered.
また、企業は、上述したように、新製品を発売することをウェブページにおいて発表することがあり、広告の効果を調べる目的で又はマーケティングの一環として、ウェブにおけるその情報の広がり、つまりその情報の伝播経路を知りたいと考える。 In addition, as mentioned above, a company may announce on a web page that a new product will be released, and for the purpose of examining the effectiveness of advertising or as part of marketing, the spread of that information on the web, that is, I want to know the propagation path.
しかしながら、現在、ウェブにおける情報の伝播経路を精度よく特定する技術は存在しない。 However, there is currently no technology for accurately specifying the propagation path of information on the web.
本発明は、ウェブにおける情報の伝播経路を精度よく特定する技術を提供することを目的とする。 An object of the present invention is to provide a technique for accurately identifying a propagation path of information on the web.
上記課題を解決し上記目的を達成するために、本発明の情報伝播経路特定装置は、ウェブにおける情報の伝播経路を特定する装置であって、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、を備える。 In order to solve the above problems and achieve the above object, an information propagation path identification device of the present invention is an apparatus for identifying a propagation path of information on a web, and includes information constituting each of a plurality of web pages to be evaluated. Based on the acquisition unit to be acquired and the information acquired by the acquisition unit, for each of the plurality of evaluation target web pages, a common character string is detected and detected. Based on the information acquired by the acquisition unit, a number of common character string specifying unit that specifies the number of characters constituting the character string as a relevance level label, and the maximum relevance level label as an evaluation label. Corresponding to a creation time detection unit for detecting the creation time of each web page to be evaluated and each evaluation label specified by the common character string number specifying unit About web page pairs, after detecting the order of creation times of web pages constituting each web page pair based on the creation time detected by the creation time detection unit, each web page is common to that. If there are multiple web pages that have a character string and the creation time is relatively earlier than that, specify one web page pair with the largest evaluation label from among the multiple web page pairs. And an information propagation path identifying unit that performs the process of identifying the web page pair as related to all web page pairs and thereby identifies the information propagation path on the web.
また、本発明の情報伝播経路特定装置は、ウェブにおける情報の伝播経路を特定する装置であって、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、(1)前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、(2)前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、(3)更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、を備える。 The information propagation path identifying device of the present invention is an apparatus for identifying a propagation path of information on the web, and obtains information constituting each of a plurality of evaluation target web pages, and obtained by the obtaining unit. Based on the obtained information, a common character string is detected between each of the plurality of evaluation target web pages and each of the other evaluation target web pages, and the number of characters constituting the detected character string is related. Acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of the plurality of evaluation target web pages based on the information acquired by the acquisition unit, the common character string number specification unit specified as the degree label A link tag detection unit for detecting a link tag from the recorded information, and (1) based on the creation time detected by the creation time detection unit, Detects the relationship between the creation times of the web pages constituting the web page pair, identifies the web page pair having the relevance label equal to or higher than a predetermined threshold, and identifies the web page pair as related to each other A first process and a second process for identifying a web page pair having each of a predetermined number of relevance labels from the largest value and identifying the web page pairs as related to each other (2) A process of specifying a link source page and a link destination page for all link tags detected by the link tag detection unit and specifying a web page pair related to each other. (3) Further, a pair of web pages that are related to each other using the relevance level label and a relationship that is specified using the link tag. Based in that on the web page pair and includes information propagation path identification unit for identifying the propagation path information in the web, the.
また、本発明の情報伝播経路特定方法は、ウェブにおける情報の伝播経路を特定する方法であって、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、特定した各評価ラベルに対応する各ウェブページ対について、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定するステップと、を含む。 Further, the information propagation path specifying method of the present invention is a method for specifying a propagation path of information on the web, the step of acquiring information constituting each of a plurality of evaluation target web pages, and based on the acquired information , For each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the number of characters constituting the detected character string is specified as a relevance label, The step of identifying the maximum relevance label as an evaluation label, the step of detecting the creation time of each of the plurality of web pages to be evaluated based on the acquired information, and the pair of web pages corresponding to each identified evaluation label Based on the detected creation time, detect the context of the creation time of the web pages that make up each web page pair In addition, when each web page has a common character string and there are a plurality of web pages whose creation times are relatively earlier than the web page, the largest web page pair is selected from the web page pairs. The process of identifying one web page pair with an evaluation label and identifying it as an associated web page pair is performed for all web page pairs, thereby identifying the propagation path of information on the web. Steps.
また、本発明の情報伝播経路特定方法は、ウェブにおける情報の伝播経路を特定する方法であって、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、取得した情報からリンクタグを検出するステップと、(1)検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、(2)検出した全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、(3)更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定するステップと、を含む。 Further, the information propagation path specifying method of the present invention is a method for specifying a propagation path of information on the web, the step of acquiring information constituting each of a plurality of evaluation target web pages, and based on the acquired information Detecting a common character string with respect to each of the plurality of evaluation target web pages and specifying the number of characters constituting the detected character string as a relevance level label. And, based on the acquired information, a step of detecting the creation time of each of the plurality of evaluation target web pages, a step of detecting a link tag from the acquired information, and (1) based on the detected creation time, A web having a relevance label equal to or higher than a predetermined threshold value by detecting the relationship between the creation times of web pages constituting the web page pair. A first process for identifying a web page pair and identifying it as a web page pair associated with each other, and identifying a web page pair having each of a predetermined number of relevance labels in order from the highest value. And performing at least one of the second processing for identifying the web page pair as related to each other, and (2) identifying the link source page and the link destination page for all the detected link tags. (3) Furthermore, the web page pairs identified using the relevance level label and the web page pairs identified using the link tag are mutually identified. Identifying a propagation path of information on the web based on associated web page pairs.
更に、本発明の情報伝播経路特定装置の各構成要件の機能をコンピュータに実現させるためのプログラムも、本発明の一態様である。 Furthermore, a program for causing a computer to realize the function of each component of the information propagation path identifying device of the present invention is also an aspect of the present invention.
本発明は、ウェブにおける情報の伝播経路を精度よく特定する技術を提供することができる。 The present invention can provide a technique for accurately specifying a propagation path of information on the web.
以下に、本発明を実施するための形態を図面を参照して説明する。 EMBODIMENT OF THE INVENTION Below, the form for implementing this invention is demonstrated with reference to drawings.
先ず、本実施の形態のウェブページ評価システムの構成を図1を用いて説明する。図1は、本実施の形態のウェブページ評価システムの構成図である。本実施の形態のウェブページ評価システムは、複数のウェブページ相互の関係を評価するためのシステムであって、図1に示すように、情報伝播経路特定装置100と、クライアント端末装置200と、検索装置300と、通信ネットワーク400とを有する。
First, the configuration of the web page evaluation system of this embodiment will be described with reference to FIG. FIG. 1 is a configuration diagram of a web page evaluation system according to the present embodiment. The web page evaluation system according to the present embodiment is a system for evaluating the relationship between a plurality of web pages. As shown in FIG. 1, the information propagation
情報伝播経路特定装置100は、通信ネットワーク400において開示されている複数のウェブページのうちの相互に関連するウェブページを特定し、それによりウェブにおける情報の伝播経路を特定する装置である。情報伝播経路特定装置100は、複数の構成部によって構成されている。情報伝播経路特定装置100の構成の詳細は図2を用いて後述する。
The information propagation
クライアント端末装置200は、ユーザによって使用される装置であって、検索キーワードと、検索キーワードに関連するウェブページを検索させる指示(以下、「検索指示」と記載する。)とをユーザから受け付ける。クライアント端末装置200は、受け付けた検索キーワード及び検索指示を検索装置300に送信する。また、クライアント端末装置200は、情報伝播経路特定装置100からそれによって得られた結果を受信する。図1に示すように、クライアント端末装置200には、検索キーワード及び検索指示をクライアント端末装置200に入力するための入力装置210と、情報伝播経路特定装置100によって得られた結果を表示するための表示装置220とが接続されている。入力装置210は、例えばキーボード及びマウスである。
The
検索装置300は、通信ネットワーク400において開示されているウェブページのなかから、クライアント端末装置200から受信した検索キーワードに関連するウェブページを検索する装置である。検索装置300によって検索されたウェブページは、情報伝播経路特定装置100によって評価されるウェブページであるので、以下では、検索装置300によって検索されたウェブページを「評価対象のウェブページ」と記載する。通信ネットワーク400は、データを通信するためのネットワークであって、具体的にはインターネットである。情報伝播経路特定装置100、クライアント端末装置200、及び検索装置300は、通信ネットワーク400に接続されており、相互に通信可能である。
The
次に、情報伝播経路特定装置100の構成を図2を用いて説明する。図2は、情報伝播経路特定装置100の構成図である。情報伝播経路特定装置100は、上述したように、通信ネットワーク400において開示されている複数のウェブページに含まれる情報の伝播経路を特定する装置であって、通信部1と、共通文字列数特定部2と、作成時刻検出部3と、リンクタグ検出部4と、情報伝播経路特定部5と、情報伝播経路図作成部6とを有する。
Next, the configuration of the information propagation
通信部1は、検索装置300から、検索装置300によって検索された複数の評価対象のウェブページそれぞれを構成する情報を受信する。通信部1は、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部として機能する。評価対象のウェブページを構成する情報は、例えばマークアップラングエッジにより記載された情報である。また、通信部1は、情報伝播経路図作成部6によって作成される情報伝播経路図を、通信ネットワーク400を介してクライアント端末装置200に出力する。
The
共通文字列数特定部2は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出した上で、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定する。また、共通文字列数特定部2は、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する。
Based on the information received by the
具体的には、共通文字列数特定部2は、LCS(Longest common subsequence problem)における解法を用い、2個の評価対象のウェブページの組それぞれについて、共通する文字列を検出した上で、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定する。そして、共通文字列数特定部2は、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する。関連度ラベルを特定する際の閾値は、例えば実験により決定される。LCSにおける代表的な解法は、Dynamic Programming(動的計画法)や、Suffix Treeである。
Specifically, the common character string
作成時刻検出部3は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する。「作成」には、特定の記事が記載された新規のウェブページが公開された場合のみならず、既に公開されているウェブページの中で上記特定の記事が追加された場合、つまりページ更新が行われた場合も含まれる。後者の場合の「作成時刻」は、ページ更新が行われた時刻ではなく、ウェブページが最初に公開された時刻である。
The creation
リンクタグ検出部4は、通信部1によって受信された情報の中からリンクタグを検出し、検出した各リンクタグについて、リンク元ページ情報とリンク先ページ情報とを特定する。なお、リンク元ページは作成時刻が相対的に後のウェブページ、リンク先ページは作成時刻が相対的に前のウェブページとみなす(図5参照)。
The link
情報伝播経路特定部5は、通信ネットワーク400において開示されている複数のウェブページのうち、相互に関連するウェブページの組を特定し、それによりウェブにおける情報の伝播経路を特定する。情報伝播経路特定部5の具体的な処理(機能)は次の通りである。
The information propagation
情報伝播経路特定部5の処理は二通り存在する。
There are two types of processing of the information propagation
第一に、情報伝播経路特定部5は、共通文字列数特定部2及び作成時刻検出部3での処理結果に基づいてウェブページ同士の引用関係を検出し、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する。具体的には、情報伝播経路特定部5は、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出する。
First, the information propagation
次に、情報伝播経路特定部5は、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合(例えば、複数のニュースページを引用して一つのブログページが書かれたようにみえる場合)、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出し、当該ウェブページ対のうちの作成時刻が相対的に前のウェブページを「引用元ページ」、作成時刻が相対的に後のウェブページを「引用先ページ」として抽出する(図5参照)。情報伝播経路特定部5は、この処理を全てのウェブページ対について行うことにより、一つの引用先ページに対して一つの引用元ページを特定する。
Next, the information propagation
なお、情報伝播経路特定部5は、抽出した各ウェブページ対について、その評価ラベルが基準値以上であることをチェックし、基準値未満であれば当該ウェブページ対の抽出をキャンセルすることが望ましい。基準値が小さすぎると、定型的な文字列(例えば「野村総合研究所」など)だけが共通していて、実質的な内容は類似していないようなウェブページ対を構成する2個のウェブページを相互に関連しているものと判断してしまう一方、基準値が大きすぎると、長い共通文字列を含む2個のウェブページですら相互に類似していないものと判断してしまうため、基準値は実験などを通じて求められる最適値が設定される。
In addition, it is desirable that the information propagation
第二に、情報伝播経路特定部5は、リンクタグ検出部4での処理結果に基づいて、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する。具体的には、情報伝播経路特定部5は、リンクタグ検出部4によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定する。なお、ここで「リンク元ページ」はリンクタグが検出されたページであるため、引用関係でいえば「引用先ページ」に該当し、「リンク先ページ」は「引用元ページ」に該当する(図5参照)。
Secondly, the information propagation
なお、上記の情報伝播経路特定部5の二通りの処理は、いずれか一方を省略することが可能であり、情報伝播経路特定部5が二通りの処理を行った場合はそれぞれの処理結果の和集合を情報伝播経路特定部5の処理結果とする。
Note that either one of the two processes of the information propagation
情報伝播経路図作成部6は、情報伝播経路特定部5によって関連すると特定された各ウェブページ対を構成するウェブページを、作成された順に仮想的に並べて仮想的に線で結び、ウェブにおける情報の伝播を表現する情報伝播経路図を作成する。
The information propagation path diagram creating unit 6 virtually arranges the web pages constituting each web page pair identified as related by the information propagation
次に、本実施の形態のウェブページ評価システムの動作を説明する。そのうちの情報伝播経路特定装置100の動作は、図3を用いて説明する。図3は、情報伝播経路特定装置100の動作の各ステップを示すフローチャートである。
Next, the operation of the web page evaluation system of this embodiment will be described. The operation of the information propagation
先ず、ユーザは、検索キーワードと、その検索キーワードに関連するウェブページを検索させる指示(検索指示)とを、入力装置210を用いてクライアント端末装置200に入力する。クライアント端末装置200は、入力された検索キーワード及び検索指示を受け付け、それらを通信ネットワーク400を介して検索装置300に送信する。
First, the user inputs a search keyword and an instruction (search instruction) for searching a web page related to the search keyword to the
検索装置300は、クライアント端末装置200からの検索キーワード及び検索指示を受信し、通信ネットワーク400において開示されているウェブページのなかから、受信した検索キーワードに関連するウェブページ(評価対象のウェブページ)を検索する。説明の便宜上、検索装置300は複数の評価対象のウェブページを検索したと仮定する。検索装置300は、検索した複数の評価対象のウェブページそれぞれを構成する情報を、通信ネットワーク400を介して情報伝播経路特定装置100に送信する。
The
情報伝播経路特定装置100では、通信部1が、検索装置300によって検索された複数の評価対象のウェブページそれぞれを構成する情報を受信する(S1)。共通文字列数特定部2は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する(S2)。
In the information propagation
共通文字列数特定部2の動作を図4を用いて具体的に説明する。図4は、共通文字列数特定部2の動作を説明するための図である。図4(A)は、評価対象のウェブページAを示しており、図4(B)は、評価対象のウェブページBを示している。図4(A)に示すように、評価対象のウェブページAには、文字列「mnlopabcdefxyz」が記載されており、図4(B)に示すように、評価対象のウェブページBには、文字列「ttxabxabcdexxx」が記載されている。
The operation of the common character string
図4(A)と図4(B)とを比較すると明らかなように、評価対象のウェブページAと評価対象のウェブページBとにおいて、共通する文字列は、文字列「x」と、文字列「ab」と、文字列「abcde」とである。文字列「x」を構成する文字の数は「1」であり、文字列「ab」を構成する文字の数は「2」であって、文字列「abcde」を構成する文字の数は「5」である。この場合、共通文字列数特定部2は、それらの3個の文字列それぞれの関連度ラベルを「1」、「2」、「5」と特定し、最大の関連度ラベル「5」を評価ラベルとして特定する(S2)。
As is clear from a comparison between FIG. 4A and FIG. 4B, the character string “x” that is common to the evaluation target web page A and the evaluation target web page B is the character string “x”. The string “ab” and the character string “abcde”. The number of characters constituting the character string “x” is “1”, the number of characters constituting the character string “ab” is “2”, and the number of characters constituting the character string “abcde” is “ 5 ". In this case, the common character string
このようにして、共通文字列数特定部2は、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定し、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する(S2)。
In this manner, the common character string
次に、作成時刻検出部3は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する(S3)。
Next, the creation
次に、リンクタグ検出部4は、通信部1によって受信された情報の中からリンクタグを検出し、検出した各リンクタグについて、リンク元ページ情報とリンク先ページ情報とを特定する(S4)。
Next, the link
そして、情報伝播経路特定部5は、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する(S5)。つまり、情報伝播経路特定部5は、ステップS4までの処理結果に基づいて、ウェブにおける情報の伝播経路を特定する(S5)。情報伝播経路特定部5の具体的な処理内容は前述したように二通り存在する。
Then, the information propagation
一つは、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出する。次に、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合(例えば、複数のニュースページを引用して一つのブログページが書かれたようにみえる場合)、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出し、当該ウェブページ対のうちの作成時刻が相対的に前のウェブページを「引用元ページ」、作成時刻が相対的に後のウェブページを「引用先ページ」として抽出する(図5参照)。この処理を全てのウェブページ対について行うことにより、一つの引用先ページに対して一つの引用元ページを特定する。また、抽出した各ウェブページ対について、その評価ラベルが基準値以上であることをチェックし、基準値未満であれば当該ウェブページ対の抽出をキャンセルする。
One is the web that configures each web page pair based on the creation time detected by the creation
もう一つは、リンクタグ検出部4によって特定されたリンク元ページ情報とリンク先ページ情報とに基づいて、各リンクタグに係る各ウェブページ対について、それを構成する2個のウェブページのいずれが先に作成されたウェブページであるのかを特定する。そして、情報伝播経路特定部5は、これら二通りの処理を経て抽出されたウェブページ対の和集合により、ウェブにおける情報の伝播経路を特定する。
The other is based on the link source page information and the link destination page information specified by the link
情報伝播経路特定部5の処理内容を図5を用いて具体的に説明する。図5は、情報伝播経路特定部5の処理内容を説明するための図である。図5の例では、ウェブページD,E,F,G(例えばニュースページ)の作成時刻は、ウェブページC(例えばブログページ)の作成時刻よりも先である。また、ウェブページCは、ウェブページGへのリンクタグを有している。この場合、ウェブページCがリンク元のウェブページであり、ウェブページGがリンク先のウェブページである。
The processing contents of the information propagation
また図5の例では、ウェブページDC,EC,FC,GCの間における評価ラベルは、それぞれ30,25,83,82である。 Further, in the example of FIG. 5, the evaluation labels between the web pages DC, EC, FC, and GC are 30, 25, 83, and 82, respectively.
そこで、情報伝播経路特定部5は、第一の関連ウェブページ特定処理により、評価ラベルが最大となる「83」のウェブページ対FCを抽出するとともに、当該ウェブページ対FCの評価ラベル「83」が基準値(例えば「50」)以上であることを確認する。なお、もし当該ウェブページ対FCの評価ラベルが基準値未満であったなら、当該ウェブページ対FCの抽出をキャンセルする。
Therefore, the information propagation
また、ウェブページGは、リンクタグによりウェブページCに関連付けられている。そのため、情報伝播経路特定部5は、第二の関連ウェブページ特定処理により、ウェブページ対GCを抽出する。
The web page G is associated with the web page C by a link tag. Therefore, the information propagation
そして、情報伝播経路特定部5は、第一及び第二の関連ウェブページ特定処理の結果の和集合をとり、情報がウェブページF,GからウェブページCへ伝播したものと判断する。
And the information propagation path | route specific |
次に、情報伝播経路図作成部6は、情報伝播経路特定部5によって特定された関連するウェブページを、作成された順に仮想的に並べて仮想的に線で結び、ウェブにおける情報の伝播を表現する情報伝播経路図を作成する(S6)。
Next, the information propagation route diagram creation unit 6 virtually arranges related web pages identified by the information propagation
情報伝播経路図作成部6によって作成される情報伝播経路図の具体例を図6を用いて説明する。図6は、情報伝播経路図作成部6によって作成される情報伝播経路図の具体例を説明するための図である。 A specific example of the information propagation route diagram created by the information propagation route diagram creation unit 6 will be described with reference to FIG. FIG. 6 is a diagram for explaining a specific example of the information propagation route diagram created by the information propagation route diagram creation unit 6.
ここで、情報伝播経路特定部5によって、ウェブページαβ,βγ,βδ,γεがそれぞれ相互に関連している、と特定されたと仮定する。そして、ウェブページの作成時刻はα,β,γ,δ,εの順であると仮定する。
Here, it is assumed that the information propagation
この場合、情報伝播経路図作成部6は、ウェブページαとβとを線で結び、同様にβγ,βδ,γεをそれぞれ線で結び、更に各ウェブページ対を結ぶ線に、作成時刻が先のウェブページから作成時刻が後のウェブページの向きに矢印を付加して、図6に示す情報伝播経路図を作成する。図6における横軸tは時間軸である。 In this case, the information propagation path diagram creation unit 6 connects the web pages α and β with lines, similarly connects βγ, βδ, and γε with lines, and further creates lines with the creation time ahead. An information propagation path diagram shown in FIG. 6 is created by adding an arrow in the direction of the web page whose creation time is later from the web page of FIG. The horizontal axis t in FIG. 6 is a time axis.
このようにして情報伝播経路図が作成されると、通信部1は、作成された情報伝播経路図を、通信ネットワーク400を介してクライアント端末装置200に出力する。クライアント端末装置200は、情報伝播経路図を受信して表示装置220に表示させる。
When the information propagation route diagram is created in this way, the
これにより、ユーザは、入力した検索キーワードに関連するウェブページに含まれる情報のウェブにおける伝播経路を知ることができる。 Thereby, the user can know the propagation path in the web of information included in the web page related to the input search keyword.
本実施の形態の情報伝播経路特定装置100の構成及び動作は、上述した通りである。次に、情報伝播経路特定装置100の効果を説明する。
The configuration and operation of the information propagation
(第1の効果)
情報伝播経路特定部5は、図5を用いて説明したように、第1の処理において、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する。
(First effect)
As described with reference to FIG. 5, the information propagation
図5を用いて具体的に説明し直すと、ウェブページD,E,F,Gそれぞれは、ウェブページCよりも作成時刻が前であって、ウェブページCと共通する文字列を有しており、ウェブページDC,EC,FC,GCの間における評価ラベルは、それぞれ30,25,83,82である。この場合、情報伝播経路特定部5は、複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対FCのみを抽出する。
Specifically, referring again to FIG. 5, each of the web pages D, E, F, and G has a character string that is common to the web page C and has a creation time before the web page C. The evaluation labels between the web pages DC, EC, FC, and GC are 30, 25, 83, and 82, respectively. In this case, the information propagation
情報伝播経路特定部5が、複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出するのは、次のような理由による。情報伝播経路特定部5は、「1」以上の評価ラベルを有するウェブページ対の全てを抽出しても情報の伝播経路を特定することができる。しかしながら、情報伝播経路特定部5は、最大の評価ラベルを有するウェブページ対を一つだけ抽出することにより、ウェブにおける情報の伝播経路を精度良く特定することができるからである。
The information propagation
例えば、情報伝播経路特定部5は、所定の閾値以上の評価ラベルを有するウェブページ対を抽出する場合、閾値が小さすぎると、多数のウェブページ対が抽出されて、情報の伝播経路が多数存在することになり、ウェブにおける情報の伝播経路を精度良く特定することができない。すなわち、閾値が小さすぎると、多数の伝播関係が検出され、情報伝播経路特定部5は、ウェブにおける情報の伝播経路を精度良く特定することができない。「伝播関係」とは、2個のウェブページ相互の伝播・引用関係を意味する。
For example, when the information propagation
その内容を図7を用いて視覚的に説明する。図7は、情報伝播経路特定部5が第一の処理(評価ラベルを用いる処理)の結果のみに基づいて特定した情報の伝播経路を示す図である。図7において、各楕円はウェブページを示しており、矢印付きの実線は、その始点及び終点のウェブページそれぞれが評価ラベルにより相互に関連していることを示している。その矢印は、情報の伝播の向きを示している。情報伝播経路特定部5が第一の処理の結果のみを用い、所定の閾値以上の評価ラベルを有するウェブページ対を抽出する場合、閾値が小さいと、図7に示すように、情報の伝播経路は多数存在して錯綜し、どの伝播経路が真の経路であるのかが不明になる。
The contents will be described visually with reference to FIG. FIG. 7 is a diagram illustrating a propagation path of information identified based only on a result of the first process (process using an evaluation label) by the information propagation
他方、閾値が大きすぎると、大きな評価ラベルを有するウェブページ対であっても、その評価ラベルが閾値未満であれば、情報伝播経路特定部5は、そのウェブページ対を抽出しない。このように、閾値が小さすぎても大きすぎても問題が出てくるので、閾値を設定することは容易ではない。
On the other hand, if the threshold is too large, even if the web page pair has a large evaluation label, if the evaluation label is less than the threshold, the information propagation
したがって、あるウェブページが、それよりも作成時刻が前の複数のウェブページそれぞれと共通する文字列を有している場合、情報伝播経路特定部5は、上記あるウェブページを含む複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出する。これにより、情報伝播経路特定部5は、作成時刻が相対的に後のウェブページに記載されている情報の発信元となるウェブページを精度良く特定することができる。
Therefore, when a certain web page has a character string common to each of a plurality of web pages whose creation times are earlier than that, the information propagation
(第2の効果)
情報伝播経路特定部5は、第一の処理(評価ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合をとり、それによりウェブにおける情報の伝播経路を特定する。情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との一方のみを用いて伝播経路を特定することができる。情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との和集合を用いると、伝播経路を精度良く特定することができる。したがって、情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との和集合をとることが好ましい。以下にその理由を具体的に説明する。
(Second effect)
The information propagation
情報伝播経路特定部5が第一の処理(関連度ラベルを用いる処理)の結果のみを用い、所定の閾値以上の評価ラベルを有する全てのウェブページ対を抽出する場合、上述したように、閾値が大きすぎると、大きな評価ラベルを有するウェブページ対であっても、その評価ラベルが閾値未満であれば、情報伝播経路特定部5は、そのウェブページ対を抽出しない。
When the information propagation
しかしながら、抽出されなかったウェブページ対を構成する2個のウェブページ相互も関連していて情報伝播経路特定部5によって抽出されるべき場合がある。その場合、それら2個のウェブページのうちの後で作成されたウェブページに、先に作成されたウェブページへのリンクタグが含まれていれば、そのウェブページ対は、情報伝播経路特定部5によって抽出される。
However, there are cases where two web pages constituting the web page pair that has not been extracted are also related to each other and should be extracted by the information propagation
このように、第一の処理(評価ラベルを用いる処理)の結果のみを用いた場合に検出される伝播関係の引用数を、第二の処理(リンクタグを用いる処理)の結果をも用いることにより、精度を落とすことなく増加させることができる。 As described above, the number of citations of the propagation relationship detected when only the result of the first process (process using the evaluation label) is used, and the result of the second process (process using the link tag) are also used. Therefore, the accuracy can be increased without reducing the accuracy.
他方、仮に、情報伝播経路特定部5が第二の処理(リンクタグを用いる処理)の結果のみを用いて相互に関連するウェブページを特定すると仮定する。その場合、作成時刻が前後する2個のウェブページが共通する文字列を有していても、後で作成されたウェブページに、先に作成されたウェブページへのリンクタグが含まれていなければ、それら2個のウェブページは、関連しているウェブページ対であると特定されない。
On the other hand, it is assumed that the information propagation
以下に、上記の内容を図8を用いて視覚的に説明する。図8は、情報伝播経路特定部5が第二の処理(リンクタグを用いる処理)の結果のみに基づいて特定した情報の伝播経路を示す図である。図8において、各楕円はウェブページを示しており、矢印付きの実線は、その始点及び終点のウェブページそれぞれがリンクタグにより相互に関連していることを示している。実線の矢印は、情報の伝播の向きを示している。矢印付きの破線は、その始点及び終点のウェブページそれぞれが共通する文字列を有しているのにもかかわらず、リンクタグが用いられていないことにより相互に関連していないことを示している。
Hereinafter, the above contents will be described visually with reference to FIG. FIG. 8 is a diagram illustrating a propagation path of information identified based only on the result of the second process (process using a link tag) by the information propagation
図8の例では、「まとめブログD」は、共通する文字列を有しているのにもかかわらず、「一般ブログF」とは相互に関連していると判断されない。これは、「一般ブログF」に「まとめブログD」へのリンクタグが含まれていないことによる。このように情報伝播経路特定部5が第二の処理の結果のみを用いると、情報の伝播経路が実際には継続しているのにもかかわらず、断絶していると判断される場合がでてくる。換言すれば、情報伝播経路特定部5が第二の処理の結果のみを用いると、特定できる伝播経路が限られることになる。つまり、情報伝播経路特定部5が第二の処理の結果のみを用いて相互に関連するウェブページの対を特定し、それにより情報の伝播経路を特定するのは十分ではない。
In the example of FIG. 8, although “summary blog D” has a common character string, it is not determined that it is related to “general blog F”. This is because the “general blog F” does not include a link tag to the “summary blog D”. As described above, when the information propagation
そのため、情報伝播経路特定部5は、第一の処理(関連度ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合をとり、それによりウェブにおける情報の伝播経路を特定する。和集合をとることにより、第一の処理の結果と第二の処理の結果とを互いに補完することができ、相互に関連するウェブページの対をより精度良く特定することができる。すなわち、情報の真の伝播経路を精度良く特定することができる。
Therefore, the information propagation
以下に、上記の内容を図9を用いて視覚的に説明する。図9は、情報伝播経路特定部5が第一の処理(評価ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合に基づいて特定した情報の伝播経路を示す図である。図9において、各楕円はウェブページを示しており、矢印付きの細い実線は、その始点及び終点のウェブページそれぞれが評価ラベル(最長共通文字列)により相互に関連していることを示している。矢印付きの太い実線は、その始点及び終点のウェブページそれぞれがリンクタグにより相互に関連していることを示している。矢印は、情報の伝播の向きを示している。
The above contents will be described visually with reference to FIG. FIG. 9 shows the information specified by the information propagation
「まとめブログD」に着目すると、「まとめブログD」は、細い実線により「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと接続されている。それは、「まとめブログD」が、評価ラベルにより「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと相互に関連していることを示している。また、「まとめブログD」は、太い実線により「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと接続されている。それは、「まとめブログD」が、リンクタグにより「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していることを示している。 Focusing on “Summary Blog D”, “Summary Blog D” is connected to “Major Newspaper Site B”, “General Blog F”, and “General Blog I” by thin solid lines. It indicates that “summary blog D” is mutually related to “major newspaper site B”, “general blog F”, and “general blog I” by the evaluation label. The “summary blog D” is connected to “net news A”, “general blog G”, and “general blog H” by thick solid lines. It indicates that “summary blog D” is mutually related to “net news A”, “general blog G”, and “general blog H” by link tags.
図9に示すように、「まとめブログD」は、第一の処理(評価ラベルを用いる処理)の結果のみが用いられると、「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと相互に関連していると特定される。同様に、「まとめブログD」は、第二の処理(リンクタグを用いる処理)の結果のみが用いられると、「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していると特定される。 As shown in FIG. 9, when only the result of the first processing (processing using an evaluation label) is used for “summary blog D”, “major newspaper site B”, “general blog F”, and “general blog” I "are identified as being interrelated with each other. Similarly, when only the result of the second process (process using a link tag) is used, “summary blog D” is mutually associated with “net news A”, “general blog G”, and “general blog H”. Identified as related to
それに対して、第一の処理の結果と、第二の処理の結果との和集合が用いられると、「まとめブログD」は、「大手新聞サイトB」、「一般ブログF」、「一般ブログI」、「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していると特定される。 On the other hand, when the union of the result of the first process and the result of the second process is used, “summary blog D” becomes “major newspaper site B”, “general blog F”, “general blog”. "I", "Net News A", "General Blog G", and "General Blog H" are identified as being interrelated.
このように、情報伝播経路特定部5が第一の処理の結果と第二の処理の結果との和集合をとることにより、相互に関連しているウェブページの対を精度良く特定することができる。すなわち、情報の伝播経路を精度良く特定することができる。また、図9の「まとめブログD」のような、伝播される情報を中継するハブ機能を持つウェブページを特定することができる。また、情報の発信元のウェブページと、その情報が最後に伝播したウェブページとを特定することができるので、情報が伝播したウェブページの個数を把握することできる。更に、伝播経路をさかのぼることにより、情報が最後に伝播したウェブページがどのウェブページから影響を受けたのかを推定することができる。そのため、情報伝播経路特定部5は、第一の処理の結果と第二の処理の結果との和集合をとることにより、相互に関連しているウェブページ対を特定し、それにより情報の伝播経路を特定することが好ましい。
In this way, the information propagation
(変形例1)
なお、上述した実施の形態では、情報伝播経路特定部5は、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合、複数のウェブページ対の中から、最大の評価ラベルを有するウェブページ対を一つだけ抽出する。しかしながら、情報伝播経路特定部5は、上記の場合、複数のウェブページ対の中から、所定の閾値以上の評価ラベルを有するウェブページ対を抽出してもよい。また、情報伝播経路特定部5は、それら複数のウェブページ対の中から、値が大きい方から上位所定の個数の評価ラベルそれぞれを有するウェブページ対を抽出してもよい。この場合も、情報伝播経路特定部5は、情報の伝播経路を特定することができる。
(Modification 1)
In the above-described embodiment, the information propagation
また、情報伝播経路特定部5は、評価ラベルに着目するのではなく、共通文字列数特定部2によって特定された関連度ラベルに着目し、同一のウェブページに対して、それと共通する文字列を有し(つまり、関連度ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合、複数のウェブページ対の中から、所定の閾値以上の関連度ラベルを有するウェブページ対を抽出してもよい。更に、情報伝播経路特定部5は、複数のウェブページ対の中から、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を抽出してもよい。この場合も、情報伝播経路特定部5は、情報の伝播経路を特定することができる。
Further, the information propagation
(変形例2)
作成時刻検出部3による各評価対象のウェブページの作成時刻を検出する精度はあまり高くない。本願発明者の検証によれば、作成時刻の検出精度は80〜90%である。作成時刻を検出する精度があまり高くないことを例を挙げて以下に説明する。
(Modification 2)
The accuracy of detecting the creation time of each evaluation target web page by the creation
ウェブページPが存在し、ウェブページPの作成時刻より前に実施されたイベントの情報がそのイベントの実施時刻とともにウェブページPに含まれていると仮定する。ウェブページを構成する情報(ウェブページ本文)はHTMLで記述されているのであるが、HTMLでは時刻を検出することは容易ではない。そのため、作成時刻検出部3は、イベントの実施時刻をウェブページPの作成時刻と誤って検出してしまう場合がある。したがって、作成時刻を検出する精度はあまり高くない。
It is assumed that there is a web page P, and information on an event performed before the creation time of the web page P is included in the web page P together with the execution time of the event. Information constituting the web page (web page text) is described in HTML, but it is not easy to detect time in HTML. Therefore, the creation
更に次のことを仮定する。すなわち、ウェブページPよりも前に作成されたウェブページQが存在し、上記イベントの実施時刻がウェブページQの作成時刻より前であると仮定する。この状況において、作成時刻検出部3がウェブページQの作成時刻を正確に検出すれば、実際にはウェブページPよりも前にウェブページQが作成されているのにもかかわらず、情報伝播経路特定部5は、ウェブページQの方がウェブページPよりも後に作成されたと判断してしまう。
Further assume the following. That is, it is assumed that there is a web page Q created before the web page P, and the event implementation time is earlier than the creation time of the web page Q. In this situation, if the creation
それに対して、リンクタグを用いれば、2個のウェブページのいずれが先に作成されたのかを正確に特定することができる。つまり、ウェブページPにウェブページQへのリンクタグが含まれている場合、情報伝播経路特定部5は、ウェブページQの方がウェブページPよりも先に作成されたと正確に特定することができる。そのため、2個のウェブページの一方に他方へのリンクタグが含まれている場合、情報伝播経路特定部5は、作成時刻を検出する方法よりリンクタグを用いる方法を優先して、いずれが先に作成されたのかを判断する。
On the other hand, if a link tag is used, it is possible to accurately specify which of the two web pages was created first. That is, when the link tag to the web page Q is included in the web page P, the information propagation
その内容を図10を用いて説明する。図10は、ウェブページPとウェブページQとのうちで先に作成されたウェブページを特定する方法を説明するための図である。図10において、矢印付きの実線は、ウェブページPとウェブページQとがリンクタグにより相互に関連していることを示している。矢印付きの破線は、ウェブページPとウェブページQとが関連度ラベルにより相互に関連していることを示している。また、図10は、実線の矢印の向きが示す通り、リンクタグにより、ウェブページQがウェブページPより先に作成されたことを示している。更に、図10は、破線の矢印の向きが示す通り、作成時刻の検出により、ウェブページPがウェブページQより先に作成されたことを示している。 The contents will be described with reference to FIG. FIG. 10 is a diagram for explaining a method of specifying the web page created first among the web page P and the web page Q. In FIG. 10, a solid line with an arrow indicates that the web page P and the web page Q are related to each other by a link tag. A broken line with an arrow indicates that the web page P and the web page Q are related to each other by the relevance level label. FIG. 10 shows that the web page Q is created before the web page P by the link tag as indicated by the direction of the solid arrow. Furthermore, FIG. 10 shows that the web page P was created before the web page Q by the detection of the creation time, as indicated by the direction of the dashed arrow.
図10に示すように、リンクタグを用いる方法と作成時刻を検出する方法とで、先に作成されたウェブページが異なると判断される場合、リンクタグを用いて、先に作成されたウェブページを特定する。なぜなら、作成時刻を精度良く特定することができないのに対し、リンクタグを用いると、いずれが先に作成されたのかを精度良く特定することができるからである。 As shown in FIG. 10, when it is determined that the web page created earlier is different between the method using the link tag and the method of detecting the creation time, the web page created earlier using the link tag. Is identified. This is because the creation time cannot be specified with high accuracy, but if a link tag is used, it can be specified with high accuracy which one was created first.
なお、トラックバックにより先に作成されたウェブページに、後で作成されたウェブページへのリンクタグが含まれる場合があるが、そのリンクタグがトラックバックにより設定されたことを判断することは容易である。そのため、トラックバックにより設定されたリンクタグを除外すれば、リンクタグを用いる方法により、2個のウェブページのいずれが先に作成されたのかを精度良く特定することができる。 Note that the web page created earlier by trackback may contain a link tag to the web page created later, but it is easy to determine that the link tag has been set by trackback. . Therefore, if the link tag set by the trackback is excluded, it is possible to accurately identify which of the two web pages was created first by the method using the link tag.
(変形例3)
上述したように、作成時刻検出部3によるウェブページの作成時刻を検出する精度はあまり高くない。したがって、変形例2では、リンクタグを用いる方法を作成時刻を検出する方法より優先することにより、2個のウェブページのうちの先に作成された方を判断する。しかしながら、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、変形例2の方法を用いることはできない。
(Modification 3)
As described above, the accuracy with which the creation
変形例3では、情報伝播経路特定部5は、予め決められた優先順位にしたがって、2個のウェブページのいずれが先に作成されたのかを決定する。その優先順位は以下の通りである。
In the third modification, the information propagation
(1)企業の公式ウェブページ
(2)情報発信元のニュースメディアのウェブページ
(3)転載系のニュースメディアのウェブページ
(4)著名ブログ
(5)(1)〜(4)以外のウェブページ(個人ブログ)
情報伝播経路特定部5は、上記の優先順位にしたがって、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する。例えば、比較対象の2個のウェブページの一方が(1)企業の公式ウェブページであって、他方が(2)情報発信元のニュースメディアのウェブページである場合、情報伝播経路特定部5は、上記の優先順位にしたがって(1)企業の公式ウェブページの方が先に作成されたと判断する。また例えば、比較対象の2個のウェブページの一方が(2)情報発信元のニュースメディアのウェブページであって、他方が(4)著名ブログである場合、情報伝播経路特定部5は、上記の優先順位にしたがって(2)情報発信元のニュースメディアのウェブページの方が先に作成されたと判断する。
(1) Company official web page (2) News media web page of information source (3) Reprinted news media web page (4) Prominent blog (5) Web pages other than (1) to (4) (Personal blog)
The information propagation
比較対象の2個のウェブページが同じ優先順位のウェブページである場合、つまり、比較対象の2個のウェブページが同じ種類のウェブページである場合、情報伝播経路特定部5は、作成時刻検出部3によって検出された作成時刻に基づいて、いずれが先に作成されたのかを判断する。
When the two web pages to be compared are the same priority web pages, that is, when the two web pages to be compared are the same type of web pages, the information propagation
このように、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する際、情報伝播経路特定部5は、作成時刻検出部3によって検出された作成時刻を用いるよりも、変形例3の優先順位を用いる。これにより、いずれが先に作成されたのかを精度良く決定することができる。上述したように、作成時刻検出部3によるウェブページの作成時刻を検出する精度はあまり高くないからである。
In this way, when determining which of the two web pages to be compared has been created first, the information propagation
なお、ウェブページの優先順位は、上記のような静的なものでなく、動的に決まってもよい。例えば、フラッシュを所定の数以上用いているウェブページや所定の数以上のリンクが張られている個人ブログを最上位の優先順位にする。 The priority order of the web pages is not static as described above, and may be determined dynamically. For example, a web page that uses a predetermined number or more of flashes or a personal blog that has a predetermined number or more links is given the highest priority.
上述したように、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する方法として、上述したように変形例2及び変形例3の方法を用いることができる。また、作成時刻検出部3によって検出された作成時刻を用いる方法を用いることもできる。どの方法を優先して用いるかは、以下の方法に関する優先順位に従うことが好ましい。
As described above, as described above, the methods of
[1]変形例2のリンクタグを用いる方法
[2]変形例3の優先順位を用いる方法
[3]作成時刻検出部3によって検出された作成時刻を用いる方法
[1]変形例2のリンクタグを用いる方法を最優先にすることで、ニュースメディアが小さな個人ブログの情報を取り上げているケースを検出することができる。
[1] Method Using Link Tag of Modification 2 [2] Method Using Priority of Modification 3 [3] Method Using Creation Time Detected by Creation Time Detection Unit 3 [1] Link Tag of
(変形例4)
更に、上述した実施の形態では、共通文字列数特定部2は、先ず、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において共通する文字列を検出する。しかしながら、共通文字列数特定部2は、比較対象の2個の評価対象のウェブページそれぞれについて形態素解析を実行し、名詞等の特定の品詞にのみ着目して比較対象の文字列を少なくし、その後に共通する文字列を検出してもよい。
(Modification 4)
Further, in the above-described embodiment, the common character string
例えば、評価対象のウェブページαに「私は桜を見に行った。」という第1の文字列が記載されており、評価対象のウェブページβに「私は桜を見たことがありますよ」という第2の文字列が記載されていた場合を想定する。この場合、共通文字列数特定部2は、第1の文字列を単語に分解して第3の文字列「私 は 桜 を 見 に 行っ た 。」を生成し、更に、複数の品詞のうち名詞と動詞とのみに着目するとともに動詞を原型に変更し、第1の文字列を「私 桜 見る 行く」という第4の文字列に変更する。同様にして第2の文字列についても「私 桜 見る こと ある」という第5の文字列に変更する。第4文字列と第5の文字列を比較することにより、ウェブページαとウェブページβは「私 桜 見る」という共通する文字列の並びを有すると判断される。
For example, the first character string “I went to see cherry blossoms” is listed on the web page α to be evaluated, and “I have seen cherry blossoms” on the web page β to be evaluated. ”Is assumed to be described. In this case, the common character string
この方法によると、照合データ数が大幅に削減されるため、処理の高速化が実現する。また、文字列の表記揺れ(ですます、だである)を吸収することができる。なお、共通文字列数特定部2は、各文字列をコード化して処理データ量を少なくし、処理を行ってもよい。これによっても、処理の高速化が実現する。上記の例では、例えば、共通文字列数特定部2は、単語「私」にID「124」を割り当て、単語「桜」にID「398」を割り当て、単語「見る」にID「363」を割り当て、単語「行く」にID「297」を割り当て、IDの並びでLCSを行う。
According to this method, since the number of collation data is greatly reduced, the processing speed can be increased. In addition, it can absorb the shaking of the character string (more or less). Note that the common character string
なお、情報伝播経路特定装置100の各構成部の機能は、例えばコンピュータのCPU(プロセッサ)及びメモリ等のハードウェアと、その機能を実現するためのコンピュータプログラムとが協働することによって実現される。しかしながら、上記各機能は、専用の回路により実現される等、どのような形態により実現されてもよい。また、情報伝播経路特定装置100の各構成部の機能を実現するためのコンピュータプログラムは、記録媒体に格納されてもよい。
Note that the functions of each component of the information propagation
100 情報伝播経路特定装置、 200 クライアント端末装置、 300 検索装置、 400 通信ネットワーク、 1 通信部、 2 共通文字列数特定部、 3 作成時刻検出部、 4 リンクタグ検出部、 5 情報伝播経路特定部、 6 情報伝播経路図作成部。
DESCRIPTION OF
Claims (8)
複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部を備え、
前記情報伝播経路特定部は、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページ情報及びリンク先ページ情報を特定して関連しているウェブページ対を特定する処理をも行い、前記評価ラベルを用いて特定した関連するウェブページ対と、前記リンクタグを用いて特定した関連するウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定し、
前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する情報伝播経路特定装置。 A device for identifying a propagation path of information on the web,
An acquisition unit for acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the information acquired by the acquisition unit, for each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the detected character string is configured. A common string number identifying unit that identifies the number of characters as a relevance label and identifies the largest relevance label as an evaluation label;
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of evaluation target web pages;
For each web page pair corresponding to each evaluation label identified by the common character string number identifying unit, creation of web pages constituting each web page pair based on the creation time detected by the creation time detection unit When there is a plurality of web pages that have a common character string with respect to each web page and the creation time is relatively earlier than that, after detecting the context of the time The process of identifying one web page pair having the highest evaluation label from among the pairs and identifying it as an associated web page pair is performed for all web page pairs, whereby information on the web An information propagation path identifying unit that identifies a propagation path of
A link tag detection unit for detecting a link tag from the information acquired by the acquisition unit;
The information propagation path specifying unit also performs a process of specifying link source page information and link destination page information and specifying related web page pairs for all link tags detected by the link tag detection unit. , Based on the associated web page pair identified using the evaluation label and the associated web page pair identified using the link tag, identifying a propagation path of information on the web,
When determining which of the two web pages has been created first, the information propagation path specifying unit gives top priority to the link destination page specified based on the link tag detected by the link tag detection unit. And if neither of the two web pages contains a link tag to the other party, one of the two web pages is determined based on a predetermined priority for each web page. An information propagation path that identifies a web page with a higher priority and identifies the web page with the previous creation time detected by the creation time detector when the two web pages have the same priority. Specific device.
複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、
前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部とを備え、
前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する情報伝播経路特定装置。 A device for identifying a propagation path of information on the web,
An acquisition unit for acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the information acquired by the acquisition unit, for each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the detected character string is configured. A common character string number identifying unit that identifies the number of characters as a relevance label,
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of evaluation target web pages;
A link tag detection unit for detecting a link tag from the information acquired by the acquisition unit;
Based on the creation time detected by the creation time detection unit, it detects the order of the creation time of the web pages that make up each web page pair, and identifies a web page pair having a relevance label equal to or higher than a predetermined threshold First processing for identifying the web page pair as related to each other, and specifying a web page pair having each of the upper predetermined number of relevance labels from the largest value and associating them with each other It performs at least one of a second process of specifying as a web page pairs that, for all links tags detected by the link tag detection section, identify a link source page and destination page perform also a process of identifying a web page pairs are related to each other, further, they are related to each other and identified by using the relation level label Webupe Di pairs, wherein based on the web page pair using the link tag are related to each other were identified, and an information propagation path identification unit for identifying the propagation path information in the web,
When determining which of the two web pages has been created first, the information propagation path specifying unit gives top priority to the link destination page specified based on the link tag detected by the link tag detection unit. And if neither of the two web pages contains a link tag to the other party, one of the two web pages is determined based on a predetermined priority for each web page. An information propagation path that identifies a web page with a higher priority and identifies the web page with the previous creation time detected by the creation time detector when the two web pages have the same priority. Specific device.
請求項1または2に記載の情報伝播経路特定装置。 Further, for each pair of web pages that are related to each other specified by the information propagation path specifying unit, the web pages constituting the web page pairs are virtually arranged in the order in which they are created, and are virtually connected by a line. information propagation path determining device according to claim 1 or 2 comprising information propagation path diagram creation unit that creates a propagation path diagram.
請求項1から3のいずれかに記載の情報伝播経路特定装置。 The common character string number specifying unit changes the character string described in the web page to be evaluated to a character string composed of words of a predetermined part of speech, and then common character strings in each web page pair The information propagation path identification device according to any one of claims 1 to 3 .
コンピュータが、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、
コンピュータが、特定した各評価ラベルに対応する各ウェブページ対について、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定するステップと、
コンピュータが、取得された情報からリンクタグを検出するステップを含み、
前記伝播経路を特定するステップでは、コンピュータが、検出された全てのリンクタグについて、リンク元ページ情報及びリンク先ページ情報を特定して関連しているウェブページ対を特定する処理をも行い、前記評価ラベルを用いて特定した関連するウェブページ対と、前記リンクタグを用いて特定した関連するウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定し、
前記伝播経路を特定するステップでは、コンピュータが、2個のウェブページのいずれが先に作成されたのかを判断する際、検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する情報伝播経路特定方法。 A method for identifying the propagation path of information on the web,
A computer acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the acquired information , the computer detects a common character string between each of the plurality of evaluation target web pages and each of the other evaluation target web pages, and the characters constituting the detected character string are detected. Identifying the number as a relevance label, identifying the largest relevance label as a rating label,
A computer detecting a creation time of each of a plurality of web pages to be evaluated based on the acquired information;
For each web page pair corresponding to each specified evaluation label , the computer detects the order of creation time between web pages constituting each web page pair based on the detected creation time, and then each web page If there are a plurality of web pages that have a character string common to them and the creation time is relatively earlier than that, the web page pair having the largest evaluation label from among the plurality of web page pairs Identifying one and identifying it as an associated web page pair for all web page pairs, thereby identifying the propagation path of information on the web;
A computer detecting a link tag from the acquired information;
In the step of identifying the propagation path, the computer also performs a process of identifying the link source page information and the link destination page information to identify related web page pairs for all detected link tags, Based on the associated web page pair identified using the evaluation label and the associated web page pair identified using the link tag, the propagation path of information on the web is identified,
In the step of specifying the propagation path, when the computer determines which of the two web pages was created first, the link destination page specified based on the detected link tag is specified with the highest priority. If neither of the two web pages contains a link tag to the other party, the priority order of the two web pages based on the priority order determined in advance for each web page. An information propagation route specifying method for specifying a web page with a higher creation time and specifying the web page with the earlier creation time detected by the creation time detection unit when the two web pages have the same priority .
コンピュータが、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、
コンピュータが、取得した情報からリンクタグを検出するステップと、
コンピュータが、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、検出した全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページの対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定するステップとを含み、
前記伝播経路を特定するステップでは、コンピュータが、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する情報伝播経路特定方法。 A method for identifying the propagation path of information on the web,
A computer acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the acquired information , the computer detects a common character string between each of the plurality of evaluation target web pages and each of the other evaluation target web pages, and the characters constituting the detected character string are detected. Identifying the number as a relevance label;
A computer detecting a creation time of each of a plurality of web pages to be evaluated based on the acquired information;
A computer detecting a link tag from the acquired information;
Based on the detected creation time , the computer detects the relationship between the creation times of the web pages constituting each web page pair, identifies a web page pair having a relevance label equal to or higher than a predetermined threshold, A first process for identifying web page pairs that are related to each other, and a web page pair that has each of a predetermined number of relevance labels that are higher in order from the largest value, and the webs that are related to each other Perform at least one of the second process to identify page pairs, and identify the link source page and link destination page for all detected link tags to identify web page pairs that are related to each other processing performed also to further the webpage pair are related to each other were identified using the relevance labels were identified using the link tag Based on the web page pairs associated with have, and a step of identifying the propagation path information in the web,
In the step of specifying the propagation path, the link destination page specified based on the link tag detected by the link tag detection unit when the computer determines which of the two web pages was created first. Is specified with the highest priority, and if neither of the two web pages contains a link tag to the other party, the two web pages are assigned based on a predetermined priority for each web page. When the web page with the higher priority among the pages is specified and the two web pages have the same priority, the web page with the previous creation time detected by the creation time detection unit is identified. information propagation path specifying process for.
コンピュータを、
複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部を備え、
前記情報伝播経路特定部は、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページ情報及びリンク先ページ情報を特定して関連しているウェブページ対を特定する処理をも行い、前記評価ラベルを用いて特定した関連するウェブページ対と、前記リンクタグを用いて特定した関連するウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定し、
前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する
として機能させるための情報伝播経路特定プログラム。 A program for identifying the propagation path of information on the web,
Computer
An acquisition unit for acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the information acquired by the acquisition unit, for each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the detected character string is configured. A common string number identifying unit that identifies the number of characters as a relevance label and identifies the largest relevance label as an evaluation label;
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of evaluation target web pages;
For each web page pair corresponding to each evaluation label identified by the common character string number identifying unit, creation of web pages constituting each web page pair based on the creation time detected by the creation time detection unit When there is a plurality of web pages that have a common character string with respect to each web page and the creation time is relatively earlier than that, after detecting the context of the time The process of identifying one web page pair having the highest evaluation label from among the pairs and identifying it as an associated web page pair is performed for all web page pairs, whereby information on the web An information propagation path identifying unit that identifies a propagation path of
A link tag detection unit for detecting a link tag from the information acquired by the acquisition unit;
The information propagation path specifying unit also performs a process of specifying link source page information and link destination page information and specifying related web page pairs for all link tags detected by the link tag detection unit. , Based on the associated web page pair identified using the evaluation label and the associated web page pair identified using the link tag, identifying a propagation path of information on the web,
When determining which of the two web pages has been created first, the information propagation path specifying unit gives top priority to the link destination page specified based on the link tag detected by the link tag detection unit. And if neither of the two web pages contains a link tag to the other party, one of the two web pages is determined based on a predetermined priority for each web page. A web page with a higher priority is specified, and when two web pages have the same priority, the creation time detected by the creation time detection unit functions as specifying the previous web page Information propagation path identification program.
コンピュータを、
複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、
前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部とを備え、
前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する
として機能させるための情報伝播経路特定プログラム。 A program for identifying the propagation path of information on the web,
Computer
An acquisition unit for acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the information acquired by the acquisition unit, for each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the detected character string is configured. A common character string number identifying unit that identifies the number of characters as a relevance label,
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of evaluation target web pages;
A link tag detection unit for detecting a link tag from the information acquired by the acquisition unit;
Based on the creation time detected by the creation time detection unit, it detects the order of the creation time of the web pages that make up each web page pair, and identifies a web page pair having a relevance label equal to or higher than a predetermined threshold First processing for identifying the web page pair as related to each other, and specifying a web page pair having each of the upper predetermined number of relevance labels from the largest value and associating them with each other It performs at least one of the second process of specifying as a web page pairs that, for all links tags detected by the link tag detection section, identify a link source page and destination page perform also a process of identifying a web page pairs are related to each other, further, they are related to each other were identified using the relevance label Webupe Di pairs, wherein based on the web page pair using the link tag are related to each other were identified, and an information propagation path identification unit for identifying the propagation path information in the web,
When determining which of the two web pages has been created first, the information propagation path specifying unit gives top priority to the link destination page specified based on the link tag detected by the link tag detection unit. And if neither of the two web pages contains a link tag to the other party, one of the two web pages is determined based on a predetermined priority for each web page. A web page with a higher priority is specified, and when two web pages have the same priority, the creation time detected by the creation time detection unit functions as specifying the previous web page Information propagation path identification program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010015400A JP4550939B1 (en) | 2009-09-17 | 2010-01-27 | Information propagation path identification device, information propagation path identification method, information propagation path identification program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009215203 | 2009-09-17 | ||
JP2010015400A JP4550939B1 (en) | 2009-09-17 | 2010-01-27 | Information propagation path identification device, information propagation path identification method, information propagation path identification program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010103670A Division JP2011086278A (en) | 2009-09-17 | 2010-04-28 | Device, method and program for specifying information propagation route |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4550939B1 true JP4550939B1 (en) | 2010-09-22 |
JP2011086273A JP2011086273A (en) | 2011-04-28 |
Family
ID=42978720
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010015400A Expired - Fee Related JP4550939B1 (en) | 2009-09-17 | 2010-01-27 | Information propagation path identification device, information propagation path identification method, information propagation path identification program |
JP2010103670A Pending JP2011086278A (en) | 2009-09-17 | 2010-04-28 | Device, method and program for specifying information propagation route |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010103670A Pending JP2011086278A (en) | 2009-09-17 | 2010-04-28 | Device, method and program for specifying information propagation route |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP4550939B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666428A (en) * | 2020-06-04 | 2020-09-15 | 杭州凡闻科技有限公司 | Network media propagation evaluation method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125588B (en) * | 2018-10-30 | 2023-04-07 | 北京国双科技有限公司 | Method and device for drawing and evaluating propagation effect graph, storage medium and processor |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004034282A1 (en) * | 2002-10-10 | 2004-04-22 | Fujitsu Limited | Content reuse management device and content reuse support device |
JP2005122295A (en) * | 2003-10-14 | 2005-05-12 | Fujitsu Ltd | Relationship figure creation program, relationship figure creation method, and relationship figure generation device |
JP2005202766A (en) * | 2004-01-16 | 2005-07-28 | National Institute Of Information & Communication Technology | System for simultaneous presentation of similar content |
JP2007267173A (en) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | Content reproducing apparatus and method |
JP2008129692A (en) * | 2006-11-17 | 2008-06-05 | Nec Corp | Answer support device, answer support system, answer support method and answer support program |
JP2008293351A (en) * | 2007-05-25 | 2008-12-04 | Nec Corp | Information propagation situation investigation system, method, device, and program |
JP2009199325A (en) * | 2008-02-21 | 2009-09-03 | Toshiba Corp | Apparatus and method for generating display data |
JP2009211211A (en) * | 2008-02-29 | 2009-09-17 | Internatl Business Mach Corp <Ibm> | Analysis system, information processor, activity analysis method and program |
JP2009211281A (en) * | 2008-03-03 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | Propagation structure extraction device, method and program, and computer-readable recording medium |
-
2010
- 2010-01-27 JP JP2010015400A patent/JP4550939B1/en not_active Expired - Fee Related
- 2010-04-28 JP JP2010103670A patent/JP2011086278A/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004034282A1 (en) * | 2002-10-10 | 2004-04-22 | Fujitsu Limited | Content reuse management device and content reuse support device |
JP2005122295A (en) * | 2003-10-14 | 2005-05-12 | Fujitsu Ltd | Relationship figure creation program, relationship figure creation method, and relationship figure generation device |
JP2005202766A (en) * | 2004-01-16 | 2005-07-28 | National Institute Of Information & Communication Technology | System for simultaneous presentation of similar content |
JP2007267173A (en) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | Content reproducing apparatus and method |
JP2008129692A (en) * | 2006-11-17 | 2008-06-05 | Nec Corp | Answer support device, answer support system, answer support method and answer support program |
JP2008293351A (en) * | 2007-05-25 | 2008-12-04 | Nec Corp | Information propagation situation investigation system, method, device, and program |
JP2009199325A (en) * | 2008-02-21 | 2009-09-03 | Toshiba Corp | Apparatus and method for generating display data |
JP2009211211A (en) * | 2008-02-29 | 2009-09-17 | Internatl Business Mach Corp <Ibm> | Analysis system, information processor, activity analysis method and program |
JP2009211281A (en) * | 2008-03-03 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | Propagation structure extraction device, method and program, and computer-readable recording medium |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666428A (en) * | 2020-06-04 | 2020-09-15 | 杭州凡闻科技有限公司 | Network media propagation evaluation method |
CN111666428B (en) * | 2020-06-04 | 2023-08-08 | 杭州凡闻科技有限公司 | Network media propagation force evaluation method |
Also Published As
Publication number | Publication date |
---|---|
JP2011086273A (en) | 2011-04-28 |
JP2011086278A (en) | 2011-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906419B2 (en) | Information providing equipment, information providing method, and program | |
KR101335400B1 (en) | Identifying comments to show in connection with a document | |
US20150067476A1 (en) | Title and body extraction from web page | |
Tessem et al. | Word cloud visualisation of locative information | |
US8099430B2 (en) | Computer method and apparatus of information management and navigation | |
US20160055845A1 (en) | Generating training data for disambiguation | |
JP2012515382A (en) | Visualize the structure of the site and enable site navigation for search results or linked pages | |
JP5989170B2 (en) | Search result ranking apparatus and method using reliability of representative | |
JP2011022705A (en) | Trail management method, system, and program | |
KR101541306B1 (en) | Computer enabled method of important keyword extraction, server performing the same and storage media storing the same | |
JPWO2019224891A1 (en) | Classification device, classification method, generation method, classification program and generation program | |
CN107526718A (en) | Method and apparatus for generating text | |
CN103942211B (en) | A kind of recognition methods of text page and device | |
JP2008165284A (en) | System and method for monitoring rumor and program | |
JP2007193697A (en) | Information collection apparatus, information collection method and program | |
KR102643311B1 (en) | Marketer and advertisement request information management system | |
JP5040718B2 (en) | Spam event detection apparatus, method, and program | |
JP4550939B1 (en) | Information propagation path identification device, information propagation path identification method, information propagation path identification program | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
US9705972B2 (en) | Managing a set of data | |
Cao et al. | Extraction of informative blocks from web pages | |
JP2016045552A (en) | Feature extraction program, feature extraction method, and feature extraction device | |
KR20160032599A (en) | The method and apparatus for detecting concealment of social issue | |
US20120047128A1 (en) | Open class noun classification | |
Li et al. | Extraction of informative blocks from Web pages based on VIPS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100706 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100708 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |