JP4550939B1 - Information propagation path identification device, information propagation path identification method, information propagation path identification program - Google Patents

Information propagation path identification device, information propagation path identification method, information propagation path identification program Download PDF

Info

Publication number
JP4550939B1
JP4550939B1 JP2010015400A JP2010015400A JP4550939B1 JP 4550939 B1 JP4550939 B1 JP 4550939B1 JP 2010015400 A JP2010015400 A JP 2010015400A JP 2010015400 A JP2010015400 A JP 2010015400A JP 4550939 B1 JP4550939 B1 JP 4550939B1
Authority
JP
Japan
Prior art keywords
web page
information
web
propagation path
web pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010015400A
Other languages
Japanese (ja)
Other versions
JP2011086273A (en
Inventor
昌平 阿部
裕介 犬塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2010015400A priority Critical patent/JP4550939B1/en
Application granted granted Critical
Publication of JP4550939B1 publication Critical patent/JP4550939B1/en
Publication of JP2011086273A publication Critical patent/JP2011086273A/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】従来、ウェブにおける情報の伝播経路を精度よく特定する技術は存在しない。
【解決手段】情報伝播経路特定装置100は、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部2と、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部5とを有する。
【選択図】図2
Conventionally, there is no technique for accurately identifying a propagation path of information on the web.
An information propagation path identifying device detects a common character string between each of a plurality of evaluation target web pages and each of the other evaluation target web pages, and configures the detected character string. The number of characters is specified as a relevance level label, the common character string number specifying unit 2 that specifies the maximum relevance level label as an evaluation label, and each web page has a character string in common with it, and more When there are multiple web pages with relatively earlier creation times, the process of identifying one web page pair having the largest evaluation label from among the plurality of web page pairs is performed for all web page pairs. And an information propagation path specifying unit 5 for specifying the information propagation path on the web.
[Selection] Figure 2

Description

本発明は、ウェブにおける情報の伝播経路を特定する技術に関する。   The present invention relates to a technique for specifying a propagation path of information on a web.

近年、企業は、ウェブページを用いて情報を発信しており、個人も、ウェブページ、ブログ、及びSNS(Social Network Service)を用いて情報を発信している。各情報は、他の情報の影響を受けて発信されることがある。例えば、ある企業が新製品を発売することをウェブページにおいて発表すると、そのウェブページを見たある個人がその情報とともにその新製品についての意見をブログにより公表することがある。このように、ある情報がウェブにおいて伝播することがある。   In recent years, companies have transmitted information using web pages, and individuals have also transmitted information using web pages, blogs, and SNS (Social Network Service). Each information may be transmitted under the influence of other information. For example, when a company announces on the web page that a new product will be released, an individual who views the web page may publish an opinion about the new product on the blog along with the information. In this way, certain information may propagate on the web.

特開2008−130044号公報JP 2008-130044 A

ところで、ウェブページにおいて公表された情報の伝播を不快に感じることがある。例えば、不祥事が発生していないのにもかかわらず、企業を中傷する情報が多数のウェブページに広がると、多数の人がその情報を知ってしまい、その企業の経済活動が阻害される可能性があるからである。そのような場合、その企業に属する人は、経済活動が阻害されることを防止するために、その情報の伝播経路を知りたいと考える。   By the way, propagation of information published on a web page may be uncomfortable. For example, if there is no scandal and information that slanders a company spreads over many web pages, many people may know the information and hinder the economic activity of the company Because there is. In such a case, a person belonging to the company wants to know the propagation path of the information in order to prevent economic activity from being hindered.

また、企業は、上述したように、新製品を発売することをウェブページにおいて発表することがあり、広告の効果を調べる目的で又はマーケティングの一環として、ウェブにおけるその情報の広がり、つまりその情報の伝播経路を知りたいと考える。   In addition, as mentioned above, a company may announce on a web page that a new product will be released, and for the purpose of examining the effectiveness of advertising or as part of marketing, the spread of that information on the web, that is, I want to know the propagation path.

しかしながら、現在、ウェブにおける情報の伝播経路を精度よく特定する技術は存在しない。   However, there is currently no technology for accurately specifying the propagation path of information on the web.

本発明は、ウェブにおける情報の伝播経路を精度よく特定する技術を提供することを目的とする。   An object of the present invention is to provide a technique for accurately identifying a propagation path of information on the web.

上記課題を解決し上記目的を達成するために、本発明の情報伝播経路特定装置は、ウェブにおける情報の伝播経路を特定する装置であって、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、を備える。   In order to solve the above problems and achieve the above object, an information propagation path identification device of the present invention is an apparatus for identifying a propagation path of information on a web, and includes information constituting each of a plurality of web pages to be evaluated. Based on the acquisition unit to be acquired and the information acquired by the acquisition unit, for each of the plurality of evaluation target web pages, a common character string is detected and detected. Based on the information acquired by the acquisition unit, a number of common character string specifying unit that specifies the number of characters constituting the character string as a relevance level label, and the maximum relevance level label as an evaluation label. Corresponding to a creation time detection unit for detecting the creation time of each web page to be evaluated and each evaluation label specified by the common character string number specifying unit About web page pairs, after detecting the order of creation times of web pages constituting each web page pair based on the creation time detected by the creation time detection unit, each web page is common to that. If there are multiple web pages that have a character string and the creation time is relatively earlier than that, specify one web page pair with the largest evaluation label from among the multiple web page pairs. And an information propagation path identifying unit that performs the process of identifying the web page pair as related to all web page pairs and thereby identifies the information propagation path on the web.

また、本発明の情報伝播経路特定装置は、ウェブにおける情報の伝播経路を特定する装置であって、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、(1)前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、(2)前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、(3)更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、を備える。   The information propagation path identifying device of the present invention is an apparatus for identifying a propagation path of information on the web, and obtains information constituting each of a plurality of evaluation target web pages, and obtained by the obtaining unit. Based on the obtained information, a common character string is detected between each of the plurality of evaluation target web pages and each of the other evaluation target web pages, and the number of characters constituting the detected character string is related. Acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of the plurality of evaluation target web pages based on the information acquired by the acquisition unit, the common character string number specification unit specified as the degree label A link tag detection unit for detecting a link tag from the recorded information, and (1) based on the creation time detected by the creation time detection unit, Detects the relationship between the creation times of the web pages constituting the web page pair, identifies the web page pair having the relevance label equal to or higher than a predetermined threshold, and identifies the web page pair as related to each other A first process and a second process for identifying a web page pair having each of a predetermined number of relevance labels from the largest value and identifying the web page pairs as related to each other (2) A process of specifying a link source page and a link destination page for all link tags detected by the link tag detection unit and specifying a web page pair related to each other. (3) Further, a pair of web pages that are related to each other using the relevance level label and a relationship that is specified using the link tag. Based in that on the web page pair and includes information propagation path identification unit for identifying the propagation path information in the web, the.

また、本発明の情報伝播経路特定方法は、ウェブにおける情報の伝播経路を特定する方法であって、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、特定した各評価ラベルに対応する各ウェブページ対について、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定するステップと、を含む。   Further, the information propagation path specifying method of the present invention is a method for specifying a propagation path of information on the web, the step of acquiring information constituting each of a plurality of evaluation target web pages, and based on the acquired information , For each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the number of characters constituting the detected character string is specified as a relevance label, The step of identifying the maximum relevance label as an evaluation label, the step of detecting the creation time of each of the plurality of web pages to be evaluated based on the acquired information, and the pair of web pages corresponding to each identified evaluation label Based on the detected creation time, detect the context of the creation time of the web pages that make up each web page pair In addition, when each web page has a common character string and there are a plurality of web pages whose creation times are relatively earlier than the web page, the largest web page pair is selected from the web page pairs. The process of identifying one web page pair with an evaluation label and identifying it as an associated web page pair is performed for all web page pairs, thereby identifying the propagation path of information on the web. Steps.

また、本発明の情報伝播経路特定方法は、ウェブにおける情報の伝播経路を特定する方法であって、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、取得した情報からリンクタグを検出するステップと、(1)検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、(2)検出した全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、(3)更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定するステップと、を含む。   Further, the information propagation path specifying method of the present invention is a method for specifying a propagation path of information on the web, the step of acquiring information constituting each of a plurality of evaluation target web pages, and based on the acquired information Detecting a common character string with respect to each of the plurality of evaluation target web pages and specifying the number of characters constituting the detected character string as a relevance level label. And, based on the acquired information, a step of detecting the creation time of each of the plurality of evaluation target web pages, a step of detecting a link tag from the acquired information, and (1) based on the detected creation time, A web having a relevance label equal to or higher than a predetermined threshold value by detecting the relationship between the creation times of web pages constituting the web page pair. A first process for identifying a web page pair and identifying it as a web page pair associated with each other, and identifying a web page pair having each of a predetermined number of relevance labels in order from the highest value. And performing at least one of the second processing for identifying the web page pair as related to each other, and (2) identifying the link source page and the link destination page for all the detected link tags. (3) Furthermore, the web page pairs identified using the relevance level label and the web page pairs identified using the link tag are mutually identified. Identifying a propagation path of information on the web based on associated web page pairs.

更に、本発明の情報伝播経路特定装置の各構成要件の機能をコンピュータに実現させるためのプログラムも、本発明の一態様である。   Furthermore, a program for causing a computer to realize the function of each component of the information propagation path identifying device of the present invention is also an aspect of the present invention.

本発明は、ウェブにおける情報の伝播経路を精度よく特定する技術を提供することができる。   The present invention can provide a technique for accurately specifying a propagation path of information on the web.

本実施の形態のウェブページ評価システムの構成図である。It is a block diagram of the web page evaluation system of this Embodiment. 本実施の形態の情報伝播経路特定装置の構成図である。It is a block diagram of the information propagation path | route identification apparatus of this Embodiment. 本実施の形態の情報伝播経路特定装置の動作の各ステップを示すフローチャートである。It is a flowchart which shows each step of operation | movement of the information propagation path | route identification apparatus of this Embodiment. 本実施の形態の情報伝播経路特定装置の共通文字列数特定部の動作を説明するための図である。It is a figure for demonstrating operation | movement of the common character string number specific | specification part of the information propagation path | route identification apparatus of this Embodiment. 本実施の形態の情報伝播経路特定装置の情報伝播経路特定部が行う相互に関連しているウェブページを特定する動作を説明するための図である。It is a figure for demonstrating the operation | movement which specifies the web page relevant to each other which the information propagation path | route specific | specification part of the information propagation path | route identification apparatus of this Embodiment performs. 本実施の形態の情報伝播経路特定装置の情報伝播経路図作成部によって作成される情報伝播経路図の具体例を説明するための図である。It is a figure for demonstrating the specific example of the information propagation path | route figure produced by the information propagation path | route figure creation part of the information propagation path | route identification apparatus of this Embodiment. 本実施の形態の情報伝播経路特定部が関連度ラベルを用いる処理の結果のみに基づいて特定した情報の伝播経路を示す図である。It is a figure which shows the propagation path of the information specified based only on the result of the process which the information propagation path | route specific | specification part of this Embodiment uses a relevance level label. 本実施の形態の情報伝播経路特定部がリンクタグを用いる処理の結果のみに基づいて特定した情報の伝播経路を示す図である。It is a figure which shows the propagation path of the information specified based only on the result of the process which the information propagation path | route specific | specification part of this Embodiment uses a link tag. 本実施の形態の情報伝播経路特定部が関連度ラベルを用いる処理の結果と、リンクタグを用いる処理の結果との和集合に基づいて特定した情報の伝播経路を示す図である。It is a figure which shows the propagation path of the information specified by the information propagation path | route specific | specification part of this Embodiment based on the union of the result of the process which uses a relevance level label, and the result of the process which uses a link tag. 2個のウェブページのうちで先に作成されたウェブページを特定する方法を説明するための図である。It is a figure for demonstrating the method of specifying the web page produced previously among two web pages.

以下に、本発明を実施するための形態を図面を参照して説明する。   EMBODIMENT OF THE INVENTION Below, the form for implementing this invention is demonstrated with reference to drawings.

先ず、本実施の形態のウェブページ評価システムの構成を図1を用いて説明する。図1は、本実施の形態のウェブページ評価システムの構成図である。本実施の形態のウェブページ評価システムは、複数のウェブページ相互の関係を評価するためのシステムであって、図1に示すように、情報伝播経路特定装置100と、クライアント端末装置200と、検索装置300と、通信ネットワーク400とを有する。   First, the configuration of the web page evaluation system of this embodiment will be described with reference to FIG. FIG. 1 is a configuration diagram of a web page evaluation system according to the present embodiment. The web page evaluation system according to the present embodiment is a system for evaluating the relationship between a plurality of web pages. As shown in FIG. 1, the information propagation path identifying device 100, the client terminal device 200, and the search A device 300 and a communication network 400 are included.

情報伝播経路特定装置100は、通信ネットワーク400において開示されている複数のウェブページのうちの相互に関連するウェブページを特定し、それによりウェブにおける情報の伝播経路を特定する装置である。情報伝播経路特定装置100は、複数の構成部によって構成されている。情報伝播経路特定装置100の構成の詳細は図2を用いて後述する。   The information propagation path identifying apparatus 100 is an apparatus that identifies mutually related web pages among a plurality of web pages disclosed in the communication network 400, and thereby identifies information propagation paths on the web. The information propagation path specifying device 100 is configured by a plurality of components. Details of the configuration of the information propagation path identifying device 100 will be described later with reference to FIG.

クライアント端末装置200は、ユーザによって使用される装置であって、検索キーワードと、検索キーワードに関連するウェブページを検索させる指示(以下、「検索指示」と記載する。)とをユーザから受け付ける。クライアント端末装置200は、受け付けた検索キーワード及び検索指示を検索装置300に送信する。また、クライアント端末装置200は、情報伝播経路特定装置100からそれによって得られた結果を受信する。図1に示すように、クライアント端末装置200には、検索キーワード及び検索指示をクライアント端末装置200に入力するための入力装置210と、情報伝播経路特定装置100によって得られた結果を表示するための表示装置220とが接続されている。入力装置210は、例えばキーボード及びマウスである。   The client terminal device 200 is a device used by a user, and receives a search keyword and an instruction for searching a web page related to the search keyword (hereinafter referred to as “search instruction”) from the user. The client terminal device 200 transmits the received search keyword and search instruction to the search device 300. Further, the client terminal device 200 receives the result obtained from the information propagation path identifying device 100. As shown in FIG. 1, the client terminal device 200 displays an input device 210 for inputting a search keyword and a search instruction to the client terminal device 200 and a result obtained by the information propagation path specifying device 100. A display device 220 is connected. The input device 210 is, for example, a keyboard and a mouse.

検索装置300は、通信ネットワーク400において開示されているウェブページのなかから、クライアント端末装置200から受信した検索キーワードに関連するウェブページを検索する装置である。検索装置300によって検索されたウェブページは、情報伝播経路特定装置100によって評価されるウェブページであるので、以下では、検索装置300によって検索されたウェブページを「評価対象のウェブページ」と記載する。通信ネットワーク400は、データを通信するためのネットワークであって、具体的にはインターネットである。情報伝播経路特定装置100、クライアント端末装置200、及び検索装置300は、通信ネットワーク400に接続されており、相互に通信可能である。   The search device 300 is a device that searches a web page related to a search keyword received from the client terminal device 200 from web pages disclosed in the communication network 400. Since the web page searched by the search device 300 is a web page evaluated by the information propagation path specifying device 100, the web page searched by the search device 300 is hereinafter referred to as an “evaluation target web page”. . The communication network 400 is a network for communicating data, and specifically is the Internet. The information propagation path identifying device 100, the client terminal device 200, and the search device 300 are connected to the communication network 400 and can communicate with each other.

次に、情報伝播経路特定装置100の構成を図2を用いて説明する。図2は、情報伝播経路特定装置100の構成図である。情報伝播経路特定装置100は、上述したように、通信ネットワーク400において開示されている複数のウェブページに含まれる情報の伝播経路を特定する装置であって、通信部1と、共通文字列数特定部2と、作成時刻検出部3と、リンクタグ検出部4と、情報伝播経路特定部5と、情報伝播経路図作成部6とを有する。   Next, the configuration of the information propagation path identifying device 100 will be described with reference to FIG. FIG. 2 is a configuration diagram of the information propagation path identification device 100. As described above, the information propagation path specifying device 100 is a device for specifying the propagation paths of information included in a plurality of web pages disclosed in the communication network 400, and is used for specifying the communication unit 1 and the number of common character strings. Unit 2, creation time detection unit 3, link tag detection unit 4, information propagation path identification unit 5, and information propagation path diagram creation unit 6.

通信部1は、検索装置300から、検索装置300によって検索された複数の評価対象のウェブページそれぞれを構成する情報を受信する。通信部1は、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部として機能する。評価対象のウェブページを構成する情報は、例えばマークアップラングエッジにより記載された情報である。また、通信部1は、情報伝播経路図作成部6によって作成される情報伝播経路図を、通信ネットワーク400を介してクライアント端末装置200に出力する。   The communication unit 1 receives information constituting each of a plurality of evaluation target web pages searched by the search device 300 from the search device 300. The communication unit 1 functions as an acquisition unit that acquires information configuring each of a plurality of evaluation target web pages. The information constituting the web page to be evaluated is information described by, for example, a markup rung edge. Further, the communication unit 1 outputs the information propagation route diagram created by the information propagation route diagram creation unit 6 to the client terminal device 200 via the communication network 400.

共通文字列数特定部2は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出した上で、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定する。また、共通文字列数特定部2は、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する。   Based on the information received by the communication unit 1, the common character string number specifying unit 2 detects a common character string between each of the plurality of evaluation target web pages and each of the other evaluation target web pages. After that, when the number of characters constituting the detected character string is equal to or greater than a predetermined threshold, the number is specified as the relevance level label. Moreover, the common character string number specific | specification part 2 specifies the largest relevance label as an evaluation label about each web page pair.

具体的には、共通文字列数特定部2は、LCS(Longest common subsequence problem)における解法を用い、2個の評価対象のウェブページの組それぞれについて、共通する文字列を検出した上で、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定する。そして、共通文字列数特定部2は、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する。関連度ラベルを特定する際の閾値は、例えば実験により決定される。LCSにおける代表的な解法は、Dynamic Programming(動的計画法)や、Suffix Treeである。   Specifically, the common character string number identification unit 2 detects a common character string for each set of two evaluation target web pages using a solution in LCS (Longest common subsequence problem). When the number of characters constituting the character string is equal to or greater than a predetermined threshold, the number is specified as the relevance level label. And the common character string number specific | specification part 2 specifies the largest relevance label as an evaluation label about each web page pair. The threshold for specifying the relevance level label is determined by experiment, for example. Typical solutions in LCS are Dynamic Programming (Suffix Tree) and Suffix Tree.

作成時刻検出部3は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する。「作成」には、特定の記事が記載された新規のウェブページが公開された場合のみならず、既に公開されているウェブページの中で上記特定の記事が追加された場合、つまりページ更新が行われた場合も含まれる。後者の場合の「作成時刻」は、ページ更新が行われた時刻ではなく、ウェブページが最初に公開された時刻である。   The creation time detection unit 3 detects the creation time of each of a plurality of evaluation target web pages based on the information received by the communication unit 1. “Create” includes not only when a new web page with a specific article is published, but also when the above-mentioned specific article is added in a web page that has already been published, that is, the page is updated. Also included when done. The “creation time” in the latter case is not the time when the page was updated, but the time when the web page was first published.

リンクタグ検出部4は、通信部1によって受信された情報の中からリンクタグを検出し、検出した各リンクタグについて、リンク元ページ情報とリンク先ページ情報とを特定する。なお、リンク元ページは作成時刻が相対的に後のウェブページ、リンク先ページは作成時刻が相対的に前のウェブページとみなす(図5参照)。   The link tag detection unit 4 detects a link tag from the information received by the communication unit 1 and specifies link source page information and link destination page information for each detected link tag. The link source page is regarded as a web page whose creation time is relatively later, and the link destination page is regarded as a web page whose creation time is relatively earlier (see FIG. 5).

情報伝播経路特定部5は、通信ネットワーク400において開示されている複数のウェブページのうち、相互に関連するウェブページの組を特定し、それによりウェブにおける情報の伝播経路を特定する。情報伝播経路特定部5の具体的な処理(機能)は次の通りである。   The information propagation path identifying unit 5 identifies a set of web pages related to each other from among a plurality of web pages disclosed in the communication network 400, and thereby identifies a propagation path of information on the web. The specific processing (function) of the information propagation path specifying unit 5 is as follows.

情報伝播経路特定部5の処理は二通り存在する。   There are two types of processing of the information propagation path specifying unit 5.

第一に、情報伝播経路特定部5は、共通文字列数特定部2及び作成時刻検出部3での処理結果に基づいてウェブページ同士の引用関係を検出し、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する。具体的には、情報伝播経路特定部5は、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出する。   First, the information propagation path specifying unit 5 detects the citation relationship between the web pages based on the processing results in the common character string number specifying unit 2 and the creation time detecting unit 3, and from which web page to which web page Specify whether the information has been propagated (similarity of content and time context). Specifically, the information propagation path specifying unit 5 determines the web page pair corresponding to each evaluation label specified by the common character string number specifying unit 2 based on the creation time detected by the creation time detection unit 3. Then, the order of the creation times of the web pages constituting each web page pair is detected.

次に、情報伝播経路特定部5は、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合(例えば、複数のニュースページを引用して一つのブログページが書かれたようにみえる場合)、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出し、当該ウェブページ対のうちの作成時刻が相対的に前のウェブページを「引用元ページ」、作成時刻が相対的に後のウェブページを「引用先ページ」として抽出する(図5参照)。情報伝播経路特定部5は、この処理を全てのウェブページ対について行うことにより、一つの引用先ページに対して一つの引用元ページを特定する。   Next, the information propagation path specifying unit 5 has a character string that is common to the same web page (that is, has an evaluation label) and has a relatively earlier creation time. If there are multiple pages (for example, it looks like a blog page was written by quoting multiple news pages), select the web page pair with the largest rating label from the multiple web page pairs. Only one is extracted, and a web page with a relatively earlier creation time is extracted as a “citation page” and a web page with a later creation time is extracted as a “citation page”. (See FIG. 5). The information propagation path specifying unit 5 specifies one citation source page for one citation destination page by performing this process for all web page pairs.

なお、情報伝播経路特定部5は、抽出した各ウェブページ対について、その評価ラベルが基準値以上であることをチェックし、基準値未満であれば当該ウェブページ対の抽出をキャンセルすることが望ましい。基準値が小さすぎると、定型的な文字列(例えば「野村総合研究所」など)だけが共通していて、実質的な内容は類似していないようなウェブページ対を構成する2個のウェブページを相互に関連しているものと判断してしまう一方、基準値が大きすぎると、長い共通文字列を含む2個のウェブページですら相互に類似していないものと判断してしまうため、基準値は実験などを通じて求められる最適値が設定される。   In addition, it is desirable that the information propagation path specifying unit 5 checks that for each extracted web page pair, the evaluation label is equal to or higher than the reference value, and cancels the extraction of the web page pair if it is less than the reference value. . If the reference value is too small, the two webs that make up a pair of web pages that share only a standard character string (for example, “Nomura Research Institute”) and whose actual contents are not similar. While it ’s determined that the pages are related to each other, if the criterion is too high, even two web pages with long common strings will be considered not similar to each other. The reference value is set to an optimum value obtained through experiments.

第二に、情報伝播経路特定部5は、リンクタグ検出部4での処理結果に基づいて、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する。具体的には、情報伝播経路特定部5は、リンクタグ検出部4によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定する。なお、ここで「リンク元ページ」はリンクタグが検出されたページであるため、引用関係でいえば「引用先ページ」に該当し、「リンク先ページ」は「引用元ページ」に該当する(図5参照)。   Secondly, the information propagation path specifying unit 5 determines from which web page to which web page the information has been propagated based on the processing result in the link tag detection unit 4 (similarity of contents and time context). Identify. Specifically, the information propagation path specifying unit 5 specifies the link source page and the link destination page for all link tags detected by the link tag detection unit 4. In addition, since “link source page” is a page where the link tag is detected, the citation relationship corresponds to “citation page”, and “link page” corresponds to “citation page” ( (See FIG. 5).

なお、上記の情報伝播経路特定部5の二通りの処理は、いずれか一方を省略することが可能であり、情報伝播経路特定部5が二通りの処理を行った場合はそれぞれの処理結果の和集合を情報伝播経路特定部5の処理結果とする。   Note that either one of the two processes of the information propagation path specifying unit 5 can be omitted, and when the information propagation path specifying unit 5 performs two processes, The union is set as the processing result of the information propagation path specifying unit 5.

情報伝播経路図作成部6は、情報伝播経路特定部5によって関連すると特定された各ウェブページ対を構成するウェブページを、作成された順に仮想的に並べて仮想的に線で結び、ウェブにおける情報の伝播を表現する情報伝播経路図を作成する。   The information propagation path diagram creating unit 6 virtually arranges the web pages constituting each web page pair identified as related by the information propagation path identifying unit 5 in the order in which they are created, and virtually connects them with a line. Create an information propagation path diagram that represents the propagation of

次に、本実施の形態のウェブページ評価システムの動作を説明する。そのうちの情報伝播経路特定装置100の動作は、図3を用いて説明する。図3は、情報伝播経路特定装置100の動作の各ステップを示すフローチャートである。   Next, the operation of the web page evaluation system of this embodiment will be described. The operation of the information propagation path identifying device 100 will be described with reference to FIG. FIG. 3 is a flowchart showing each step of the operation of the information propagation path identifying device 100.

先ず、ユーザは、検索キーワードと、その検索キーワードに関連するウェブページを検索させる指示(検索指示)とを、入力装置210を用いてクライアント端末装置200に入力する。クライアント端末装置200は、入力された検索キーワード及び検索指示を受け付け、それらを通信ネットワーク400を介して検索装置300に送信する。   First, the user inputs a search keyword and an instruction (search instruction) for searching a web page related to the search keyword to the client terminal device 200 using the input device 210. The client terminal device 200 receives the input search keyword and search instruction, and transmits them to the search device 300 via the communication network 400.

検索装置300は、クライアント端末装置200からの検索キーワード及び検索指示を受信し、通信ネットワーク400において開示されているウェブページのなかから、受信した検索キーワードに関連するウェブページ(評価対象のウェブページ)を検索する。説明の便宜上、検索装置300は複数の評価対象のウェブページを検索したと仮定する。検索装置300は、検索した複数の評価対象のウェブページそれぞれを構成する情報を、通信ネットワーク400を介して情報伝播経路特定装置100に送信する。   The search device 300 receives the search keyword and the search instruction from the client terminal device 200, and from among the web pages disclosed in the communication network 400, the web page (evaluation target web page) related to the received search keyword. Search for. For convenience of explanation, it is assumed that the search device 300 has searched a plurality of web pages to be evaluated. The search device 300 transmits information constituting each of a plurality of searched web pages to be evaluated to the information propagation path specifying device 100 via the communication network 400.

情報伝播経路特定装置100では、通信部1が、検索装置300によって検索された複数の評価対象のウェブページそれぞれを構成する情報を受信する(S1)。共通文字列数特定部2は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する(S2)。   In the information propagation path specifying device 100, the communication unit 1 receives information constituting each of a plurality of evaluation target web pages searched by the search device 300 (S1). Based on the information received by the communication unit 1, the common character string number specifying unit 2 detects a common character string between each of the plurality of evaluation target web pages and each of the other evaluation target web pages. If the number of characters constituting the detected character string is equal to or greater than a predetermined threshold, the number is specified as a relevance level label, and the maximum relevance level label is specified as an evaluation label (S2).

共通文字列数特定部2の動作を図4を用いて具体的に説明する。図4は、共通文字列数特定部2の動作を説明するための図である。図4(A)は、評価対象のウェブページAを示しており、図4(B)は、評価対象のウェブページBを示している。図4(A)に示すように、評価対象のウェブページAには、文字列「mnlopabcdefxyz」が記載されており、図4(B)に示すように、評価対象のウェブページBには、文字列「ttxabxabcdexxx」が記載されている。   The operation of the common character string number specifying unit 2 will be specifically described with reference to FIG. FIG. 4 is a diagram for explaining the operation of the common character string number specifying unit 2. 4A shows a web page A to be evaluated, and FIG. 4B shows a web page B to be evaluated. As shown in FIG. 4 (A), the evaluation target web page A contains a character string “mnlobacdeffxyz”, and as shown in FIG. 4 (B), the evaluation target web page B contains characters. The column “ttxabxabcdexxx” is described.

図4(A)と図4(B)とを比較すると明らかなように、評価対象のウェブページAと評価対象のウェブページBとにおいて、共通する文字列は、文字列「x」と、文字列「ab」と、文字列「abcde」とである。文字列「x」を構成する文字の数は「1」であり、文字列「ab」を構成する文字の数は「2」であって、文字列「abcde」を構成する文字の数は「5」である。この場合、共通文字列数特定部2は、それらの3個の文字列それぞれの関連度ラベルを「1」、「2」、「5」と特定し、最大の関連度ラベル「5」を評価ラベルとして特定する(S2)。   As is clear from a comparison between FIG. 4A and FIG. 4B, the character string “x” that is common to the evaluation target web page A and the evaluation target web page B is the character string “x”. The string “ab” and the character string “abcde”. The number of characters constituting the character string “x” is “1”, the number of characters constituting the character string “ab” is “2”, and the number of characters constituting the character string “abcde” is “ 5 ". In this case, the common character string number identification unit 2 identifies the relevance labels of the three character strings as “1”, “2”, and “5”, and evaluates the maximum relevance label “5”. The label is specified (S2).

このようにして、共通文字列数特定部2は、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定し、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する(S2)。   In this manner, the common character string number specifying unit 2 detects a common character string between each of the plurality of evaluation target web pages and each of the other evaluation target web pages, and detects the detected character string. When the number of characters constituting the number is equal to or greater than a predetermined threshold, the number is specified as a relevance label, and the maximum relevance label is specified as an evaluation label for each web page pair (S2).

次に、作成時刻検出部3は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する(S3)。   Next, the creation time detection unit 3 detects the creation time of each of a plurality of web pages to be evaluated based on the information received by the communication unit 1 (S3).

次に、リンクタグ検出部4は、通信部1によって受信された情報の中からリンクタグを検出し、検出した各リンクタグについて、リンク元ページ情報とリンク先ページ情報とを特定する(S4)。   Next, the link tag detection unit 4 detects a link tag from the information received by the communication unit 1, and specifies link source page information and link destination page information for each detected link tag (S4). .

そして、情報伝播経路特定部5は、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する(S5)。つまり、情報伝播経路特定部5は、ステップS4までの処理結果に基づいて、ウェブにおける情報の伝播経路を特定する(S5)。情報伝播経路特定部5の具体的な処理内容は前述したように二通り存在する。   Then, the information propagation path specifying unit 5 specifies from which web page to which web page the information has been propagated (similarity of contents and time context) (S5). That is, the information propagation route specifying unit 5 specifies the information propagation route on the web based on the processing results up to step S4 (S5). There are two specific processing contents of the information propagation path specifying unit 5 as described above.

一つは、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出する。次に、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合(例えば、複数のニュースページを引用して一つのブログページが書かれたようにみえる場合)、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出し、当該ウェブページ対のうちの作成時刻が相対的に前のウェブページを「引用元ページ」、作成時刻が相対的に後のウェブページを「引用先ページ」として抽出する(図5参照)。この処理を全てのウェブページ対について行うことにより、一つの引用先ページに対して一つの引用元ページを特定する。また、抽出した各ウェブページ対について、その評価ラベルが基準値以上であることをチェックし、基準値未満であれば当該ウェブページ対の抽出をキャンセルする。   One is the web that configures each web page pair based on the creation time detected by the creation time detection unit 3 for each web page pair corresponding to each evaluation label specified by the common character string number specification unit 2. Detect the order of creation time between pages. Next, when there are a plurality of web pages having the same character string (that is, having an evaluation label) and having a relatively earlier creation time than the same web page (for example, , If you cite multiple news pages and it appears that a single blog page was written), extract only one web page pair with the largest rating label from the multiple web page pairs, Of the page pair, a web page with a relatively earlier creation time is extracted as a “citation page”, and a web page with a later creation time is extracted as a “citation page” (see FIG. 5). By performing this process for all web page pairs, one citation source page is specified for one citation destination page. Further, for each extracted web page pair, it is checked that the evaluation label is equal to or higher than the reference value, and if it is less than the reference value, the extraction of the web page pair is canceled.

もう一つは、リンクタグ検出部4によって特定されたリンク元ページ情報とリンク先ページ情報とに基づいて、各リンクタグに係る各ウェブページ対について、それを構成する2個のウェブページのいずれが先に作成されたウェブページであるのかを特定する。そして、情報伝播経路特定部5は、これら二通りの処理を経て抽出されたウェブページ対の和集合により、ウェブにおける情報の伝播経路を特定する。   The other is based on the link source page information and the link destination page information specified by the link tag detection unit 4, and for each web page pair related to each link tag, Determine if is a web page created earlier. And the information propagation path | route specific | specification part 5 specifies the propagation path | route of the information in a web by the union of the web page pair extracted through these two kinds of processes.

情報伝播経路特定部5の処理内容を図5を用いて具体的に説明する。図5は、情報伝播経路特定部5の処理内容を説明するための図である。図5の例では、ウェブページD,E,F,G(例えばニュースページ)の作成時刻は、ウェブページC(例えばブログページ)の作成時刻よりも先である。また、ウェブページCは、ウェブページGへのリンクタグを有している。この場合、ウェブページCがリンク元のウェブページであり、ウェブページGがリンク先のウェブページである。   The processing contents of the information propagation path specifying unit 5 will be specifically described with reference to FIG. FIG. 5 is a diagram for explaining the processing contents of the information propagation path specifying unit 5. In the example of FIG. 5, the creation time of the web pages D, E, F, and G (for example, news page) is earlier than the creation time of the web page C (for example, blog page). The web page C has a link tag to the web page G. In this case, the web page C is the link source web page, and the web page G is the link destination web page.

また図5の例では、ウェブページDC,EC,FC,GCの間における評価ラベルは、それぞれ30,25,83,82である。   Further, in the example of FIG. 5, the evaluation labels between the web pages DC, EC, FC, and GC are 30, 25, 83, and 82, respectively.

そこで、情報伝播経路特定部5は、第一の関連ウェブページ特定処理により、評価ラベルが最大となる「83」のウェブページ対FCを抽出するとともに、当該ウェブページ対FCの評価ラベル「83」が基準値(例えば「50」)以上であることを確認する。なお、もし当該ウェブページ対FCの評価ラベルが基準値未満であったなら、当該ウェブページ対FCの抽出をキャンセルする。   Therefore, the information propagation path specifying unit 5 extracts the web page pair FC of “83” having the maximum evaluation label by the first related web page specifying process, and the evaluation label “83” of the web page pair FC. Is equal to or greater than a reference value (eg, “50”). Note that if the evaluation label of the web page pair FC is less than the reference value, the extraction of the web page pair FC is canceled.

また、ウェブページGは、リンクタグによりウェブページCに関連付けられている。そのため、情報伝播経路特定部5は、第二の関連ウェブページ特定処理により、ウェブページ対GCを抽出する。   The web page G is associated with the web page C by a link tag. Therefore, the information propagation path specifying unit 5 extracts the web page pair GC by the second related web page specifying process.

そして、情報伝播経路特定部5は、第一及び第二の関連ウェブページ特定処理の結果の和集合をとり、情報がウェブページF,GからウェブページCへ伝播したものと判断する。   And the information propagation path | route specific | specification part 5 takes the union of the result of the 1st and 2nd related web page specific process, and judges that the information propagated from the web pages F and G to the web page C.

次に、情報伝播経路図作成部6は、情報伝播経路特定部5によって特定された関連するウェブページを、作成された順に仮想的に並べて仮想的に線で結び、ウェブにおける情報の伝播を表現する情報伝播経路図を作成する(S6)。   Next, the information propagation route diagram creation unit 6 virtually arranges related web pages identified by the information propagation route identification unit 5 in the order of creation and virtually connects them with lines to express the propagation of information on the web. An information propagation route diagram is created (S6).

情報伝播経路図作成部6によって作成される情報伝播経路図の具体例を図6を用いて説明する。図6は、情報伝播経路図作成部6によって作成される情報伝播経路図の具体例を説明するための図である。   A specific example of the information propagation route diagram created by the information propagation route diagram creation unit 6 will be described with reference to FIG. FIG. 6 is a diagram for explaining a specific example of the information propagation route diagram created by the information propagation route diagram creation unit 6.

ここで、情報伝播経路特定部5によって、ウェブページαβ,βγ,βδ,γεがそれぞれ相互に関連している、と特定されたと仮定する。そして、ウェブページの作成時刻はα,β,γ,δ,εの順であると仮定する。   Here, it is assumed that the information propagation path specifying unit 5 specifies that the web pages αβ, βγ, βδ, and γε are related to each other. It is assumed that the creation time of the web page is in the order of α, β, γ, δ, ε.

この場合、情報伝播経路図作成部6は、ウェブページαとβとを線で結び、同様にβγ,βδ,γεをそれぞれ線で結び、更に各ウェブページ対を結ぶ線に、作成時刻が先のウェブページから作成時刻が後のウェブページの向きに矢印を付加して、図6に示す情報伝播経路図を作成する。図6における横軸tは時間軸である。   In this case, the information propagation path diagram creation unit 6 connects the web pages α and β with lines, similarly connects βγ, βδ, and γε with lines, and further creates lines with the creation time ahead. An information propagation path diagram shown in FIG. 6 is created by adding an arrow in the direction of the web page whose creation time is later from the web page of FIG. The horizontal axis t in FIG. 6 is a time axis.

このようにして情報伝播経路図が作成されると、通信部1は、作成された情報伝播経路図を、通信ネットワーク400を介してクライアント端末装置200に出力する。クライアント端末装置200は、情報伝播経路図を受信して表示装置220に表示させる。   When the information propagation route diagram is created in this way, the communication unit 1 outputs the created information propagation route diagram to the client terminal device 200 via the communication network 400. The client terminal device 200 receives the information propagation path diagram and displays it on the display device 220.

これにより、ユーザは、入力した検索キーワードに関連するウェブページに含まれる情報のウェブにおける伝播経路を知ることができる。   Thereby, the user can know the propagation path in the web of information included in the web page related to the input search keyword.

本実施の形態の情報伝播経路特定装置100の構成及び動作は、上述した通りである。次に、情報伝播経路特定装置100の効果を説明する。   The configuration and operation of the information propagation path identifying device 100 of the present embodiment are as described above. Next, the effect of the information propagation path identification device 100 will be described.

(第1の効果)
情報伝播経路特定部5は、図5を用いて説明したように、第1の処理において、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する。
(First effect)
As described with reference to FIG. 5, the information propagation path specifying unit 5 detects the creation time for each web page pair corresponding to each evaluation label specified by the common character string number specifying unit 2 in the first process. Based on the creation time detected by the unit 3, after detecting the front-rear relationship of the creation times of the web pages constituting each web page pair, each web page has a character string common to it, and If there are multiple web pages with a relatively earlier creation time than that, the web page pair having the largest evaluation label is identified from the web page pairs, and the web page associated with the web page pair is identified. The process of identifying a page pair is performed for all web page pairs, thereby identifying the propagation path of information on the web.

図5を用いて具体的に説明し直すと、ウェブページD,E,F,Gそれぞれは、ウェブページCよりも作成時刻が前であって、ウェブページCと共通する文字列を有しており、ウェブページDC,EC,FC,GCの間における評価ラベルは、それぞれ30,25,83,82である。この場合、情報伝播経路特定部5は、複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対FCのみを抽出する。   Specifically, referring again to FIG. 5, each of the web pages D, E, F, and G has a character string that is common to the web page C and has a creation time before the web page C. The evaluation labels between the web pages DC, EC, FC, and GC are 30, 25, 83, and 82, respectively. In this case, the information propagation path specifying unit 5 extracts only the web page pair FC having the maximum evaluation label from the plurality of web page pairs.

情報伝播経路特定部5が、複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出するのは、次のような理由による。情報伝播経路特定部5は、「1」以上の評価ラベルを有するウェブページ対の全てを抽出しても情報の伝播経路を特定することができる。しかしながら、情報伝播経路特定部5は、最大の評価ラベルを有するウェブページ対を一つだけ抽出することにより、ウェブにおける情報の伝播経路を精度良く特定することができるからである。   The information propagation path specifying unit 5 extracts only one web page pair having the maximum evaluation label from the plurality of web page pairs for the following reason. The information propagation path identifying unit 5 can identify the information propagation path even if all the web page pairs having an evaluation label of “1” or more are extracted. However, the information propagation path identifying unit 5 can accurately identify the information propagation path on the web by extracting only one web page pair having the maximum evaluation label.

例えば、情報伝播経路特定部5は、所定の閾値以上の評価ラベルを有するウェブページ対を抽出する場合、閾値が小さすぎると、多数のウェブページ対が抽出されて、情報の伝播経路が多数存在することになり、ウェブにおける情報の伝播経路を精度良く特定することができない。すなわち、閾値が小さすぎると、多数の伝播関係が検出され、情報伝播経路特定部5は、ウェブにおける情報の伝播経路を精度良く特定することができない。「伝播関係」とは、2個のウェブページ相互の伝播・引用関係を意味する。   For example, when the information propagation path specifying unit 5 extracts a web page pair having an evaluation label equal to or higher than a predetermined threshold, if the threshold is too small, a large number of web page pairs are extracted, and there are many information propagation paths. Therefore, the propagation path of information on the web cannot be specified with high accuracy. That is, if the threshold value is too small, a large number of propagation relationships are detected, and the information propagation path identifying unit 5 cannot accurately identify the information propagation path on the web. “Propagation relationship” means a propagation / quotation relationship between two web pages.

その内容を図7を用いて視覚的に説明する。図7は、情報伝播経路特定部5が第一の処理(評価ラベルを用いる処理)の結果のみに基づいて特定した情報の伝播経路を示す図である。図7において、各楕円はウェブページを示しており、矢印付きの実線は、その始点及び終点のウェブページそれぞれが評価ラベルにより相互に関連していることを示している。その矢印は、情報の伝播の向きを示している。情報伝播経路特定部5が第一の処理の結果のみを用い、所定の閾値以上の評価ラベルを有するウェブページ対を抽出する場合、閾値が小さいと、図7に示すように、情報の伝播経路は多数存在して錯綜し、どの伝播経路が真の経路であるのかが不明になる。   The contents will be described visually with reference to FIG. FIG. 7 is a diagram illustrating a propagation path of information identified based only on a result of the first process (process using an evaluation label) by the information propagation path identifying unit 5. In FIG. 7, each ellipse indicates a web page, and a solid line with an arrow indicates that the web pages at the start point and the end point are related to each other by the evaluation label. The arrow indicates the direction of information propagation. When the information propagation path specifying unit 5 uses only the result of the first process and extracts a web page pair having an evaluation label equal to or greater than a predetermined threshold, if the threshold is small, as shown in FIG. There are many and complicated, and it becomes unclear which propagation path is the true path.

他方、閾値が大きすぎると、大きな評価ラベルを有するウェブページ対であっても、その評価ラベルが閾値未満であれば、情報伝播経路特定部5は、そのウェブページ対を抽出しない。このように、閾値が小さすぎても大きすぎても問題が出てくるので、閾値を設定することは容易ではない。   On the other hand, if the threshold is too large, even if the web page pair has a large evaluation label, if the evaluation label is less than the threshold, the information propagation path specifying unit 5 does not extract the web page pair. Thus, since a problem will arise if the threshold value is too small or too large, it is not easy to set the threshold value.

したがって、あるウェブページが、それよりも作成時刻が前の複数のウェブページそれぞれと共通する文字列を有している場合、情報伝播経路特定部5は、上記あるウェブページを含む複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出する。これにより、情報伝播経路特定部5は、作成時刻が相対的に後のウェブページに記載されている情報の発信元となるウェブページを精度良く特定することができる。   Therefore, when a certain web page has a character string common to each of a plurality of web pages whose creation times are earlier than that, the information propagation path specifying unit 5 includes a plurality of web pages including the certain web page. Only one web page pair having the largest evaluation label is extracted from the pair. Thereby, the information propagation path | route specific | specification part 5 can pinpoint the web page used as the transmission origin of the information described in the web page whose creation time is relatively later accurately.

(第2の効果)
情報伝播経路特定部5は、第一の処理(評価ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合をとり、それによりウェブにおける情報の伝播経路を特定する。情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との一方のみを用いて伝播経路を特定することができる。情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との和集合を用いると、伝播経路を精度良く特定することができる。したがって、情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との和集合をとることが好ましい。以下にその理由を具体的に説明する。
(Second effect)
The information propagation path specifying unit 5 takes the union of the result of the first process (process using the evaluation label) and the result of the second process (process using the link tag), thereby propagating information on the web. Identify the route. The information propagation path specifying unit 5 can specify the propagation path using only one of the result of the first process and the result of the second process. The information propagation path specifying unit 5 can specify the propagation path with high accuracy by using the union of the result of the first process and the result of the second process. Therefore, the information propagation path specifying unit 5 preferably takes the union of the result of the first process and the result of the second process. The reason will be specifically described below.

情報伝播経路特定部5が第一の処理(関連度ラベルを用いる処理)の結果のみを用い、所定の閾値以上の評価ラベルを有する全てのウェブページ対を抽出する場合、上述したように、閾値が大きすぎると、大きな評価ラベルを有するウェブページ対であっても、その評価ラベルが閾値未満であれば、情報伝播経路特定部5は、そのウェブページ対を抽出しない。   When the information propagation path identification unit 5 uses only the result of the first process (process using the relevance level label) and extracts all web page pairs having an evaluation label equal to or higher than a predetermined threshold, as described above, the threshold Is too large, even if the web page pair has a large evaluation label, if the evaluation label is less than the threshold, the information propagation path specifying unit 5 does not extract the web page pair.

しかしながら、抽出されなかったウェブページ対を構成する2個のウェブページ相互も関連していて情報伝播経路特定部5によって抽出されるべき場合がある。その場合、それら2個のウェブページのうちの後で作成されたウェブページに、先に作成されたウェブページへのリンクタグが含まれていれば、そのウェブページ対は、情報伝播経路特定部5によって抽出される。   However, there are cases where two web pages constituting the web page pair that has not been extracted are also related to each other and should be extracted by the information propagation path specifying unit 5. In that case, if the link tag to the previously created web page is included in the web page created later of the two web pages, the web page pair is displayed as the information propagation path specifying unit. 5 is extracted.

このように、第一の処理(評価ラベルを用いる処理)の結果のみを用いた場合に検出される伝播関係の引用数を、第二の処理(リンクタグを用いる処理)の結果をも用いることにより、精度を落とすことなく増加させることができる。   As described above, the number of citations of the propagation relationship detected when only the result of the first process (process using the evaluation label) is used, and the result of the second process (process using the link tag) are also used. Therefore, the accuracy can be increased without reducing the accuracy.

他方、仮に、情報伝播経路特定部5が第二の処理(リンクタグを用いる処理)の結果のみを用いて相互に関連するウェブページを特定すると仮定する。その場合、作成時刻が前後する2個のウェブページが共通する文字列を有していても、後で作成されたウェブページに、先に作成されたウェブページへのリンクタグが含まれていなければ、それら2個のウェブページは、関連しているウェブページ対であると特定されない。   On the other hand, it is assumed that the information propagation path specifying unit 5 specifies mutually related web pages using only the result of the second process (process using a link tag). In that case, even if two web pages with different creation times have a common character string, the web page created later must include a link tag to the web page created earlier. For example, the two web pages are not identified as related web page pairs.

以下に、上記の内容を図8を用いて視覚的に説明する。図8は、情報伝播経路特定部5が第二の処理(リンクタグを用いる処理)の結果のみに基づいて特定した情報の伝播経路を示す図である。図8において、各楕円はウェブページを示しており、矢印付きの実線は、その始点及び終点のウェブページそれぞれがリンクタグにより相互に関連していることを示している。実線の矢印は、情報の伝播の向きを示している。矢印付きの破線は、その始点及び終点のウェブページそれぞれが共通する文字列を有しているのにもかかわらず、リンクタグが用いられていないことにより相互に関連していないことを示している。   Hereinafter, the above contents will be described visually with reference to FIG. FIG. 8 is a diagram illustrating a propagation path of information identified based only on the result of the second process (process using a link tag) by the information propagation path identifying unit 5. In FIG. 8, each ellipse indicates a web page, and a solid line with an arrow indicates that the web pages at the start point and the end point are related to each other by a link tag. Solid arrows indicate the direction of information propagation. A broken line with an arrow indicates that the web pages at the start and end points have a common character string but are not related to each other because the link tag is not used. .

図8の例では、「まとめブログD」は、共通する文字列を有しているのにもかかわらず、「一般ブログF」とは相互に関連していると判断されない。これは、「一般ブログF」に「まとめブログD」へのリンクタグが含まれていないことによる。このように情報伝播経路特定部5が第二の処理の結果のみを用いると、情報の伝播経路が実際には継続しているのにもかかわらず、断絶していると判断される場合がでてくる。換言すれば、情報伝播経路特定部5が第二の処理の結果のみを用いると、特定できる伝播経路が限られることになる。つまり、情報伝播経路特定部5が第二の処理の結果のみを用いて相互に関連するウェブページの対を特定し、それにより情報の伝播経路を特定するのは十分ではない。   In the example of FIG. 8, although “summary blog D” has a common character string, it is not determined that it is related to “general blog F”. This is because the “general blog F” does not include a link tag to the “summary blog D”. As described above, when the information propagation path specifying unit 5 uses only the result of the second processing, it may be determined that the information propagation path is disconnected even though the information propagation path is actually continued. Come. In other words, if the information propagation path specifying unit 5 uses only the result of the second process, the propagation paths that can be specified are limited. That is, it is not sufficient for the information propagation path specifying unit 5 to specify a pair of web pages that are related to each other using only the result of the second process, thereby specifying the information propagation path.

そのため、情報伝播経路特定部5は、第一の処理(関連度ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合をとり、それによりウェブにおける情報の伝播経路を特定する。和集合をとることにより、第一の処理の結果と第二の処理の結果とを互いに補完することができ、相互に関連するウェブページの対をより精度良く特定することができる。すなわち、情報の真の伝播経路を精度良く特定することができる。   Therefore, the information propagation path specifying unit 5 takes the union of the result of the first process (process using the relevance label) and the result of the second process (process using the link tag), thereby Identify the propagation path of information. By taking the union, the result of the first process and the result of the second process can be complemented to each other, and a pair of web pages related to each other can be specified with higher accuracy. That is, the true propagation path of information can be specified with high accuracy.

以下に、上記の内容を図9を用いて視覚的に説明する。図9は、情報伝播経路特定部5が第一の処理(評価ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合に基づいて特定した情報の伝播経路を示す図である。図9において、各楕円はウェブページを示しており、矢印付きの細い実線は、その始点及び終点のウェブページそれぞれが評価ラベル(最長共通文字列)により相互に関連していることを示している。矢印付きの太い実線は、その始点及び終点のウェブページそれぞれがリンクタグにより相互に関連していることを示している。矢印は、情報の伝播の向きを示している。   The above contents will be described visually with reference to FIG. FIG. 9 shows the information specified by the information propagation path specifying unit 5 based on the union of the result of the first process (process using the evaluation label) and the result of the second process (process using the link tag). It is a figure which shows a propagation path. In FIG. 9, each ellipse indicates a web page, and a thin solid line with an arrow indicates that the web page at the start point and the end point are related to each other by an evaluation label (longest common character string). . Thick solid lines with arrows indicate that the start and end web pages are related to each other by link tags. Arrows indicate the direction of information propagation.

「まとめブログD」に着目すると、「まとめブログD」は、細い実線により「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと接続されている。それは、「まとめブログD」が、評価ラベルにより「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと相互に関連していることを示している。また、「まとめブログD」は、太い実線により「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと接続されている。それは、「まとめブログD」が、リンクタグにより「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していることを示している。   Focusing on “Summary Blog D”, “Summary Blog D” is connected to “Major Newspaper Site B”, “General Blog F”, and “General Blog I” by thin solid lines. It indicates that “summary blog D” is mutually related to “major newspaper site B”, “general blog F”, and “general blog I” by the evaluation label. The “summary blog D” is connected to “net news A”, “general blog G”, and “general blog H” by thick solid lines. It indicates that “summary blog D” is mutually related to “net news A”, “general blog G”, and “general blog H” by link tags.

図9に示すように、「まとめブログD」は、第一の処理(評価ラベルを用いる処理)の結果のみが用いられると、「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと相互に関連していると特定される。同様に、「まとめブログD」は、第二の処理(リンクタグを用いる処理)の結果のみが用いられると、「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していると特定される。   As shown in FIG. 9, when only the result of the first processing (processing using an evaluation label) is used for “summary blog D”, “major newspaper site B”, “general blog F”, and “general blog” I "are identified as being interrelated with each other. Similarly, when only the result of the second process (process using a link tag) is used, “summary blog D” is mutually associated with “net news A”, “general blog G”, and “general blog H”. Identified as related to

それに対して、第一の処理の結果と、第二の処理の結果との和集合が用いられると、「まとめブログD」は、「大手新聞サイトB」、「一般ブログF」、「一般ブログI」、「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していると特定される。   On the other hand, when the union of the result of the first process and the result of the second process is used, “summary blog D” becomes “major newspaper site B”, “general blog F”, “general blog”. "I", "Net News A", "General Blog G", and "General Blog H" are identified as being interrelated.

このように、情報伝播経路特定部5が第一の処理の結果と第二の処理の結果との和集合をとることにより、相互に関連しているウェブページの対を精度良く特定することができる。すなわち、情報の伝播経路を精度良く特定することができる。また、図9の「まとめブログD」のような、伝播される情報を中継するハブ機能を持つウェブページを特定することができる。また、情報の発信元のウェブページと、その情報が最後に伝播したウェブページとを特定することができるので、情報が伝播したウェブページの個数を把握することできる。更に、伝播経路をさかのぼることにより、情報が最後に伝播したウェブページがどのウェブページから影響を受けたのかを推定することができる。そのため、情報伝播経路特定部5は、第一の処理の結果と第二の処理の結果との和集合をとることにより、相互に関連しているウェブページ対を特定し、それにより情報の伝播経路を特定することが好ましい。   In this way, the information propagation path identification unit 5 can accurately identify a pair of web pages related to each other by taking the union of the result of the first process and the result of the second process. it can. That is, the information propagation path can be specified with high accuracy. Further, it is possible to specify a web page having a hub function for relaying information to be propagated, such as “Summary Blog D” in FIG. In addition, since the web page from which the information is transmitted and the web page to which the information has been propagated can be identified, the number of web pages to which the information has been propagated can be grasped. Further, by tracing back the propagation path, it is possible to estimate which web page was affected by the web page on which the information was last propagated. Therefore, the information propagation path identifying unit 5 identifies a pair of web pages that are related to each other by taking the union of the result of the first process and the result of the second process, thereby propagating the information. It is preferable to specify the route.

(変形例1)
なお、上述した実施の形態では、情報伝播経路特定部5は、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合、複数のウェブページ対の中から、最大の評価ラベルを有するウェブページ対を一つだけ抽出する。しかしながら、情報伝播経路特定部5は、上記の場合、複数のウェブページ対の中から、所定の閾値以上の評価ラベルを有するウェブページ対を抽出してもよい。また、情報伝播経路特定部5は、それら複数のウェブページ対の中から、値が大きい方から上位所定の個数の評価ラベルそれぞれを有するウェブページ対を抽出してもよい。この場合も、情報伝播経路特定部5は、情報の伝播経路を特定することができる。
(Modification 1)
In the above-described embodiment, the information propagation path specifying unit 5 has a character string that is common to the same web page (that is, has an evaluation label) and has a creation time higher than that. When there are a plurality of relatively previous web pages, only one web page pair having the maximum evaluation label is extracted from the plurality of web page pairs. However, in the above case, the information propagation path specifying unit 5 may extract a web page pair having an evaluation label equal to or greater than a predetermined threshold from a plurality of web page pairs. Moreover, the information propagation path | route specific | specification part 5 may extract the web page pair which has each upper predetermined number of evaluation labels from the one with a larger value out of these several web page pairs. Also in this case, the information propagation path identifying unit 5 can identify the information propagation path.

また、情報伝播経路特定部5は、評価ラベルに着目するのではなく、共通文字列数特定部2によって特定された関連度ラベルに着目し、同一のウェブページに対して、それと共通する文字列を有し(つまり、関連度ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合、複数のウェブページ対の中から、所定の閾値以上の関連度ラベルを有するウェブページ対を抽出してもよい。更に、情報伝播経路特定部5は、複数のウェブページ対の中から、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を抽出してもよい。この場合も、情報伝播経路特定部5は、情報の伝播経路を特定することができる。 Further, the information propagation path specifying unit 5 does not pay attention to the evaluation label, but pays attention to the relevance level label specified by the common character string number specifying unit 2, and the character string common to the same web page. (That is, having a relevance label) and there are a plurality of web pages whose creation time is relatively earlier than that, a relevance level equal to or higher than a predetermined threshold is selected from a plurality of web page pairs. You may extract the web page pair which has a label. Further, the information propagation path specifying unit 5 may extract a web page pair having each of a predetermined number of relevance labels from a larger value from among a plurality of web page pairs. Also in this case, the information propagation path identifying unit 5 can identify the information propagation path.

(変形例2)
作成時刻検出部3による各評価対象のウェブページの作成時刻を検出する精度はあまり高くない。本願発明者の検証によれば、作成時刻の検出精度は80〜90%である。作成時刻を検出する精度があまり高くないことを例を挙げて以下に説明する。
(Modification 2)
The accuracy of detecting the creation time of each evaluation target web page by the creation time detection unit 3 is not so high. According to the inventor's verification, the detection accuracy of the creation time is 80 to 90%. An example will be described below that the accuracy of detecting the creation time is not so high.

ウェブページPが存在し、ウェブページPの作成時刻より前に実施されたイベントの情報がそのイベントの実施時刻とともにウェブページPに含まれていると仮定する。ウェブページを構成する情報(ウェブページ本文)はHTMLで記述されているのであるが、HTMLでは時刻を検出することは容易ではない。そのため、作成時刻検出部3は、イベントの実施時刻をウェブページPの作成時刻と誤って検出してしまう場合がある。したがって、作成時刻を検出する精度はあまり高くない。   It is assumed that there is a web page P, and information on an event performed before the creation time of the web page P is included in the web page P together with the execution time of the event. Information constituting the web page (web page text) is described in HTML, but it is not easy to detect time in HTML. Therefore, the creation time detection unit 3 may erroneously detect the event execution time as the creation time of the web page P. Therefore, the accuracy of detecting the creation time is not so high.

更に次のことを仮定する。すなわち、ウェブページPよりも前に作成されたウェブページQが存在し、上記イベントの実施時刻がウェブページQの作成時刻より前であると仮定する。この状況において、作成時刻検出部3がウェブページQの作成時刻を正確に検出すれば、実際にはウェブページPよりも前にウェブページQが作成されているのにもかかわらず、情報伝播経路特定部5は、ウェブページQの方がウェブページPよりも後に作成されたと判断してしまう。   Further assume the following. That is, it is assumed that there is a web page Q created before the web page P, and the event implementation time is earlier than the creation time of the web page Q. In this situation, if the creation time detection unit 3 accurately detects the creation time of the web page Q, the information propagation path is actually generated even though the web page Q is created before the web page P. The specifying unit 5 determines that the web page Q is created after the web page P.

それに対して、リンクタグを用いれば、2個のウェブページのいずれが先に作成されたのかを正確に特定することができる。つまり、ウェブページPにウェブページQへのリンクタグが含まれている場合、情報伝播経路特定部5は、ウェブページQの方がウェブページPよりも先に作成されたと正確に特定することができる。そのため、2個のウェブページの一方に他方へのリンクタグが含まれている場合、情報伝播経路特定部5は、作成時刻を検出する方法よりリンクタグを用いる方法を優先して、いずれが先に作成されたのかを判断する。   On the other hand, if a link tag is used, it is possible to accurately specify which of the two web pages was created first. That is, when the link tag to the web page Q is included in the web page P, the information propagation path identifying unit 5 may accurately identify that the web page Q was created before the web page P. it can. Therefore, when one of the two web pages includes a link tag to the other, the information propagation path specifying unit 5 prioritizes the method using the link tag over the method of detecting the creation time, whichever comes first. Determine whether it was created.

その内容を図10を用いて説明する。図10は、ウェブページPとウェブページQとのうちで先に作成されたウェブページを特定する方法を説明するための図である。図10において、矢印付きの実線は、ウェブページPとウェブページQとがリンクタグにより相互に関連していることを示している。矢印付きの破線は、ウェブページPとウェブページQとが関連度ラベルにより相互に関連していることを示している。また、図10は、実線の矢印の向きが示す通り、リンクタグにより、ウェブページQがウェブページPより先に作成されたことを示している。更に、図10は、破線の矢印の向きが示す通り、作成時刻の検出により、ウェブページPがウェブページQより先に作成されたことを示している。   The contents will be described with reference to FIG. FIG. 10 is a diagram for explaining a method of specifying the web page created first among the web page P and the web page Q. In FIG. 10, a solid line with an arrow indicates that the web page P and the web page Q are related to each other by a link tag. A broken line with an arrow indicates that the web page P and the web page Q are related to each other by the relevance level label. FIG. 10 shows that the web page Q is created before the web page P by the link tag as indicated by the direction of the solid arrow. Furthermore, FIG. 10 shows that the web page P was created before the web page Q by the detection of the creation time, as indicated by the direction of the dashed arrow.

図10に示すように、リンクタグを用いる方法と作成時刻を検出する方法とで、先に作成されたウェブページが異なると判断される場合、リンクタグを用いて、先に作成されたウェブページを特定する。なぜなら、作成時刻を精度良く特定することができないのに対し、リンクタグを用いると、いずれが先に作成されたのかを精度良く特定することができるからである。   As shown in FIG. 10, when it is determined that the web page created earlier is different between the method using the link tag and the method of detecting the creation time, the web page created earlier using the link tag. Is identified. This is because the creation time cannot be specified with high accuracy, but if a link tag is used, it can be specified with high accuracy which one was created first.

なお、トラックバックにより先に作成されたウェブページに、後で作成されたウェブページへのリンクタグが含まれる場合があるが、そのリンクタグがトラックバックにより設定されたことを判断することは容易である。そのため、トラックバックにより設定されたリンクタグを除外すれば、リンクタグを用いる方法により、2個のウェブページのいずれが先に作成されたのかを精度良く特定することができる。   Note that the web page created earlier by trackback may contain a link tag to the web page created later, but it is easy to determine that the link tag has been set by trackback. . Therefore, if the link tag set by the trackback is excluded, it is possible to accurately identify which of the two web pages was created first by the method using the link tag.

(変形例3)
上述したように、作成時刻検出部3によるウェブページの作成時刻を検出する精度はあまり高くない。したがって、変形例2では、リンクタグを用いる方法を作成時刻を検出する方法より優先することにより、2個のウェブページのうちの先に作成された方を判断する。しかしながら、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、変形例2の方法を用いることはできない。
(Modification 3)
As described above, the accuracy with which the creation time detection unit 3 detects the creation time of the web page is not so high. Therefore, in the second modification, the method of using the link tag is prioritized over the method of detecting the creation time, thereby determining which of the two web pages has been created first. However, when neither of the two web pages includes a link tag to the other party, the method of the modification 2 cannot be used.

変形例3では、情報伝播経路特定部5は、予め決められた優先順位にしたがって、2個のウェブページのいずれが先に作成されたのかを決定する。その優先順位は以下の通りである。   In the third modification, the information propagation path specifying unit 5 determines which of the two web pages has been created first according to a predetermined priority order. The priority order is as follows.

(1)企業の公式ウェブページ
(2)情報発信元のニュースメディアのウェブページ
(3)転載系のニュースメディアのウェブページ
(4)著名ブログ
(5)(1)〜(4)以外のウェブページ(個人ブログ)
情報伝播経路特定部5は、上記の優先順位にしたがって、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する。例えば、比較対象の2個のウェブページの一方が(1)企業の公式ウェブページであって、他方が(2)情報発信元のニュースメディアのウェブページである場合、情報伝播経路特定部5は、上記の優先順位にしたがって(1)企業の公式ウェブページの方が先に作成されたと判断する。また例えば、比較対象の2個のウェブページの一方が(2)情報発信元のニュースメディアのウェブページであって、他方が(4)著名ブログである場合、情報伝播経路特定部5は、上記の優先順位にしたがって(2)情報発信元のニュースメディアのウェブページの方が先に作成されたと判断する。
(1) Company official web page (2) News media web page of information source (3) Reprinted news media web page (4) Prominent blog (5) Web pages other than (1) to (4) (Personal blog)
The information propagation path specifying unit 5 determines which of the two web pages to be compared has been created first according to the above-mentioned priority order. For example, when one of the two web pages to be compared is (1) an official web page of a company and the other is (2) a web page of a news media from which information is transmitted, the information propagation path specifying unit 5 According to the above priority order, (1) it is determined that the official web page of the company was created first. For example, when one of the two web pages to be compared is (2) the web page of the news media of the information source and the other is (4) a famous blog, the information propagation path specifying unit 5 (2) It is determined that the web page of the news media of the information transmission source has been created first.

比較対象の2個のウェブページが同じ優先順位のウェブページである場合、つまり、比較対象の2個のウェブページが同じ種類のウェブページである場合、情報伝播経路特定部5は、作成時刻検出部3によって検出された作成時刻に基づいて、いずれが先に作成されたのかを判断する。   When the two web pages to be compared are the same priority web pages, that is, when the two web pages to be compared are the same type of web pages, the information propagation path specifying unit 5 detects the creation time. Based on the creation time detected by the unit 3, it is determined which was created first.

このように、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する際、情報伝播経路特定部5は、作成時刻検出部3によって検出された作成時刻を用いるよりも、変形例3の優先順位を用いる。これにより、いずれが先に作成されたのかを精度良く決定することができる。上述したように、作成時刻検出部3によるウェブページの作成時刻を検出する精度はあまり高くないからである。   In this way, when determining which of the two web pages to be compared has been created first, the information propagation path specifying unit 5 uses the creation time detected by the creation time detection unit 3 rather than using the creation time. The priority of Modification 3 is used. As a result, it is possible to accurately determine which was created first. This is because the accuracy of detecting the creation time of the web page by the creation time detector 3 is not so high as described above.

なお、ウェブページの優先順位は、上記のような静的なものでなく、動的に決まってもよい。例えば、フラッシュを所定の数以上用いているウェブページや所定の数以上のリンクが張られている個人ブログを最上位の優先順位にする。   The priority order of the web pages is not static as described above, and may be determined dynamically. For example, a web page that uses a predetermined number or more of flashes or a personal blog that has a predetermined number or more links is given the highest priority.

上述したように、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する方法として、上述したように変形例2及び変形例3の方法を用いることができる。また、作成時刻検出部3によって検出された作成時刻を用いる方法を用いることもできる。どの方法を優先して用いるかは、以下の方法に関する優先順位に従うことが好ましい。   As described above, as described above, the methods of Modification 2 and Modification 3 can be used as a method of determining which of the two web pages to be compared has been created first. Also, a method using the creation time detected by the creation time detection unit 3 can be used. It is preferable to prioritize which method to use in accordance with the priorities regarding the following methods.

[1]変形例2のリンクタグを用いる方法
[2]変形例3の優先順位を用いる方法
[3]作成時刻検出部3によって検出された作成時刻を用いる方法
[1]変形例2のリンクタグを用いる方法を最優先にすることで、ニュースメディアが小さな個人ブログの情報を取り上げているケースを検出することができる。
[1] Method Using Link Tag of Modification 2 [2] Method Using Priority of Modification 3 [3] Method Using Creation Time Detected by Creation Time Detection Unit 3 [1] Link Tag of Modification 2 By using the method with the highest priority, it is possible to detect cases where news media is taking up information from a small personal blog.

(変形例4)
更に、上述した実施の形態では、共通文字列数特定部2は、先ず、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において共通する文字列を検出する。しかしながら、共通文字列数特定部2は、比較対象の2個の評価対象のウェブページそれぞれについて形態素解析を実行し、名詞等の特定の品詞にのみ着目して比較対象の文字列を少なくし、その後に共通する文字列を検出してもよい。
(Modification 4)
Further, in the above-described embodiment, the common character string number identification unit 2 first detects a character string that is common to each of the other evaluation target web pages for each of the plurality of evaluation target web pages. However, the common character string number specifying unit 2 performs morphological analysis for each of the two evaluation target web pages to be compared, and focuses only on specific parts of speech such as nouns to reduce the number of comparison target character strings. Thereafter, a common character string may be detected.

例えば、評価対象のウェブページαに「私は桜を見に行った。」という第1の文字列が記載されており、評価対象のウェブページβに「私は桜を見たことがありますよ」という第2の文字列が記載されていた場合を想定する。この場合、共通文字列数特定部2は、第1の文字列を単語に分解して第3の文字列「私 は 桜 を 見 に 行っ た 。」を生成し、更に、複数の品詞のうち名詞と動詞とのみに着目するとともに動詞を原型に変更し、第1の文字列を「私 桜 見る 行く」という第4の文字列に変更する。同様にして第2の文字列についても「私 桜 見る こと ある」という第5の文字列に変更する。第4文字列と第5の文字列を比較することにより、ウェブページαとウェブページβは「私 桜 見る」という共通する文字列の並びを有すると判断される。   For example, the first character string “I went to see cherry blossoms” is listed on the web page α to be evaluated, and “I have seen cherry blossoms” on the web page β to be evaluated. ”Is assumed to be described. In this case, the common character string number specifying unit 2 generates the third character string “I went to see cherry blossoms” by breaking down the first character string into words, and among the plurality of parts of speech. Focusing only on nouns and verbs, the verb is changed to a prototype, and the first character string is changed to a fourth character string “I see cherry blossoms”. Similarly, the second character string is changed to the fifth character string “I sometimes see cherry blossoms”. By comparing the fourth character string and the fifth character string, it is determined that the web page α and the web page β have a common character string sequence of “I see cherry blossoms”.

この方法によると、照合データ数が大幅に削減されるため、処理の高速化が実現する。また、文字列の表記揺れ(ですます、だである)を吸収することができる。なお、共通文字列数特定部2は、各文字列をコード化して処理データ量を少なくし、処理を行ってもよい。これによっても、処理の高速化が実現する。上記の例では、例えば、共通文字列数特定部2は、単語「私」にID「124」を割り当て、単語「桜」にID「398」を割り当て、単語「見る」にID「363」を割り当て、単語「行く」にID「297」を割り当て、IDの並びでLCSを行う。   According to this method, since the number of collation data is greatly reduced, the processing speed can be increased. In addition, it can absorb the shaking of the character string (more or less). Note that the common character string number specifying unit 2 may perform processing by encoding each character string to reduce the amount of processing data. This also increases the processing speed. In the above example, for example, the common character string number specifying unit 2 assigns ID “124” to the word “I”, assigns ID “398” to the word “sakura”, and assigns ID “363” to the word “see”. Assign ID “297” to the word “go” and perform LCS with the ID sequence.

なお、情報伝播経路特定装置100の各構成部の機能は、例えばコンピュータのCPU(プロセッサ)及びメモリ等のハードウェアと、その機能を実現するためのコンピュータプログラムとが協働することによって実現される。しかしながら、上記各機能は、専用の回路により実現される等、どのような形態により実現されてもよい。また、情報伝播経路特定装置100の各構成部の機能を実現するためのコンピュータプログラムは、記録媒体に格納されてもよい。   Note that the functions of each component of the information propagation path identifying device 100 are realized by the cooperation of hardware such as a CPU (processor) and a memory of a computer and a computer program for realizing the functions. . However, each of the above functions may be realized in any form such as realized by a dedicated circuit. In addition, a computer program for realizing the function of each component of the information propagation path identifying device 100 may be stored in a recording medium.

100 情報伝播経路特定装置、 200 クライアント端末装置、 300 検索装置、 400 通信ネットワーク、 1 通信部、 2 共通文字列数特定部、 3 作成時刻検出部、 4 リンクタグ検出部、 5 情報伝播経路特定部、 6 情報伝播経路図作成部。   DESCRIPTION OF SYMBOLS 100 Information propagation path | route identification apparatus, 200 Client terminal device, 300 Search apparatus, 400 Communication network, 1 Communication part, 2 Common character string number identification part, 3 Creation time detection part, 4 Link tag detection part, 5 Information propagation path | route identification part , 6 Information propagation path diagram creation unit.

Claims (8)

ウェブにおける情報の伝播経路を特定する装置であって、
複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部を備え、
前記情報伝播経路特定部は、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページ情報及びリンク先ページ情報を特定して関連しているウェブページ対を特定する処理をも行い、前記評価ラベルを用いて特定した関連するウェブページ対と、前記リンクタグを用いて特定した関連するウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定し、
前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する情報伝播経路特定装置。
A device for identifying a propagation path of information on the web,
An acquisition unit for acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the information acquired by the acquisition unit, for each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the detected character string is configured. A common string number identifying unit that identifies the number of characters as a relevance label and identifies the largest relevance label as an evaluation label;
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of evaluation target web pages;
For each web page pair corresponding to each evaluation label identified by the common character string number identifying unit, creation of web pages constituting each web page pair based on the creation time detected by the creation time detection unit When there is a plurality of web pages that have a common character string with respect to each web page and the creation time is relatively earlier than that, after detecting the context of the time The process of identifying one web page pair having the highest evaluation label from among the pairs and identifying it as an associated web page pair is performed for all web page pairs, whereby information on the web An information propagation path identifying unit that identifies a propagation path of
A link tag detection unit for detecting a link tag from the information acquired by the acquisition unit;
The information propagation path specifying unit also performs a process of specifying link source page information and link destination page information and specifying related web page pairs for all link tags detected by the link tag detection unit. , Based on the associated web page pair identified using the evaluation label and the associated web page pair identified using the link tag, identifying a propagation path of information on the web,
When determining which of the two web pages has been created first, the information propagation path specifying unit gives top priority to the link destination page specified based on the link tag detected by the link tag detection unit. And if neither of the two web pages contains a link tag to the other party, one of the two web pages is determined based on a predetermined priority for each web page. An information propagation path that identifies a web page with a higher priority and identifies the web page with the previous creation time detected by the creation time detector when the two web pages have the same priority. Specific device.
ウェブにおける情報の伝播経路を特定する装置であって、
複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、
前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部とを備え、
前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する情報伝播経路特定装置。
A device for identifying a propagation path of information on the web,
An acquisition unit for acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the information acquired by the acquisition unit, for each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the detected character string is configured. A common character string number identifying unit that identifies the number of characters as a relevance label,
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of evaluation target web pages;
A link tag detection unit for detecting a link tag from the information acquired by the acquisition unit;
Based on the creation time detected by the creation time detection unit, it detects the order of the creation time of the web pages that make up each web page pair, and identifies a web page pair having a relevance label equal to or higher than a predetermined threshold First processing for identifying the web page pair as related to each other, and specifying a web page pair having each of the upper predetermined number of relevance labels from the largest value and associating them with each other It performs at least one of a second process of specifying as a web page pairs that, for all links tags detected by the link tag detection section, identify a link source page and destination page perform also a process of identifying a web page pairs are related to each other, further, they are related to each other and identified by using the relation level label Webupe Di pairs, wherein based on the web page pair using the link tag are related to each other were identified, and an information propagation path identification unit for identifying the propagation path information in the web,
When determining which of the two web pages has been created first, the information propagation path specifying unit gives top priority to the link destination page specified based on the link tag detected by the link tag detection unit. And if neither of the two web pages contains a link tag to the other party, one of the two web pages is determined based on a predetermined priority for each web page. An information propagation path that identifies a web page with a higher priority and identifies the web page with the previous creation time detected by the creation time detector when the two web pages have the same priority. Specific device.
更に、前記情報伝播経路特定部によって特定された互いに関連しているウェブページ対それぞれについて、それを構成する各ウェブページを作成された順に仮想的に並べて仮想的に線で結び、ウェブにおける情報の伝播経路図を作成する情報伝播経路図作成部を備える
請求項1または2に記載の情報伝播経路特定装置。
Further, for each pair of web pages that are related to each other specified by the information propagation path specifying unit, the web pages constituting the web page pairs are virtually arranged in the order in which they are created, and are virtually connected by a line. information propagation path determining device according to claim 1 or 2 comprising information propagation path diagram creation unit that creates a propagation path diagram.
前記共通文字列数特定部は、評価対象のウェブページに記載されている文字列を、予め決められた品詞の単語により構成される文字列に変更した後に、各ウェブページ対において共通する文字列を検出する
請求項1からのいずれかに記載の情報伝播経路特定装置。
The common character string number specifying unit changes the character string described in the web page to be evaluated to a character string composed of words of a predetermined part of speech, and then common character strings in each web page pair The information propagation path identification device according to any one of claims 1 to 3 .
ウェブにおける情報の伝播経路を特定する方法であって、
コンピュータが、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、
コンピュータが、特定した各評価ラベルに対応する各ウェブページ対について、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定するステップと、
コンピュータが、取得された情報からリンクタグを検出するステップを含み、
前記伝播経路を特定するステップでは、コンピュータが、検出された全てのリンクタグについて、リンク元ページ情報及びリンク先ページ情報を特定して関連しているウェブページ対を特定する処理をも行い、前記評価ラベルを用いて特定した関連するウェブページ対と、前記リンクタグを用いて特定した関連するウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定し、
前記伝播経路を特定するステップでは、コンピュータが、2個のウェブページのいずれが先に作成されたのかを判断する際、検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する情報伝播経路特定方法。
A method for identifying the propagation path of information on the web,
A computer acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the acquired information , the computer detects a common character string between each of the plurality of evaluation target web pages and each of the other evaluation target web pages, and the characters constituting the detected character string are detected. Identifying the number as a relevance label, identifying the largest relevance label as a rating label,
A computer detecting a creation time of each of a plurality of web pages to be evaluated based on the acquired information;
For each web page pair corresponding to each specified evaluation label , the computer detects the order of creation time between web pages constituting each web page pair based on the detected creation time, and then each web page If there are a plurality of web pages that have a character string common to them and the creation time is relatively earlier than that, the web page pair having the largest evaluation label from among the plurality of web page pairs Identifying one and identifying it as an associated web page pair for all web page pairs, thereby identifying the propagation path of information on the web;
A computer detecting a link tag from the acquired information;
In the step of identifying the propagation path, the computer also performs a process of identifying the link source page information and the link destination page information to identify related web page pairs for all detected link tags, Based on the associated web page pair identified using the evaluation label and the associated web page pair identified using the link tag, the propagation path of information on the web is identified,
In the step of specifying the propagation path, when the computer determines which of the two web pages was created first, the link destination page specified based on the detected link tag is specified with the highest priority. If neither of the two web pages contains a link tag to the other party, the priority order of the two web pages based on the priority order determined in advance for each web page. An information propagation route specifying method for specifying a web page with a higher creation time and specifying the web page with the earlier creation time detected by the creation time detection unit when the two web pages have the same priority .
ウェブにおける情報の伝播経路を特定する方法であって、
コンピュータが、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、
コンピュータが、取得した情報からリンクタグを検出するステップと、
コンピュータが、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、検出した全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページの対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定するステップとを含み、
前記伝播経路を特定するステップでは、コンピュータが、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する情報伝播経路特定方法。
A method for identifying the propagation path of information on the web,
A computer acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the acquired information , the computer detects a common character string between each of the plurality of evaluation target web pages and each of the other evaluation target web pages, and the characters constituting the detected character string are detected. Identifying the number as a relevance label;
A computer detecting a creation time of each of a plurality of web pages to be evaluated based on the acquired information;
A computer detecting a link tag from the acquired information;
Based on the detected creation time , the computer detects the relationship between the creation times of the web pages constituting each web page pair, identifies a web page pair having a relevance label equal to or higher than a predetermined threshold, A first process for identifying web page pairs that are related to each other, and a web page pair that has each of a predetermined number of relevance labels that are higher in order from the largest value, and the webs that are related to each other Perform at least one of the second process to identify page pairs, and identify the link source page and link destination page for all detected link tags to identify web page pairs that are related to each other processing performed also to further the webpage pair are related to each other were identified using the relevance labels were identified using the link tag Based on the web page pairs associated with have, and a step of identifying the propagation path information in the web,
In the step of specifying the propagation path, the link destination page specified based on the link tag detected by the link tag detection unit when the computer determines which of the two web pages was created first. Is specified with the highest priority, and if neither of the two web pages contains a link tag to the other party, the two web pages are assigned based on a predetermined priority for each web page. When the web page with the higher priority among the pages is specified and the two web pages have the same priority, the web page with the previous creation time detected by the creation time detection unit is identified. information propagation path specifying process for.
ウェブにおける情報の伝播経路を特定するためのプログラムであって、
コンピュータを、
複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部を備え、
前記情報伝播経路特定部は、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページ情報及びリンク先ページ情報を特定して関連しているウェブページ対を特定する処理をも行い、前記評価ラベルを用いて特定した関連するウェブページ対と、前記リンクタグを用いて特定した関連するウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定し、
前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する
として機能させるための情報伝播経路特定プログラム。
A program for identifying the propagation path of information on the web,
Computer
An acquisition unit for acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the information acquired by the acquisition unit, for each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the detected character string is configured. A common string number identifying unit that identifies the number of characters as a relevance label and identifies the largest relevance label as an evaluation label;
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of evaluation target web pages;
For each web page pair corresponding to each evaluation label identified by the common character string number identifying unit, creation of web pages constituting each web page pair based on the creation time detected by the creation time detection unit When there is a plurality of web pages that have a common character string with respect to each web page and the creation time is relatively earlier than that, after detecting the context of the time The process of identifying one web page pair having the highest evaluation label from among the pairs and identifying it as an associated web page pair is performed for all web page pairs, whereby information on the web An information propagation path identifying unit that identifies a propagation path of
A link tag detection unit for detecting a link tag from the information acquired by the acquisition unit;
The information propagation path specifying unit also performs a process of specifying link source page information and link destination page information and specifying related web page pairs for all link tags detected by the link tag detection unit. , Based on the associated web page pair identified using the evaluation label and the associated web page pair identified using the link tag, identifying a propagation path of information on the web,
When determining which of the two web pages has been created first, the information propagation path specifying unit gives top priority to the link destination page specified based on the link tag detected by the link tag detection unit. And if neither of the two web pages contains a link tag to the other party, one of the two web pages is determined based on a predetermined priority for each web page. A web page with a higher priority is specified, and when two web pages have the same priority, the creation time detected by the creation time detection unit functions as specifying the previous web page Information propagation path identification program.
ウェブにおける情報の伝播経路を特定するためのプログラムであって、
コンピュータを、
複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、
前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部とを備え、
前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する
として機能させるための情報伝播経路特定プログラム。
A program for identifying the propagation path of information on the web,
Computer
An acquisition unit for acquiring information constituting each of a plurality of web pages to be evaluated;
Based on the information acquired by the acquisition unit, for each of a plurality of evaluation target web pages, a common character string is detected with each of the other evaluation target web pages, and the detected character string is configured. A common character string number identifying unit that identifies the number of characters as a relevance label,
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of evaluation target web pages;
A link tag detection unit for detecting a link tag from the information acquired by the acquisition unit;
Based on the creation time detected by the creation time detection unit, it detects the order of the creation time of the web pages that make up each web page pair, and identifies a web page pair having a relevance label equal to or higher than a predetermined threshold First processing for identifying the web page pair as related to each other, and specifying a web page pair having each of the upper predetermined number of relevance labels from the largest value and associating them with each other It performs at least one of the second process of specifying as a web page pairs that, for all links tags detected by the link tag detection section, identify a link source page and destination page perform also a process of identifying a web page pairs are related to each other, further, they are related to each other were identified using the relevance label Webupe Di pairs, wherein based on the web page pair using the link tag are related to each other were identified, and an information propagation path identification unit for identifying the propagation path information in the web,
When determining which of the two web pages has been created first, the information propagation path specifying unit gives top priority to the link destination page specified based on the link tag detected by the link tag detection unit. And if neither of the two web pages contains a link tag to the other party, one of the two web pages is determined based on a predetermined priority for each web page. A web page with a higher priority is specified, and when two web pages have the same priority, the creation time detected by the creation time detection unit functions as specifying the previous web page Information propagation path identification program.
JP2010015400A 2009-09-17 2010-01-27 Information propagation path identification device, information propagation path identification method, information propagation path identification program Expired - Fee Related JP4550939B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010015400A JP4550939B1 (en) 2009-09-17 2010-01-27 Information propagation path identification device, information propagation path identification method, information propagation path identification program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009215203 2009-09-17
JP2010015400A JP4550939B1 (en) 2009-09-17 2010-01-27 Information propagation path identification device, information propagation path identification method, information propagation path identification program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010103670A Division JP2011086278A (en) 2009-09-17 2010-04-28 Device, method and program for specifying information propagation route

Publications (2)

Publication Number Publication Date
JP4550939B1 true JP4550939B1 (en) 2010-09-22
JP2011086273A JP2011086273A (en) 2011-04-28

Family

ID=42978720

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010015400A Expired - Fee Related JP4550939B1 (en) 2009-09-17 2010-01-27 Information propagation path identification device, information propagation path identification method, information propagation path identification program
JP2010103670A Pending JP2011086278A (en) 2009-09-17 2010-04-28 Device, method and program for specifying information propagation route

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010103670A Pending JP2011086278A (en) 2009-09-17 2010-04-28 Device, method and program for specifying information propagation route

Country Status (1)

Country Link
JP (2) JP4550939B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666428A (en) * 2020-06-04 2020-09-15 杭州凡闻科技有限公司 Network media propagation evaluation method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125588B (en) * 2018-10-30 2023-04-07 北京国双科技有限公司 Method and device for drawing and evaluating propagation effect graph, storage medium and processor

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034282A1 (en) * 2002-10-10 2004-04-22 Fujitsu Limited Content reuse management device and content reuse support device
JP2005122295A (en) * 2003-10-14 2005-05-12 Fujitsu Ltd Relationship figure creation program, relationship figure creation method, and relationship figure generation device
JP2005202766A (en) * 2004-01-16 2005-07-28 National Institute Of Information & Communication Technology System for simultaneous presentation of similar content
JP2007267173A (en) * 2006-03-29 2007-10-11 Toshiba Corp Content reproducing apparatus and method
JP2008129692A (en) * 2006-11-17 2008-06-05 Nec Corp Answer support device, answer support system, answer support method and answer support program
JP2008293351A (en) * 2007-05-25 2008-12-04 Nec Corp Information propagation situation investigation system, method, device, and program
JP2009199325A (en) * 2008-02-21 2009-09-03 Toshiba Corp Apparatus and method for generating display data
JP2009211211A (en) * 2008-02-29 2009-09-17 Internatl Business Mach Corp <Ibm> Analysis system, information processor, activity analysis method and program
JP2009211281A (en) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> Propagation structure extraction device, method and program, and computer-readable recording medium

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034282A1 (en) * 2002-10-10 2004-04-22 Fujitsu Limited Content reuse management device and content reuse support device
JP2005122295A (en) * 2003-10-14 2005-05-12 Fujitsu Ltd Relationship figure creation program, relationship figure creation method, and relationship figure generation device
JP2005202766A (en) * 2004-01-16 2005-07-28 National Institute Of Information & Communication Technology System for simultaneous presentation of similar content
JP2007267173A (en) * 2006-03-29 2007-10-11 Toshiba Corp Content reproducing apparatus and method
JP2008129692A (en) * 2006-11-17 2008-06-05 Nec Corp Answer support device, answer support system, answer support method and answer support program
JP2008293351A (en) * 2007-05-25 2008-12-04 Nec Corp Information propagation situation investigation system, method, device, and program
JP2009199325A (en) * 2008-02-21 2009-09-03 Toshiba Corp Apparatus and method for generating display data
JP2009211211A (en) * 2008-02-29 2009-09-17 Internatl Business Mach Corp <Ibm> Analysis system, information processor, activity analysis method and program
JP2009211281A (en) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> Propagation structure extraction device, method and program, and computer-readable recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666428A (en) * 2020-06-04 2020-09-15 杭州凡闻科技有限公司 Network media propagation evaluation method
CN111666428B (en) * 2020-06-04 2023-08-08 杭州凡闻科技有限公司 Network media propagation force evaluation method

Also Published As

Publication number Publication date
JP2011086273A (en) 2011-04-28
JP2011086278A (en) 2011-04-28

Similar Documents

Publication Publication Date Title
JP6906419B2 (en) Information providing equipment, information providing method, and program
KR101335400B1 (en) Identifying comments to show in connection with a document
US20150067476A1 (en) Title and body extraction from web page
Tessem et al. Word cloud visualisation of locative information
US8099430B2 (en) Computer method and apparatus of information management and navigation
US20160055845A1 (en) Generating training data for disambiguation
JP2012515382A (en) Visualize the structure of the site and enable site navigation for search results or linked pages
JP5989170B2 (en) Search result ranking apparatus and method using reliability of representative
JP2011022705A (en) Trail management method, system, and program
KR101541306B1 (en) Computer enabled method of important keyword extraction, server performing the same and storage media storing the same
JPWO2019224891A1 (en) Classification device, classification method, generation method, classification program and generation program
CN107526718A (en) Method and apparatus for generating text
CN103942211B (en) A kind of recognition methods of text page and device
JP2008165284A (en) System and method for monitoring rumor and program
JP2007193697A (en) Information collection apparatus, information collection method and program
KR102643311B1 (en) Marketer and advertisement request information management system
JP5040718B2 (en) Spam event detection apparatus, method, and program
JP4550939B1 (en) Information propagation path identification device, information propagation path identification method, information propagation path identification program
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
US9705972B2 (en) Managing a set of data
Cao et al. Extraction of informative blocks from web pages
JP2016045552A (en) Feature extraction program, feature extraction method, and feature extraction device
KR20160032599A (en) The method and apparatus for detecting concealment of social issue
US20120047128A1 (en) Open class noun classification
Li et al. Extraction of informative blocks from Web pages based on VIPS

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100708

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees