JP2011081450A - Web site configuration analysis device and site configuration analysis method - Google Patents

Web site configuration analysis device and site configuration analysis method Download PDF

Info

Publication number
JP2011081450A
JP2011081450A JP2009230888A JP2009230888A JP2011081450A JP 2011081450 A JP2011081450 A JP 2011081450A JP 2009230888 A JP2009230888 A JP 2009230888A JP 2009230888 A JP2009230888 A JP 2009230888A JP 2011081450 A JP2011081450 A JP 2011081450A
Authority
JP
Japan
Prior art keywords
function
web page
web
work
links
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009230888A
Other languages
Japanese (ja)
Inventor
Tatsuhiro Tsujikawa
竜宏 辻川
良介 ▲高▼橋
Ryosuke Takahashi
Akihito Nakahara
昭仁 中原
Naoya Tono
直哉 戸野
Takahiro Isohata
貴広 五十畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Social Information Services Ltd
Original Assignee
Hitachi Government and Public Sector System Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Government and Public Sector System Engineering Ltd filed Critical Hitachi Government and Public Sector System Engineering Ltd
Priority to JP2009230888A priority Critical patent/JP2011081450A/en
Publication of JP2011081450A publication Critical patent/JP2011081450A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To reliably migrate the configuration of a Web site to the other one, and to precisely recognize the workload in migration, and to improve operation efficiency and quality. <P>SOLUTION: The Web site configuration analysis device is provided with: a link list creation means for creating a list of links of a Web page having links beginning with a top page determined by a top page determination means; and a migration workload affecting element extraction means for extracting elements affecting a migration workload in migrating the configuration of a Web site configuring the Web page to the other site configuration, for each Web page, on the basis of the link of the Web page created by the link list creation means. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、Webサイトの構成を分析するWebサイト構成分析装置およびWebサイト構成分析方法に関する。   The present invention relates to a website configuration analysis apparatus and a website configuration analysis method for analyzing a website configuration.

従来、Webサイト、すなわちホームページ構成を分析する場合に、特許文献1に示されているように、ホームページを構成するファイルをインターネットを介して取得し、取得されたファイルの形式を判断し、アンカータグやイメージタグ等の存在を判別し、URLを分析しURLの示すホームページを検出し、ホームページ全体の構成を分析することが行われている。   Conventionally, when analyzing the configuration of a website, that is, a homepage, as shown in Patent Document 1, a file constituting the homepage is acquired via the Internet, the format of the acquired file is determined, and an anchor tag is obtained. And the presence of image tags, etc., analyzing the URL, detecting the homepage indicated by the URL, and analyzing the configuration of the entire homepage.

Webサイトの分析は、Webサイト内に実際に設けられているリンクの経路を辿り、Webサイトを構成する各Webページ間のリンクの経路を分析することにより行われる。   The analysis of the Web site is performed by tracing the link path actually provided in the Web site and analyzing the link path between the Web pages constituting the Web site.

特許文献2には、Webサイトの構成をリンクの経路を辿って分析し、Webサイト全体の構成を視覚的に容易に認識できるように表示するWebサイト分析システムが記載されている。   Patent Document 2 describes a website analysis system that analyzes the configuration of a website by following the path of a link and displays the entire website configuration so that it can be easily recognized visually.

特開平10−207756号公報JP-A-10-207756 特開2003−337738号公報JP 2003-337738 A

特許文献2には、Webサイトの構成をトップページを起点とする階層構成にして、トップページを起点にする階層構造で表示することを行っているが、このようにWebサイトのサイト構成を他のサイト構成に移行する時の移行作業時作業量については言及していない。
Webサイトの移行作業時には、
・作業量見積り
・作業対象ファイルの洗い出し
・サイト構成の見直し検討
が必要であるが、これらの作業には手間すなわち工数がかかっており、間違いがあると、見積りや品質に影響を与えることになる。
In Patent Document 2, the website configuration is displayed in a hierarchical structure starting from the top page and displayed in a hierarchical structure starting from the top page. It does not mention the amount of work at the time of migration work when migrating to the site configuration.
When migrating websites,
・ Estimate the amount of work ・ Find out the files to be worked on ・ Review and review the site configuration is necessary, but these tasks are time-consuming, that is, man-hours. If there is an error, the estimation and quality will be affected. .

本発明は、かかる点に鑑みてWebサイトのサイト構成を他のサイト構成に移行する時の移行作業を確実に行い得るようにすると共に、移行作業時作業量を精確に把握できるようにして、作業効率および品質の向上を図ることを目的とする。   In view of such points, the present invention makes it possible to reliably perform the migration work when migrating the site configuration of the website to another site configuration, and to accurately grasp the work amount during the migration work, The purpose is to improve work efficiency and quality.

本発明は、Webサイトを構成するWebページのデータを記憶し、各Webページの影響要素を記憶するデータ記憶手段と、
前記データ記憶手段に記憶されている前記Webページの中から、前記Webサイトのトップページを決定するトップページ決定手段と、
前記トップページ決定手段により決定された前記トップページを起点としてリンクが設けられている前記Webページのリンクの一覧を作成するリンク一覧作成手段と、
前記リンク一覧作成手段により作成された前記Webページのリンクを辿って各Webページについて、前記Webページを構成するWebサイトのサイト構成を他のサイト構成に移行する時の移行作業時作業量に影響する要素を抽出する移行作業時作業量影響要素抽出手段と、
を備えたことを特徴とするWebサイト構成分析装置を提供する。
The present invention stores data of Web pages constituting a Web site and stores data influencing elements of each Web page;
Top page determining means for determining a top page of the website from the web pages stored in the data storage means;
A link list creating means for creating a list of links of the web page provided with links starting from the top page determined by the top page determining means;
Tracing the link of the web page created by the link list creation means affects the amount of work at the time of migration work for each web page when migrating the site configuration of the web site constituting the web page to another site configuration A migration work amount influence element extraction means for extracting elements to be
A web site configuration analyzing apparatus characterized by comprising:

本発明は、また、前記移行作業時作業量影響要素抽出手段は、次に示す要素抽出機能の1つ以上もしくは全部を備えることを特徴とするWebサイト構成分析装置を提供する。   The present invention also provides a Web site configuration analyzing apparatus characterized in that the migration work amount influence element extraction means includes one or more or all of the following element extraction functions.

・各Webページの文字数を数える機能
・画像のリンクを数える機能
・PDFのリンクを数える機能
・テーブルの数を数える機能
・デッドリンクを検出する機能
・Webページの総数を数える機能
・Webページの更新日時を取得する機能
本発明は、また、前記移行作業時影響要素抽出手段は、さらに次に示す機能の1つ以上もしくは全部を備えることを特徴とするWebサイト構成分析装置を提供する
・各Webページのタイトルを取得する機能
・代替テキストが付与されていない画像を検出する機能
・パンくずナビゲーションを取得する機能
本発明は、また、前記移行作業時影響要素抽出手段は、さらに次に示す機能の1つ以上もしくは全部を備えることを特徴とするWebサイト構成分析装置を提供する。・各Webページの見出しを取得する機能
・URLのディレクトリ階層を提示する機能
本発明は、データ記憶手段に、Webサイトを構成するWebページのデータが記憶され、各Webページの影響要素が記憶され、
トップページ決定手段によって、前記データ記憶手段に記憶されている前記Webページの中から、前記Webサイトのトップページが決定され、
リンク一覧作成手段によって、前記トップページ決定手段により決定された前記トップページを起点としてリンクが設けられている前記Webページのリンクの一覧が作成され、
移行作業時作業量影響要素抽出手段によって、前記リンク一覧作成手段により作成された前記Webページのリンクが辿られて各Webページについて、前記Webページを構成するWebサイトのサイト構成を他のサイト構成に移行する時の移行作業時作業量に影響する要素が抽出され、
を備えたことを特徴とするWebサイト構成分析方法を提供する。
-A function that counts the number of characters in each Web page-A function that counts image links-A function that counts PDF links-A function that counts the number of tables-A function that detects dead links-A function that counts the total number of Web pages-A Web page update Function for Acquiring Date and Time The present invention also provides a website configuration analysis apparatus, wherein the transition work influence element extraction means further comprises one or more or all of the following functions: Function for acquiring the title of the page-Function for detecting an image to which no alternative text has been assigned-Function for acquiring breadcrumb navigation The present invention is also characterized in that the transition work influence element extraction means has the following functions: Provided is a website configuration analyzing apparatus including one or more or all of them. The function of acquiring the headline of each Web page The function of presenting the directory hierarchy of the URL In the present invention, the data storage means stores the data of the Web pages that make up the Web site, and stores the influencing factors of each Web page ,
The top page determining means determines the top page of the website from the web pages stored in the data storage means,
A list of links of the Web page provided with links starting from the top page determined by the top page determining means is created by the link list creating means,
The link of the web page created by the link list creating means is traced by the work amount influence factor extracting means at the time of migration work, and the site configuration of the web site constituting the web page is changed to another site configuration for each web page. Elements that affect the amount of work during the transition work when moving to
A website configuration analysis method characterized by comprising:

本発明は、また、次に示す要素機能の1つ以上もしくは全部を備える前記移行作業時作業量影響要素抽出手段によって、各機能に対応する要素が抽出されることを特徴とするサイト構成分析方法を提供する。   The present invention also provides a site configuration analysis method, wherein elements corresponding to each function are extracted by the migration work amount influence element extraction means having one or more of the following element functions: I will provide a.

・各Webページの文字数を数える機能
・画像のリンクを数える機能
・PDFのリンクを数える機能
・テーブルの数を数える機能
・デッドリンクを検出する機能
・Webページの総数を数える機能
・Webページの更新日時を取得する機能
本発明は、また、次に示す要素機能の1つ以上もしくは全部を備える前記移行作業時作業量影響要素抽出手段によって、各機能に対応する要素が抽出されることを特徴とするWebサイト構成分析方法を提供する。
-A function that counts the number of characters in each Web page-A function that counts image links-A function that counts PDF links-A function that counts the number of tables-A function that detects dead links-A function that counts the total number of Web pages-A Web page update Function for obtaining date and time The present invention is also characterized in that the elements corresponding to each function are extracted by the work amount influence element extraction means at the time of transition work comprising one or more or all of the following element functions. A website configuration analysis method is provided.

・各Webページのタイトルを取得する機能
・代替テキストが付与されていない画像を検出する機能
・パンくずナビゲーションを取得する機能
本発明は、また、次に示す要素機能の1つ以上もしくは全部を備える前記移行作業時作業量影響要素抽出手段によって、各機能に対応する要素が抽出されることを特徴とするWebサイト構成分析方法を提供する。
-Function for acquiring the title of each Web page-Function for detecting an image to which no alternative text is given-Function for acquiring breadcrumb navigation The present invention also includes one or more or all of the following element functions: There is provided a Web site configuration analysis method characterized in that elements corresponding to each function are extracted by the migration work amount influence element extraction means.

・各Webページの見出しを取得する機能
・URLのディレクトリ階層を提示する機能
・各Webページの文字数を数える機能
・ Function to acquire headline of each Web page ・ Function to present directory hierarchy of URL ・ Function to count the number of characters in each Web page

本発明によれば、上述のようにトップページを起点としてリンクを辿り、各Webページについて、移行作業時作業量に影響する要素を抽出するようにしているので、Webサイド構成を他のサイト構成に移行する時の移行作業を確実に行うことができ、かつ作業効率および品質の向上を図ることができる。   According to the present invention, as described above, the link is traced starting from the top page, and elements that affect the amount of work during migration are extracted for each Web page. Therefore, it is possible to reliably perform the transition work when shifting to, and to improve the work efficiency and quality.

本発明の実施例の概略構成を示す図。The figure which shows schematic structure of the Example of this invention. 本発明の実施例の構成を示すブロック図。The block diagram which shows the structure of the Example of this invention. 要素抽出手段が備える機能とこの機能によって抽出される要素(パラメータ)を示す図。The figure which shows the function with which an element extraction means is provided, and the element (parameter) extracted by this function. ディレクトリ階層で示されたWebサイト機能図。Web site function diagram shown in a directory hierarchy. その他の出力内容を示す図。The figure which shows the other output content. その他の出力内容を示す図。The figure which shows the other output content. その他の出力内容を示す図。The figure which shows the other output content. 本発明の実施例のフローチャートを示す図。The figure which shows the flowchart of the Example of this invention.

以下、本発明の実施例を図面に基づいて説明する。   Embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明の実施例の概略構成を示し、図2は本発明の実施例をブロックで示す。   FIG. 1 shows a schematic configuration of an embodiment of the present invention, and FIG. 2 shows an embodiment of the present invention in a block form.

図1において、本発明に実施例であるWebサイト構成分析装置100は、ネットを介してWebサーバに接続され、各種情報、特にWebサイトを構成するWebページについての情報が収集4される。   In FIG. 1, a website configuration analyzing apparatus 100 according to an embodiment of the present invention is connected to a web server via a network, and various information, particularly information about web pages constituting the website is collected 4.

Webサイト構成分析装置100は、2に示すように,Webページについての情報を入力すると、Webサイトのトップページを指定して(トップページの決定)、自動的にリンクを辿って、リンク一覧作成、移行作業時作業量影響要素抽出の分析5を行い、その結果は出力6に反映される。出力の1例としては、Webサイト構成がCSV(Comma-Separated Values)ファイル6として出力7され、またディレクトリ階層構造として出力される。2の内容は、図2に詳述されている。   As shown in FIG. 2, when the information about the web page is input, the website configuration analyzing apparatus 100 designates the top page of the website (determining the top page), automatically follows the link, and creates a link list. Then, an analysis 5 of the work amount influence factor extraction at the time of the transition work is performed, and the result is reflected in the output 6. As an example of output, the Web site configuration is output 7 as a CSV (Comma-Separated Values) file 6 and is output as a directory hierarchical structure. The contents of 2 are detailed in FIG.

図2において、Webサイト構成分析装置100は、入力手段11、トップページ手段12、リンク一覧作成手段13、移行作業時作業量影響要素(パラメータ)抽出手段14、CSVファイル形成手段15、階層構造形成手段16、出力手段17およびデータ記憶手段20を有して、表示画面を備えた画面表示手段21に接続される。画面表示手段21は、Webサイト構成分析装置100内に組み込まれる場合もあるし、通信手段を介して接続される場合もある。   In FIG. 2, the website configuration analysis apparatus 100 includes an input unit 11, a top page unit 12, a link list creation unit 13, a migration work amount influence element (parameter) extraction unit 14, a CSV file formation unit 15, a hierarchical structure formation. It has means 16, output means 17, and data storage means 20, and is connected to a screen display means 21 having a display screen. The screen display unit 21 may be incorporated in the website configuration analysis apparatus 100 or may be connected via a communication unit.

入力手段11は、ネット1を介してWebサーバ3からWebサイトを構成するWebページのデータを入力する。入力されたWebページデータはデータ記憶手段20に記憶される。データ記憶手段20には、更に各Webページの影響要素、階層化ルールおよび各種の操作のためのプログラムが格納される。   The input unit 11 inputs data of a Web page that configures a Web site from the Web server 3 via the network 1. The input web page data is stored in the data storage unit 20. The data storage unit 20 further stores influential elements of each Web page, hierarchization rules, and programs for various operations.

トップページ決定手段12は、Webサイト構成分析指令があると、データ記憶手段20に記憶されているWebページの中からWebサイトのトップページを決定する。Webページに付されているタイトルあるいは名称のWebページをトップページとして決定することができる。   When there is a website configuration analysis command, the top page determination means 12 determines the top page of the website from the web pages stored in the data storage means 20. The web page having the title or name attached to the web page can be determined as the top page.

Webサイト内のWebページは、原則的にリンク連結され、互いに行き来できるように構成されている。   Web pages in the Web site are linked in principle and configured to be able to go back and forth.

図3は、移行時の作業量見積りに当っての基本対応、付加対応としてのアクセシビリティ対応およびユーザビリティ対応とに分けて構成してある。   FIG. 3 is divided into basic correspondence for estimating the amount of work at the time of migration, accessibility correspondence as additional correspondence, and usability correspondence.

基本対応の場合に、要素抽出手段14は対応機能として次の機能を備える、
・各Webページの文字数を数える機能
・画像のリンクを数える機能
・PDFのリンクを数える機能
・テーブルの数を数える機能
・デッドリンクを検出する機能
・ページの総数を数える機能
・ページの更新日時を取得する機能
これらの対応機能によって次の抽出要素(パラメータ)が抽出される
・各Webページの文字数
・画像のリンクの数
・PDF(Portable Document Format)のリンクの数
・テーブル(table要素)の数
・デッドリンクの数
・ページの総数
・ページの更新日時
基本対応に加えて、アクセシビリティ対応する場合に、要素抽出手段14は対応機能として次の機能を備える。
In the case of basic correspondence, the element extraction means 14 has the following functions as corresponding functions.
-A function that counts the number of characters in each Web page-A function that counts image links-A function that counts PDF links-A function that counts the number of tables-A function that detects dead links-A function that counts the total number of pages-A page update date and time Functions to be acquired The following extracted elements (parameters) are extracted by these corresponding functions:-Number of characters in each Web page-Number of images links-Number of PDF (Portable Document Format) links-Number of tables (table elements) -Number of dead links-Total number of pages-In addition to basic support for page update date / time, in the case of accessibility support, the element extraction means 14 has the following functions as support functions.

・ページのタイトルを取得する機能
・代替テキストが付与されていない画像を検出する機能
・パンくずナビゲーションを取得する機能
これらの機能によって次の抽出要素が抽出される。
-Function to acquire the title of the page-Function to detect an image to which no alternative text is given-Function to acquire breadcrumb navigation The following extraction elements are extracted by these functions.

・ページにタイトル
・画像(img要素)の代替テキスト(alt属性)
・パンくずナビゲーション
更に、上述に加えて、ユーザビリティ対応する場合に、要素抽出手段14は対応機能として次の機能を備える。
・ Title on the page ・ Alternative text (alt attribute) of image (img element)
-Breadcrumb navigation Further, in addition to the above, in the case of handling usability, the element extraction means 14 has the following functions as corresponding functions.

・ページの見出しを取得する機能
・URL(Uniform Resource Locatorインターネット上に存在する情報資源(文書や画像などの)の場所を指す。)のディレクトリ階層を提供する機能
各Webページの文字数を数える機能
これらの機能によって次の抽出要素が抽出される
・ページの見出し
・ディレクトリ階層
・各Webページの文字数
CSVファイル形成手段15は、移行作業時作業量影響要素抽出手段14の制御の下に自動的にリンクを辿ってWebサイト構成をCSVファイルとして出力する。
・ Function to obtain page heading ・ Uniform Resource Locator Function that provides a directory hierarchy of information resources (such as documents and images) existing on the Internet Functions that count the number of characters in each Web page The following extraction elements are extracted by the function of: • Page heading • Directory hierarchy • Number of characters of each Web page The CSV file forming means 15 automatically links under the control of the migration work amount influence element extracting means 14 To output the website configuration as a CSV file.

また、階層構造形成手段16は、自動的にリンクを辿ってWebサイト構成をデータ記憶手段20に格納された階層ルールを用いて階層構造を出力する。   Further, the hierarchical structure forming means 16 automatically follows the link and outputs the hierarchical structure using the hierarchical rules stored in the data storage means 20 for the website configuration.

図4は、Webサイト構成をディレクトリ階層表示した例を示す。ディレクトリ階層とは、URLの各ディレクトリを前から順に並べて階層化されたものである。図4に示すように、基本的に階層が深くなるにつれ、対象とする内容が縛られるようになる。全てのファイルが階層わけして一覧になるので、Webサイトの構成が1回でわかるようになる。このように、Webサイト構成が見える化され、ユーザビリティの評価、改善検討に使用し易いものとされる。   FIG. 4 shows an example in which a Web site configuration is displayed in a directory hierarchy. The directory hierarchy is a hierarchy of URL directories arranged in order from the front. As shown in FIG. 4, basically, as the hierarchy becomes deeper, the target content is bound. Since all files are divided into a list, the structure of the website can be understood at a time. In this way, the website configuration is visualized and is easy to use for usability evaluation and improvement studies.

図5は、出力手段19から出力されるその他の出力内容を示す。すなわちWebサイトの閲覧状況を分析した結果を併せて表示することができる。
●ページタイトル
●大見出し
●テーブル数
●alt未指定img数
●URL
●文字数(タグ等は除く)
●更新日時
●h1の数(見出し。見出しのレベルはh1〜h6まであり、h1が一番大きな見出しとなる。)
●リンク情報
・全リンク数
・画像へのリンク数
・PDFへのリンク数
・外部リンク数
・デッドリンク数
※デッドリンクの一覧も別CSVで出力
FIG. 5 shows other output contents output from the output means 19. That is, the result of analyzing the browsing status of the website can be displayed together.
● Page title ● Main heading ● Number of tables ● Number of unspecified imgs ● URL
● Number of characters (excluding tags)
● Update date and time ● Number of h1 (heading. There are heading levels from h1 to h6, and h1 is the largest heading.)
● Link information ・ Number of all links ・ Number of links to images ・ Number of links to PDF ・ Number of external links ・ Number of dead links * List of dead links is also output in a separate CSV

図6は、アクセシビリティ対応した場合に出力されるその他の出力内容を示す。
図7は、ユーザビリティ対応した場合に出力されるその他の出力内容を示す。
FIG. 6 shows other output contents output when accessibility is supported.
FIG. 7 shows other output contents that are output when usability is supported.

上述の実施の形態に係るWebサイト構成分析システムにおいては、WebサイトがXML,HTML等の言語で記述されている場合、あるいはCGI(Common Gateway Interface)を用いたWebサイトや、動画を組み込んだWebサイトの構成について分析することができる。   In the website configuration analysis system according to the above-described embodiment, when a website is described in a language such as XML or HTML, a website using CGI (Common Gateway Interface), or a website incorporating a moving image. Analyze site composition.

図8は、本発明の実施例のフローチャートを示す。   FIG. 8 shows a flowchart of an embodiment of the present invention.

図8において、トップページ決定手段が、データ記憶手段に記憶されているWebページの中から、Webサイトのトップページが決定する(S1)。   In FIG. 8, the top page determination means determines the top page of the website from the web pages stored in the data storage means (S1).

リンク一覧作成手段が、トップページ決定手段により決定されたトップページを起点としてリンクが設けられているWebページのリンクの一覧を作成する(S2)。   The link list creating means creates a list of links of Web pages provided with links starting from the top page determined by the top page determining means (S2).

移行作業時作業量影響要素抽出手段が、リンク一覧作成手段により作成されたWebページのリンクを辿って各Webページについて、Webページを構成するWebサイトのサイト構成を他のサイト構成に移行する時の移行作業時作業量に影響する要素を抽出する(S3)。   When the migration work amount influence factor extracting unit moves the site configuration of the Web site constituting the Web page to another site configuration for each Web page by following the link of the Web page created by the link list creating unit Elements that affect the amount of work during the transfer work are extracted (S3).

CSVファイル形成手段が、CSVファイルを形成する(S4)。   The CSV file forming means forms a CSV file (S4).

階層構造形成手段が、階層構造形成する(S5)。   The hierarchical structure forming means forms a hierarchical structure (S5).

生成された結果はすべて画面表示手段の表示画面に表示される(S6)。   All the generated results are displayed on the display screen of the screen display means (S6).

1…ネット、3…Webサーバ、4…情報収集、5…分析、6…CSVファイル、7…出力、11…入力手段、12…トップページ決定手段、13…リンク一覧作成手段、14…移行作業時作業量影響要素抽出手段(要素抽出手段)、15…CSVファイル形成手段、16…階層構造形成手段、17…出力手段、20…データ記憶手段、21…画面表示手段、100…Webサイト構成分析装置。   DESCRIPTION OF SYMBOLS 1 ... Net, 3 ... Web server, 4 ... Information collection, 5 ... Analysis, 6 ... CSV file, 7 ... Output, 11 ... Input means, 12 ... Top page determination means, 13 ... Link list creation means, 14 ... Migration work Time work amount affecting element extracting means (element extracting means), 15 ... CSV file forming means, 16 ... Hierarchical structure forming means, 17 ... Output means, 20 ... Data storage means, 21 ... Screen display means, 100 ... Web site configuration analysis apparatus.

Claims (8)

Webサイトを構成するWebページのデータを記憶し、各Webページの影響要素と移行作業時作業量との関係を記憶するデータ記憶手段と、
前記データ記憶手段に記憶されている前記Webページの中から、前記Webサイトのトップページを決定するトップページ決定手段と、
前記トップページ決定手段により決定された前記トップページを起点としてリンクが設けられている前記Webページのリンクの一覧を作成するリンク一覧作成手段と、
前記リンク一覧作成手段により作成された前記Webページのリンクを辿って各Webページについて、前記Webページを構成するWebサイトのサイト構成を他のサイト構成に移行する時の移行作業時作業量に影響する要素を抽出する移行作業時作業量影響要素抽出手段と、
を備えたことを特徴とするWebサイト構成分析装置。
Data storage means for storing data of Web pages constituting the Web site, and storing a relationship between an influence factor of each Web page and a work amount at the time of migration work;
Top page determining means for determining a top page of the website from the web pages stored in the data storage means;
A link list creating means for creating a list of links of the web page provided with links starting from the top page determined by the top page determining means;
Tracing the link of the web page created by the link list creation means affects the amount of work at the time of migration work for each web page when migrating the site configuration of the web site constituting the web page to another site configuration A migration work amount influence element extraction means for extracting elements to be
A website configuration analysis apparatus characterized by comprising:
請求項1において、前記移行作業時作業量影響要素抽出手段は、次に示す要素抽出機能の1つ以上もしくは全部を備えることを特徴とするWebサイト構成分析装置。
・各Webページの文字数を数える機能
・画像のリンクを数える機能
・PDFのリンクを数える機能
・テーブルの数を数える機能
・デッドリンクを検出する機能
・Webページの総数を数える機能
・Webページの更新日時を取得する機能
2. The website configuration analyzing apparatus according to claim 1, wherein the migration work amount influence element extraction means includes one or more or all of the following element extraction functions.
-A function that counts the number of characters in each Web page-A function that counts image links-A function that counts PDF links-A function that counts the number of tables-A function that detects dead links-A function that counts the total number of Web pages-A Web page update Function for obtaining the date and time
請求項2において、前記移行作業時影響要素抽出手段は、さらに次に示す機能の1つ以上もしくは全部を備えることを特徴とするWebサイト構成分析装置。
・各Webページのタイトルを取得する機能
・代替テキストが付与されていない画像を検出する機能
・パンくずナビゲーションを取得する機能
3. The website configuration analyzing apparatus according to claim 2, wherein the transition work influence element extracting unit further includes one or more or all of the following functions.
・ Function to acquire the title of each Web page ・ Function to detect an image with no alternative text ・ Function to acquire breadcrumb navigation
請求項3において、前記移行作業時影響要素抽出手段は、さらに次に示す機能の1つ以上もしくは全部を備えることを特徴とするWebサイト構成分析装置。
・各Webページの見出しを取得する機能
・URLのディレクトリ階層を提示する機能
4. The website configuration analyzing apparatus according to claim 3, wherein the migration work influence element extracting unit further includes one or more or all of the following functions.
・ Function to obtain headline of each Web page ・ Function to present directory hierarchy of URL
データ記憶手段に、Webサイトを構成するWebページのデータが記憶され、各Webページの影響要素と移行作業時作業量との関係が記憶され、
トップページ決定手段によって、前記データ記憶手段に記憶されている前記Webページの中から、前記Webサイトのトップページが決定され、
リンク一覧作成手段によって、前記トップページ決定手段により決定された前記トップページを起点としてリンクが設けられている前記Webページのリンクの一覧が作成され、
移行作業時作業量影響要素抽出手段によって、前記リンク一覧作成手段により作成された前記Webページのリンクが辿られて各Webページについて、前記Webページを構成するWebサイトのサイト構成を他のサイト構成に移行する時の移行作業時作業量に影響する要素が抽出され、
を備えたことを特徴とするWebサイト構成分析方法。
The data storage means stores the data of the Web pages that make up the Web site, stores the relationship between the influential elements of each Web page and the amount of work during migration work,
The top page determining means determines the top page of the website from the web pages stored in the data storage means,
A list of links of the Web page provided with links starting from the top page determined by the top page determining means is created by the link list creating means,
The link of the web page created by the link list creating means is traced by the work amount influence factor extracting means at the time of migration work, and the site configuration of the web site constituting the web page is changed to another site configuration for each web page. Elements that affect the amount of work during the transition work when moving to
A website configuration analysis method comprising:
請求項5において、次に示す要素機能の1つ以上もしくは全部を備える前記移行作業時作業量影響要素抽出手段によって、各機能に対応する要素が抽出されることを特徴とするサイト構成分析方法。
を特徴とするWebサイト構成分析装置。
・各Webページの文字数を数える機能
・画像のリンクを数える機能
・PDFのリンクを数える機能
・テーブルの数を数える機能
・デッドリンクを検出する機能
・Webページの総数を数える機能
・Webページの更新日時を取得する機能
6. The site configuration analysis method according to claim 5, wherein elements corresponding to each function are extracted by said work amount influence element extraction means at the time of transition work including one or more of the following element functions.
A website configuration analysis apparatus characterized by the above.
-A function that counts the number of characters in each Web page-A function that counts image links-A function that counts PDF links-A function that counts the number of tables-A function that detects dead links-A function that counts the total number of Web pages-A Web page update Function for obtaining the date and time
請求項6において、次に示す要素機能の1つ以上もしくは全部を備える前記移行作業時作業量影響要素抽出手段によって、各機能に対応する要素が抽出されることを特徴とするWebサイト構成分析方法。
・各Webページのタイトルを取得する機能
・代替テキストが付与されていない画像を検出する機能
・パンくずナビゲーションを取得する機能
7. The Web site configuration analysis method according to claim 6, wherein elements corresponding to each function are extracted by said transition work amount influence element extracting means having one or more or all of the following element functions: .
・ Function to acquire the title of each Web page ・ Function to detect an image with no alternative text ・ Function to acquire breadcrumb navigation
請求項7において、次に示す要素機能の1つ以上もしくは全部を備える前記移行作業時作業量影響要素抽出手段によって、各機能に対応する要素が抽出されることを特徴とするWebサイト構成分析方法。
・各Webページの見出しを取得する機能
・URLのディレクトリ階層を提示する機能
各Webページの文字数を数える機能
8. The Web site configuration analysis method according to claim 7, wherein elements corresponding to each function are extracted by said transition work amount influence element extraction means having one or more or all of the following element functions: .
・ Function to acquire headline of each Web page ・ Function to present directory hierarchy of URL Function to count the number of characters of each Web page
JP2009230888A 2009-10-02 2009-10-02 Web site configuration analysis device and site configuration analysis method Withdrawn JP2011081450A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009230888A JP2011081450A (en) 2009-10-02 2009-10-02 Web site configuration analysis device and site configuration analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009230888A JP2011081450A (en) 2009-10-02 2009-10-02 Web site configuration analysis device and site configuration analysis method

Publications (1)

Publication Number Publication Date
JP2011081450A true JP2011081450A (en) 2011-04-21

Family

ID=44075472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009230888A Withdrawn JP2011081450A (en) 2009-10-02 2009-10-02 Web site configuration analysis device and site configuration analysis method

Country Status (1)

Country Link
JP (1) JP2011081450A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528930A (en) * 2012-05-29 2015-10-01 ヴィヴァンス カンパニー、リミテッド Automatic extraction system and extraction method for website internal structure

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528930A (en) * 2012-05-29 2015-10-01 ヴィヴァンス カンパニー、リミテッド Automatic extraction system and extraction method for website internal structure

Similar Documents

Publication Publication Date Title
US10049095B2 (en) In-context editing of output presentations via automatic pattern detection
EP2734934A1 (en) Configuring web crawler to extract web page information
CN103034686B (en) A kind of method of toolbar windows that Loads Image and device thereof
JP5324375B2 (en) Capture system
JP5594001B2 (en) Information processing apparatus, information processing method, and program thereof
KR20120029013A (en) Host apparatus and web content display method thereof
WO2016075829A1 (en) Data acquisition program, data acquisition method and data acquisition device
KR100835905B1 (en) Apparatus for visualizing website visitor&#39;s click distribution in webpage and method using the same
JP2011081450A (en) Web site configuration analysis device and site configuration analysis method
CN102981876A (en) Method and device for loading picture toolbar window
JP2012145970A (en) Portlet support system, apparatus, method and program
KR101761592B1 (en) Apparatus and computer program stored in computer readable medium for updating web object inserted in document
CN110147477B (en) Data resource modeling extraction method, device and equipment of Web system
JP2015011691A (en) Prediction program, prediction method, and prediction apparatus
CN105024870A (en) Dial testing realization method and system
JP2015026345A (en) Search device, search system, and program
Bainbridge et al. Interactive context-aware user-driven metadata correction in digital libraries
US20140258835A1 (en) System and method to download images from a website
Su et al. KaitoroCap: A document navigation capture and visualisation tool
JP6101880B1 (en) System, program and recording medium for displaying Web page
JP2008052553A (en) Web text extraction apparatus, method, and program
JP7266977B2 (en) Apparatus, method and program for collecting applicant information
US20240054174A1 (en) Methods and systems for obtaining and storing web pages
TWI494781B (en) Activex capable of saving the information of the webpage and method thereof
JP4768951B2 (en) Web site analysis system

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20121204