JP6044008B2 - Automatic extraction system and extraction method for website internal structure - Google Patents
Automatic extraction system and extraction method for website internal structure Download PDFInfo
- Publication number
- JP6044008B2 JP6044008B2 JP2015514895A JP2015514895A JP6044008B2 JP 6044008 B2 JP6044008 B2 JP 6044008B2 JP 2015514895 A JP2015514895 A JP 2015514895A JP 2015514895 A JP2015514895 A JP 2015514895A JP 6044008 B2 JP6044008 B2 JP 6044008B2
- Authority
- JP
- Japan
- Prior art keywords
- website
- information
- internal structure
- browser
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、ウェブサイト内部構造の自動抽出システム及び抽出方法に関する。さらに詳しくは、ウェブサイトを介して提供される多様なコンテンツの物理的位置(コンポーネント、ドメイン、サーバ等)に該当する内部的構造を容易に把握することができるように、ウェブサイト構造を能動的に抽出及び視覚化することができるウェブサイト内部構造の自動抽出システム及び抽出方法に関する。 The present invention relates to an automatic extraction system and extraction method for a website internal structure. In more detail, the website structure is active so that the internal structure corresponding to the physical location (component, domain, server, etc.) of various contents provided via the website can be easily grasped. The present invention relates to an automatic extraction system and extraction method for an internal structure of a website that can be extracted and visualized.
ポータルサイト[ネイバー(naver)、ダウム(daum)等]、コミュニティサイト[フェイスブック(facebook)、サイワールド(cyworld)等]等のようなオンラインサービスウェブサイトは、多数のドメイン及びサーバを介してそのサービスがなされているのが一般的である。例えば、ポータルサイトのネイバーは、使用者に見えるURLはwww.naver.com一つであるが、内部的にはwww.naver.comの他にもics.naver.com、nv1.ad.naver.com、nv2.ad.naver.com、static.naver.com、imgshopping.naver.com等、10余りを超えるドメインに分けられて各々ウェブコンポーネントをサービスしており、各々のドメイン別に物理的なサーバが割り当てられている複雑な構造である。 Online service websites such as portal sites [naver, daum, etc.], community sites [facebook, cyworld, etc.] are connected via a number of domains and servers. Generally, services are provided. For example, a neighbor of a portal site has a URL that is visible to the user as www. naver. com, but internally, www. naver. com. naver. com, nv1. ad. naver. com, nv2. ad. naver. com, static. naver. com, imgshopping. naver. com, etc., each of which is divided into more than 10 domains, each serving a web component, and has a complicated structure in which a physical server is assigned to each domain.
また、自己のインフラの他にCDN(Contents Delivery Network)サービスや、クラウドコンピュータのような外部インフラの利用が増加し、内部の運営者も該当ウェブサイトの構造を把握するのが段々大変になってきている。 In addition to its own infrastructure, CDN (Contents Delivery Network) services and use of external infrastructure such as cloud computers have increased, and it has become increasingly difficult for internal operators to understand the structure of the corresponding website. ing.
また、少なくないオンラインサービスウェブサイトのコンテンツには、自己のコンテンツの他に外部の広告コンテンツやフェイスブック、ツイッターのようなSNS(Social Network Service)のリアルタイム情報等を融合(Mesh−Up)して提供している(第三者コンテンツ)。 In addition, the content of many online service websites is a combination of external advertising content, SNS (Social Network Service) real-time information such as Facebook, etc. in addition to its own content (Mesh-Up). Provided (third-party content).
図1は、ウェブページの一般的な構成を図示化したものであり、実質的なウェブサイトの内部構造を図式化するための最も基本的な情報である。ウェブページ100は、HTMLファイル、CSSファイル、イメージファイル、Javascriptファイル等、画面上へのコンテンツ表示のための多数のコンポーネント110で構成され、各コンポーネントについてのアドレスであるコンポーネントURLは、一つのDNSドメイン120と対応する。一つのDNSドメインは、一つ以上のウェブサーバ130に対応する。一方、インターネット標準RFC2046に規定された固有のメディア類型115の詳細な例を含むコンポーネント110は、図2のとおりである。
FIG. 1 illustrates the general structure of a web page and is the most basic information for diagrammatically showing the internal structure of a substantial website. The
通常、このようなウェブサイトの内部構造図は、既存には運営者が手作業で作成し管理してきたが、随時に変化するサービスの構造や、随時に追加、削除、変更されるサーバインフラの内容を、このような手作業では適時に正確に反映することができない問題がある。 Normally, the internal structure diagram of such a website has been manually created and managed by the operator, but the structure of the service that changes from time to time and the server infrastructure that is added, deleted, or changed at any time There is a problem that the contents cannot be accurately reflected in a timely manner by such manual work.
さらに、CDNサービス、クラウドコンピュータの利用や、第三者コンテンツの活用のように外部のコンテンツやインフラの利用が増え、ウェブサイト運営者がウェブサイト全体の内部構造を把握し管理することがほとんど不可能になった。 In addition, the use of external content and infrastructure, such as the use of CDN services, cloud computers, and third-party content, has increased, making it almost impossible for website operators to understand and manage the internal structure of the entire website. It became possible.
上記のような問題点を解決するための本発明は、実際の使用者端に位置する複数の端末上のブラウザ(またはブラウザをシミュレーションするモジュール)を介して該当ウェブサイトに直接接続し、ブラウザとウェブサーバ間のデータ等を収集し分析することにより、ウェブサイトの内部構造を自動で抽出することができるウェブサイト構造の抽出方法を提供しようとするところにその目的がある。 In order to solve the above problems, the present invention directly connects to a corresponding website via browsers (or modules for simulating browsers) on a plurality of terminals located at the actual user end. The purpose is to provide a website structure extraction method that can automatically extract the internal structure of a website by collecting and analyzing data between web servers.
また、本発明は、自動抽出した内部構造を運営者が容易に把握しやすいグラフで表現するように具現される抽出方法を提供しようとするところにその目的がある。 Another object of the present invention is to provide an extraction method that is embodied so as to express an automatically extracted internal structure in a graph that is easy for an operator to easily grasp.
よって、本発明は、ウェブサイトの物理的内部構造を抽出し視覚化して、管理者の管理及びメンテナンス(maintenance)を効率的に具現することができるシステム及び方法を提供しようとするところに目的がある。 Accordingly, it is an object of the present invention to provide a system and method that can efficiently implement management and maintenance of an administrator by extracting and visualizing the physical internal structure of a website. is there.
上記のような目的を達成するための本発明は、ウェブサイト内部構造を測定する少なくとも一つ以上の測定機(端末機)を備え、上記測定機は、端末運営体制上のDNSキャッシュ及びブラウザキャッシュを空にしてウェブサイトに接続することにより応答をくれる全てのウェブサーバ情報を獲得し、ブラウザのイベント情報を介してブラウザとウェブサーバ間の詳細情報を獲得するか、ブラウザとウェブサーバ間のネットワークパケットを捉えてブラウザとウェブサーバ間の詳細情報を獲得する過程を具現することを特徴とする。 In order to achieve the above object, the present invention includes at least one measuring device (terminal device) that measures the internal structure of a website, and the measuring device includes a DNS cache and a browser cache on a terminal operating system. Get all the web server information that responds by connecting to the website with empty, and get detailed information between browser and web server via browser event information, or network between browser and web server It is characterized by capturing a packet and embodying a process of acquiring detailed information between a browser and a web server.
また、上記測定機は、該当ウェブサイトに接続して応答をくれる全てのウェブサーバについての情報を獲得するように制御する制御部、上記ウェブサイトに接続を実現するウェブブラウザと、ウェブブラウザを駆動するウェブブラウザのイベント情報を介してウェブサーバとの送受信情報を獲得するブラウザ駆動機、及び上記ウェブブラウザがイベント情報で提供しない詳細な情報をパケット情報を介して収集するパケットキャプチャモジュールを含んで構成されることを特徴とする。 In addition, the measuring device controls the controller to acquire information about all the web servers that connect to the website and responds, the web browser that realizes connection to the website, and the web browser. A browser driver that acquires transmission / reception information with a web server via event information of the web browser, and a packet capture module that collects detailed information that the web browser does not provide as event information via the packet information It is characterized by being.
また、上記測定機は、運営体制を備えたPCまたは携帯用端末機に該当することを特徴とする。 Further, the measuring device corresponds to a PC or a portable terminal having an operating system.
また、上記ウェブブラウザは、ウェブブラウザシミュレータで構成可能なことを特徴とする。 The web browser can be configured by a web browser simulator.
上記測定機を介して測定されたウェブサイトの内部構造情報を収集及び視覚化を具現する収集及び分析サーバをさらに含むことを特徴とする。 And further comprising a collection and analysis servers to implement the collection and visualization of the internal structure information of measured websites through the upper Symbol measuring machine.
また、上記収集及び分析サーバは、上記測定機と接続する通信部、上記通信部を介して送信された情報を保存する保存部、上記保存部に保存された情報についての追加的な分析及び統計を介してウェブサイト内部構造情報を抽出する分析部、データ形態で存在するウェブサイト内部構造をグラフで視覚化する視覚化部、及び視覚化されたウェブサイト内部構造をディスプレイするGUIを含むことを特徴とする。 The collection and analysis server includes a communication unit connected to the measuring device, a storage unit that stores information transmitted through the communication unit, and additional analysis and statistics on the information stored in the storage unit. Including an analysis unit that extracts information on the internal structure of the website through a graph, a visualization unit that visualizes the internal structure of the website existing in a data form, and a GUI that displays the visualized internal structure of the website Features.
また、上記視覚化部は、名前と色相を有するノード(Named Color Node)と、加重値を有するライン(Weighted Line)で、ウェブサイト、ドメイン、サーバ(サーバIP)間の相関関係を視覚化することを特徴とする。 The visualization unit visualizes a correlation between a website, a domain, and a server (server IP) by using a node having a name and a hue (Named Color Node) and a line having a weight value (Weighted Line). It is characterized by that.
また、測定機の運営体制(OS)上のDNS Cache情報及びウェブブラウザのCache情報を全て初期化する第1段階、ウェブブラウザ(またはブラウザシミュレータ)を介してウェブサイトに対する探索(navigation)をする第2段階、該当ページに対する全ての探索が終わるonloadイベントを受信する時までウェブブラウザの内部イベント情報をhookingする第3段階、及びイベントhookingを介して該当ウェブページを構成する全てのコンポーネントの詳細情報を獲得して保存する第4段階を含むことを特徴とする。 In addition, the first stage of initializing all DNS Cache information on the operating system (OS) of the measuring instrument and the cache information of the web browser, the first stage of searching for the website via the web browser (or browser simulator) The second stage, the third stage of hooking the internal event information of the web browser until the time when the onload event is completed, and the detailed information of all the components constituting the corresponding web page through the event hooking It includes a fourth stage of acquiring and storing.
また、上記イベントhookingを介して獲得することができない情報は、必要であればパケットキャプチャを介して追加で獲得する第5段階をさらに含むことを特徴とする。 In addition, the information that cannot be acquired through the event hooking further includes a fifth step of additionally acquiring through the packet capture if necessary.
また、上記コンポーネントの詳細情報は、ドメイン、コンポーネント名、ダウンロード時間、コンポーネントサイズ、メディア類型、ウェブサーバIPを含むことを特徴とする。 The detailed information of the component includes a domain, a component name, a download time, a component size, a media type, and a web server IP.
また、Onloadイベントを受信すれば、該当ウェブページの全ての探索が終了したため、この時まで保存したコンポーネント情報を収集及び分析サーバに送信470し、次の測定周期まで待機する第6段階をさらに含むことを特徴とする。
In addition, if the onload event is received, all searches for the corresponding web page have been completed, and thus the component information stored up to this time is transmitted to the collection and
上記のように構成され作用する本発明は、今日随時に変化し複雑なウェブサイトの内部構造を自動で抽出することができ、さらに一目でその構造を把握することができる視覚化された形態で表現が可能である。これによって、ウェブサイト運営者は、既存に手作業によってウェブサイト内部構造を管理する場合の不正確さを解消することができて、既存の手作業では管理しづらかった外部の第三者要素までも含めて管理することができ、時間によって変更するウェブサイト内部構造を自動で管理することができる長所がある。 The present invention constructed and operated as described above is a visualized form that can automatically extract the internal structure of a complex website that changes from time to time and can grasp the structure at a glance. Expression is possible. This allows website operators to eliminate inaccuracies when managing the internal structure of the website manually, even to external third party elements that were difficult to manage with existing manual operations. There is an advantage that the internal structure of the website that changes with time can be automatically managed.
これによって、ウェブサイト運営者は、安定的かつ効果的なウェブサイト運営が可能な効果がある。 As a result, the website operator can effectively and stably operate the website.
以下、添付された図面を参照して、本発明に係るウェブサイト内部構造の自動抽出方法の望ましい実施例を詳しく説明すれば、次のとおりである。 Hereinafter, a preferred embodiment of a method for automatically extracting a website internal structure according to the present invention will be described in detail with reference to the accompanying drawings.
本発明に係るウェブサイト内部構造の自動抽出方法は、ウェブサイト内部構造を測定する少なくとも一つ以上の測定機(端末機)を備え、上記測定機は、端末運営体制上のDNSキャッシュ及びブラウザキャッシュを空にしてウェブサイトに接続することにより応答をくれる全てのウェブサーバ情報を獲得し、ブラウザのイベント情報を介してブラウザとウェブサーバ間の詳細情報を獲得するか、ブラウザとウェブサーバ間のネットワークパケットを捉えてブラウザとウェブサーバ間の詳細情報を獲得する過程を具現することを特徴とする。 A method for automatically extracting a website internal structure according to the present invention includes at least one measuring device (terminal) that measures the internal structure of the website, and the measuring machine includes a DNS cache and a browser cache on a terminal operating system. Get all the web server information that responds by connecting to the website with empty, and get detailed information between browser and web server via browser event information, or network between browser and web server It is characterized by capturing a packet and embodying a process of acquiring detailed information between a browser and a web server.
本発明に係るウェブサイト内部構造抽出システムは、一つのウェブサイトを具現するために物理的に構成されるコンポーネント(URL)、DNSドメイン、ウェブサーバ(IPアドレス)等の集合体に該当する内部構造を能動的に検出して視覚化することができるシステムを提供しようとするところに目的がある。 The website internal structure extraction system according to the present invention is an internal structure corresponding to an aggregate of components (URLs), DNS domains, web servers (IP addresses), etc. that are physically configured to implement one website. The purpose is to provide a system that can detect and visualize the sympathy.
図3は、本発明に係るウェブサイト内部構造の自動抽出システムの概略的な構成図である。本発明は、図3に示したように、インターネット200上に、対象となるウェブサイト210についてサイトの構成情報を獲得するための複数の測定機220、及び測定機が獲得した情報を収集し分析して最終ウェブサイト内部構造を生成して視覚化する収集及び分析サーバ230で構成される。複数の測定機を置く理由は、一部のウェブサイトは使用者の位置に応じて異なるウェブサーバが応答するように内部構成をすることができるためである。
FIG. 3 is a schematic configuration diagram of an automatic extraction system for a website internal structure according to the present invention. As shown in FIG. 3, the present invention collects and analyzes on the Internet 200 a plurality of measuring
ウェブサイト210は、PC等の有線端末で接続する有線ウェブサイトだけでなく、スマートフォンのような無線端末で接続するモバイルウェブサイト[または(アプリ:App)]が全て含まれ、測定機220は、PCまたはサーバのような有線端末、及びスマートフォンのような無線端末上に具現される。測定機は、ウェブサイトに対して周期的(例:10分周期)に接続を介してウェブサイトの構成情報を獲得する。
The
図4は、測定機と収集及び分析サーバのさらに詳細な構成を示す。 FIG. 4 shows a more detailed configuration of the measuring device and the collection and analysis server.
測定機220は、ウェブサイト内部構造を抽出する一つの端末機に該当するもので、一般的なPCや携帯用端末機(モバイル、タブレット等)で構成することができ、ウェブサイトに接続して応答に対応するウェブサーバ情報を抽出する構成を有する。
The measuring
具体的には、上記測定機220は、全体的な測定過程の制御を担当する制御部300と、収集及び分析サーバと通信を介して測定するウェブサイト情報及び測定周期を受信し測定によって獲得した情報を収集及び分析サーバに伝送する通信部310、実際のウェブサイト接続をするウェブブラウザ330、及びウェブブラウザを駆動しウェブブラウザのイベント情報を介してウェブサーバとの送受信情報を獲得するブラウザ駆動機320で構成される。
Specifically, the measuring
ウェブブラウザ330は、実際のウェブブラウザを使用するかウェブブラウザシミュレータで構成されることができ、ウェブブラウザがイベント情報で提供しないさらに詳細な情報のために、パケットキャプチャモジュール340を介してウェブブラウザとウェブサーバ間の送受信パケット情報を活用することができる。収集及び分析サーバは、測定機に制御情報を伝達し、測定機が獲得した情報を収集する通信部350、収集した情報を保存する保存部360、保存部によって累積保存された情報について追加的な分析及び統計によってウェブサイト内部構造情報を抽出する分析部370、データ形態で存在するウェブサイト内部構造情報をグラフで視覚化する視覚化部380、実際の使用者に視覚化されたウェブサイト内部構造を提供するGUI390で構成される。
The web browser 330 can be configured using a real web browser or a web browser simulator. For more detailed information that the web browser does not provide in the event information, the web browser 330 is connected to the web browser via the packet capture module 340. It is possible to utilize transmission / reception packet information between web servers. The collection and analysis server transmits control information to the measuring device, collects information acquired by the measuring device, a
測定機がウェブサイト内部構造情報を獲得するさらに詳細な手順は、図5のとおりである。測定機は、収集及び分析サーバから対象サイト情報及び測定周期情報を得て410、実質的な測定を開始する。測定の最初の段階は初期化420で、この段階では測定機の運営体制(OS)上のDNS Cache情報及びウェブブラウザのCache情報を全て初期化することにより、複雑なウェブサイト情報を漏れ無く獲得することができるようにする。初期化が終わると、ウェブブラウザ(またはブラウザシミュレータ)を介してウェブサイトについての探索(navigation)を開始430し、 該当ページに対する全ての探索が終わるonloadイベントを受信する時までウェブブラウザの内部イベント情報をhookingする450。イベントhookingを介して該当ウェブページを構成する全てのコンポーネントの詳細情報を獲得して保存する460。イベントhookingを介して獲得することができない情報は、必要であれば、パケットキャプチャを介して追加で獲得することができる。Onloadイベントを受信すると、該当ウェブページの全ての探索が終了したため、この時まで保存したコンポーネント情報を収集及び分析サーバに送信470し、次の測定周期まで待機480する。この際、送信されるコンポーネント情報は、図6のように、ウェブサイトの内部構造を把握することができる情報(ドメイン、コンポーネント名、ダウンロード時間、コンポーネントサイズ、メディア類型、ウェブサーバIP等)を含む。次の測定周期になると、初期化から開始して同一の段階を繰り返し遂行する。
A more detailed procedure for the measuring machine to acquire the website internal structure information is as shown in FIG. The measuring device obtains target site information and
図7は、収集及び分析サーバの分析部370で、測定機から収集されて保存された図6のデータを統計及び分析して、ウェブサイト内部構造を抽出することができるデータとして保存するデータ構造のさらに詳細な例である。図6のデータを周期的(例:1時間または1日)に、サーバIPを基準として統計を出して、図7のような形態で保存するが、主要項目は、サーバIP、該当サーバIPに対応するドメイン、統計時刻、ウェブサイト名、メディア類型、Component Count(該当サーバIPの出現回数)、ダウンロード速度等で構成され、ダウンロード速度(Download speed)は図6より次の数式で求める。
FIG. 7 shows a data structure in which the
図7のComponent Countは、該当サーバがどれだけ多くのコンポーネントをサービスするかを知ることができる重要な指標であり、ダウンロード速度は、該当サーバのサービス速度を示す重要な指標である。 The Component Count in FIG. 7 is an important index that can know how many components the corresponding server serves, and the download speed is an important index that indicates the service speed of the corresponding server.
図8は、収集及び分析サーバの視覚化部380が図7の形態で保存されたデータを名前と色相を有するノード(Named Color Node)と加重値を有するライン(Weighted Line)で構成されるグラフ形態にウェブサイト内部構造を視覚化表現するさらに詳細な方法の例を説明する。
FIG. 8 is a graph in which the
上記測定機で測定されたウェブサイト内部構造を視覚的に容易にモニタリングするために、抽出された情報は、収集及び分析サーバで処理して多様な方式で描写する。 In order to easily monitor the internal structure of the website measured by the measuring device, the extracted information is processed by the collection and analysis server and depicted in various ways.
一番中央の1段階ノード500はウェブサイト名が対応し、二番目の段階のノード510には該当ウェブサイトを構成するドメインが各々対応し、三番目の段階のノード530はドメインに対応するサーバIPが対応する。2段階及び3段階ノードは、該当ノードが有するメディア類型に応じて各々固有の色相で表現される。色相表現方法をさらに詳しく説明すれば、図5でのようにウェブサイトで主に利用される3つの基本類型(Text、Application、Image)にグルーピングし、各基本類型について図8の520のように光の3原色を利用して、Text類型は赤、Application類型は緑、Image類型は青で表現する。特定ノードが複数の基本類型を有する場合には、該当類型の色を混合した色で表現する。具体的な例をあげると、Text(赤)とApplication(緑)を全てサービスするドメインやサーバIPは、赤と緑を混合した黄で表現する。3段階ノードは、図7のComponent Countに比例して円の大きさが定められる。すなわち、3段階の円が大きいほど、該当サーバIPで多くのコンポーネントをサービスしたという意味を表現する。また、2段階ノードと3段階ノードを連結するラインは、該当3段階ノードサーバのDownload Speedに比例して太さを表現することにより、太いラインのサーバはより早い速度でサービスを提供することを表現する。
The
このように構成される本発明は、ウェブサーバ情報を抽出してウェブサイトの内部構造を獲得することにより構造を一目で把握することができ、視覚化された形態で表現することにより既存の管理形態をより一層効率的に具現することができる長所がある。 The present invention configured as described above can grasp the structure at a glance by extracting the web server information and acquiring the internal structure of the website, and can express the existing management by expressing it in a visualized form. There is an advantage that the form can be implemented more efficiently.
以上、本発明の原理を例示するための望ましい実施例と係わって説明して図示したが、本発明はこのように図示され説明されたとおりの構成及び作用に限定されるものではない。むしろ、添付された請求の範囲の思想及び範疇を逸脱することなく本発明についての多数の変更及び修正が可能であることを当業者は理解することができるであろう。したがって、そのような全ての適切な変更及び修正と均等物も、本発明の範囲に属するものとみなされるべきものである。 While the invention has been described and illustrated in connection with a preferred embodiment for illustrating the principles of the invention, the invention is not so limited in construction and operation as shown and described. Rather, those skilled in the art will recognize that numerous changes and modifications may be made to the present invention without departing from the spirit and scope of the appended claims. Accordingly, all such suitable changes and modifications and equivalents are to be considered within the scope of the present invention.
Claims (11)
上記測定機は、端末運営体制上のDNSキャッシュ及びブラウザキャッシュを空にしてウェブサイトに接続することにより応答をくれる全てのウェブサーバ情報を獲得し、ブラウザのイベント情報を介してブラウザとウェブサーバ間の詳細情報を獲得するか、ブラウザとウェブサーバ間のネットワークパケットを捉えてブラウザとウェブサーバ間の詳細情報を獲得する過程を具現するウェブサイト内部構造の自動抽出システム。 At least one measuring device (terminal) that measures the internal structure of the website,
The above measuring device acquires all the web server information that responds by emptying the DNS cache and browser cache on the terminal operating system and connecting to the website, and between the browser and the web server via the browser event information System for automatically extracting the internal structure of a website that implements the process of acquiring detailed information on the network or capturing the network packet between the browser and the web server to acquire detailed information between the browser and the web server.
該当ウェブサイトに接続して応答をくれる全てのウェブサーバについての情報を獲得するように制御する制御部、
上記ウェブサイトに接続を実現するウェブブラウザと、ウェブブラウザを駆動するウェブブラウザのイベント情報を介してウェブサーバとの送受信情報を獲得するブラウザ駆動機、及び
上記ウェブブラウザがイベント情報で提供しない詳細な情報をパケット情報を介して収集するパケットキャプチャモジュールを含んで構成される、請求項1に記載のウェブサイト内部構造の自動抽出システム。 The measuring machine
A control unit that controls to acquire information about all the web servers that connect to and respond to the relevant website,
A browser that realizes connection to the website, a browser driver that acquires transmission / reception information with the web server via event information of the web browser that drives the web browser, and detailed information that the web browser does not provide in the event information 2. The system for automatically extracting a website internal structure according to claim 1, comprising a packet capture module that collects information via packet information.
運営体制を備えたPCまたは携帯用端末機に該当する、請求項1に記載のウェブサイト内部構造の自動抽出システム。 The measuring machine
The system for automatically extracting the internal structure of a website according to claim 1, which corresponds to a PC or a portable terminal equipped with an operating system.
ウェブブラウザシミュレータで構成可能な、請求項2に記載のウェブサイト内部構造の自動抽出システム。 The above web browser
The system for automatically extracting a website internal structure according to claim 2, which can be configured by a web browser simulator.
上記測定機と接続する通信部、
上記通信部を介して送信された情報を保存する保存部、
上記保存部に保存された情報についての追加的な分析及び統計を介してウェブサイト内部構造情報を抽出する分析部、
データ形態で存在するウェブサイト内部構造をグラフで視覚化する視覚化部、及び
視覚化されたウェブサイト内部構造をディスプレイするGUIを含む、請求項5に記載のウェブサイト内部構造の自動抽出システム。 The collection and analysis server
A communication unit connected to the measuring machine ,
A storage unit for storing information transmitted via the communication unit;
An analysis unit for extracting website internal structure information through additional analysis and statistics on the information stored in the storage unit;
The system for automatically extracting a website internal structure according to claim 5 , comprising: a visualization unit that visualizes the internal website structure existing in a data form in a graph; and a GUI that displays the visualized internal website structure.
名前と色相を有するノード(Named Color Node)と、加重値を有するライン(Weighted Line)で、ウェブサイト、ドメイン、サーバ(サーバIP)間の相関関係を視覚化する、請求項6に記載のウェブサイト内部構造の自動抽出システム。 The visualization part
7. The web according to claim 6, wherein a correlation between a website, a domain, and a server (server IP) is visualized by a node having a name and a hue (Named Color Node) and a line having a weight (Weighted Line). Automatic extraction system for site internal structure.
ウェブブラウザ(またはブラウザシミュレータ)を介してウェブサイトに対する探索(navigation)をする第2段階、
該当ページに対する全ての探索が終わるonloadイベントを受信する時までウェブブラウザの内部イベント情報をhookingする第3段階、及び
イベントhookingを介して該当ウェブページを構成する全てのコンポーネントの詳細情報を獲得して保存する第4段階を含む、ウェブサイト内部構造の自動抽出方法。 The first stage to initialize all DNS Cache information on the operating system (OS) of the measuring machine and Cache information of the web browser,
A second stage of navigating to a website via a web browser (or browser simulator);
The third stage of hooking the internal event information of the web browser until the time when the onload event is completed, and the detailed information of all components constituting the web page is obtained through the event hooking. A method for automatically extracting the internal structure of a website, including a fourth stage of saving.
ドメイン、コンポーネント名、ダウンロード時間、コンポーネントサイズ、メディア類型、ウェブサーバIPを含んで構成される、請求項8に記載のウェブサイト内部構造の自動抽出方法。 Detailed information on the above components
The method for automatically extracting a website internal structure according to claim 8, comprising a domain, a component name, a download time, a component size, a media type, and a web server IP.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2012-0056739 | 2012-05-29 | ||
KR1020120056739A KR101235139B1 (en) | 2012-05-29 | 2012-05-29 | Detection method and system, the internal structure website |
PCT/KR2013/004278 WO2013180410A1 (en) | 2012-05-29 | 2013-05-14 | System for automatically extracting internal structure of website and extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015528930A JP2015528930A (en) | 2015-10-01 |
JP6044008B2 true JP6044008B2 (en) | 2016-12-14 |
Family
ID=47899851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015514895A Expired - Fee Related JP6044008B2 (en) | 2012-05-29 | 2013-05-14 | Automatic extraction system and extraction method for website internal structure |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6044008B2 (en) |
KR (1) | KR101235139B1 (en) |
WO (1) | WO2013180410A1 (en) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6369819B1 (en) * | 1998-04-17 | 2002-04-09 | Xerox Corporation | Methods for visualizing transformations among related series of graphs |
KR20010105840A (en) * | 2000-05-18 | 2001-11-29 | 구자홍 | Device and method web summary |
JP4768951B2 (en) * | 2002-05-20 | 2011-09-07 | 株式会社野村総合研究所 | Web site analysis system |
JP2004264929A (en) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | System and method for providing web information, program for the method, and storage medium recording the program |
US8145747B2 (en) * | 2007-12-11 | 2012-03-27 | Microsoft Corporation | Webpage domain monitoring |
KR101164289B1 (en) * | 2008-04-04 | 2012-07-09 | 에스케이플래닛 주식회사 | System and method for extracting a history of web activities |
CN101615178B (en) * | 2008-06-26 | 2013-01-09 | 日电(中国)有限公司 | Method and system for building object hierarchy |
JP2011081450A (en) * | 2009-10-02 | 2011-04-21 | Hitachi Government & Public Corporation System Engineering Ltd | Web site configuration analysis device and site configuration analysis method |
US20110307479A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Automatic Extraction of Structured Web Content |
KR101070184B1 (en) | 2011-02-24 | 2011-10-07 | 주식회사 윈스테크넷 | System and method for blocking execution of malicious code by automatically crawling and analyzing malicious code through multi-thread site-crawler, and by interworking with network security device |
-
2012
- 2012-05-29 KR KR1020120056739A patent/KR101235139B1/en active IP Right Grant
-
2013
- 2013-05-14 WO PCT/KR2013/004278 patent/WO2013180410A1/en active Application Filing
- 2013-05-14 JP JP2015514895A patent/JP6044008B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2013180410A1 (en) | 2013-12-05 |
JP2015528930A (en) | 2015-10-01 |
KR101235139B1 (en) | 2013-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11843904B2 (en) | Automated combined display of measurement data | |
CN101651707B (en) | Method for automatically acquiring user behavior log of network | |
KR102076861B1 (en) | Network performance diagnosis method and apparatus, and system | |
CN104301393B (en) | Laboratory data gathers and management system | |
CN110177139B (en) | Mobile APP data capture method capable of being opened | |
JP4833305B2 (en) | Hot site presentation system | |
CN102983885A (en) | System and method for enhancing name readability of Bluetooth device | |
CN109688483A (en) | A kind of method, apparatus and electronic equipment obtaining video | |
CN103973484A (en) | Operation and maintenance management system based on network topological structure | |
CN106686130A (en) | Acquisition device and system and display method and system for monitoring data of agricultural Internet of things | |
CN110929058B (en) | Trademark picture retrieval method and device, storage medium and electronic device | |
CN102200943B (en) | Method and equipment for automatically detecting CPU utilization rate based on background | |
JP6044008B2 (en) | Automatic extraction system and extraction method for website internal structure | |
CN105868321A (en) | File management method and device | |
CN112463398B (en) | File transmission method, device, terminal equipment and storage medium | |
CN104539736A (en) | Portable management device and method of safety monitoring data of warehouse | |
CN104022923A (en) | Network interface device and system as well as network data accessing method | |
CN112857449A (en) | Monitoring management system and method for monitoring and managing indoor air quality | |
CN116298799B (en) | Multi-interface linkage display method and system for chip test | |
JP2016201744A5 (en) | COMMUNICATION DEVICE, ITS CONTROL METHOD, AND PROGRAM | |
JP2019071508A5 (en) | ||
JP2011039697A (en) | Recommendation information providing device, user terminal, operation recommendation method, and program | |
CN208015746U (en) | QOE monitoring devices | |
CN106936938A (en) | Domain name analytic method and system | |
JP5228262B2 (en) | Information processing apparatus, information processing method, and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6044008 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |