KR101614736B1 - Web crawling method and system based on prediction of diffusion pattern using text data mining - Google Patents

Web crawling method and system based on prediction of diffusion pattern using text data mining Download PDF

Info

Publication number
KR101614736B1
KR101614736B1 KR1020150075794A KR20150075794A KR101614736B1 KR 101614736 B1 KR101614736 B1 KR 101614736B1 KR 1020150075794 A KR1020150075794 A KR 1020150075794A KR 20150075794 A KR20150075794 A KR 20150075794A KR 101614736 B1 KR101614736 B1 KR 101614736B1
Authority
KR
South Korea
Prior art keywords
topic
web page
data mining
collection
text data
Prior art date
Application number
KR1020150075794A
Other languages
Korean (ko)
Inventor
김용학
Original Assignee
(주)타파크로스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)타파크로스 filed Critical (주)타파크로스
Priority to KR1020150075794A priority Critical patent/KR101614736B1/en
Application granted granted Critical
Publication of KR101614736B1 publication Critical patent/KR101614736B1/en

Links

Images

Classifications

    • G06F17/30864
    • G06F17/3089
    • G06F17/30967

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a crawling method and a system through text data mining based on diffusion prediction. The crawling method determines possibility of diffusing a topic included in a post through a text data mining analysis of a text post posted on a website, and increases or decreases a post crawling period depending on the diffusion possibility.

Description

텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법 및 시스템{Web crawling method and system based on prediction of diffusion pattern using text data mining} TECHNICAL FIELD The present invention relates to a method and system for crawling based on diffusion prediction using text data mining,

본 발명은 웹상에 게시된 텍스트 게시물에 대한 텍스트 데이터 마이닝 분석을 통해 게시물에 포함된 토픽의 확산 가능성을 판단하고, 그 확산 가능성 여부에 따라 게시물의 수집주기를 최적으로 증감시키는 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법 및 시스템에 관한 것이다.
The present invention relates to a method and apparatus for judging diffusion possibility of a topic included in a post through text data mining analysis of a text post posted on the web, and proliferating text data mining that optimally increases or decreases the collection period of posts Predictive-based crawling method and system.

최근, 사용자는 인터넷 등을 통하여 여러 컴퓨터에 분산된 대량의 정보에 액세스하고 있으며, 방대한 정보에 액세스하기 위해 사용자는 통상적으로 웹 브라우저를 실행시켜 검색 엔진을 사용한다.Recently, a user accesses a large amount of information distributed on various computers via the Internet, etc. In order to access a large amount of information, a user typically executes a web browser and uses a search engine.

검색 엔진은 인터넷 등을 통하여 이용될 수 있는 정보 소스를 반환함으로써 사용자의 질의에 응답하며, 게시글이 포함된 사이트나 웹 페이지는 이러한 검색 엔진에서 사용될 수 있는 유용한 자원중 하나이다.A search engine responds to a user's query by returning an information source that can be used, such as over the Internet, and a site or web page containing a post is one of the useful resources that can be used in such a search engine.

한편, 웹 크롤러(web crawler)는 검색시 새로운 웹 페이지 또는 갱신된 웹 페이지를 찾아 정보 검색 엔진에서 다운로드하도록 지정하는 것으로, 키워드가 포함된 웹 페이지(URLs) 등에 접근한다.On the other hand, a web crawler designates a new web page or an updated web page to be retrieved from an information search engine at the time of retrieval, and accesses web pages (URLs) including keywords.

이러한 웹 크롤러 관련 기술로써 한국등록특허 제10-0993818호 '웹 크롤링 시스템 및 그 방법' 및 한국공개특허 제2012-0042529호 '웹 페이지 크롤링 방법 및 장치' 등을 비롯한 여러 문헌이 있다.There are a variety of documents related to the web crawler, such as Korean Registered Patent No. 10-0993818, 'Web Crawling System and Method', and Korean Published Patent Application No. 2012-0042529 'Web Page Crawling Method and Apparatus'.

그러나, 종래기술의 웹 크롤링 서비스 기술들은 오직 사전에 설정된 주기로 웹 페이지 게시물을 수집하는 것이어서 이슈의 확산 가능성과 무관하게 게시물을 수집하므로 크롤링 시스템의 효율이 낮고 데이터 누락 등의 문제가 발생한다.
However, the web crawling service technologies of the related art collect web page posts only in a predetermined cycle, collecting posts irrespective of the possibility of issues, resulting in a low efficiency of the crawling system and a problem of missing data.

한국등록특허 제10-0993818호 '웹 크롤링 시스템 및 그 방법'Korean Patent No. 10-0993818 " Web crawling system and method thereof " 한국공개특허 제2012-0042529호 '웹 페이지 크롤링 방법 및 장치'Korean Patent Publication No. 2012-0042529 " Web page crawling method and apparatus "

본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로, 웹상에 게시된 텍스트 게시물에 대한 텍스트 데이터 마이닝 분석을 통해 게시물에 포함된 토픽의 확산 가능성을 판단하고, 그 확산 가능성 여부에 따라 게시물의 수집주기를 최적으로 증감시키는 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법 및 시스템을 제공하고자 한다.
The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to determine the spreading possibility of a topic included in a post through a text data mining analysis on a text post posted on the web, The present invention provides a method and system for crawling based on diffusion prediction through text data mining.

이를 위해, 본 발명에 따른 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법은 웹 페이지 게시글을 수집하기 위한 주기를 설정하는 수집주기 설정단계와; 상기 설정된 수집주기에 따라 웹 페이지 게시물을 수집하는 데이터 수집단계와; 상기 수집된 게시물들의 게시량을 측정하여 게시량이 많은 키워드를 토픽으로 설정하는 토픽 설정단계와; 상기 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행함으로써 상기 설정된 토픽의 확산 가능성을 판단하는 확산 예측단계; 및 상기 판단된 확산 감성의 증감 추이에 따라 상기 웹 페이지 게시글 수집주기를 재설정하는 주기 재설성단계;를 포함하는 것을 특징으로 한다.To this end, the diffusion prediction based crawling method using text data mining according to the present invention includes: a collection period setting step of setting a period for collecting a web page post; A data collecting step of collecting web page posts according to the set collection period; A topic setting step of setting a topic having a large amount of a publication as a topic by measuring a posting amount of the collected posts; A diffusion prediction step of determining a diffusion possibility of the set topic by performing a text data mining emotion analysis on the set topic; And a cycle resetting step of resetting the collection period of the web page in accordance with the determined increase / decrease trend of the diffusion sensibility.

이때, 상기 토픽으로 설정된 게시글의 증감율을 분석하며, 상기 증감율의 분석 결과를 상기 텍스트 데이터 마이닝 감성 분석의 수행에 제공하는 증감율 분석단계를 더 포함하는 것이 바람직하다.The method may further include analyzing a rate of increase or decrease of the publication set to the topic and providing a result of analysis of the rate of change to the performance of the text data mining emotional analysis.

한편, 본 발명에 따른 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 시스템은 게시글을 수집하기 위한 웹 페이지를 지정하며, 상기 웹 페이지의 게시글을 수집하기 위한 주기를 설정하는 라이브러리 관리모듈과; 상기 라이브러리 관리모듈에서 설정된 수집주기에 따라 웹 페이지 게시물을 수집하여 저장하는 빅데이터 수집모듈; 및 상기 수집된 게시물들의 게시량을 측정하여 게시량이 많은 키워드를 토픽으로 설정하고, 상기 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행함으로써 상기 설정된 토픽의 확산 가능성을 판단하며, 상기 판단된 확산 감성의 증감 추이를 상기 라이브러리 관리모듈에 제공하여 상기 라이브러리 관리모듈에서 웹 페이지 게시글 수집주기를 재설정할 수 있게 하는 분석모듈;을 포함하는 것을 특징으로 한다.Meanwhile, a diffusion prediction based crawling system using text data mining according to the present invention includes a library management module for designating a web page for collecting a post and setting a period for collecting a post of the web page; A big data collection module for collecting and storing web page posts according to the collection cycle set by the library management module; Determining a diffusion probability of the set topic by setting a keyword having a large amount of a publication as a topic by measuring a published amount of the collected posts and performing a text data mining emotion analysis on the set topic, And an analysis module that provides the library management module with an increase / decrease trend so as to reset the collection period of web page posts in the library management module.

이때, 상기 라이브러리 관리모듈은 상기 게시글을 수집하기 위한 웹 페이지의 사이트명과, 상기 웹 페이지를 지정하기 위한 시드 URL(seed URL)과, 수집주기 및 카테고리를 저장하는 수집원 라이브러리; 및 상기 분석모듈의 제어하에 상기 수집원 라이브러리의 수집주기를 재설정하는 수집주기 설정부;를 포함하는 것이 바람직하다.Here, the library management module may include a collection source library for storing a site name of a web page for collecting the bulletin, a seed URL for specifying the web page, a collection period, and a category; And a collection period setting unit for resetting the collection period of the collection source library under the control of the analysis module.

또한, 상기 분석모듈은 상기 빅데이터 수집모듈의 의해 수집된 게시물들의 게시량을 측정하는 게시량 추출부와; 상기 게시량 추출부에 의해 측정된 결과에 따라 게시량이 많은 키워드를 토픽으로 설정하는 토픽 추출부와; 상기 토픽 추출부에 의해 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행하는 텍스트 마이닝 감성 분석부; 및 상기 텍스트 마이닝 감성 분석부에서 수행된 텍스트 데이터 마이닝 감성 분석 결과를 이용하여 상기 설정된 토픽의 확산 가능성을 판단하여 상기 수집주기 설정부에 제공하는 확산성 검출부;를 포함하는 것이 바람직하다.The analysis module may further include a posting amount extracting unit for measuring a posting amount of the postings collected by the big data collecting module; A topic extracting unit for setting a keyword having a large amount of a posting as a topic according to a result measured by the posting amount extracting unit; A text mining emotion analyzing unit for performing text data mining emotional analysis on a topic set by the topic extracting unit; And a diffusion property detector for determining the diffusion possibility of the set topic using the text data mining emotion analysis result performed by the text mining emotion analyzer and providing the determined diffusion possibility to the collection period setting unit.

또한, 상기 토픽으로 설정된 게시글의 증감율을 분석하여 상기 증감율의 분석 결과를 상기 텍스트 데이터 마이닝 감성 분석을 수행하는 상기 확산성 검출부에 제공하는 토픽 증가율 검출부를 더 포함하는 것이 바람직하다.
It is also preferable that the program further includes a topic increase rate detector for analyzing a change rate of a posting set as the topic and providing the analysis result of the increase / decrease rate to the spreading detection unit for performing the text data mining emotion analysis.

이상과 같은 본 발명은 텍스트 데이터 마이닝 분석을 통해 게시물에 포함된 토픽의 확산 가능성을 판단하고, 그 확산 가능성 여부에 따라 게시물의 수집주기를 최적으로 증감시킨다. 따라서, 크롤링 시스템의 효율성을 향상시키고 데이터의 누락을 방지한다.
The present invention as described above determines the spreading possibility of a topic included in a post through a text data mining analysis and optimally increases or decreases the collection period of the post according to the spread possibility. Thus, it improves the efficiency of the crawling system and prevents the omission of data.

도 1은 본 발명에 따른 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 시스템을 나타낸 구성도이다.
도 2는 본 발명에 따른 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법을 나타낸 흐름도이다.
FIG. 1 is a block diagram of a diffusion prediction based crawling system using text data mining according to the present invention.
2 is a flowchart illustrating a diffusion prediction based crawling method using text data mining according to the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법 및 시스템에 대해 상세히 설명한다.
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a diffusion prediction based crawling method and system using text data mining according to a preferred embodiment of the present invention will be described in detail with reference to the accompanying drawings.

먼저, 도 1과 같이 본 발명에 따른 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 시스템(100)은 라이브러리 관리모듈(110), 빅데이터 수집모듈(120) 및 분석모듈(130)을 포함한다.1, a diffusion prediction based crawling system 100 using text data mining according to the present invention includes a library management module 110, a big data collection module 120, and an analysis module 130.

따라서, 분석모듈(130)에서 데이터 마이닝(data mining) 분석을 통해 게시물에 포함된 토픽(topic)의 확산 가능성을 판단하고, 라이브러리 관리모듈(110)은 확산 가능성 여부에 따라 게시물의 수집주기를 최적으로 증감시킨다. Accordingly, the analysis module 130 determines the spreading possibility of a topic included in the post through data mining analysis, and the library management module 110 determines the collection period of the post Respectively.

또한, 빅데이터 수집모듈(120)은 확산 가능성 여부에 따라 재설정된 수집주기에 따라 게시물이 포함된 사이트나 웹 페이지 등에 접속하여 게시물을 수집하므로 크롤링 시스템의 효율성을 향상시키고 데이터의 누락을 방지한다.
In addition, the big data collection module 120 collects posts by accessing a site or a web page including posts according to the reset collection cycle according to the spreading possibility, thereby improving the efficiency of the crawling system and preventing data from being omitted.

이를 위해, 상기 라이브러리 관리모듈(110)은 게시글을 수집하기 위한 웹 페이지를 지정하며, 웹 페이지의 게시글을 수집하기 위한 주기를 설정한다. 특히, 본 발명의 수집주기는 분석모듈(130)에서 라이브러리 관리모듈(110)로 제공되는 확산 가능성에 의해 재설정된다.To this end, the library management module 110 designates a web page for collecting a post and sets a period for collecting a post of the web page. In particular, the collection period of the present invention is reset by the spreadability provided by the analysis module 130 to the library management module 110.

웹 크롤링시 액세스되는 게시글은 사용자가 검색하는 일종의 검색어에 해당하는 것으로 이슈나 키워드 등을 비롯한 다른 의미로도 표현되며, 게시글은 사이트, 웹 페이지 및 파일 등을 비롯한 다양한 것을 모두 포함하는 것으로 한다.When crawling the web, the posts that are accessed correspond to a kind of search term that users search for, and they are expressed in other meanings such as issues, keywords, and the like, and the articles include various things including sites, web pages and files.

한편, 라이브러리 관리모듈(110)은 게시글을 수집하기 위해 수집원 라이브러리(111)를 포함한다. 수집원 라이브러리(111)는 액세스를 위한 웹 페이지의 사이트명과, 웹 페이지를 지정하기 위한 시드 URL(seed URL)과, 수집주기 및 카테고리를 포함한다. On the other hand, the library management module 110 includes a collection source library 111 for collecting the posts. The collection source library 111 includes a site name of a web page for access, a seed URL for specifying a web page, a collection period, and a category.

특히, 본 발명에 적용되는 라이브러리 관리모듈(110)은 수집주기 설정부(112)를 더 포함하는데, 수집주기 설정부(112)는 분석모듈(130)의 제어하에 수집원 라이브러리(111)의 게시물 수집주기를 재설정하는 역할을 한다.
In particular, the library management module 110 applied to the present invention further includes a collection period setting unit 112. The collection period setting unit 112 sets the collection period setting unit 112, It is responsible for resetting the collection period.

빅데이터 수집모듈(120)은 라이브러리 관리모듈(110)에서 설정한 수집주기에 따라 웹 페이지 게시물을 수집하여 저장한다. 특히, 라이브러리 관리모듈(110)의 수집주기가 재설정되면 해당 토픽의 게시글 수집주기 역시 변동된다.The big data collection module 120 collects and stores web page posts according to the collection period set by the library management module 110. In particular, when the collection period of the library management module 110 is reset, the collection period of the topic also changes.

이러한 빅데이터 수집모듈(120)은 통상적으로 리스너(121), 수집부(122) 및 데이터베이스 관리부(123)를 포함하며, 이때 리스너(121)는 상술한 수집주기에 따라 게시물이 포함된 웹 페이지에 액세스한다.Such a big data collection module 120 typically includes a listener 121, a collection unit 122 and a database management unit 123. The listener 121 then stores the collected data in a web page .

데이터베이스 관리부(123)는 수집부(122)를 통해 수집된 각종 게시물을 빅데이터 저장서버(B-DB)에 저장하며, 이때 일 예로 DBMS 커넥터 모듈 등에 의해 효율적인 데이터 기록을 가능하게 한다.
The database management unit 123 stores various posts collected through the collection unit 122 in the big data storage server B-DB. In this case, for example, efficient data recording is enabled by a DBMS connector module or the like.

분석모듈(130)은 본 발명에 있어서 가장 핵심적인 기능을 구현하는 것으로, 빅데이터 저장서버(B-DB)와 라이브러리 관리모듈(110) 사이에서 토픽 설정 및 확산 가능성 판단을 하고, 그에 따라 게시글 수집주기의 재설정에 필요한 정보를 제공한다.The analysis module 130 implements the most important functions in the present invention. The analysis module 130 performs topic setting and spreading possibility determination between the B-DB and the library management module 110, Provide the necessary information to reset the cycle.

좀더 구체적으로, 분석모듈(130)은 수집된 게시물들의 게시량을 측정하여 게시량이 많은 키워드를 토픽으로 설정하고, 그 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행함으로써 설정된 토픽의 확산 가능성을 판단한다.More specifically, the analysis module 130 determines the diffusion possibility of the set topic by measuring the posted amount of the collected posts, setting a keyword with a large amount of the topic as a topic, and performing a text data mining emotion analysis on the set topic .

나아가, 이상과 같은 과정을 통해 판단된 확산 감성의 증감 추이에 따라 라이브러리 관리모듈(110)에서 웹 페이지 게시글 수집주기를 재설정하는데 필요한 정보(확산 가능성 증감 추이)를 제공한다. 즉, 수집주기 설정부(112)를 제어한다.In addition, the library management module 110 provides the information necessary for resetting the collection period of the web page in accordance with the change of the diffusion sensitivity determined through the process described above. That is, the collection period setting unit 112.

이를 위해, 분석모듈(130)은 게시량 추출부(131), 토픽 추출부(132), 텍스트 마이닝 감성 분석부(133) 및 확산성 검출부(134)를 포함하며, 바람직한 다른 실시예로써 토픽 증가율 검출부(135)를 더 포함한다.To this end, the analysis module 130 includes a posting amount extracting unit 131, a topic extracting unit 132, a text mining emotional analyzing unit 133, and a diffusiveness detecting unit 134. In another preferred embodiment, And a detection unit 135.

이때, 게시량 추출부(131)는 빅데이터 수집모듈(120)의 의해 빅데이터 저장서버(B-DB)에 수집된 게시물들의 게시량을 측정하며, 토픽 추출부(132)는 게시량 추출부(131)에 의해 측정된 결과에 따라 게시량(즉, 게시 횟수)이 많은 키워드를 토픽으로 설정한다.At this time, the posting amount extracting unit 131 measures the posting amount of the postings collected in the big data storing server (B-DB) by the big data collecting module 120. The topic extracting unit 132 extracts, (That is, the number of times of publication) in accordance with the result measured by the search unit 131 as a topic.

또한, 텍스트 마이닝 감성 분석부(133)는 토픽 추출부(132)에 의해 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행한다. 감성 분석시 긍정 혹은 부정의 의미가 정의된 다양한 감성어를 제공하는 감성어 분류 라이브러리(133a)를 참조한다.In addition, the text mining emotion analyzing unit 133 performs text data mining emotional analysis on the topic set by the topic extracting unit 132. See Emotional Language Classification Library (133a), which provides a variety of emotional words with positive or negative meanings in emotional analysis.

따라서, 확산성 검출부(134)는 텍스트 마이닝 감성 분석부(133)에서 수행된 텍스트 데이터 마이닝 감성 분석 결과를 이용하여 이상과 같이 설정된 토픽의 확산 가능성을 판단하며, 판단 결과에 따라 수집주기 설정부(112)를 제어한다.Therefore, the diffusion property detector 134 determines the diffusion possibility of the topic set as described above using the text data mining emotion analysis result performed by the text mining emotion analyzer 133, and sets the collection period setting unit 112).

즉, 토픽의 확산 가능성이 높은 것으로(긍정 감성) 판별되면, 수집주기 설정부(112)의 수집주기를 짧게 하여 더욱 많이 게시물을 수집하고, 반대로 확산 가능성이 낮으면(부정 감성)이면 주기를 길게 제어한다.That is, if it is determined that the diffusion possibility of the topic is high (affirmative sensibility), the collection period of the collection period setting unit 112 is shortened to collect more posts. On the contrary, if the diffusion possibility is low .

한편, 토픽 증가율 검출부(135)는 게시량 추출부(131)로부터 게시물의 게시량을 실시간 참조하여 토픽으로 설정된 게시글의 증감율을 분석하는 것으로, 증감율의 분석 결과를 확산성 검출부(134)에 제공한다. On the other hand, the topic increase rate detection unit 135 analyzes the increase / decrease rate of the topic set as a topic by referring to the posting amount of the posting in real time from the posting amount extracting unit 131, and provides the result of analysis of the increase / decrease ratio to the diffusivity detecting unit 134 .

이와 같은 토픽 증가율 검출부(135)를 더 포함하면 텍스트 데이터 마이닝 감성 분석 결과에 게시글의 시간당 증가율 등을 추가로 조합함으로써 확산성 여부를 더욱 정확하게 예측할 수 있게 한다.
If such a topic increase rate detection unit 135 is further included, it is possible to more accurately predict the spreadability by combining the text data mining emotion analysis result with the rate of increase per hour of the article.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법에 대해 설명한다.Hereinafter, a diffusion prediction-based crawling method using text data mining according to a preferred embodiment of the present invention will be described with reference to the accompanying drawings.

도 2와 같이, 본 발명에 따른 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법은 수집주기 설정단계(S110), 데이터 수집단계(S120), 토픽 설정단계(S130), 확산 예측단계(S140) 및 주기 재설성단계(S150)를 포함한다.2, a diffusion prediction based crawling method using text data mining according to the present invention includes a collection period setting step S110, a data collecting step S120, a topic setting step S130, a diffusion predicting step S140, And a resetting step (S150).

또한, 본 발명의 바람직한 다른 실시예로서 증감율 분석단계(140a)를 더 포함한다.Further, as another preferred embodiment of the present invention, the step 140a is further included.

이때, 수집주기 설정단계(S110)에서는 실시간 빅데이터 수집모듈(120)에서 웹 페이지 게시글을 수집하기 위한 주기를 설정하는데, 이때의 설정 주기는 초기 설정값으로써 라이브러리 관리모듈(110)의 수집주기 설정부(112)에서 수집원 라이브러리(111)를 제어함으로써 이루어진다.At this time, in the collection period setting step (S110), a period for collecting the web page posts is set in the real time big data collection module 120, and the setting period is set as a collection period setting of the library management module 110 By controlling the collection source library 111 in the storage unit 112.

다음, 데이터 수집단계(S120)에서는 설정된 수집주기에 따라 웹 페이지 게시물을 수집한다. 웹 게시물의 수집은 상술한 바와 같이 실시간 빅데이터 수집모듈(120)의 리스너(121)가 수집원 라이브러리(111)의 수집주기를 참조하여 이루어진다.Next, in the data collection step (S120), web page posts are collected according to the set collection period. The collection of web posts is made by referring to the collection period of the collection source library 111 by the listener 121 of the real-time big data collection module 120 as described above.

다음, 토픽 설정단계(S130)에서는 수집된 게시물들의 게시량을 측정하여 게시량이 많은 키워드를 토픽으로 설정한다. 게시물의 게시량 즉, 게시 횟수는 분석모듈(130)의 게시량 추출부(131)에 의해 이루어지고, 토픽 설정은 토픽 추출부(132)에서 게시량 추출부(131)를 참조하여 이루어진다.Next, in the topic setting step (S130), the posted amount of the collected posts is measured, and a keyword having a large amount of publication is set as a topic. The posting amount of the post, that is, the posting number is made by the posting amount extracting unit 131 of the analysis module 130, and the topic extracting unit 132 refers to the posting amount extracting unit 131.

다음, 확산 예측단계(S140)에서는 이상과 같이 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행함으로써 설정된 토픽의 확산 가능성을 판단한다. 바람직하게 감성 분석 판단시 텍스트 마이닝 감성 분석부(133)는 감성어 분류 라이브러리(133a)를 참조한다.Next, in the diffusion prediction step (S140), the diffusion possibility of the set topic is determined by performing text data mining emotion analysis on the topic set as described above. Preferably, the text mining emotion analyzing unit 133 refers to the emotion word classification library 133a when judging emotion analysis.

다음, 주기 재설성단계(S150)에서는 확산 예측단계(S140)에서 판단된 확산 감성의 증감 추이에 따라 웹 페이지 게시글 수집주기를 재설정한다. 수집주기의 재설정은 확산성 검출부(134)에 의해 결정되고, 결정된 결과에 따라 라이브러리 관리모듈(110)의 수집주기 설정부(112)를 제어함으로써 이루어진다.Next, in the period resetting step (S150), the web page publication collection period is reset according to the increase / decrease trend of the diffusion sensitivity determined in the diffusion prediction step (S140). The resetting of the collection period is determined by the diffusivity detecting unit 134 and is performed by controlling the collection period setting unit 112 of the library management module 110 according to the determined result.

한편, 위에서 설명을 생략한 증감율 분석단계(140a)에서는 토픽 증가율 검출부(135)에 의해 토픽으로 설정된 게시글의 증감율을 분석하며, 증감율의 분석 결과를 텍스트 데이터 마이닝 감성 분석의 수행에 제공한다. 시시각각 변동하는 증감율 역시 확산성 판단에 고려될 수 있도록 한다.
Meanwhile, in the increase / decrease rate analysis step 140a, the rate of change of the topic set by the topic increase rate detection unit 135 is analyzed and the analysis result of the change rate is provided to the performance of the text data mining emotion analysis. The varying rate of increase and decrease at different times can also be taken into account in the spreading judgment.

이상, 본 발명의 특정 실시예에 대하여 상술하였다. 그러나, 본 발명의 사상 및 범위는 이러한 특정 실시예에 한정되는 것이 아니라, 본 발명의 요지를 변경하지 않는 범위 내에서 다양하게 수정 및 변형이 가능하다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이해할 것이다.The specific embodiments of the present invention have been described above. It is to be understood, however, that the scope and spirit of the present invention is not limited to these specific embodiments, and that various modifications and changes may be made without departing from the spirit of the present invention. If you have, you will understand.

따라서, 이상에서 기술한 실시예들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이므로, 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 하며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
Therefore, it should be understood that the above-described embodiments are provided so that those skilled in the art can fully understand the scope of the present invention. Therefore, it should be understood that the embodiments are to be considered in all respects as illustrative and not restrictive, The invention is only defined by the scope of the claims.

110: 라이브러리 관리모듈
111: 수집원 라이브러리
112: 수집주기 설정부
120: 빅데이터 수집모듈
121: 리스너(listner)
122: 수집부
123: 데이터베이스 관리부
130: 분석모듈
131: 게시량 추출부
132: 토픽 추출부
133: 텍스트 마이닝 감성 분석부
134: 확산성 검출부
135: 토픽 증가율 검출부
110: library management module
111: Collector Library
112: collection period setting unit
120: Big Data Acquisition Module
121: Listener
122:
123:
130: Analysis module
131:
132:
133: Text mining emotion analysis section
134: Diffusivity detector
135: Topic increase rate detector

Claims (6)

웹 페이지 게시글을 수집하기 위한 주기를 설정하는 수집주기 설정단계(S110)와;
상기 설정된 수집주기에 따라 웹 페이지 게시물을 수집하는 데이터 수집단계(S120)와;
상기 수집된 게시물들의 게시량을 측정하여 게시량이 많은 키워드를 토픽으로 설정하는 토픽 설정단계(S130)와;
상기 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행함으로써 상기 설정된 토픽의 확산 가능성을 판단하는 확산 예측단계(S140); 및
상기 판단된 확산 감성의 증감 추이에 따라 상기 웹 페이지 게시글 수집주기를 재설정하는 주기 재설성단계(S150);를 포함하는 것을 특징으로 하는 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법.
A collection period setting step (S110) of setting a period for collecting a web page post;
A data collection step (S120) of collecting web page posts according to the set collection cycle;
A topic setting step (S130) of setting a keyword having a large amount of publication as a topic by measuring a posting amount of the collected posts;
A diffusion prediction step (S140) of determining a diffusion possibility of the set topic by performing a text data mining emotion analysis on the set topic; And
And a period resetting step (S150) of resetting the collection period of the web page in accordance with the determined increase / decrease trend of the diffusion sensitivities (S150).
제1항에 있어서,
상기 토픽으로 설정된 게시글의 증감율을 분석하며, 상기 증감율의 분석 결과를 상기 텍스트 데이터 마이닝 감성 분석의 수행에 제공하는 증감율 분석단계(140a)를 더 포함하는 것을 특징으로 하는 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법.
The method according to claim 1,
(140a) for analyzing the increase / decrease rate of the posts set as the topic and providing the analysis result of the increase / decrease ratio to the performance of the text data mining emotion analysis. How to crawl.
게시글을 수집하기 위한 웹 페이지를 지정하며, 상기 웹 페이지의 게시글을 수집하기 위한 주기를 설정하는 라이브러리 관리모듈(110)과;
상기 라이브러리 관리모듈(110)에서 설정된 수집주기에 따라 웹 페이지 게시물을 수집하여 저장하는 빅데이터 수집모듈(120); 및
상기 수집된 게시물들의 게시량을 측정하여 게시량이 많은 키워드를 토픽으로 설정하고, 상기 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행함으로써 상기 설정된 토픽의 확산 가능성을 판단하며, 상기 판단된 확산 감성의 증감 추이를 상기 라이브러리 관리모듈(110)에 제공하여 상기 라이브러리 관리모듈(110)에서 웹 페이지 게시글 수집주기를 재설정할 수 있게 하는 분석모듈(130);을 포함하는 것을 특징으로 하는 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 시스템.
A library management module 110 for designating a web page for collecting a post and setting a period for collecting a post of the web page;
A big data collection module 120 for collecting and storing web page posts according to the collection period set by the library management module 110; And
Determining a diffusion possibility of the set topic by setting a keyword having a large amount of a publication as a topic by measuring a published amount of the collected posts and performing a text data mining emotion analysis on the set topic, And an analysis module (130) for providing a transition to the library management module (110) so that the library management module (110) can reset the collection period of web page posts. Predictive crawling system.
제3항에 있어서,
상기 라이브러리 관리모듈(110)은,
상기 게시글을 수집하기 위한 웹 페이지의 사이트명과, 상기 웹 페이지를 지정하기 위한 시드 URL(seed URL)과, 수집주기 및 카테고리를 저장하는 수집원 라이브러리(111); 및
상기 분석모듈(130)의 제어하에 상기 수집원 라이브러리(111)의 수집주기를 재설정하는 수집주기 설정부(112);를 포함하는 것을 특징으로 하는 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 시스템.
The method of claim 3,
The library management module (110)
A collection source library (111) for storing a site name of a web page for collecting the post, a seed URL for specifying the web page, a collection period and a category; And
And a collection period setting unit (112) for resetting the collection period of the collection source library (111) under the control of the analysis module (130).
제3항에 있어서,
상기 분석모듈(130)은,
상기 빅데이터 수집모듈(120)의 의해 수집된 게시물들의 게시량을 측정하는 게시량 추출부(131)와;
상기 게시량 추출부(131)에 의해 측정된 결과에 따라 게시량이 많은 키워드를 토픽으로 설정하는 토픽 추출부(132)와;
상기 토픽 추출부(132)에 의해 설정된 토픽에 대해 텍스트 데이터 마이닝 감성 분석을 수행하는 텍스트 마이닝 감성 분석부(133); 및
상기 텍스트 마이닝 감성 분석부(133)에서 수행된 텍스트 데이터 마이닝 감성 분석 결과를 이용하여 상기 설정된 토픽의 확산 가능성을 판단하여 수집주기 설정부(112)에 제공하는 확산성 검출부(134);를 포함하는 것을 특징으로 하는 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 시스템.
The method of claim 3,
The analysis module (130)
A posting amount extracting unit 131 for measuring a posting amount of posts collected by the big data collecting module 120;
A topic extracting unit 132 for setting a keyword having a large amount of publication as a topic according to a result measured by the posting amount extracting unit 131;
A text mining emotion analyzing unit 133 for performing text data mining emotional analysis on the topic set by the topic extracting unit 132; And
And a diffusion property detector 134 for determining the diffusion possibility of the set topic using the text data mining emotional analysis result performed by the text mining emotion analyzer 133 and providing the determined diffusion possibility to the collection period setting unit 112 Wherein the crawling system is based on spreading prediction through text data mining.
제5항에 있어서,
상기 토픽으로 설정된 게시글의 증감율을 분석하여 상기 증감율의 분석 결과를 상기 텍스트 데이터 마이닝 감성 분석을 수행하는 상기 확산성 검출부(134)에 제공하는 토픽 증가율 검출부(135)를 더 포함하는 것을 특징으로 하는 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 시스템.
6. The method of claim 5,
(135) for analyzing the increase / decrease rate of a posting set as the topic and providing the analysis result of the increase / decrease ratio to the diffusivity detecting unit (134) for performing the text data mining emotion analysis. Diffusion Prediction Based Data Mining Crawling System.
KR1020150075794A 2015-05-29 2015-05-29 Web crawling method and system based on prediction of diffusion pattern using text data mining KR101614736B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150075794A KR101614736B1 (en) 2015-05-29 2015-05-29 Web crawling method and system based on prediction of diffusion pattern using text data mining

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150075794A KR101614736B1 (en) 2015-05-29 2015-05-29 Web crawling method and system based on prediction of diffusion pattern using text data mining

Publications (1)

Publication Number Publication Date
KR101614736B1 true KR101614736B1 (en) 2016-04-29

Family

ID=55915894

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150075794A KR101614736B1 (en) 2015-05-29 2015-05-29 Web crawling method and system based on prediction of diffusion pattern using text data mining

Country Status (1)

Country Link
KR (1) KR101614736B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101925506B1 (en) * 2017-12-12 2018-12-06 한국과학기술정보연구원 Method and apparatus for predicting the spread of an infectious disease
WO2019107646A1 (en) * 2017-12-01 2019-06-06 상명대학교산학협력단 Apparatus for analyzing web content consumption behavior, and method therefor

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100993818B1 (en) 2009-02-18 2010-11-12 고려대학교 산학협력단 System for web crawling and Method thereof
KR20120042529A (en) 2010-10-25 2012-05-03 삼성전자주식회사 Method and apparatus for crawling web page
KR20130033520A (en) * 2011-09-19 2013-04-04 에스케이플래닛 주식회사 In online web text based event history analysis service system and method thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100993818B1 (en) 2009-02-18 2010-11-12 고려대학교 산학협력단 System for web crawling and Method thereof
KR20120042529A (en) 2010-10-25 2012-05-03 삼성전자주식회사 Method and apparatus for crawling web page
KR20130033520A (en) * 2011-09-19 2013-04-04 에스케이플래닛 주식회사 In online web text based event history analysis service system and method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019107646A1 (en) * 2017-12-01 2019-06-06 상명대학교산학협력단 Apparatus for analyzing web content consumption behavior, and method therefor
KR101925506B1 (en) * 2017-12-12 2018-12-06 한국과학기술정보연구원 Method and apparatus for predicting the spread of an infectious disease

Similar Documents

Publication Publication Date Title
Adar et al. The web changes everything: understanding the dynamics of web content
WO2022117063A1 (en) Method and apparatus for training isolation forest, and method and apparatus for recognizing web crawler
CN102622445B (en) User interest perception based webpage push system and webpage push method
Senkul et al. Improving pattern quality in web usage mining by using semantic information
CN106095979B (en) URL merging processing method and device
Ratkiewicz et al. Traffic in social media ii: Modeling bursty popularity
US9223897B1 (en) Adjusting ranking of search results based on utility
JP2011520193A (en) Search results with the next object clicked most
Ali et al. An overview of Web search evaluation methods
US8639559B2 (en) Brand analysis using interactions with search result items
CN110602045A (en) Malicious webpage identification method based on feature fusion and machine learning
Kim et al. Comparing client and server dwell time estimates for click-level satisfaction prediction
Mukherjee Do open‐access journals in library and information science have any scholarly impact? A bibliometric study of selected open‐access journals using Google Scholar
Yang et al. Are Altmetric. com scores effective for research impact evaluation in the social sciences and humanities?
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
KR101614736B1 (en) Web crawling method and system based on prediction of diffusion pattern using text data mining
Shen et al. Analysis of topic dynamics in web search
US9760641B1 (en) Site quality score
CN103605744A (en) Method and device for analyzing website searching engine traffic data
Akuma et al. Development of Relevance Feedback System using Regression Predictive Model and TF-IDF Algorithm
CN109948034B (en) Method and device for extracting page information based on filtering session
US20160292260A1 (en) Aggregation of web interactions for personalized usage
Xue et al. Cross-media topic detection associated with hot search queries
KR20040098889A (en) A method of providing website searching service and a system thereof
Ceroni et al. Towards an entity–based automatic event validation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190226

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200226

Year of fee payment: 5