KR101631032B1 - 비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법 - Google Patents

비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법 Download PDF

Info

Publication number
KR101631032B1
KR101631032B1 KR1020150102899A KR20150102899A KR101631032B1 KR 101631032 B1 KR101631032 B1 KR 101631032B1 KR 1020150102899 A KR1020150102899 A KR 1020150102899A KR 20150102899 A KR20150102899 A KR 20150102899A KR 101631032 B1 KR101631032 B1 KR 101631032B1
Authority
KR
South Korea
Prior art keywords
data
abnormal
filtering
user
target keyword
Prior art date
Application number
KR1020150102899A
Other languages
English (en)
Inventor
이동만
이원재
김정민
위형석
신병헌
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020150102899A priority Critical patent/KR101631032B1/ko
Application granted granted Critical
Publication of KR101631032B1 publication Critical patent/KR101631032B1/ko

Links

Images

Classifications

    • G06F17/30699
    • G06F17/30616
    • G06F17/30705

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

일 실시예에 따른 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법이 개시된다. 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템은, 가상공간의 비정형 데이터를 일괄적으로 수집하고, 상기 수집된 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 데이터 수집부; 상기 목표 키워드를 포함하고 있는 비정형 데이터를 비정상적 단어 빈도와 비정상적 사용자 패턴을 기반으로 정상 상태 또는 비정상 상태로 분류하는 데이터 필터링부; 및 상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하여 변환하고, 상기 정상 상태로 분류된 데이터로부터 부가 정보를 변환하여, 상기 표준 형태 정보와 상기 부가 정보를 결합하여 공통형태로 저장하는 데이터 공통형태 저장부를 포함할 수 있다.

Description

비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법{DATA STORING SYSTEM AND METHOD BASED ON UNSTRUCTURED DATA FILTERING AND COMMON FORMAT CONVERSION}
아래의 설명은 발명은 키워드 사용 빈도와 비정상 사용 패턴 감지를 통해 비정형 데이터 수집 시 적합한 데이터만을 필터링하여 추출하고 공통형태로 변환하여 저장하는 시스템 및 방법에 관한 것이다.
빅 데이터(Big Data) 시대를 맞아 대규모 소셜 미디어 데이터를 효과적으로 활용하여 사회에 유의미한 가치를 창출하려는 시도는 늘어나고 있다. 이에 따라 SNS를 포함한 다양한 비정형 데이터를 수집하고 목적에 부합하는 유의미한 데이터만을 필터링할 수 있는 기술은 필수적이다.
웹 상에 존재하는 비정형 가치데이터를 수집하기 위해서 고려할 수 있는 방법은 HTML 등의 페이지를 직접 수집하는 로봇 기반 크롤링과 공개된 OPEN API를 사용하는 방법을 고려할 수 있다. 로봇을 통해 웹 페이지를 직접 수집하는 방법은 Google을 포함한 대부분의 검색엔진이 수행하는 방법으로서 정해지지 않은 웹 페이지를 지속적이고 광범위하게 수집하는 경우에 사용된다. 이러한 방법을 사용하는 경우 웹 상에 존재하는 대부분의 비정형 가치 데이터를 수집할 수 있다는 장점이 있지만 효율성이 매우 떨어지고 필요한 하드웨어의 성능도 매우 높다는 단점이 있다.
한국 등록특허 제10-0875636호는 결정 이론 웹 크롤링 및 웹 페이지 변경의 예측에 관한 것으로 컴퓨터 환경에서 예측 웹-크롤링을 용이하게 하는 시스템 및 방법이 설명된다. 웹 페이지 서브세트 내의 변경에 관한 예측, 이용도-기반, 및 결정 이론 확률 평가를 제공하여, 웹 크롤링 능력을 향상시키고, 웹 페이지 정보가 새로운 상태로 유지되는 것을 보장하고 높은 변경 확률을 갖는 페이지의 선택적 크롤링을 용이하게 한다.
또한, 한국 등록특허 제10-1365862호는 웹사이트를 이용하여 효율적으로 필터링을 행하기 위한 기술이 개시된다. 하나의 방법 접근법에서, 웹사이트와 연관된 웹 페이지로부터 선택된 데이터 유형에 기초하는 개별 필터링 값들이 선택된 데이터 유형과 무관한 필터링 값들의 검색을 필요로 하지 않고 수신된다. 웹 페이지가 전적으로 갱신되는 것을 필요로 하지 않고 개별 필터링 값들이 표시된다.
그러나 종래의 기술들은 웹 데이터를 수집하고 필터링 하는데 있어서, 필요한 콘텐츠 자체를 활용한 기술이 아닌 전수 수집을 되도록 피하고 선택적 크롤링의 효율성과 확률을 높이는데 중점을 두었다.
또한, 종래의 기술들은 웹 페이지를 직접 수집하는 경우 텍스트, URL, 사진 등의 필요한 데이터 이외에도 HTML tag 등의 불필요한 정보가 추가적으로 수집되어 추가적인 구문 분석이 필요하다는 점이 단점으로 지적된다. 또한 Java Script, Ajax 등의 반응형 웹 페이지의 경우 실제 웹 브라우저 화면에 보이는 정보를 모두 수집하는 것이 어렵다는 어려움이 있다.
본 발명이 이루고자 하는 기술적 과제는 소셜 네트워크 서비스, 블로그 등 인터넷에 있는 다양한 비정형 데이터를 수집하기 위하여 각 정보 원천에 적합한 수집 모듈을 제작하고 광고 등의 무의미한 데이터를 키워드 사용 빈도와 사용자의 행동 패턴의 비정상 상태를 분석하여 제거하며 다양한 비정형 데이터 형태를 공통형태와 부가정보 형태로 변환하여 저장하는 시스템 및 방법을 제공하는 데 있다.
일 실시예에 따르면, 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템은, 가상공간의 비정형 데이터를 일괄적으로 수집하고, 상기 수집된 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 데이터 수집부; 상기 목표 키워드를 포함하고 있는 비정형 데이터를 비정상적 단어 빈도와 비정상적 사용자 패턴을 기반으로 정상 상태 또는 비정상 상태로 분류하는 데이터 필터링부; 및 상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하여 변환하고, 상기 정상 상태로 분류된 데이터로부터 부가 정보를 변환하여, 상기 표준 형태 정보와 결합함으로써 공통형태로 저장하는 데이터 공통형태 저장부를 포함할 수 있다.
일측에 따르면, 상기 데이터 수집부는, 상기 가상공간에 작성된 복수의 형태의 비정형 데이터를 Open API와 로봇을 기반으로 하는 맞춤형 크롤러를 활용하여 주기적이고 자동적으로 일괄 수집할 수 있다.
또 다른 일측에 따르면, 상기 데이터 필터링부는, 상기 수집된 비정형 데이터에 대해 기설정된 기준에 기초하여 특정 단어의 사용 빈도가 높은 비정상적 사용자 추출과 상기 비정상적 사용자의 서비스 패턴 추출을 통하여 비정상 데이터를 제거할 수 있다.
또 다른 일측에 따르면, 상기 데이터 공통형태 저장부는, 상기 필터링을 통하여 정상으로 판별된 데이터를 서비스가 포함하고 있는 표준 형태의 정보와 각 서비스 별로 상이하게 포함하고 있는 부가 정보로 구분하여 각각을 정형화하여 저장할 수 있다.
일 실시예에 따르면, 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법은, 가상공간 상의 비정형 데이터를 수집하는 단계; 상기 수집한 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 단계; 상기 목표 키워드를 포함하고 있는 비정형 데이터를 정상 상태와 비정상 상태로 분류하는 단계; 상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하고 변환하는 단계; 및 상기 정상 상태로 분류된 데이터로부터 부가 정보를 변환하여 상기 표준 형태 정보와 결합함으로써 공통형태로 저장하는 단계를 포함할 수 있다.
일측에 따르면, 상기 가상공간 상의 비정형 데이터를 수집하는 단계는, 상기 가상공간 상에 존재하는 복수의 비정형 데이터를 Open API와 로봇 기반의 스파이더를 통해 주기적이고 자동적으로 일괄 수집할 수 있다.
또 다른 일측에 따르면, 상기 수집한 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 단계는, 상기 수집한 비정형 데이터를 포함하고 있는 본문으로부터 수집을 목표로 하는 목표 키워드를 포함하는지 여부를 판단하여 상기 목표 키워드를 포함하지 않는 데이터를 수집하지 않고 제거할 수 있다.
또 다른 일측에 따르면, 상기 목표 키워드를 포함하고 있는 비정형 데이터를 정상 상태와 비정상 상태로 분류하는 단계는, 비정상적 단어 사용 빈도와 비정상적 사용자 패턴을 기반으로 비정상적 비정형 데이터를 분류할 수 있다.
또 다른 일측에 따르면, 상기 목표 키워드를 포함하고 있는 비정형 데이터를 정상 상태와 비정상 상태로 분류하는 단계는, 단어 빈도 및 역문서 빈도를 이용하여 키워드를 추출하는 단계; 상기 추출된 키워드의 사용 빈도에 기초하여 비정상적인 것을 판별하는 단계; 사용자의 서비스 사용패턴을 분석하는 단계; 및 상기 사용자의 비정상 서비스 사용패턴을 감지하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 단어 빈도 및 역문서 빈도를 이용한 키워드를 추출하는 단계는, 상기 목표 키워드를 언급한 사용자로부터 상기 단어 빈도 및 역문서 빈도를 이용한 키워드 추출을 실시하고, 각각의 사용자로부터 상기 목표 키워드에 대한 사용 목적 및 사용 빈도를 분석할 수 있다.
또 다른 일측에 따르면, 상기 추출된 키워드의 사용 빈도에 기초하여 비정상적인 것을 판별하는 단계는, 상기 목표 키워드에 대한 사용 목적 및 사용 빈도를 분석함으로써 획득한 결과값이 설정된 기준을 초과하는 경우, 상기 설정된 기준을 초과된 결과값을 포함하는 사용자를 비정상으로 판별할 수 있다.
또 다른 일측에 따르면, 상기 사용자의 서비스 사용패턴을 분석하는 단계는, 글 작성 시간의 분포 및 동일 글의 반복 게시 여부 중 적어도 어느 하나의 조건에 기초하여 상기 서비스 사용패턴을 분석할 수 있다.
또 다른 일측에 따르면, 상기 사용자의 비정상 서비스 사용패턴을 감지하는 단계는, 상기 사용자의 서비스 사용패턴을 분석한 결과값이 설정된 기준을 만족하지 못하는 경우, 상기 설정된 기준을 만족하지 못하는 결과값을 갖는 사용자를 비정상으로 판별할 수 있다.
또 다른 일측에 따르면, 상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하고 변환하는 단계는, 상기 정상 상태로 판별된 비정형 데이터에서 서비스가 공통적으로 포함하고 있는 표준 형태 정보를 추출하고, 상기 표준 형태 정보를 포함하는 특정 내용에 대하여 동일한 형태로 변환하는 것을 포함하고, 상기 정상 상태로 분류된 데이터로부터 부가 정보를 변환하여 상기 표준 형태 정보와 결합함으로써 공통형태로 저장하는 단계는, 상기 정상 상태로 판별된 비정형 데이터에서 각각의 서비스가 선택적으로 포함하고 있는 부가 정보를 키와 값을 가지는 텍스트 형태로 변환하고, 상기 변환된 부가 정보를 상기 변환된 표준 형태 정보와 결합하여 공통형태로 변환한 후 저장할 수 있다.
일 실시예에 따르면, 컴퓨터 시스템이 비정형 데이터 수집, 필터링 및 공통형태 변환을 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 매체로서, 상기 명령은, 가상공간 상의 비정형 데이터를 수집하는 단계; 상기 수집한 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 단계; 상기 목표 키워드를 포함하고 있는 비정형 데이터를 정상 상태와 비정상 상태로 분류하는 단계; 상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하고 변환하는 단계; 및 상기 정상 상태로 분류된 정상 상태의 데이터로부터 부가 정보를 변환하여 상기 표준 형태 정보와 결합함으로써 공통형태로 저장하는 단계를 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어할 수 있다.
일 실시예에 따르면, 본 발명은 소셜 네트워크 서비스, 블로그 등 인터넷에 있는 다양한 비정형 데이터를 수집하기 위하여 각 정보 원천에 적합한 수집 모듈을 제작하고 광고 등의 무의미한 데이터를 키워드 사용 빈도와 사용자의 행동 패턴의 비정상 상태를 분석하여 제거하며 다양한 비정형 데이터 형태를 공통형태와 부가정보 형태로 변환하여 저장하는 시스템 및 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 비정형 데이터 수집, 필터링 및 공통형태 저장 시스템을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 비정형 데이터 수집, 필터링 및 공통형태 저장 시스템을 나타낸 세부 구성도이다.
도 3은 본 발명의 일 실시예에 따른 비정형 데이터 수집, 필터링 및 공통형태 저장 시스템을 나타낸 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 비정상 키워드 빈도와 비정상 사용패턴 감지에 따른 필터링을 나타낸 흐름도이다.
본 발명의 실시예들은 소셜 네트워크 서비스, 블로그 등 인터넷에 있는 다양한 비정형 데이터를 수집하기 위하여 각 서비스에 해당하는 서비스로부터 데이터를 수집하고 무의미한 데이터를 키워드 사용 빈도와 사용자의 행동 패턴의 비정상 상태를 분석하여 제거한 후 공통 형태로 저장하는 시스템을 제시함으로써 수집 데이터의 신뢰도를 향상시키고 추후 데이터를 통해 이루어지는 분석의 만족도를 높일 수 있다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 비정형 데이터 수집, 필터링 및 공통형태 저장 시스템을 나타낸 블록도이다.
도 1을 참조하면, 비정형 데이터 수집, 필터링 및 공통형태 저장 시스템은 데이터 수집부(110), 데이터 필터링부(120) 및 데이터 공통형태 저장부(130)을 포함할 수 있다.
데이터 수집부(110)는 가상 공간상의 다양한 서비스로부터 사용자가 작성한 다양한 종류의 비정형 데이터를 일괄적으로 수집할 수 있다. 다시 말해서, 데이터 수집부(110)는 다양한 종류의 소셜 네트워크 서비스, 블로그 또는 웹 페이지에 작성된 다양한 형태의 데이터를 수집하기 위한 맞춤형 크롤러를 활용하여 주기적으로 자동 수집하는 작업을 수행할 수 있다. 예를 들면, 비정형 데이터 수집, 필터링 및 공통형태 저장 시스템은 메모리에서 가상 공간의 다양한 서비스로부터 사용자가 작성한 다양한 종류의 비정형 데이터를 일괄적으로 수집할 수 있고, 수집된 비정형 데이터를 기반으로 하드 디스크에 저장할 데이터를 판단할 수 있다.
크롤러는 인터넷 상에 존재하는 다양한 정보를 수동 혹은 자동적으로 수집하기 위해 사용하는 것으로 사용자가 수동으로 모든 웹 페이지를 수집하는 것을 대신하여 컴퓨터 프로그램이 입력된 방식을 따라 새로운 데이터를 찾아 수집하고 종합하여 저장하는 역할을 지속적이고 반복적으로 수행하는 것이다. 기본적으로 크롤러는 웹 상에 공개되어 있는 모든 정보에 접근이 가능하기 때문에 수집하고자 하는 조건에 따라 방대한 자료를 자동적으로 수집할 수 있다.
데이터 필터링부(120)는 수집한 비정형 데이터 중 목표 키워드 존재 유무, 비정상적 키워드 빈도 및 비정상적 사용자 패턴을 분석하여 수집하지 않아야 할 데이터를 분류할 수 있다. 다시 말해서, 데이터 필터링부(120)는 수집 대상으로 하는 대상 키워드가 포함된 비정형 데이터만을 수집하여 분석의 대상으로 삼고, 타 사용자에 비해서 특정 단어의 사용 빈도가 비정상적으로 높은 경우를 감지한 후, 사용자 개인의 서비스 사용 패턴을 최종적으로 분석하여 비정상적 사용형태를 감지할 수 있다.
데이터 필터링부(120)의 역할을 통해서 데이터 수집 및 저장에 있어서 저장공간과 연산장치 활용의 절약, 그리고 시간의 단축이 가능하다. 웹 상에 존재하는 모든 비정형 데이터를 수집하여 저장한 후 분석하는 것은 비효율적일 뿐만 아니라 엄청난 비용이 필요한데 본 발명은 특정 주제 혹은 단어에 관련된 정보만을 수집하여 저장하기 위하여 키워드 포함 여부에 따른 필터링, 특정 단어 사용 빈도에 따른 비정상 감지, 그리고 사용자 개인의 서비스 사용 패턴 분석을 통한 광고 및 오, 남용 사용자의 분류를 통해 실제 분석에 유의미한 데이터를 추출하고 저장할 수 있다.
데이터 공통형태 저장부(130)는 수집한 비정형 데이터를 서비스 종류, 사용자 ID, 글 ID, 본문, 작성 시간 등의 표준 형태와 서비스 별로 이질적으로 포함하고 있는 부가 정보로 구분하여 공통 형태로 저장할 수 있다. 데이터 수집부(110)가 수집하는 데이터는 다양한 형태를 지니고 있기 때문에 하나의 형태로 정형화하여 저장하는 것에 제약이 있다. 이에 따라 데이터 공통형태 저장부(130)는 대부분의 서비스가 공통적으로 포함하고 있는 정보들과 일반적인 데이터 분석에서 높은 빈도로 사용되는 정보들을 표준 형태로 정의하여 정형화하여 저장할 수 있다. 해당 정보에는 수집한 서비스 종류, 서비스 상에서의 사용자 ID, 서비스 상에서의 글의 ID, 본문 내용 및 글의 작성 시간 등이 포함될 수 있다.
반면 표준형태에 포함되지 않지만 서비스가 포함하고 있는 부가 정보는 JavaScript Object Notation(JSON) 형태로 변환하여 저장될 수 있다. JSON 형태는 기본적으로 키와 값으로 이루어져 있는 텍스트 형태의 정보 전달 방식이며 리스트 형태를 제공한다. 데이터 공통형태 저장부(130)의 JSON 저장 기술은 직관적인 키 명칭을 사용하여 추후 데이터에 접근하는 사용자가 각 정보의 의미를 명확하게 파악할 수 있다.
그리고, 데이터 공통형태 저장부(130)는 표준 형태와 부가 정보를 공통된 형태로 정형화하여 데이터베이스에 저장할 수 있고, 추후 사용자는 데이터베이스에 접근하여 키워드에 관련된 정보에 접근 할 수 있다.
도 2는 본 발명의 일 실시예에 따른 비정형 데이터 수집, 필터링 및 공통형태 저장 시스템을 나타낸 세부 구성도이다.
도 2를 참조하면, 데이터 수집부(220), 데이터 필터링부(230), 데이터 공통형태 저장부(240)를 포함할 수 있다.
데이터 수집부(220)는 Application Programming Interface(API) 기반 비정형 데이터 크롤링 모듈(221)과 로봇 기반 비정형 데이터 크롤링 모듈(222)로 구성될 수 있다.
API는 프로그램 간 혹은 서버-클라이언트 간에서 특정 동작의 수행 혹은 정보의 교환을 위해 정의한 인터페이스를 의미한다. 특히 서비스 업체가 서비스 내부의 정보를 제공하거나 서비스를 조작할 수 있도록 대중에게 공개한 API를 Open API라고 지칭한다. Open API의 경우 해당 데이터에 대한 정의를 동시에 제공한다.
API 기반 비정형 데이터 크롤링 모듈(221)은 수집 대상 서비스가 제공하는 Open API를 사용하여 소셜 네트워크 서비스 또는 블로그 등의 가상공간의 데이터(201)을 일괄 수집할 수 있다. API 기반 비정형 데이터 크롤링 모듈(221)은 API 요청 제한을 피하기 위해 타이머 기반 요청 기술을 사용하여 제한을 넘지 않는 범위에서 API를 통해 비정형 데이터를 수집할 수 있다. 또한 API 기반 비정형 데이터 크롤링 모듈(221)은 API 서버의 이상 상태를 감지하여 정상화 될 때까지 서버의 상태를 점검하며 대기할 수 있다.
로봇 기반 비정형 데이터 크롤링 모듈(221)은 스파이더라고 불리는 로봇을 통해 인터넷 상에 존재하는 웹 문서를 일괄 수집할 수 있다. 스파이더는 웹 문서를 지속적으로 수집하는 가상의 로봇을 지칭하는 말로서 사용자가 제공하는 URL을 수집하거나 자동적으로 웹 페이지에 연결된 URL로 이동하며 웹 문서를 일괄 수집할 수 있다. 로봇 기반 비정형 데이터 크롤링 모듈(221)에서는 URL 수집 기술을 통해 특정 서비스 상에서 목표 키워드를 포함하고 있는 URL을 수집할 수 있다. 로봇 기반 비정형 데이터 크롤링 모듈(221)은 웹 페이지 분석 기술을 통해 웹 페이지에 포함되어 있는 표준 형태 정보 및 부가 정보를 추출할 수 있다.
데이터 필터링부(230)는 사용자 필터링 모듈(231)과 패턴 필터링 모듈(232)로 구성될 수 있다.
사용자 필터링 모듈(231)은 단어 빈도 및 역문서 빈도를 이용한 키워드 추출 기술을 사용하여 한 사용자가 다른 사용자에 비해서 특정 단어를 비정상적으로 높은 빈도로 사용하는 것을 감지할 수 있다. 그리고 패턴 필터링 모듈(232)은 사용자의 서비스 사용 패턴을 분석하여 비정상적인 형태로 서비스를 사용하는 사용자를 구분할 수 있다. 또한, 최종적으로 비정상 데이터 삭제 기술을 통해서 사용자 필터링 모듈(231)의 기준과 패턴 필터링 모듈(232)의 기준을 통과하지 못한 데이터를 삭제하여 저장하지 않도록 할 수 있다.
데이터 저장부(240)는 표준 형태 저장 모듈(241)과 부가 정보 저장 모듈(242)로 구성될 수 있다.
표준 형태 저장 모듈(241)은 대부분의 서비스가 포함하고 있는 표준 형태 정보를 비정형 데이터로부터 추출하여 저장할 수 있다. 예를 들면, 표준 형태는 게시 시간, 사용자, 아이디, 본문 등을 포함할 수 있다.
표준 형태 저장 모듈(241)은 데이터에 대한 정의를 포함하고 있는 API 기반 비정형 데이터 크롤링 모듈(221)로부터 수집된 데이터의 경우는 정의를 기반으로 표준 형태 정보를 추출할 수 있다. 표준 형태 저장 모듈(241)은 로봇 기반 비정형 데이터 크롤링 모듈(222)를 통해 수집된 데이터의 경우에 웹 페이지 분석 기술 및 자연어 처리 기법을 사용하여 표준 형태 정보를 추출할 수 있다. 표준 형태 저장 모듈(241)은 추출된 표준 형태 정보가 같은 의미를 가지고 있더라도 다른 형태로 제공되는 경우에는 표준 형태 변환 기술을 통해서 동일한 형태로 변환할 수 있다. 표준 형태 저장 모듈(241)은 동일한 형태로 변경된 표준 형태 정보를 데이터베이스에 정형화하여 저장할 수 있다.
부가 정보 저장 모듈(242)은 각각의 서비스가 포함하고 있는 이질적인 부가 정보를 공통의 형태로 변환하여 저장할 수 있다. 부가 정보 저장 모듈(242)은 부가 정보의 경우 키와 값 형태를 제공하는 JSON 형태로 저장할 수 있다. 또한, 부가 정보 저장 모듈(242)은 추후 데이터의 사용하기 위하여 키를 명시적으로 제공하여 데이터 사용을 용이하게 할 수 있다. 부가 정보 저장 모듈(242)은 JSON 형태로 변환된 부가 정보를 표준 형태 저장 모듈(241)과 함께 데이터베이스에 텍스트 형태로 저장할 수 있다.
도 3은 본 발명의 일 실시예에 따른 비정형 데이터 수집, 필터링 및 공통형태 저장 시스템을 나타낸 흐름도이다.
도 3을 참조하면, 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템은 비정형 데이터 필터링과 공통형태 변환을 통해 분석에 유의미한 데이터만을 추출하고 저장할 수 있다.
단계(310)에서 비정형 데이터 수집부는 비정형 데이터를 소셜 네트워크 서비스, 블로그 및 웹 문서를 포함하는 가상공간의 데이터(210)으로부터 자동적으로 일괄 수집할 수 있다.
단계(320)에서 데이터 수집부는 해당 데이터가 수집 목표 키워드를 포함하고 있는지를 검사할 수 있다. 예를 들면, 데이터 수집부는 여행에 관련된 문서인 경우, 문서에 여행과 관련된 단어의 사용 빈도를 판단할 수 있다.
데이터 수집부는 목표 키워드를 포함하고 있지 않은 경우에는 수집 목적과 부합하지 않은 데이터로 판별되기 때문에 별도의 필터링, 변환 및 저장 작업을 수행하지 않고 바로 종료할 수 있다. 반면 수집된 데이터가 목표 키워드를 포함하고 있는 경우에는 데이터가 비정상적인 사용자에 의해서 작성되어 있는지 추가적인 검사를 수행할 수 있다.
단계(330)에서, 데이터 필터링부는 해당 데이터가 정상적인 사용자에 의해서 작성된 의미있는 데이터인지를 판별할 수 있다. 데이터 필터링부는 데이터가 필터링 기준을 통과할 경우 표준형태 추출, 변환 및 저장과 부가정보 변환 및 저장을 수행할 수 있다.
데이터 필터링부는 데이터가 필터링 기준을 통과하지 못하는 경우 해당 데이터는 수집 목적과 부합하지 않은 데이터로 판별되기 때문에 별도의 필터링, 변환 및 저장 작업을 수행하지 않고 바로 종료할 수 있다.
단계(340)에서, 데이터 필터링부는 키워드 포함 여부와 필터링을 통과한 비정형 데이터에 대해 표준 형태 정보를 추출하고 동일한 의미의 다른 형태의 데이터를 통일된 형태로 변환할 수 있다.
단계(350)에서, 데이터 공통형태 저장부는 표준 형태 추출 및 변환 단계에서 공통형태로 변환되지 않은 부가정보를 별도의 공통형태로 변환하고 데이터베이스에 저장할 수 있다.
비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템은 도 3의 순서를 반복적으로 수행함으로써 가상공간에 존재하는 비정형 데이터를 주기적으로 자동적으로 필터링하여 공통 형태로 저장할 수 있다.
도 4는 본 발명의 일 실시예에 따른 비정상 키워드 빈도와 비정상 사용패턴 감지에 따른 필터링을 나타낸 흐름도이다.
도 4를 참조하면, 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템은 특정 키워드에 대한 사용 빈도가 비정상 적으로 높은 사용자를 추출하고 해당 사용자 중 서비스 사용에 있어서 비정상적인 패턴을 보이는 경우를 추출할 수 있다.
단계(331)에서, 데이터 필터링부는 단어 빈도 및 역문서 빈도를 이용한 키워드 추출기술을 통해 특정 키워드에 대한 사용 빈도가 비정상 적으로 높은 사용자를 추출할 수 있다. 데이터 필터링부는 Term Frequency-Inverse Document Frequency(TF-IDF) 기법을 통해 각 사용자가 작성한 모든 텍스트를 하나의 문서로 가정하고 각 사용자 간의 단어 사용빈도를 비교하여 한 사용자가 다른 사용자들에 비해 특정 단어를 높은 빈도로 사용하는 경우를 검출할 수 있다.
단계(332)에서, 데이터 필터링부는 특정 키워드 빈도가 비정상적으로 높은 경우와 아닌 경우는 구분하여 특정 키워드의 빈도가 비정상적으로 높은 경우에는 비정상 사용패턴 감지 검사를 시행하고, 그렇지 않은 경우에는 정상이라고 판단하여 표준 형태 추출 및 변환, 부가정보 변환 및 공통형태 저장을 수행할 수 있다.
단계(333)에서, 데이터 필터링부는 특정 키워드 빈도가 비정상적으로 높은 데이터에 대해서 사용자의 패턴을 분석 할 수 있다. 사용자의 글 작성 시간, 글의 반복 여부 등을 분석의 기법으로 정의하고 각 사용자가 언급된 패턴에 포함되는 지를 분석한다.
단계(334)에서, 데이터 필터링부는 비정상 사용패턴이 감지되어 비정상으로 판단된 데이터는 표준 형태 추출 및 면환, 부가정보 변환 및 공통형태 저장을 수행할 필요가 없기 때문에 종료할 수 있다. 비정상 사용패턴으로 감지되지 않은 데이터는 정상으로 판단하여 표준 형태 추출 및 변환, 부가정보 변환 및 공통형태 저장을 수행할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템에 있어서,
    가상공간의 비정형 데이터를 일괄적으로 수집하고, 상기 수집된 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 데이터 수집부;
    상기 목표 키워드를 포함하고 있는 비정형 데이터를 비정상적 단어 빈도와 비정상적 사용자 패턴을 기반으로 정상 상태 또는 비정상 상태로 분류하는 데이터 필터링부; 및
    상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하여 변환하고, 상기 정상 상태로 분류된 데이터로부터 부가 정보를 변환하여, 상기 표준 형태 정보와 결합함으로써 공통형태로 저장하는 데이터 공통형태 저장부
    를 포함하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템.
  2. 제1항에 있어서,
    상기 데이터 수집부는,
    상기 가상공간에 작성된 복수의 형태의 비정형 데이터를 Open API와 로봇을 기반으로 하는 맞춤형 크롤러를 활용하여 주기적이고 자동적으로 일괄 수집하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템.
  3. 제1항에 있어서,
    상기 데이터 필터링부는,
    상기 수집된 비정형 데이터에 대해 기설정된 기준에 기초하여 특정 단어의 사용 빈도가 높은 비정상적 사용자 추출과 상기 비정상적 사용자의 서비스 패턴 추출을 통하여 비정상 데이터를 제거하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템.
  4. 제1항에 있어서,
    상기 데이터 공통형태 저장부는,
    상기 필터링을 통하여 정상으로 판별된 데이터를 서비스가 포함하고 있는 표준 형태의 정보와 각 서비스 별로 상이하게 포함하고 있는 부가 정보로 구분하여 각각을 정형화하여 저장하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 시스템.
  5. 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법에 있어서,
    가상공간 상의 비정형 데이터를 수집하는 단계;
    상기 수집한 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 단계;
    상기 목표 키워드를 포함하고 있는 비정형 데이터를 정상 상태와 비정상 상태로 분류하는 단계;
    상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하고 변환하는 단계;
    상기 정상 상태로 분류된 데이터로부터 부가 정보를 변환하여 상기 표준 형태 정보와 결합함으로써 공통형태로 저장하는 단계
    를 포함하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  6. 제5항에 있어서,
    상기 가상공간 상의 비정형 데이터를 수집하는 단계는,
    상기 가상공간 상에 존재하는 복수의 비정형 데이터를 Open API와 로봇 기반의 스파이더를 통해 주기적이고 자동적으로 일괄 수집하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  7. 제5항에 있어서,
    상기 수집한 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 단계는,
    상기 수집한 비정형 데이터를 포함하고 있는 본문으로부터 수집을 목표로 하는 목표 키워드를 포함하는지 여부를 판단하여 상기 목표 키워드를 포함하지 않는 데이터를 수집하지 않고 제거하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  8. 제5항에 있어서,
    상기 목표 키워드를 포함하고 있는 비정형 데이터를 정상 상태와 비정상 상태로 분류하는 단계는,
    비정상적 단어 사용 빈도와 비정상적 사용자 패턴을 기반으로 비정상적 비정형 데이터를 분류하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  9. 제8항에 있어서,
    상기 목표 키워드를 포함하고 있는 비정형 데이터를 정상 상태와 비정상 상태로 분류하는 단계는,
    단어 빈도 및 역문서 빈도를 이용하여 키워드를 추출하는 단계;
    상기 추출된 키워드의 사용 빈도에 기초하여 비정상적인 것을 판별하는 단계;
    사용자의 서비스 사용패턴을 분석하는 단계; 및
    상기 사용자의 비정상 서비스 사용패턴을 감지하는 단계
    를 포함하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  10. 제9항에 있어서,
    상기 단어 빈도 및 역문서 빈도를 이용한 키워드를 추출하는 단계는,
    상기 목표 키워드를 언급한 사용자로부터 상기 단어 빈도 및 역문서 빈도를 이용한 키워드 추출을 실시하고, 각각의 사용자로부터 상기 목표 키워드에 대한 사용 목적 및 사용 빈도를 분석하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  11. 제9항에 있어서,
    상기 추출된 키워드의 사용 빈도에 기초하여 비정상적인 것을 판별하는 단계는,
    상기 목표 키워드에 대한 사용 목적 및 사용 빈도를 분석함으로써 획득한 결과값이 설정된 기준을 초과하는 경우, 상기 설정된 기준을 초과된 결과값을 포함하는 사용자를 비정상으로 판별하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  12. 제9항에 있어서,
    상기 사용자의 서비스 사용패턴을 분석하는 단계는,
    글 작성 시간의 분포 및 동일 글의 반복 게시 여부 중 적어도 어느 하나의 조건에 기초하여 상기 서비스 사용패턴을 분석하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  13. 제9항에 있어서,
    상기 사용자의 비정상 서비스 사용패턴을 감지하는 단계는,
    상기 사용자의 서비스 사용패턴을 분석한 결과값이 설정된 기준을 만족하지 못하는 경우, 상기 설정된 기준을 만족하지 못하는 결과값을 갖는 사용자를 비정상으로 판별하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  14. 제5항에 있어서,
    상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하고 변환하는 단계는,
    상기 정상 상태로 판별된 비정형 데이터에서 서비스가 공통적으로 포함하고 있는 표준 형태 정보를 추출하고, 상기 표준 형태 정보를 포함하는 특정 내용에 대하여 동일한 형태로 변환하는 것
    을 포함하고,
    상기 정상 상태로 분류된 데이터로부터 부가 정보를 변환하여 상기 표준 형태 정보와 결합함으로써 공통형태로 저장하는 단계는,
    상기 정상 상태로 판별된 비정형 데이터에서 각각의 서비스가 선택적으로 포함하고 있는 부가 정보를 키와 값을 가지는 텍스트 형태로 변환하고, 상기 변환된 부가 정보를 상기 변환된 표준 형태 정보와 결합하여 공통형태로 변환한 후 저장하는 것
    을 특징으로 하는 비정형 데이터 수집, 필터링 및 공통형태 변환을 통한 저장 방법.
  15. 컴퓨터 시스템이 비정형 데이터 수집, 필터링 및 공통형태 변환을 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 매체로서,
    상기 명령은,
    가상공간 상의 비정형 데이터를 수집하는 단계;
    상기 수집한 비정형 데이터에 대하여 목표 키워드를 포함하는지 여부를 판단하는 단계;
    상기 목표 키워드를 포함하고 있는 비정형 데이터를 정상 상태와 비정상 상태로 분류하는 단계;
    상기 정상 상태로 분류된 데이터로부터 표준 형태 정보를 추출하고 변환하는 단계; 및
    상기 정상 상태로 분류된 정상 상태의 데이터로부터 부가 정보를 변환하여 상기 표준 형태 정보와 결합함으로써 공통형태로 저장하는 단계
    를 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어하는, 컴퓨터 판독가능 저장 매체.
KR1020150102899A 2015-07-21 2015-07-21 비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법 KR101631032B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150102899A KR101631032B1 (ko) 2015-07-21 2015-07-21 비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150102899A KR101631032B1 (ko) 2015-07-21 2015-07-21 비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101631032B1 true KR101631032B1 (ko) 2016-06-16

Family

ID=56355011

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150102899A KR101631032B1 (ko) 2015-07-21 2015-07-21 비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101631032B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101862178B1 (ko) * 2017-01-06 2018-05-29 주식회사 파싱 맞춤형 포스팅 방법 및 이를 운용하는 서버
CN110690992A (zh) * 2019-09-16 2020-01-14 中盈优创资讯科技有限公司 网络割接异常识别方法及装置
KR20210034446A (ko) * 2019-09-20 2021-03-30 주식회사 헥사콘 비정형 건설 데이터 처리 장치 및 방법
KR102395097B1 (ko) * 2021-11-24 2022-05-09 케이디시스 주식회사 악성코드 포함 여부를 자동으로 판단하는 데이터 백업 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040100214A (ko) * 2003-05-22 2004-12-02 박기현 자동분류를 통한 해운업 비정형 이메일 메시지의 정형 데이터베이스화 이메일 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040100214A (ko) * 2003-05-22 2004-12-02 박기현 자동분류를 통한 해운업 비정형 이메일 메시지의 정형 데이터베이스화 이메일 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101862178B1 (ko) * 2017-01-06 2018-05-29 주식회사 파싱 맞춤형 포스팅 방법 및 이를 운용하는 서버
CN110690992A (zh) * 2019-09-16 2020-01-14 中盈优创资讯科技有限公司 网络割接异常识别方法及装置
CN110690992B (zh) * 2019-09-16 2022-03-29 中盈优创资讯科技有限公司 网络割接异常识别方法及装置
KR20210034446A (ko) * 2019-09-20 2021-03-30 주식회사 헥사콘 비정형 건설 데이터 처리 장치 및 방법
KR102363481B1 (ko) 2019-09-20 2022-02-16 주식회사 헥사콘 비정형 건설 데이터 처리 장치 및 방법
KR102395097B1 (ko) * 2021-11-24 2022-05-09 케이디시스 주식회사 악성코드 포함 여부를 자동으로 판단하는 데이터 백업 시스템

Similar Documents

Publication Publication Date Title
Vishwakarma et al. Detection and veracity analysis of fake news via scrapping and authenticating the web search
Jerlin et al. A new malware detection system using machine learning techniques for API call sequences
US9652318B2 (en) System and method for automatically managing fault events of data center
JP7120350B2 (ja) セキュリティ情報分析方法、セキュリティ情報分析システム、及び、プログラム
JP3845046B2 (ja) 文書管理方法および文書管理装置
US7613667B2 (en) Methods and systems for analyzing incident reports
CN111783016B (zh) 一种网站分类方法、装置及设备
KR101631032B1 (ko) 비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법
CN111581355A (zh) 威胁情报的主题检测方法、装置和计算机存储介质
US11263062B2 (en) API mashup exploration and recommendation
CN105808722B (zh) 一种信息判别方法和***
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
KR102421904B1 (ko) 재난사고 원인분석의 고도화 방법
KR20210097408A (ko) 유해 웹사이트 정보의 업데이트 장치 및 이에 의한 방법
De Carvalho et al. Exploring Text Mining and Analytics for Applications in Public Security: An in-depth dive into a systematic literature review
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR102166390B1 (ko) 비정형 데이터의 모델링 방법 및 시스템
Rahimi et al. Service quality monitoring in confined spaces through mining Twitter data
Moumtzidou et al. Discovery of environmental nodes in the web
Thanos et al. Combined deep learning and traditional NLP approaches for fire burst detection based on twitter posts
Velloso et al. Web page structured content detection using supervised machine learning
KR101005871B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법
Sun et al. Hybrid model based influenza detection with sentiment analysis from social networks
Ahmed et al. A fault tolerant approach for malicious URL filtering
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190603

Year of fee payment: 4