KR101511709B1

KR101511709B1 - 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법 및 이를 적용한 종합주가 관련지수 예측 시스템

Info

Publication number: KR101511709B1
Application number: KR20130163584A
Authority: KR
Inventors: 김영대; 고경훈; 이동진
Original assignee: 주식회사 코스콤
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2015-04-13

Abstract

본 발명은 종합주가 관련지수의 예측에 반영되지 않은 구성 종목에 대한 긍정적 또는 부정적 이슈로 인하여 시장에 큰 변동이 발생된 경우라도 적응적으로 신뢰성 있는 예측 결과를 도출할 수 있는 종합주가 관련 예측 방법 및 그 시스템에 관한 것이다.
이를 실현하기 위해 본 발명의 일 형태는 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법에 있어서, (a) 상기 종합주가 관련지수 예측을 위한 하나 이상의 구성종목을 지정하는 단계; (b) 경제 통계데이터를 포함하는 정형데이터 및 소셜 미디어 데이터(Social Media Data; SMD)를 포함하는 비정형데이터로 구성되는 빅데이터를 이용하여 상기 하나 이상의 구성종목 각각에 대한 주가 지수를 예측하는 단계; (c) 상기 예측된 하나 이상의 구성종목 각각에 대한 주가 지수에 근거하여 상기 종합주가 관련지수를 예측하는 단계; (d) 상기 (c) 단계에서 예측된 종합주가 관련지수와 실제의 종합주가 관련지수의 오차를 계산하는 단계; (e) 상기 오차가 미리결정된 임계값을 벗어나는지의 여부를 판정하는 단계; 및 (f) 상기 (e) 단계의 결과, 상기 오차가 미리결정된 임계값을 벗어나는 것으로 판정되는 경우, 상기 하나 이상의 구성종목의 일부 또는 전부를 다른 구성종목으로 변경하는 단계를 포함하는, 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법을 제공한다.

Description

소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법 및 이를 적용한 종합주가 관련지수 예측 시스템{Method of predicting a composite stockrelated price index through an analysis of a social data and system applying the same}

본 발명은 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법 및 이를 적용한 종합주가 관련지수 예측 시스템에 관한 것으로, 보다 상세하게는 종합주가 관련지수의 예측에 반영되지 않은 구성 종목에 대한 긍정적 또는 부정적 이슈로 인하여 시장에 큰 변동이 발생된 경우라도 적응적으로 신뢰성 있는 예측 결과를 도출할 수 있는 예측 방법 및 그 시스템에 관한 것이다.

주식시장은 특유의 복잡한 가격결정 메커니즘으로 인해 주가의 변동을 시장 펀더멘탈의 변화로 설명할 수 없는 경우가 자주 발생한다. 펀더멘탈의 뚜렷한 변화가 발생하지 않았음에도 불구하고 가격이 크게 변동하는 것을 발견할 수 있는데, 이때 새로운 뉴스의 출현이 가격변동의 중요한 원인으로 종종 작용하곤 한다. 뉴스는 현실 세계에 일어나는 각종 현상에 대한 설명과 미래의 정치, 경제,사회, 기업 등과 관련하여 앞으로 어떤 변화가 발생되고 진행되어 갈지 그에 대한 정보들을 포함하고 있기 때문이다. 그러므로 뉴스와 주가는 밀접한 관계를 가지고 있으며, 뉴스를 통해 시장 참가자들은 주식시장의 변동성을 일부나마 예측할 수 있게 된다.

한편, 최근에는 증권사, 언론사 등에서 제공되는 뉴스 정보 뿐만 아니라, 모바일 기기의 급격한 발전으로 인하여, 소셜 미디어 데이터, 예컨대 트위터(twitter), 증시 관련 개인 블로그(blog), 페이스북, 다양한 포털 사이트의 소셜 데이터 서비스 등에 의해서 제공되는 정보가 폭발적으로 증가하고 있다. 이와 같은 데이터는 뉴스 정보보다 매우 많은 양으로 시장 참가자들에게 유통되고 있으며, 이에 대해 빅데이터라고 칭하고 있다.

소셜 미디어 데이터는 개인의 주관적 관점으로 작성되어 있어 뉴스 정보보다 낮은 신뢰성을 가진다는 측면이 있으나, 소셜 미디어 데이터가 빅데이터급으로 제공되므로, 이 데이터를 통해 시장 참가자들의 주식시장, 특히 개별 종목에 대한 반응이 상당 정도의 객관성을 갖고 도출될 뿐만 아니라, 개별 종목의 향후 전망도 타당성을 가질 수 있는 정도에 이르렀다.

그러나, 예를 들어 코스피 200지수와 같은 선물과 옵션의 기초가 되는 종합지수(이하, 종합주가 관련지수라 칭함)의 예측에 있어서는 효율성과 제어성을 고려하여, 그 구성종목 중의 시장대표성(시가총액의 일정비율 이상인 종목)이 큰 소정 개수의 개별 종목에 대해서만 지수 예측 프로세스를 수행하므로(예를 들면, 코스피 200지수의 예측에 있어서는 시장대표성이 큰 50개의 종목에 대해서만 지수 예측 프로세스를 수행), 만일 상기 종합주가 관련지수의 예측에 반영되지 않은 구성 종목에 대한 긍정적 또는 부정적 이슈로 인하여 시장에 큰 변동이 생긴 경우에는 그 예측된 종합주가 관련 지수가 실제의 종합주가 관련 지수와 부합하지 않게 되는 문제점이 발생한다.

예를 들어, 도 2의 흑색 그래프(실제의 종합주가 관련지수 그래프))가 나타낸 바와 같이, 실제의 상황에 있어서는(예를 들면, 12월 3일과 12월 4일 사이 기간) 종합주가 관련지수의 산출에 반영되지 않은 특정 종목의 부정적 이슈로 인하여 전체 종합주가 관련지수가 크게 음의 방향으로 흐르고 있음에도, 적색 그래프(예측된 종합주가 관련지수)로 나타낸 바와 같이 이러한 상황이 종합주가 관련 지수 예측에 전혀 반영되지 않고 있으므로, 지수 예측의 신뢰성이 크게 떨어지게 되는 문제점이 발생할 수 있다.

본 발명은 상술한 바와 같은 문제점을 감안하여 안출된 것으로서, 종합주가 관련지수의 예측에 반영되지 않은 구성 종목에 대한 긍정적 또는 부정적 이슈로 인하여 시장에 큰 변동이 생긴 경우에도 적응적으로 신뢰성 있는 예측 결과를 도출할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.

상기 기술적 과제를 이루기 위한 본 발명의 일 양태에 따르면, 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법이 제공되며, 상기 방법은 (a) 상기 종합주가 관련지수 예측을 위한 하나 이상의 구성종목을 지정하는 단계; (b) 경제 통계데이터를 포함하는 정형데이터 및 소셜 미디어 데이터(Social Media Data; SMD)를 포함하는 비정형데이터로 구성되는 빅데이터를 이용하여 상기 하나 이상의 구성종목 각각에 대한 주가 지수를 예측하는 단계; (c) 상기 예측된 하나 이상의 구성종목 각각에 대한 주가 지수에 근거하여 상기 종합주가 관련지수를 예측하는 단계; (d) 상기 (c) 단계에서 예측된 종합주가 관련지수와 실제의 종합주가 관련지수의 오차를 계산하는 단계; (e) 상기 오차가 미리결정된 임계값을 벗어나는지의 여부를 판정하는 단계; 및 (f) 상기 (e) 단계의 결과, 상기 오차가 미리결정된 임계값을 벗어나는 것으로 판정되는 경우, 상기 하나 이상의 구성종목의 일부 또는 전부를 다른 구성종목으로 변경하는 단계를 포함할 수 있다.

바람직한 실시예에 따라, 상기 (f) 단계에서, 상기 하나 이상의 구성종목의 일부 또는 전부를 다른 구성종목으로 변경하는 것은, 상기 하나 이상의 구성종목 중의 관련 소셜 미디어 데이터의 발생 양이 적은 구성종목을 상기 하나 이상의 구성종목 이외의 개별 종목 중의 관련 소셜 미디어 데이터의 발생 양이 많은 종목으로 대체하는 것일 수 있다.

바람직한 실시예에 따라, 상기 관련 소셜 미디어 데이터는 소셜 미디어 사이트 및 개인화된 블로그 중의 적어도 하나로부터 수집되는 데이터일 수 있다.

바람직한 실시예에 따라, 상기 관련 소셜 미디어 데이터는 html, PDF(Portable Document Format), 이미지 및 동영상 중 적어도 하나를 포함할 수 있다.

바람직한 실시예에 따라, 상기 (f) 단계에서, 상기 하나 이상의 구성종목의 일부 또는 전부를 다른 구성종목으로 변경하는 액션은, 상기 (e) 단계의 결과 상기 오차가 미리결정된 임계값을 벗어나는 것으로 판정되었다는 제 1 조건과, 상기 제 1 조건이 일정 기간 이상 지속되었다는 제 2 조건을 모두 만족시키는 경우에 취해질 수도 있다.

바람직한 실시예에 따라, 상기 (b) 단계는, (b1) 상기 소셜 미디어 데이터에 대한 형태소를 분석하는 단계; (b2) 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가하는 방식으로 상기 소셜 미디어 데이터 전체를 분석하는 단계; 및 (b3) 상기 감성 평가된 소셜 미디어 데이터를 반영하여 상기 하나 이상의 구성종목 각각에 대한 주가 지수를 예측하는 단계를 포함할 수도 있다.

상기 기술적 과제를 이루기 위한 본 발명의 다른 양태에 따르면, 경제 통계데이터를 포함하는 정형데이터 및 소셜 미디어 데이터를 포함하는 비정형데이터로 구성되는 빅데이터를 이용하여 종합주가를 예측하는 종합주가 관련지수 예측 시스템이 제공되며, 상기 시스템은 상기 종합주가 관련지수 예측을 위한 하나 이상의 구성종목을 결정하는 구성종목 결정 모듈을 포함하고, 상기 구성종목 결정 모듈은, 상기 하나 이상의 구성종목을 포함하는 개별 종목마다의 소셜 미디어 데이터 발생 양을 수치화하여 SMD(Social Media Data) 스코어로서 생성하여 누적 저장하는 SMD 스코어 생성부; 예측된 종합주가와 실제의 종합주가의 오차가 미리결정된 임계값을 벗어나는지의 여부를 판정하는 예측 이상 판정부; 및 상기 SMD 스코어 생성부가 생성하여 누적 저장한 상기 SMD 스코어를 참조하여, 상기 종합주가 관련지수 예측을 위한 하나 이상의 구성종목을 상기 하나 이상의 구성종목 이외의 종목으로 변경하는 구성종목 변경부로서, 상기 변경된 종목의 SMD 스코어는 변경되기 이전의 종목의 SMD 스코어보다 큰, 상기 구성종목 변경부를 포함한다.

도 1은 본 발명의 일 실시예에 따른 종합주가 관련지수 예측 시스템의 구성도이다.
도 2는 실제 종합주가 관련지수와 예측 종합주가 관련지수 사이에 큰 오차가 발생된 상황을 예시한 도면이다.
도 3a 및 도 3b는 도 1의 종합주가 관련지수 예측 시스템에 적용되는 SMD 스코어 데이터베이스의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 종합주가 관련지수 예측 방법을 설명하기 위한 흐름도이다.
도 5는 도 1의 종합주가 관련지수 예측 시스템에 적용되는 키워드 데이터베이스의 구성도이다.
도 6은 도 1의 종합주가 관련지수 예측 시스템에 적용되는 문서 저장부의 구성도이다.
도 7은 도 1의 종합주가 관련지수 예측 시스템에 적용되는 데이터 분석부의 구성도이다.
도 8은 도 1의 종합주가 관련지수 예측 시스템에 적용되는 감성 사전 데이터베이스의 구성도이다.
도 9는 도 1의 종합주가 관련지수 예측 시스템에 적용되는 상관 분석/결정부의 구성도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하도록 한다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

또한, 본 발명의 이해를 용이하게 하기 위해, 본 명세서에서 사용되는 용어들을 설명하면 다음과 같다.

본 명세서에서 사용되는 "종합주가 관련지수"는 예를 들어 코스피 200지수와 같은 선물과 옵션의 기초가 되는 주가 관련 종합지수를 지칭한다.

본 명세서에서 사용되는 "감성사전"은 감성을 나타내는 단어에 긍정과 부정의 점수를 부여한 사전을 지칭하며, 예를 들어, 소셜 미디어 데이터가 해당 종목에 미치는 영향을 판단하는 감성분석의 기초 도구로 활용된다.

또한, 본 명세서에서 사용되는 "SMD(Social Media Data) 스코어"는 일정 기간 동안 각 개별 종목에서 발생한 소셜 미디어 데이터의 양을 수치화한 것을 지칭하며, 예를 들어, 어떤 특정 개별 종목이 일정 기간 동안에 크게 이슈가 되고 있는지의 여부를 판별하기 위한 도구로 활용된다.

[종합주가 관련지수 예측 시스템(1)의 종합주가 관련지수 예측을 위한 구성종목 변경 기능]

도 1은 본 발명의 일 실시예에 따른 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 시스템(1)의 블록도를 나타낸다.

도 1을 참조하면, 본 발명에 따른 종합주가 관련지수 예측 시스템(1)은 경제 통계데이터를 포함하는 정형데이터 및 소셜 미디어 데이터(Social Media Data; SMD)를 포함하는 비정형데이터로 구성되는 빅데이터를 이용하여 개별주가 및/또는 종합주가 관련지수(예를 들면, 코스피 200 지수)를 예측할 수 있는 시스템이다.

특히, 본 발명에 다른 종합주가 관련지수 예측 시스템(1)은 종합주가 관련지수 예측에 반영되지 않은 소수 종목에 대한 소셜 미디어 데이터가 소정 기간 급격히 변동된 경우에 적응적으로 그 종목을 예측에 반영가능한 시스템이다.

이를 위해, 종합주가 관련지수 예측 시스템(1)은 소셜 미디어 데이터의 발생이 많은(즉, 현재 이슈가 되고 있는) 종목을 종합주가 관련지수 예측에 자동으로 반영시키는 동작을 수행하는 구성종목 결정 모듈(200)을 포함하고 있다.

일 예에서, 구성종목 결정 모듈(200)은 구성종목마다의 소셜 미디어 데이터 발생 양을 수치화하여 SMD(Social Media Data) 스코어로서 생성하여 데이터베이스(300)에 누적 저장하는 SMD 스코어 생성부(200)와, 예측된 종합주가 관련지수와 실제의 종합주가 관련지수의 오차가 미리결정된 임계값을 벗어나는지의 여부를 판정하는 예측 이상 판정부(210)와, SMD 스코어 생성부(210)가 생성하여 누적 저장된 상기 SMD 스코어를 참조하여 종합주가 관련지수 예측을 위한 하나 이상의 구성종목을 변경하는 구성종목 변경부(230)를 포함할 수 있다.

일 실시예에서, 구성종목 변경부(230)는 예측 이상 판정부(210)에 의하여 예측된 종합주가 관련지수와 실제의 종합주가 관련지수의 오차가 미리결정된 임계값을 벗어났다는 통지를 받은 경우에 동작할 수 있다.

다른 실시예에서, 구성종목 변경부(230)는 예측 이상 판정부(210)에 의하여 예측된 종합주가 관련지수와 실제의 종합주가 관련지수의 오차가 미리결정된 임계값을 벗어났으며 그 상황이 미리결정된 임계기간 이상 지속되었다는 통지를 받은 경우에 동작할 수 있다.

바람직한 실시예에 따라, 구성종목 변경부(230)는 종합주가 관련지수 예측에 반영된 하나 이상의 구성종목 중의 관련 소셜 미디어 데이터의 발생 양이 적은 구성종목을, 종합주가 관련지수 예측에 반영되지 않은 종목 중의 관련 소셜 미디어 데이터의 발생 양이 많은 구성종목을 변경하는 동작을 수행할 수 있다.

바람직한 실시예에 따라, 구성종목 변경부(230)가 수행하는 종합주가 관련지수 예측을 위한 구성종목 변경의 기준이 되는 상기 관련 소셜 미디어 데이터는, 아래에서 더 설명되는 바와 같이, 문서 수집/추출부(110)에 의하여 소셜 미디어 사이트(12) 및 개인화된 블로그(14) 중의 적어도 하나로부터 수집되는 데이터일 수 있다.

바람직한 실시예에 따라, 구성종목 변경부(230)가 수행하는 종합주가 관련지수 예측을 위한 구성종목 변경의 기준이 되는 상기 관련 소셜 미디어 데이터는, 아래에서 더 설명되는 바와 같이, html, PDF(Portable Document Format), 이미지 및 동영상 중 적어도 하나의 형태로 이루어진 것일 수 있다.

바람직한 실시예에 따라, 종합주가 관련지수 예측 시스템(1)은 예를 들어 도 3a 나타낸 바와 같은 종합주가 관련지수 예측을 위해 반영된 소정개수 구성종목(예를 들면, 50개의 구성종목)의 종목별 SMD 스코어를 저장한 데이터와, 예를 들어 도 3b에 나타낸 바와 같은 종합주가 관련지수 예측에 미반영된 소정개수 구성종목(예를 들면, 150개의 구성종목)의 종목별 SMD 스코어를 저장한 데이터를 저장한 SMD 스코어 데이터베이스(300)를 포함할 수 있다. 여기서의 "SMD(Social Media Data) 스코어"는 일정 기간 동안 각 개별 종목에서 발생한 소셜 미디어 데이터의 양을 수치화한 것을 지칭하며, 이것은 예를 들어, SMD 스코어 생성부(210)가 문서 수집/추출부(110)에 의해 추출되는 개별 종목별 소셜 미디어 데이터의 개수를 카운팅하는 것에 의해 생성될 수 있다.

이제, 도 1 내지 4를 함께 참조하여, 본 발명에 따른 종합주가 관련지수 예측 시스템(1)의 특징적 동작 과정을 설명하면 다음과 같다.

종합주가 관련지수 예측 시스템(1)은 기본적으로 종합주가 관련 지수 예측을 위한 하나 이상의 구성종목을 지정하여(S101), 그 하나 이상의 구성종목에 대한 주가지수를 예측하는 동작(S102)과, 그 하나 이상의 종목에 대해 예측된 주가지수를 반영하여 종합주가 관련지수를 예측하는 동작(S103)을 수행할 수 있는 시스템이다.

종합주가 관련지수 예측 시스템(1)의 운용 도중에, 특정 시점에 소수 종목의 영향으로 인하여 전체 예측 결과가 틀어지는 경우, 즉, 도 2의 흑색 그래프(실제의 종합주가 관련지수 그래프)가 나타낸 바와 같이 종합주가 관련지수의 산출에 반영되지 않은 구성종목(예를 들면, 도 3b의 구성종목 54)의 부정적 이슈로 인하여 전체 종합주가 관련 지수가 크게 음의 방향으로 흐르고 있음에도, 적색 그래프(예측된 종합주가 관련지수)로 나타낸 바와 같이 이러한 변동 요소가 종합주가 관련 지수 예측에 전혀 반영되고 있지 않은 경우에는, 예측된 종합주가 관련지수와 실제 종합주가 관련지수 사이에 큰 오차가 발생하게 된다.

이때, 예측 이상 판정부(220)는 그 발생된 오차가 미리결정된 임계값을 벗어나는지의 여부를 판정하고(S104), 그 결과값이 임계값을 벗어나고 있는 경우에는(S105), 실시간으로 구성종목 변경부(230)에 그 결과를 통지한다.

구성종목 변경부(230)는 SMD 스코어 데이터베이스(300)에 저장되어 있는, 예측을 위해 반영된 소정개수 구성종목 목록 데이터(예를 들면, 도 3a의 데이터) 중의 SMD 스코어가 가장 낮은 구성종목(예를 들면, 도 3a의 구성종목 3)을, 예측에 미반영된 소정개수 구성종목 목록 데이터(예를 들면, 도 3b의 데이터) 중의 SMD 스코어가 가장 높은 구성종목(예를 들면, 도 3b의 구성종목 54)으로 대체하는 동작을 수행한다(S106).

이에 따라, 본 발명에 따른 종합주가 관련지수 예측 시스템(1)은 구성종목 결정 모듈(200)의 상술한 특징 동작들에 의해 특정 시점(또는 기간)의 소셜 미디어 데이터 패턴을 종합주가 관련지수 예측에 적응적으로 반영할 수 있게 되며, 이에 의해 시장 상황을 반영한 신뢰성 있는 예측 결과를 제공할 수 있게 된다.

도 2의 예시적 상황에서 12월 4일 이후에는 본 시스템(1)의 구성종목 변경부(230)의 동작에 따라, 실제의 종합주가 관련지수에 영향을 미치고 있는(즉, 이에 따라 관련 소셜 미디어 데이터를 대량으로 발생시키고 있는) 특정 종목(예를 들면, 도 3b의 구성종목 54)이 예측에 반영되었으며, 이에 의해 실제의 종합주가 관련지수와 예측된 종합주가 관련지수는 매우 유사한 패턴을 갖게 됨을 확인할 수 있다.

[종합주가 관련지수 예측 시스템(1)의 개별주가 및/또는 종합주가 관련지수 예측 기능]

이하에서는, 종합주가 관련지수 예측 시스템(1)이 경제 통계데이터를 포함하는 정형데이터 및 소셜 미디어 데이터를 포함하는 비정형데이터로 구성되는 빅데이터를 이용하여 개별주가 및/또는 종합주가 관련지수를 예측하는 동작에 대해 각 기능별로 상세히 설명하도록 한다.

도 1을 참조하면, 종합주가 관련지수 예측 시스템(1)은 구성종목 모듈(200) 이외에, 소셜 미디어 데이터(10)와 증시 관련 웹데이터(20)로부터 대량의 문서를 수집하는 문서 수집/추출부(110)와, 수집된 문서를 개별 기업별로 저장하는 문서 저장부(130)와, 개별 기업별로 복수의 문서에 포함된 표현 내지는 문장에 대하여 형태소를 분석하는 형태소 분석부(140)와, 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하는 데이터 분석부(150)를 더 포함한다. 또한, 종합주가 관련지수 예측 시스템(1)은 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성하는 상관 분석/결정부(170) 및 선택된 평가 데이터와 분석 데이터에 근거하여 개별 종목의 주가 및 이를 반영한 종합주가를 예측 산정하는 주가 예측부(180) 및 주가 예측부(180)로부터 도출된 예측 결과를 표시하는 표시부(190)를 포함할 수 있다.

문서 수집/추출부(110)는 소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들(30)을 입력받는다. 여기서, 개별 종목은 증시에 상장된 기업이고, 수집되는 문서는 html, PDF(Portable Document Format), 이미지 및 동영상 중 적어도 하나의 형태로 구현될 수 있다.

소셜 미디어 데이터(10)는 인터넷 등의 네트워크와 접속되는 고정형 컴퓨터 또는 모바일 기기를 통해 입력되는 미디어 데이터로서, 네트워크와 접속된 다른 사용자와 상호 공유될 수 있는 데이터이다. 예컨대, 소셜 미디어 데이터(10)는 소셜 미디어 서버에서 운영하는 소셜 미디어 사이트들(12) 및 다양한 포털 사이트 등에서 운영하며 개인화된 컨텐츠가 포함된 블로그 사이트들(14)일 수 있다. 소셜 미디어 사이트들(12)은 소위 SNS로서, 트위터(twitter), 페이스북(facebook), 다양한 포털 사이트에서 서비스하는 소셜 미디어일 수 있다.

증시 관련 웹데이터(20)는 언론사, 공중파 방송사, 케이블 방송사, 포털 사이트 뉴스, 금융사, 증시 관련 기관 등으로부터 제공되는 웹데이터로서, 소셜 미디어 데이터(10)에 비해 전문적이거나 공신력있는 증시 관련 데이터이다. 이러한 증시 관련 웹데이터(20)는 언론사, 방송사, 포털 사이트 뉴스로부터 서비스되는 증시 관련 뉴스 사이트들(22), 은행, 증권사, 보험 등의 금융사에서 증시와 관련하여 서비스되는 금융사 포털 사이트들(24) 및 증시 관련 공공 기관 또는 사설 기관에서 증시와 관련된 분석 정보를 제공하는 증시 관련 통계 사이트들(26)일 수 있다.

증시 지표 데이터들(30)은 주식에 상장된 개별 종목마다의 주식 정보로서, 예컨대 시가, 고가, 저가, 종가, 호가, 체결 여부, 거래량, 거래 대금, 거래원, 상한가, 하한가, 신고가, 신저가 등을 포함할 수 있다.

소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)로부터 대량의 문서를 수집하는 경우에, 문서 수집/추출부(110)는 모든 문서를 수집하는 것이 아니라, 키워드 데이터베이스(120)를 참조하여 적어도 하나의 개별 종목과 관련된 문서를 수집하는 것이다.

키워드 데이터베이스(120)는 개별 종목에 해당하는 기업마다 카테고리화되어 있는 키워드 군을 포함할 수 있으며, 구체적으로 도 5에 도시된 바와 같이, 개별 종목의 기업명과 관련된 메인 키워드(122)와 아울러서, 기업에서 출시하는 상품, 서비스에 관한 제품/서비스 관련 키워드(124), 기업의 경영진 등에 관한 인적 관련 키워드(126) 및 개별 종목에 영향을 미칠 수 있는 단어, 컨텍스트에 관한 기업 상황 관련 키워드(128) 등을 포함하는 서브 키워드를 저장할 수 있다. 서브 키워드는 해당 기업 특유의 단어, 컨텍스트 등으로서, 해당 기업마다 분류되어 카테고리화된 형태로 존재할 수 있다.

메인 키워드에 대하여 예를 들어 설명하면, 메인 키워드(122)는 삼성전자, 엘지전자, KT 등과 같이 증시에 상장된 개별 종목의 기업명일 수 있으며, 삼성전자의 경우에 제품/서비스 관련 키워드(124)는 "갤럭시", "스마트폰", "하우젠", "태블릿", "앱 마켓" 등일 수 있으며, 인적 관련 키워드(126)는 삼성전자의 주요 임원진, 삼성전가와 거래하는 기업의 임원진 등일 수 있으며, 기업 상황 관련 키워드(128)는 삼성전자의 주가에 영향을 미칠 수 있는 단어 등으로서, "사상최대", "실적", "호조", "애플", "불만", "악화" 등으로 다양한 단어를 포함할 수 있다.

문서 수집/추출부(110)는 수집된 복수의 문서에 포함된 표현에서 전술한 키워드 중 메인 키워드(122), 제품/서비스 관련 키워드(124) 및 인적 관련 키워드(126)가 포함되는 문서들을 추출함으로써, 감성 평가에 적합한 문서 데이터를 효율적으로 선정할 수 있다.

문서 저장부(130)는 형태소 분석에 적합한 형태로 추출된 문서들을 저장할 수 있으며, 예컨대 도 6에 도시된 바와 같이, 개별 종목 그룹(131)마다 추출된 문서들의 포맷 별, 즉 html(132), pdf(133), 이미지(134), 동영상(135) 등으로 분산 저장될 수 있다.

형태소 분석부(140)는 감성 평가에 적합한 형태로 처리하기 위한 전처리로서, 저장된 복수의 문서의 포맷에 대하여 의미를 갖는 최소의 언어 단위인 형태소를 분석하여 각 품사를 특정하는 처리를 수행한다. 이 경우에, 형태소 분석부(140)는 도 6에 도시된 포맷마다 적합한 처리를 통해, 각 포맷에 대하여 병렬적으로 형태소 분석을 진행할 수 있다.

아울러, 형태소 분석부(140)는 문서의 포맷에 포함된 표현에서 문장, 컨텍스트 등을 어절 단위로 분류하고, 개별 종목과 관련된 키워드에 인접한 키워드들을 파싱(parsing)할 수 있다. 예를 들어 설명하면, 특정인의 블로그 사이트에서 삼성전자와 관련된 문장 및 엘지전자와 관련된 문장이 함께 존재하는 경우에, 형태소 분석부(140)는 문장 구조, 접속 구조, 구문 등을 고려하여 블로그 사이트의 텍스트를 어절 단위로 분류하고, 이후에 삼성전자 또는 엘지전자의 명칭, 상품/서비스, 인적 사항 등의 키워드를 검색하여, 이에 인접한 단어, 구문들을 파싱하고, 삼성전자 및 엘지전자 별 키워드들로 분류하여 저장한다.

데이터 분석부(150)는 도 7을 참조하면, 형태소 분석부(140)에서 처리된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 문서 전체에 대한 감성을 평가하는 데이터 감성 평가부(152) 및 형태소 분석부(140)에서 처리된 키워드를 통계 처리하는 키워드 분석부(154)를 포함할 수 있다.

데이터 감성 평가부(152)는 형태소 분석부(140)로부터의 키워드마다 긍정, 중립 또는 부정에 대한 평가 및 이 평가와 연계된 스코어를 저장하는 감성 사전 데이터베이스(160)를 참조하여, 추출된 키워드에 대하여 긍정, 중립 및 부정 중 어느 하나로 평가함과 아울러서 스코어링한다. 스코어링 알고리즘은 Naive bayes 알고리즘, Simple voter 알고리즘, KNN(K Nearest Neighborhood), SVM(Support Vector Machine) 일 수 있다. 이 중 Simple voter 알고리즘을 예로 들어 설명하면, 감성 사전 데이터베이스(160)는 도 8에 도시된 바와 같이, 키워드에 대한 감성 평가로서 긍정, 중립, 부정마다의 키워드를 테이블 형태로 저장할 수 있다. 이러한 감성 평가와 관련된 키워드의 품사의 대부분은 명사, 형용사로 구성될 수 있다. 예컨대 긍정 평가의 테이블(162)에서는 "상승", "사상최대", "오르다" 등의 키워드가 존재하고, 각 키워드에 부여되는 스코어 "1"이다. 또한, 부정 평가의 테이블(166)에서는 "불황", "내리다", "불만" 등의 키워드가 존재하고, 각 키워드에 부여되는 스코어 "-1"이다. 중립 평가 테이블(164)에 저장된 키워드에 부여되는 스코어는 "0"이다. 도 8에 도시된 스코어는 긍정과 부정을 구별하기 위한 것으로 예시되고 있으나, 이와는 달리, 긍정 또는 부정 평가와 연계된 스코어는 시장 참가자들이 해당 키워드에 느끼는 감성의 정도에 따라, 해당 키워드의 가중치를 달리하여 서로 다른 스코어로 구성될 수 있다.

데이터 감성 평가부(152)는 감성 사전 데이터베이스(160)에 의해 긍정, 중립 및 부정으로 판별된 키워드마다 부여된 스코어를 합산하여 복수의 문서 전체에 대한 감성 지수와 같은 감성 관련 평가 데이터를 산출할 수 있다. 여기서, 데이터 감성 평가부(152)는 모든 문서의 키워드에 대하여 감성 평가를 수행한 후, 문서 별로 긍정, 중립, 부정의 평가를 수행하지 않는다. 만약 문서의 감성 뉘앙스를 파악하기 위해 문서 별로 감성 평가를 수행하는 경우, 어떤 문서는 다른 문서에 비해 부정적으로 평가된 키워드가 훨씬 많이 존재함에도 불구하고, 각 문서가 동등한 스코어의 부정 평가를 받을 수 있다. 이에 의하면, 소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)로부터 추출된 복수의 문서 전체로부터 존재하는 개별 종목의 긍정 또는 부정 요소에 대한 비율이 왜곡되게 분석될 수 있다. 따라서, 본 실시예에서는 복수의 문서 전체로부터 형태소 분석된 키워드들을 문서 별로 그룹핑없이, 감성 평가를 수행함으로써, 분석의 왜곡을 방지할 수 있다.

키워드 분석부(154)는 형태소 분석부(140)로부터 분석된 키워드들에 대하여 기간별 수집 건수, 각 키워드 간의 상관 분석 등의 통계 분석을 수행하여 그 결과를 표시부(190)에 제공할 수 있다. 또한, 키워드 분석부(154)는 분석된 키워드들 중 키워드 데이터베이스(120)에 등록되지 않은 키워드를 선별하고, 신규로 선별된 키워드는 키워드 데이터베이스(120)에 갱신 저장됨으로써, 문서 수집/추출부(110)에서 수행되는 문서 수집의 정확성을 향상시킬 수 있으며, 관리자는 신규의 키워드 중 감성 평가에 반영할 키워드에 대해서는 감성 사전 데이터베이스(160)에 저장시킬 수 있다.

한편, 상관 분석/결정부(170)는 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성할 수 있다. 도 9를 참조하면, 상관 분석/결정부(170)는 평가 데이터 저장부(171), 제 1 상관 테이블부(172), 평가 데이터 수집 기간 결정부(173), 평가 데이터 선택부(174), 지연 기간 결정부(175), 경제 지표 데이터베이스(176) 및 제 2 상관테이블부(177)를 포함할 수 있다.

평가 데이터 저장부(171)는 일별로 개별 종목마다의 감성 지수와 같은 감성 관련 평가 데이터를 누적 저장할 수 있으며, 이러한 평가 데이터는 제 1 상관테이블부(172)에 제공되어 외부로부터 입력되는 증시 지표 데이터들(30)과의 상관 관계 분석을 수행하여, 과거 시점에서 개별 종목의 증시 지표 데이터들(30)과 이에 상응하는 평가 데이터 간의 분석된 상관 관계가 제 1 상관테이블부(172)에 수록된다.

평가 데이터 수집 기간 결정부(173)는 제 1 상관테이블부(172)에 저장된 과거 상관 관계에 기초하여 개별 종목의 주가에 영향을 미치는 평가 데이터의 수집 기간을 결정하고, 평가 데이터 선택부(174)는 평가 데이터 저장부(171)에 누적 저장된 감성 평가 데이터 중 수집 기간에 부합하는 평가 데이터를 선택하여 주가 예측부(180)로 제공할 수 있다.

또한, 지연 기간 결정부(175)는 제 1 상관테이블부(172)의 과거 상관 관계에 기초하여 감성 관련 평가 데이터가 개별 종목의 주가에 반영되어질 때까지의 경과되는 지연 기간을 결정하고, 주가 예측부(180)에 개별 종목의 주가 예측시에 지연 기간을 제공하여, 지연 기간 이후의 주가를 예측할 수 있다.

이와 같이 수집 기간 및 지연 기간을 주가 예측부(180)의 예측시에 제공함으로써, 보다 유효한 감성 평가 데이터를 활용할 수 있으며, 주가 예측 시점을 더 정확하게 특정할 수 있다.

또한, 제 2 상관테이블부(177)는 증시 지표 데이터들(30)과 경제 지표 데이터베이스(176)에 축적된 거시 경제 지수와 관련된 경제 지표 데이터들 간의 상관 관계로부터 도출되는 분석 데이터를 주가 예측부(180)에 제공할 수 있다. 이 경우에, 경제 지표 데이터들은 모든 개별 종목에 기본적으로 공통되게 영향을 주는 경제 지표로서, 예를 들면 금리, 환율, 예상성장율, 물가지수, 국제수지 등일 수 있다.

다시 도 1을 참조하면, 주가 예측부(180)는 상관 분석/결정부(170)로부터 선택된 감성 관련 평가 데이터, 지연 기간 및 제 2 상관테이블부(177)로부터 생성된 분석 데이터에 근거하여 개별 종목의 주가 및 이를 반영한 종합주가를 예측할 수 있다. 주가 예측은 증시 지표 데이터들(30)과 경제 지표 데이터에 기초한 시계열 분석을 토대로 하며, 소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)의 뉴스로부터 분석된 평가 데이터는 상기 시계열 분석으로부터 산출되는 예측 주가를 보정하는 항으로 결합될 수 있다. 주가 예측의 정확성을 보다 높이기 위해, 제 1 상관테이블부(172)의 상관 관계에 기초하여 산출된 가중치가 감성 관련 평가 데이터에 부여됨으로써, 가중치가 부여된 평가 데이터가 주가 예측에 반영될 수 있다. 주가 예측부(180)에서 산출된 개별 종목의 예측 주가 및 그 통계값은 표시부(190)에 표시된다.

종합주가 관련지수 예측 시스템(1)에 의하면, 소셜 데이터 및 뉴스를 포함한 대량의 데이터에 대한 감성 관련 평가 데이터를 반영함으로써, 시장 참가자들의 다양한 견해로부터 개별 종목에 대한 시장 분위기 및 정보를 보다 객관적이면서 유의미하게 추출할 수 있으므로, 개별 종목의 주가 및 이를 반영한 종합주가를 보다 신뢰성있게 예측할 수 있다. 특히, 단순히 증시 관련 웹데이터(20)에서 생산되는 뉴스의 분석에 의한 주가 예측보다는 뉴스 분석을 포함한 소셜 미디어 데이터의 감성 평가를 통한 주가 예측이 정확성과 신뢰성을 갖는 이유는 소셜 미디어 데이터가 뉴스에 비해 훨씬 많은 데이터량으로 생산되어, 통계적으로 보다 모집단에 근접한 분석이 이루어지기 때문이다.

도 1에 도시된 종합주가 관련지수 예측 시스템(1)을 구성하는 구성요소 또는 도 4에 도시된 주가 예측 방법의 각 단계는 그 기능을 실현시키는 프로그램의 형태로 컴퓨터 판독가능한 기록 매체에 기록될 수 있다. 여기에서, 컴퓨터 판독 가능한 기록 매체란, 데이터나 프로그램 등의 정보를 전기적, 자기적, 광학적, 기계적, 또는 화학적 작용에 의해 축적하고, 컴퓨터에서 판독할 수 있는 기록 매체를 말한다. 이러한 기록 매체 중 컴퓨터로부터 분리 가능한 것으로서는, 예를 들면, 플렉시블 디스크, 광자기 디스크, CD-ROM, CD-R/W, DVD, DAT, 메모리 카드 등이 있다. 또한, 컴퓨터에 고정된 기록 매체로서 하드디스크나 ROM 등이 있다.

또한, 이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다.

또한, 이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

1: 주가 예측 시스템 110: 문서 수집/추출부
120: 키워드 데이터베이스 130: 문서 저장부
140: 형태소 분석부 150: 데이터 분석부
160: 감성 사전 데이터베이스 170: 상관 분석/결정부
180: 주가 예측부 190: 표시부
200: 구성종목 결정 모듈 210: SMD 스코어 생성부
220: 예측 이상 판정부 230: 구성종목 변경부
300: SMD 스코어 데이터베이스

Claims

컴퓨터에 의해 자동적으로 수행되는 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법에 있어서,
(a) 상기 종합주가 관련지수 예측을 위한 하나 이상의 구성종목을 지정하는 단계;
(b) 경제 통계데이터를 포함하는 정형데이터 및 소셜 미디어 데이터(Social Media Data; SMD)를 포함하는 비정형데이터로 구성되는 빅데이터를 이용하여 상기 하나 이상의 구성종목 각각에 대한 주가 지수를 예측하는 단계;
(c) 상기 예측된 하나 이상의 구성종목 각각에 대한 주가 지수에 근거하여 상기 종합주가 관련지수를 예측하는 단계;
(d) 상기 (c) 단계에서 예측된 종합주가 관련지수와 실제의 종합주가 관련지수의 오차를 계산하는 단계;
(e) 상기 오차가 미리결정된 임계값을 벗어나는지의 여부를 판정하는 단계; 및
(f) 상기 (e) 단계의 결과, 상기 오차가 미리결정된 임계값을 벗어나는 것으로 판정되는 경우, 상기 하나 이상의 구성종목의 일부 또는 전부를 다른 구성종목으로 변경하는 단계를 포함하는, 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법.
제 1 항에 있어서,
상기 (f) 단계에서, 상기 하나 이상의 구성종목의 일부 또는 전부를 다른 구성종목으로 변경하는 것은, 상기 하나 이상의 구성종목 중의 관련 소셜 미디어 데이터의 발생 양이 가장 적은 구성종목을 상기 하나 이상의 구성종목 이외의 개별 종목 중에 상기 가장 적은 구성종목보다 관련 소셜 미디어 데이터의 발생 양이 많은 종목으로 대체하는 것인, 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법.
제 2 항에 있어서,
상기 관련 소셜 미디어 데이터는 소셜 미디어 사이트 및 개인화된 블로그 중의 적어도 하나로부터 수집되는 데이터인, 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법.
제 3 항에 있어서,
상기 관련 소셜 미디어 데이터는 html, PDF(Portable Document Format), 이미지 및 동영상 중 적어도 하나를 포함하는, 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법.
제 4 항에 있어서,
상기 (f) 단계에서, 상기 하나 이상의 구성종목의 일부 또는 전부를 다른 구성종목으로 변경하는 액션은, 상기 (e) 단계의 결과 상기 오차가 미리결정된 임계값을 벗어나는 것으로 판정되었다는 제 1 조건과, 상기 제 1 조건이 일정 기간 이상 지속되었다는 제 2 조건을 모두 만족시키는 경우에 취해지는, 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법.
제 2 항에 있어서,
상기 (b) 단계는,
(b1) 상기 소셜 미디어 데이터에 대한 형태소를 분석하는 단계;
(b2) 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가하는 방식으로 상기 소셜 미디어 데이터 전체를 분석하는 단계; 및
(b3) 상기 감성 평가된 소셜 미디어 데이터를 반영하여 상기 하나 이상의 구성종목 각각에 대한 주가 지수를 예측하는 단계를 포함하는, 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법.
경제 통계데이터를 포함하는 정형데이터 및 소셜 미디어 데이터를 포함하는 비정형데이터로 구성되는 빅데이터를 이용하여 종합주가를 예측하는 종합주가 관련지수 예측 시스템에 있어서,
상기 종합주가 관련지수 예측을 위한 하나 이상의 구성종목을 결정하는 구성종목 결정 모듈을 포함하고,
상기 구성종목 결정 모듈은,
상기 하나 이상의 구성종목을 포함하는 개별 종목마다의 소셜 미디어 데이터 발생 양을 수치화하여 SMD(Social Media Data) 스코어로서 생성하여 누적 저장하는 SMD 스코어 생성부;
예측된 종합주가와 실제의 종합주가의 오차가 미리결정된 임계값을 벗어나는지의 여부를 판정하는 예측 이상 판정부; 및
상기 SMD 스코어 생성부가 생성하여 누적 저장한 상기 SMD 스코어를 참조하여, 상기 종합주가 관련지수 예측을 위한 하나 이상의 구성종목을 상기 하나 이상의 구성종목 이외의 종목으로 변경하는 구성종목 변경부로서, 상기 변경된 종목의 SMD 스코어는 변경되기 이전의 종목의 SMD 스코어보다 큰, 상기 구성종목 변경부를 포함하는 종합주가 관련지수 예측 시스템.