KR101491628B1 - 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템 - Google Patents

블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR101491628B1
KR101491628B1 KR20130090408A KR20130090408A KR101491628B1 KR 101491628 B1 KR101491628 B1 KR 101491628B1 KR 20130090408 A KR20130090408 A KR 20130090408A KR 20130090408 A KR20130090408 A KR 20130090408A KR 101491628 B1 KR101491628 B1 KR 101491628B1
Authority
KR
South Korea
Prior art keywords
emotion
change
blog
emotional
extracting
Prior art date
Application number
KR20130090408A
Other languages
English (en)
Inventor
이지형
김경민
김희라
이재동
김누리
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR20130090408A priority Critical patent/KR101491628B1/ko
Application granted granted Critical
Publication of KR101491628B1 publication Critical patent/KR101491628B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 방법은 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 감정지수를 산출하는 감정지수 산출 단계, 상기 감정지수를 이용하여 상기 블로그의 감성 변화 구간을 추출하는 감성 변화 구간 추출 단계 및 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간의 주요 키워드를 추출하는 키워드 추출 단계를 포함한다. 따라서, 대중의 감성 변화에 영향을 미치는 요인이 되는 키워드를 추출할 경우, 특정 기업이나 사회적 이슈에 대한 대중의 감성변화에 연관된 이유를 추론하는데 도움이 될 것이며, 이는 대중의 니즈(needs)를 사전에 파악하는데 용이하게 하여, 추후 경게적 이익을 창출한다.

Description

블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템{METHOD, APPARATUS AND SYSTEM FOR EXTRACTING KEYWORD AFFECTING FOR MOOD CHANGE OF THE PUBLIC USING BLOG}
본 발명은 키워드 추출 방법, 장치 및 시스템에 관한 것으로, 블로그 분석을 통해 감성 변화에 영향을 미치는 키워드를 추출하는 방법, 장치 및 시스템에 관한 것이다.
사용자들의 편의성, 다양성 및 정보의 공유를 추구하는 마이크로 블로그의 경우, 개개인의 의견을 자유롭게 표현하기 때문에 감성적인 정보를 많이 담고 있으며, 이러한 감성적인 정보는 특정 이슈나, 개인의 단순한 심리 변화로 인해 계속 변화하는 특성이 있다. 특히, 트위터나 페이스북과 같은 소셜 네트워크 서비스(SNS: Social Network Service)가 대중화되면서 이를 이용한 연구가 활발히 진행되고 있다.
종래의 감성 분석 방법들은 감성을 정적(static)으로 가정하고 단순히 마이크로블로그의 내용을 긍정 또는 부정으로 극성 분석(polarity analysis)을 하는데 그쳤으며, 문서의 감성 분석에 대한 다양한 시도들은 아직까지 일반 문서들 및 마이크로블로그와 같이 글자수가 제한되어 있는 문서들에 대한 감성 분석 결과의 정확성을 보장하지 못할뿐만 아니라, 문서의 특성을 고려하지 않고 있다. 또한, 마이크로블로그의 경우, 개개인의 의견을 자유롭게 표현할 수 있기 때문에 감성적인 정보를 많이 담고 있으며, 이러한 감성 정보는 특정 이슈나 개인의 단순한 심리 변화로 인해 계속 변화하는 특징이 있는데 대다수의 방법들은 이러한 특징을 반영하고 있지 않다는 문제점이 있다.
상술한 문제점을 해결하기 위한 본 발명의 목적은 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 방법으로서 마이크로블로그의 내용을 주관적인(subjective) 단어만을 이용한 감성 사전을 통해 감성 분석을 수행하고 시간의 흐름에 따라 변화하는 감성 지수를 고려하여 특정 토픽과 관련된 키워드를 추출하는 키워드 추출 방법, 장치 및 시스템을 제공하는 것이다.
이를 통해, 특정 토픽에 대한 감성 변화에 영향을 미치는 요인을 파악하여 대중의 요구사항을 효율적으로 파악할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 방법은 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 감정지수를 산출하는 감정지수 산출 단계, 상기 감정지수를 이용하여 상기 블로그의 감성 변화 구간을 추출하는 감성 변화 구간 추출 단계 및 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간의 주요 키워드를 추출하는 키워드 추출 단계를 포함할 수 있다.
상기 키워드 추출 방법은 특정 토픽(topic)에 대한 단어를 포함하는 적어도 하나의 블로그를 기준 시간마다 수집하는 단계를 더 포함할 수 있다.
상기 감정지수 산출 단계는 상기 각각의 코멘트에 대해 데이터 전처리 과정을 통해 문장의 내용을 나타내는데 역할을 하지 않는 기능어를 제거하여 정제된 데이터를 획득하는 단계를 포함할 수 있다.
상기 감성 어휘 사전은 특정 어휘의 긍정적(positive) 또는 부정적 의미 방향의 정도를 정량화하여 표현한 어휘 사전일 수 있다.
상기 감정지수 산출 단계는 상기 감성 어휘 사전을 이용하여 상기 각각의 코멘트 내의 어휘에 대한 긍정(positive) 지수 및 부정(negative) 지수를 산출하는 단계 및 상기 긍정 지수의 합에서 상기 부정 지수의 합을 뺀 값을 상기 각각의 코멘트의 감정지수로 산출하는 단계를 포함할 수 있다.
상기 감정지수 산출 단계는 기준 시간 내에 존재하는 상기 각각의 코멘트의 감정지수를 산출하여 구간 감정지수를 산출하는 단계를 포함할 수 있다.
상기 감성지수 산출 단계는 기준 시간 내에 존재하는 상기 각각의 코멘트들의 감성지수의 평균을 이용하여 상기 구간 감정지수를 산출하는 단계를 포함할 수 있다.
상기 감성 변화 구간 추출 단계는 상기 구간 감성지수의 시간적인 변화가 가장 크게 나타난 구간을 상기 감성 변화 구간으로 산출하는 단계를 포함할 수 있다.
상기 감성 변화 구간 추출 단계는 상기 구간 감성지수의 시간적인 변화가 미리 설정된 임계값보다 큰 구간을 상기 감성 변화 구간으로 산출하는 단계를 포함할 수 있다.
상기 키워드 추출 단계는 상기 감성 변화 구간의 코멘트의 내용을 TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 출현 빈도가 높은 상기 감성 변화 구간의 주요 키워드를 추출하는 단계를 포함할 수 있다.
상기 키워드 추출 단계는 상기 감성 변화 구간의 코멘트 내용 중 상기 감성 지수 산출에 사용된 어휘를 제외하여 객관적인 어휘를 중심으로 상기 주요 키워드를 추출하는 단계를 포함할 수 있다.
상기 블로그는 마이크로 블로그(micro-blog)일 수 있다.
상기 코멘트는 트윗(tweet), 답글(reply) 및 댓글 중 적어도 어느 하나를 포함할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 장치는 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 감정지수를 산출하는 감정지수 산출부, 상기 감정지수를 이용하여 상기 블로그 내의 코멘트들의 감성 변화 구간을 추출하는 감성 변화 구간 추출부 및 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간의 주요 키워드를 추출하는 키워드 추출부를 포함할 수 있다.
상기 키워드 추출 장치는 특정 토픽(topic)에 대한 단어를 포함하는 적어도 하나의 블로그를 기준 시간마다 수집하는 블로그 수집부를 더 포함할 수 있다.
상기 감성 어휘 사전은 특정 어휘의 긍정적(positive) 또는 부정적 의미 방향의 정도를 정량화하여 표현한 어휘 사전일 수 있다.
상기 감정지수 산출부는 상기 감성 어휘 사전을 이용하여 상기 각각의 코멘트 내의 어휘에 대한 긍정 지수 및 부정 지수를 산출하는 제 1 산출부 및 상기 긍정 지수의 합에서 상기 부정 지수의 합을 뺀 값을 상기 각각의 코멘트의 감정지수로 산출하는 제 2 산출부를 포함할 수 있다.
상기 감정지수 산출부는 기준 시간 내에 포함된 코멘트들의 감성지수의 평균을 이용하여 구간 감정지수를 산출할 수 있다.
상기 감성 변화 구간 추출부는 상기 구간 감성지수의 시간적인 변화가 가장 크게 나타난 구간을 상기 감성 변화 구간으로 산출할 수 있다.
상기 키워드 추출부는 상기 감성 변화 구간의 코멘트의 내용을 TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 출현 빈도가 높은 상기 감성 변화 구간의 주요 키워드를 추출할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 시스템은 데이터베이스로부터 블로그 관련 데이터 및 감성 어휘 사전 관련 데이터를 수신하고, 감성 어휘 사전을 이용하여 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감정지수를 산출하고, 상기 감정지수를 이용하여 상기 블로그 내의 코멘트들의 감성 변화 구간을 추출하며, 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간의 주요 키워드를 추출하는 키워드 추출 장치, 상기 블로그와 관련된 데이터 및 상기 감성 어휘 사전 관련 데이터를 저장하는 데이터베이스 및 상기 블로그 상에 코멘트를 제공하고, 상기 주요 키워드 추출 요청을 상기 키워드 추출 장치로 전송하며, 상기 추출된 주요 키워드를 상기 키워드 추출 장치로부터 수신하는 사용자 디바이스를 포함할 수 있다.
본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템에 따르면, 대중의 감성 변화에 영향을 미치는 요인이 되는 키워드를 추출할 경우, 특정 기업이나 사회적 이슈에 대한 대중의 감성변화에 연관된 이유를 추론하는데 도움이 될 것이며, 이는 대중의 니즈(needs)를 사전에 파악하는데 용이하게 하여, 추후 경게적 이익을 창출할 수 있다.
도 1은 본 발명의 일 실시예에 따른 키워드 추출 방법이 적용될 수 있는 시스템을 개략적으로 나타낸 블록도,
도 2는 본 발명의 일 실시예에 따른 키워드 추출 방법을 개략적으로 나타낸 흐름도,
도 3은 본 발명의 일 실시예에 따른 키워드 추출 방법의 감정지수 산출 단계를 구체적으로 나타낸 상세흐름도,
도 4는 본 발명의 일 실시예에 따른 키워드 추출 방법의 감정 변화 구간 추출 단계를 구체적으로 나타낸 상세흐름도,
도 5는 본 발명의 일 실시예에 따른 키워드 추출 방법의 주요 키워드 추출 단계를 구체적으로 나타낸 상세흐름도,
도 6은 본 발명의 일 실시예에 따른 키워드 추출 장치를 개략적으로 나타낸 블록도,
도 7은 본 발명의 일 실시예에 따른 키워드 추출 장치의 감정지수 산출부를 구체적으로 나타낸 상세블록도,
도 8은 본 발명의 일 실시예에 따른 키워드 추출 장치의 감성 변화 구간 추출부를 구체적으로 나타낸 상세블록도,
도 9는 본 발명의 일 실시예에 따른 키워드 추출 장치의 키워드 추출부를 구체적으로 나타낸 상세블록도,
도 10은 본 발명의 일 실시예에 따른 키워드 추출 방법에 따라 특정 토픽에 대한 사용자의 감성지수 변화를 나타낸 그래프,
도 11은 본 발명의 일 실시예에 따른 키워드 추출 방법을 적용하여 추출된 상위 키워드를 나타낸 표이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
키워드 추출 시스템
도 1은 본 발명의 일 실시예에 따른 키워드 추출 방법이 적용될 수 있는 시스템을 개략적으로 나타낸 블록도이다. 도 1에 도시된 바와 같이, 키워드 추출 시스템은 키워드 추출 장치(10), 사용자 디바이스(20-1, 20-2, ..., 20-N), 데이터베이스(30-1, 30-2)를 포함할 수 있다.
도 1을 참조하면, 키워드 추출 장치(10)는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출한다. 여기서, 블로그는 인터넷 카페뿐만 아니라 마이크로 블로그를 포함할 수 있다. 마이크로블로그는 트위터, 페이스북 등과 같은 소셜 네트워크 서비스를 포함할 수 있고, 스마트 폰 상에서 애플리케이션의 형태로 구현될 수 있다. 키워드 추출 장치(10)는 감성 어휘 사전을 기반으로 블로그 내의 각각의 코멘트에 포함된 어휘에 대한 감정지수를 산출하고, 감정지수를 이용하여 감성 변화 구간을 추출하며, 감성 변화 구간 내에 포함된 코멘트를 수집하여 감성 변화 구간의 주요 키워드를 추출할 수 있다. 여기서, 코멘트는 트윗(tweet), 답글(reply) 및 댓글 중 적어도 어느 하나를 포함할 수 있다. 키워드 추출 장치(10)는 블로그 내의 정보(예컨대, 코멘트, 사용자, 사진 등의 데이터)를 블로그 관련 데이터베이스(30-2)에서 수신할 수 있고, 감성 어휘 사전과 관련된 정보는 감성 어휘 사전 데이터베이스(30-1)에서 수신할 수 있다. 키워드 추출 장치(10)는 사용자 디바이스(20-1, 20-2, ..., 20-N)로부터 키워드 추출 요청을 수신할 수 있다. 키워드 추출 요청에는 특정 토픽에 대한 키워드를 추출해 달라는 정보가 포함될 수 있다. 또한, 기간을 특정하여 특정된 기간 내의 주요 키워드를 추출하라는 정보가 포함될 수 있다. 키워드 추출 장치(10)는 상기 요청에 응답하여 사용자 디바이스(20-1, 20-2, ..., 20-N)로 추출된 키워드를 전송할 수 있다.
사용자 디바이스(20-1, 20-2, ..., 20-N)는 블로그에 각종 정보를 업로드 클라이언트 장치이다. 사용자 디바이스(20-1, 20-2, ..., 20-N)는 스마트 폰, PC, 태플릿 PC 등 다양한 종류의 장치일 수 있다. 사용자 디바이스(20-1, 20-2, ..., 20-N)는 토픽 또는 기간을 특정하여 키워드를 추출해 달라는 키워드 추출 요청을 키워드 추출 장치로 전송할 수 있다. 또한, 추출된 키워드를 키워드 추출 장치(10)로부터 수신할 수 있다.
데이터베이스(30-1, 30-2)는 감성 어휘 사전 데이터베이스(30-1) 및 블로그 관련 데이터베이스(30-2)를 포함할 수 있다. 전술한 바와 같이, 감성 어휘 사전 데이터베이스(30-1)는 감성 어휘 사전과 관련된 정보를 저장하고 있다. 감성 어휘 사전이란 어휘의 긍정적 또는 부정적인 의미 방향의 정도를 정량화하여 표현한 어휘 사전이다. 예컨대, "좋다"는 긍정적 의미로 +0.8의 긍정 지수를, "재밌다"는 긍정적 의미로 +1.4의 긍정지수를 가질 수 있다. 반대로, "나쁘다"는 부정적 의미로 -0.8의 부정 지수를, "재미없다"는 부정적 의미로 -1.4의 부정 지수를 가질 수 있다. 즉, 긍정 또는 부정으로 이분화하는 것이 아니라 긍정 또는 부정의 정도를 정량화하여 수치로 표현되는 특징이 있다.
블로그 관련 데이터베이스(30-2)는 블로그 내의 각종 정보를 저장하고 있다. 블로그 관련 데이터베이스(30-2)는 키워드 추출 장치(10)로부터의 요청에 따라 검색을 통해 특정 토픽과 관련된 블로그만 반환할 수 있다.
본 발명의 다른 실시예에 따르면, 키워드 추출 장치(10)는 블로그 관련 데이터베이스(30-2)를 포함할 수 있다. 즉, 키워드 추출 장치(10)는 블로그와 관련된 서버로서 클라이언트 장치인 사용자 디바이스들(20-1, 20-2, ..., 20-N)로부터 직접 코멘트를 비롯한 블로그 관련 정보를 수신하여 블로그 관련 데이터베이스(30-2)에 저장하고, 블로그 관련 데이터베이스(30-2)를 이용하여 자료 검색 및 데이터 분석을 직접 수행할 수 있다.
키워드 추출 방법
도 2는 본 발명의 일 실시예에 따른 키워드 추출 방법을 개략적으로 나타낸 흐름도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 키워드 추출 장치는 특정 토픽을 입력받는다(S210). 이때, 사용자 디바이스를 통한 키워드 추출 요청을 수신하는 경우, 상기 수신된 요청에 포함된 특정 토픽 관련 정보를 기반으로 토픽 입력을 받을 수 있다. 키워드 추출 요청 수신의 경우가 아닌 경우에는 사용자 인터페이스를 통해 사용자로부터 직접 토픽을 입력받을 수 있다.
이후, 키워드 추출 장치는 입력된 특정 토픽과 관련된 블로그를 기준 시간마다 수집한다(S220). 키워드 추출 장치는 블로그 관련 데이터베이스에 입력된 특정 토픽 관련 검색 요청을 하고, 검색 요청에 대응되는 블로그를 수집한다. 이를 기준 시간마다 수행할 수 있다. 기준 시간은 감성 변화 구간을 산출하기 위한 시간적인 구간을 의미하며, 12시간으로 설정할 수 있다. 이는 사용자 인터페이스를 통해 변경할 수 있다. 키워드 추출 장치는 12시간마다 특정 토픽에 대한 단어를 포함하는 블로그를 수집한다.
다음, 키워드 추출 장치는 수집된 블로그 내의 코멘트에 포함된 어휘를 기반으로 감정지수를 산출한다(S230). 이때, 감성 어휘 사전(30-1)을 이용할 수 있다. 즉, 주관적인 감정을 나타내는 단어의 정량화된 수치 정보를 포함하는 감성 어휘 사전(30-1)을 이용하여 특정 기준 시간 내에 존재하는 코멘트들의 감정지수를 산출할 수 있다. 키워드 추출 장치는 각 코멘트별 감성지수를 이용하여 해당 기간의 특정 토픽에 대한 마이크로블로그의 구간 감성지수의 평균을 산출한다.
그리고는, 키워드 추출 장치는 산출된 구간 감정지수를 기반으로 감성 변화 구간을 추출한다(S240). 산출된 구간 감성지수를 기반으로 변화가 가장 크게 일어난 구간 또는 변화가 미리 설정한 임계값보다 크게 일어난 구간을 감성 변화 구간으로 추출한다.
마지막으로, 키워드 추출 장치는 추출된 감성 변화 구간 시점을 기준으로 마이크로블로그의 내용 분석을 수행하여 주요 키워드를 추출한다(S250). 이때, TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 단어의 빈도수를 산출하고, 가장 값이 높은 N개의 키워드를 추출할 수 있다.
도 3은 본 발명의 일 실시예에 따른 키워드 추출 방법의 감정지수 산출 단계를 구체적으로 나타낸 상세흐름도이다.
도 3을 참조하면, 감정지수 산출을 위해, 키워드 추출 장치는 먼저 특정 토픽에 대한 블로그를 수집한다(S310). 이는 특정 토픽에 대한 단어를 포함하는 마이크로블로그를 기준 시간(예컨대, 12시간)마다 수집하여 이루어질 수 있다. 그리고는, 키워드 추출 장치는 상기 기준 시간 내에 특정 토픽에 대하여 수집된 블로그의 코멘트의 단어를 분석하여 문장의 내용을 나타내는 단어인지 판단한다(S320). 이는 보다 정확한 감성 분석을 수행하기 위해 데이터 전처리 과정을 통해 문장의 내용을 나타내는데 큰 역할을 하지 않는 기능어인 불용어 및 URL 등 불필요한 용인을 제거하여 정제된 데이터를 획득하기 위함이다. 문장 내용을 나타내는지에 대한 판단은 불용어 처리를 위한 불용어 사전 등을 이용할 수 있다. 판단 결과, 문장의 내용을 나타내지 않는 불용어 및 URL 등은 제외시킨다(S330). 그리고는, 문장의 내용을 나타내는 단어들에 대해 긍정지수 및 부정지수를 산출한다(S340). 이는 전술한 바와 같이, 감성 어휘 사전을 이용하여 이루어진다. 각각의 코멘트에 존재하는 어휘에 대해 감성 어휘 사전을 이용하여 긍정지수 및 부정지수를 계산한다. 그리고는 상기 긍정지수 및 부정지수를 이용하여 상기 코멘트에 대한 감정지수를 산출한다(S350). 이는 다음의 수학식으로 표현할 수 있다.
Figure 112013069243776-pat00001
여기서, Score는 감정지수를, ti는 각각의 트윗을, w는 단어를, Posscore는 긍정 지수를, Negscore는 부정지수를 의미한다. 즉, 특정 트윗에 대한 감정지수는 그 안에 포함된 단어의 긍정지수의 합에서 부정지수의 합을 뺀 값으로 표현될 수 있다.
그리고는, 기준 시간 내에 포함된 각각의 코멘트의 감정지수를 기반으로 감정지수의 평균을 이용하여 구간 감정지수를 산출할 수 있다(S360).
도 4는 본 발명의 일 실시예에 따른 키워드 추출 방법의 감정 변화 구간 추출 단계를 구체적으로 나타낸 상세흐름도이다.
도 4를 참조하면, 키워드 추출 장치는 감정지수 산출 단계에서 기준 시간 단위로 산출되는 구간 감정지수를 수신할 수 있다(S410). 키워드 추출 장치는 수신된 구간 감정지수를 기반으로 이전 구간 감정지수와 현재 구간 감정지수의 차를 이용하여 감정지수의 변화량을 산출하고, 이를 임계값과 비교한다(S420). 이때, 임계값보다 적은 변화량을 갖는 경우는 감정 변화 구간으로 보지 않고, 임계값보다 큰 변화량을 갖는 경우, 현재 구간을 감정 변화 구간으로 추출한다(S430). 임계값은 미리 설정할 수 있고, 사용자 인터페이스를 통해 변경할 수 있다.
본 발명의 다른 실시예에 따르면, 상기 감정지수의 변화량 중 가장 큰 변화량을 갖는 구간을 감정 변화 구간으로 추출할 수도 있다. 이때, 판단 대상이 되는 구간을 적절하게 설정하여야 한다.
도 5는 본 발명의 일 실시예에 따른 키워드 추출 방법의 주요 키워드 추출 단계를 구체적으로 나타낸 상세흐름도이다.
도 5를 참조하면, 감성 변화 구간이 결정되면 감성 변화 구간 내 코멘트를 수집한다(S510). 그리고는 수집된 코멘트 내의 어휘를 수집한다(S520). 이때, 객과적인 의미를 담고 있는 단어인지 판단한다(S530). 판단 결과, 객관적인 단어가 아닌 경우, 감정을 나타내는 어휘가 아닌, 감성 변화에 요인을 미치는 키워드를 추출해야 하므로 감정지수 산출 단계에서 감성 분석에 사용된 주관적인 단어를 제외한다(S540). 객관적인 단어들을 기반으로 TF-IDF를 적용하여 해당 시점과 관련된 복수의 키워드를 추출한다(S550). TF는 단어 빈도로 하나의 문서에서의 단어의 출현 횟수이다. 이는 "해당 단어가 하나의 문서에 출현한 횟수/하나의 문서 안에 출현한 모든 단어가 나타나는 횟수(출현 sum)"로 구할 수 있다. IDF는 한 단어가 전체 문서 중 몇개의 문서에서 출현했는지를 나타낸다. IDF는 "전체 문서의 개수/해당 단어가 출현한 문서의 갯수"로 구할 수 있다. 본 발명에서는 문서는 트윗, 답글 및 댓글을 포함하는 코멘트에 대응될 수 있다. TF와 IDF를 가지고, TF-IDF는 TF와 IDF의 곱으로 산출될 수 있다. 마지막으로, TF-IDF를 통해 출현 빈도를 산출하고 나서 추출된 키워드 중 상위 N개의 키워드를 주요 키워드로 추출한다(S560). 이때, 추출되는 키워드의 수(N)는 설정을 통해 사용자가 변경할 수 있다.
키워드 추출 장치
도 6은 본 발명의 일 실시예에 따른 키워드 추출 장치를 개략적으로 나타낸 블록도이다. 도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 키워드 추출 장치는 블로그 수집부(610), 감정지수 산출부(620), 감성 변화 구간 추출부(630) 및 키워드 추출부(640)를 포함할 수 있다.
도 6을 참조하면, 블로그 수집부(610)는 특정 토픽을 입력받아 입력된 특정 토픽과 관련된 블로그를 기준 시간마다 수집한다. 이때, 사용자 디바이스를 통한 키워드 추출 요청을 수신하는 경우, 상기 수신된 요청에 포함된 특정 토픽 관련 정보를 기반으로 토픽 입력을 받을 수 있고, 경우에 따라 사용자 인터페이스를 통해 사용자로부터 직접 토픽을 입력받을 수 있다. 블로그 수집부(610)는 블로그 관련 데이터베이스에 입력된 특정 토픽 관련 검색 요청을 하고, 검색 요청에 대응되는 블로그를 수집한다. 이를 기준 시간마다 수행할 수 있다. 기준 시간은 감성 변화 구간을 산출하기 위한 시간적인 구간을 의미하며, 12시간으로 설정할 수 있다. 이는 사용자 인터페이스를 통해 변경할 수 있다. 키워드 추출 장치는 12시간마다 특정 토픽에 대한 단어를 포함하는 블로그를 수집한다.
감정지수 산출부(620)는 수집된 블로그 내의 코멘트에 포함된 어휘를 기반으로 감정지수를 산출한다. 이때, 감성 어휘 사전을 이용할 수 있다. 즉, 주관적인 감정을 나타내는 단어의 정량화된 수치 정보를 포함하는 감성 어휘 사전을 이용하여 특정 기준 시간 내에 존재하는 코멘트들의 감정지수를 산출할 수 있다. 감정지수 산출부(620)는 각 코멘트별 감성지수를 이용하여 해당 기간의 특정 토픽에 대한 마이크로블로그의 구간 감성지수의 평균을 산출하여 구간 감정지수를 산출할 수 있다.
그리고는, 감성 변화 구간 추출부(630)는 산출된 구간별 감정지수를 기반으로 감성 변화 구간을 추출한다. 산출된 구간별 감성지수를 기반으로 변화가 가장 크게 일어난 구간 또는 변화가 미리 설정한 임계값보다 크게 일어난 구간을 감성 변화 구간으로 추출한다.
마지막으로, 키워드 추출부(640)는 추출된 감성 변화 구간 시점을 기준으로 마이크로블로그의 내용 분석을 수행하여 주요 키워드를 추출한다. 이때, TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 단어의 빈도수를 산출하고, 가장 값이 높은 N개의 키워드를 추출할 수 있다.
도 7은 본 발명의 일 실시예에 따른 키워드 추출 장치의 감정지수 산출부(620)를 구체적으로 나타낸 상세블록도이다. 도 7에 도시된 바와 같이, 본 발명의 일 실시예에 따른 감정지수 산출부(620)는 어휘별 지수 산출부(710), 제 1 합산부(720), 제 2 합산부(722) 및 코멘트별 감성지수 산출부(730) 및 구간 감성지수 산출부(740)를 포함할 수 있다.
도 7을 참조하면, 어휘별 지수 산출부(710)는 기준 시간 내에 특정 토픽에 대하여 수집된 블로그의 코멘트의 단어를 분석하여 문장의 내용을 나타내는 단어인지 판단한다. 이는 보다 정확한 감성 분석을 수행하기 위해 데이터 전처리 과정을 통해 문장의 내용을 나타내는데 큰 역할을 하지 않는 기능어인 불용어 및 URL 등 불필요한 용인을 제거하여 정제된 데이터를 획득하기 위함이다. 문장 내용을 나타내는지에 대한 판단은 불용어 처리를 위한 불용어 사전 등을 이용할 수 있다. 판단 결과, 문장의 내용을 나타내지 않는 불용어 및 URL 등은 제외시킨다. 그리고는, 문장의 내용을 나타내는 단어들에 대해 긍정지수 및 부정지수를 산출한다. 이는 전술한 바와 같이, 감성 어휘 사전을 이용하여 이루어진다.
그리고는, 제 1 합산부(720)는 각 단어들의 긍정지수를 합산하여 긍정지수의 합을 산출하고, 제 2 합산부(722)는 각 단어들의 부정지수를 합상하여 부정지수의 합을 산출한다. 그리고는, 코멘트별 감성지수 산출부(730)는 긍정지수의 합에서 부정지수의 합을 뺀 값으로 코멘트별 감성지수를 산출한다.
구간 감성지수 산출부(740)는 기준 시간 내에 포함된 각각의 코멘트의 감정지수를 기반으로 감정지수의 평균을 이용하여 구간 감정지수를 산출할 수 있다.
도 8은 본 발명의 일 실시예에 따른 키워드 추출 장치의 감성 변화 구간 추출부(630)를 구체적으로 나타낸 상세블록도이다. 도 8에 도시된 바와 같이, 본 발명의 감성 변화 구간 추출부(630)는 감정지수 수신부(810) 및 판단부(820)를 포함할 수 있다.
도 8을 참조하면, 감정지수 수신부(810)는 감정지수 산출부(620)로부터 기준 시간 단위로 산출되는 구간 감정지수를 수신할 수 있다. 판단부(820)는 수신된 구간 감정지수를 기반으로 이전 구간 감정지수와 현재 구간 감정지수의 차를 이용하여 감정지수의 변화량을 산출한다. 그리고는, 이를 임계값과 비교한다. 이때, 임계값보다 적은 변화량을 갖는 경우는 감정 변화 구간으로 보지 않고, 임계값보다 큰 변화량을 갖는 경우, 현재 구간을 감정 변화 구간으로 추출한다. 임계값은 미리 설정할 수 있고, 사용자 인터페이스를 통해 변경할 수 있다.
본 발명의 다른 실시예에 따르면, 판단부(820)는 상기 감정지수의 변화량 중 가장 큰 변화량을 갖는 구간을 감정 변화 구간으로 추출할 수도 있다. 이때, 판단 대상이 되는 구간을 적절하게 설정하여야 한다.
도 9는 본 발명의 일 실시예에 따른 키워드 추출 장치의 키워드 추출부(640)를 구체적으로 나타낸 상세블록도이다. 도 9에 도시된 바와 같이, 키워드 추출부(640)는 어휘 제외부(910), TF-IDF 적용부(920) 및 상위 키워드 추출부(930)를 포함할 수 있다.
도 9를 참조하면, 어휘 제외부(910)는 결정된 감성 변화 구간 내 코멘트를 수집한다. 그리고는 수집된 코멘트 내의 어휘를 수집한다. 이때, 객관적인 의미를 담고 있는 단어인지 판단하여, 객관적인 단어가 아닌 경우, 감성 변화에 요인을 미치는 키워드가 아니라고 판단하여 제외한다.
TF-IDF 적용부(920)는 어휘 제외부(910)에서 제외한 단어를 뺀 나머지 객관적인 단어들을 기반으로 TF-IDF를 적용하여 해당 시점과 관련된 복수의 키워드를 추출한다.
마지막으로, 상위 키워드 추출부(930)는 TF-IDF 적용부(920)를 통해 출현 빈도를 산출하고 나서 추출된 키워드 중 상위 N개의 키워드를 주요 키워드로 추출한다(S560). 이때, 추출되는 키워드의 수(N)는 설정을 통해 사용자가 변경할 수 있다.
시뮬레이션 결과
(1) 실험데이터
사용된 데이터는 마이크로 블로그의 한 종류인 트위터의 트윗이며, Spinn3r API2)를 이용하여 2011년 3월 21일부터 2011년 4월 15일까지 총 25일간 수집되었다. 토픽을 ‘애플(Apple)’과 ‘삼성(Samsung)’으로 선정한 후, 이와 연관된 단어를 포함한 트윗을 12시간 단위로 수집하였으며, 트윗의 내용과 트윗이 작성된 시간기록을 이용하였다. ‘애플’의 경우 606,357개, ‘삼성’의 경우 41,715개의 데이터가 수집되었다. 수집된 데이터를 전처리 과정을 통해 문장에서 내용을 나타내는데 큰 역할을 하지 않는 기능어인 불용어(stopword) 및 URL 등 실험에 불필요한 요인들을 제거하였다.
(2) 실험결과
25일간 특정 토픽으로 지정된 ‘애플(Apple)’과 삼성‘(Samsung)’을 포함한 트윗들을 수집하고 SentiWordNet 감성사전을 이용하여 12시간 단위로 감성분석을 수행하였다.
도 10은 본 발명의 일 실시예에 따른 키워드 추출 방법에 따라 특정 토픽에 대한 사용자의 감성지수 변화를 나타낸 그래프이다.
도 10을 참조하면, 계산된 감성지수(Score)의 평균을 이용하여 시간에 따른 사용자들의 감성변화를 확인할 수 있다. 감성지수의 변화가 가장 크게 일어난 구간은 애플의 경우 4월 13일에서 14일, 삼성의 경우 3월 27일에서 28일이고, 이를 감성 변화 구간으로 추출할 수 있다.
그리고는, 해당 기간(애플의 경우 4월 13일에서 14일, 삼성의 경우 3월 27일에서 28일)의 트윗을 수집하여 TF-IDF를 수행했다.
도 11은 본 발명의 일 실시예에 따른 키워드 추출 방법을 적용하여 추출된 상위 키워드를 나타낸 표이다. 도 11에 도시된 바와 같이, TF-IDF를 통해 출현빈도가 높은 상위 키워드 Top 10개를 추출하였다.
애플 관련 긍정의 감성지수가 높아지는 시점에 추출된 키워드 중 ‘kindergartner’, ‘crayons’ 의 경우, 4월 13일 미국 메인(Maine) 주의 한 학교가 모든 유치원생들에게 아이패드를 나눠준 바가 있다. 삼성의 경우, ‘un32d6500'은 삼성 제품 중 새롭게 출시된 32-inch 3D Ready LED HDTV를 나타낸다. 이러한 사회이벤트는 긍정적 감성변화에 영향을 미친다고 볼 수 있으며, 10개의 키워드 중에 애플의 경우 1개, 삼성의 경우 2개를 제외한 나머지 키워드가 모두 긍정에 영향을 미치는 키워드였다.
이는 본 발명에서 제안하는 방법을 통하여 추출된 키워드와 사회이벤트와의 연관성을 보았을 때, 실제 소비자들의 감성변화에 영향을 미치는 사회이벤트를 추측하는데 큰 가능성이 있음을 보여준다.
이상 도면 및 실시예를 참조하여 설명하였지만, 본 발명의 보호범위가 상기 도면 또는 실시예에 의해 한정되는 것을 의미하지는 않으며 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (21)

  1. 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 방법에 있어서,
    상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 특정 코멘트에서 감정을 나타내는 정보를 지시하는 감정지수를 산출하는 감정지수 산출 단계;
    상기 감정지수의 변화량을 검출하여 상기 블로그의 감성 변화 구간을 추출하는 감성 변화 구간 추출 단계; 및
    상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간에서 감정 변화에 영향을 미치는 주요 키워드를 추출하는 키워드 추출 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  2. 제 1 항에 있어서,
    특정 토픽(topic)에 대한 단어를 포함하는 적어도 하나의 블로그를 기준 시간마다 수집하는 단계를 더 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  3. 제 1 항에 있어서, 상기 감정지수 산출 단계는
    상기 각각의 코멘트에 대해 데이터 전처리 과정을 통해 문장의 내용을 나타내는데 역할을 하지 않는 기능어를 제거하여 정제된 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  4. 제 1 항에 있어서,
    상기 감성 어휘 사전은 특정 어휘의 긍정적(positive) 또는 부정적 의미 방향의 정도를 정량화하여 표현한 어휘 사전인 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  5. 제 1 항에 있어서, 상기 감정지수 산출 단계는
    상기 감성 어휘 사전을 이용하여 상기 각각의 코멘트 내의 어휘에 대한 긍정(positive) 지수 및 부정(negative) 지수를 산출하는 단계; 및
    상기 긍정 지수의 합에서 상기 부정 지수의 합을 뺀 값을 상기 각각의 코멘트의 감정지수로 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  6. 제 5 항에 있어서, 상기 감정지수 산출 단계는
    기준 시간 내에 존재하는 상기 각각의 코멘트의 감정지수를 산출하여 구간 감정지수를 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  7. 제 6 항에 있어서, 상기 감정지수 산출 단계는
    기준 시간 내에 존재하는 상기 각각의 코멘트들의 감정지수의 평균을 이용하여 상기 구간 감정지수를 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  8. 제 6 항에 있어서, 상기 감성 변화 구간 추출 단계는
    상기 구간 감정지수의 시간적인 변화가 가장 크게 나타난 구간을 상기 감성 변화 구간으로 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  9. 제 6 항에 있어서, 상기 감성 변화 구간 추출 단계는
    상기 구간 감정지수의 시간적인 변화가 미리 설정된 임계값보다 큰 구간을 상기 감성 변화 구간으로 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  10. 제 1 항에 있어서, 상기 키워드 추출 단계는
    상기 감성 변화 구간의 코멘트의 내용을 TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 출현 빈도가 상대적으로 높은 상위 n개(n은 임의의 자연수)의 키워드를 상기 감성 변화 구간의 주요 키워드로 추출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  11. 제 10 항에 있어서, 상기 키워드 추출 단계는
    상기 감성 변화 구간의 코멘트 내용 중 상기 감정지수 산출에 사용된 어휘를 제외하여 객관적인 어휘를 중심으로 상기 주요 키워드를 추출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  12. 제 1 항에 있어서,
    상기 블로그는 마이크로 블로그(micro-blog)인 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  13. 제 1 항에 있어서,
    상기 코멘트는 트윗(tweet), 답글(reply) 및 댓글 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
  14. 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 장치에 있어서,
    상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 특정 코멘트에서 감정을 나타내는 정도를 지시하는 감정지수를 산출하는 감정지수 산출부;
    상기 감정지수의 변화량을 검출하여 상기 블로그 내의 코멘트들의 감성 변화 구간을 추출하는 감성 변화 구간 추출부; 및
    상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간에서 감정 변화에 영향을 미치는 주요 키워드를 추출하는 키워드 추출부를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
  15. 제 14 항에 있어서,
    특정 토픽(topic)에 대한 단어를 포함하는 적어도 하나의 블로그를 기준 시간마다 수집하는 블로그 수집부를 더 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
  16. 제 14 항에 있어서,
    상기 감성 어휘 사전은 특정 어휘의 긍정적(positive) 또는 부정적 의미 방향의 정도를 정량화하여 표현한 어휘 사전인 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
  17. 제 14 항에 있어서, 상기 감정지수 산출부는
    상기 감성 어휘 사전을 이용하여 상기 각각의 코멘트 내의 어휘에 대한 긍정 지수 및 부정 지수를 산출하는 제 1 산출부; 및
    상기 긍정 지수의 합에서 상기 부정 지수의 합을 뺀 값을 상기 각각의 코멘트의 감정지수로 산출하는 제 2 산출부를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
  18. 제 14 항에 있어서, 상기 감정지수 산출부는
    기준 시간 내에 포함된 코멘트들의 감정지수의 평균을 이용하여 구간 감정지수를 산출하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
  19. 제 18 항에 있어서, 상기 감성 변화 구간 추출부는
    상기 구간 감정지수의 시간적인 변화가 가장 크게 나타난 구간을 상기 감성 변화 구간으로 산출하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
  20. 제 14 항에 있어서, 상기 키워드 추출부는
    상기 감성 변화 구간의 코멘트의 내용을 TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 출현 빈도가 상대적으로 높은 상위 n개(n은 임의의 자연수)의 키워드를 상기 감성 변화 구간의 주요 키워드로 추출하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
  21. 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 시스템에 있어서,
    데이터베이스로부터 블로그 내의 데이터 및 감성 어휘 사전에 포함된 데이터를 수신하고, 감성 어휘 사전을 이용하여 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 특정 코멘트에서 감정을 나타내는 정도를 지시하는 감정지수를 산출하고, 상기 감정지수의 변화량을 검출하여 상기 블로그 내의 코멘트들의 감성 변화 구간을 추출하며, 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간에서 감정 변화에 영향을 미치는 주요 키워드를 추출하는 키워드 추출 장치;
    상기 블로그와 관련된 데이터 및 상기 감성 어휘 사전 관련 데이터를 저장하는 데이터베이스; 및
    상기 블로그 상에 코멘트를 제공하고, 상기 주요 키워드 추출 요청을 상기 키워드 추출 장치로 전송하며, 상기 추출된 주요 키워드를 상기 키워드 추출 장치로부터 수신하는 사용자 디바이스를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 시스템.
KR20130090408A 2013-07-30 2013-07-30 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템 KR101491628B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130090408A KR101491628B1 (ko) 2013-07-30 2013-07-30 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130090408A KR101491628B1 (ko) 2013-07-30 2013-07-30 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템

Publications (1)

Publication Number Publication Date
KR101491628B1 true KR101491628B1 (ko) 2015-02-12

Family

ID=52593272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130090408A KR101491628B1 (ko) 2013-07-30 2013-07-30 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템

Country Status (1)

Country Link
KR (1) KR101491628B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160133199A (ko) * 2015-05-12 2016-11-22 대한민국(국민안전처 국립재난안전연구원장) 빅데이터 의미 기반 재난 감성분류방법
KR20160133198A (ko) * 2015-05-12 2016-11-22 대한민국(국민안전처 국립재난안전연구원장) 키워드 관련도 기반의 재난 이슈별 재난 탐지 기술 및 이를 이용한 재난대처 방법
KR101700836B1 (ko) * 2015-12-21 2017-02-13 한국과학기술정보연구원 도서의 코멘트를 이용한 감성어 사전 구축 방법 및 시스템
CN106445914A (zh) * 2016-09-13 2017-02-22 清华大学 微博情感分类器的构建方法及构建装置
KR101733911B1 (ko) * 2016-02-12 2017-05-24 전북대학교산학협력단 소셜 네트워크에 업로드 된 콘텐츠에 따른 구독자의 성향분석모듈
KR101794409B1 (ko) * 2015-08-05 2017-11-06 라인 가부시키가이샤 인스턴트 메시지에 기반하여 사용자의 감정 및 활동을 수집하는 시스템 및 방법
WO2020106333A1 (en) * 2018-11-21 2020-05-28 Intuit Inc. Visualizing comment sentiment
KR20220005293A (ko) * 2020-07-06 2022-01-13 주식회사 우리은행 소셜 데이터의 모니터링 방법 및 장치
KR20220142705A (ko) * 2021-04-15 2022-10-24 연세대학교 원주산학협력단 초고속 분석 인공지능을 이용한 실시간 댓글 판단 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040042012A (ko) * 2002-11-12 2004-05-20 이정현 감성어휘를 이용한 텍스타일 패턴 추천시스템 및 방법
JP2011198393A (ja) 2011-06-29 2011-10-06 Yahoo Japan Corp ユーザ興味分析装置、方法、プログラム
KR20120108095A (ko) * 2011-03-23 2012-10-05 김병훈 소셜 데이터 분석 시스템
JP2013529331A (ja) 2010-04-30 2013-07-18 トムソン ライセンシング 表示中のテレビジョン・コンテンツのための自動画像発見および推薦

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040042012A (ko) * 2002-11-12 2004-05-20 이정현 감성어휘를 이용한 텍스타일 패턴 추천시스템 및 방법
JP2013529331A (ja) 2010-04-30 2013-07-18 トムソン ライセンシング 表示中のテレビジョン・コンテンツのための自動画像発見および推薦
KR20120108095A (ko) * 2011-03-23 2012-10-05 김병훈 소셜 데이터 분석 시스템
JP2011198393A (ja) 2011-06-29 2011-10-06 Yahoo Japan Corp ユーザ興味分析装置、方法、プログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160133198A (ko) * 2015-05-12 2016-11-22 대한민국(국민안전처 국립재난안전연구원장) 키워드 관련도 기반의 재난 이슈별 재난 탐지 기술 및 이를 이용한 재난대처 방법
KR101685334B1 (ko) * 2015-05-12 2016-12-12 대한민국 키워드 관련도 기반의 재난 이슈별 재난 탐지 기술 및 이를 이용한 재난대처 방법
KR101685335B1 (ko) * 2015-05-12 2016-12-12 대한민국 빅데이터 의미 기반 재난 감성분류방법
KR20160133199A (ko) * 2015-05-12 2016-11-22 대한민국(국민안전처 국립재난안전연구원장) 빅데이터 의미 기반 재난 감성분류방법
KR101794409B1 (ko) * 2015-08-05 2017-11-06 라인 가부시키가이샤 인스턴트 메시지에 기반하여 사용자의 감정 및 활동을 수집하는 시스템 및 방법
KR101700836B1 (ko) * 2015-12-21 2017-02-13 한국과학기술정보연구원 도서의 코멘트를 이용한 감성어 사전 구축 방법 및 시스템
KR101733911B1 (ko) * 2016-02-12 2017-05-24 전북대학교산학협력단 소셜 네트워크에 업로드 된 콘텐츠에 따른 구독자의 성향분석모듈
CN106445914B (zh) * 2016-09-13 2020-06-19 清华大学 微博情感分类器的构建方法及构建装置
CN106445914A (zh) * 2016-09-13 2017-02-22 清华大学 微博情感分类器的构建方法及构建装置
WO2020106333A1 (en) * 2018-11-21 2020-05-28 Intuit Inc. Visualizing comment sentiment
US10789429B2 (en) 2018-11-21 2020-09-29 Intuit, Inc. Visualizing comment sentiment
AU2019383320B2 (en) * 2018-11-21 2021-05-20 Intuit Inc. Visualizing comment sentiment
US11113477B2 (en) 2018-11-21 2021-09-07 Intuit, Inc. Visualizing comment sentiment
KR20220005293A (ko) * 2020-07-06 2022-01-13 주식회사 우리은행 소셜 데이터의 모니터링 방법 및 장치
KR102353609B1 (ko) * 2020-07-06 2022-01-19 주식회사 우리은행 소셜 데이터의 모니터링 방법 및 장치
KR20220142705A (ko) * 2021-04-15 2022-10-24 연세대학교 원주산학협력단 초고속 분석 인공지능을 이용한 실시간 댓글 판단 방법
KR102502454B1 (ko) * 2021-04-15 2023-02-21 연세대학교 원주산학협력단 초고속 분석 인공지능을 이용한 실시간 댓글 판단 방법

Similar Documents

Publication Publication Date Title
KR101491628B1 (ko) 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템
US10810499B2 (en) Method and apparatus for recommending social media information
Biyani et al. " 8 amazing secrets for getting more clicks": detecting clickbaits in news streams using article informality
Huang et al. Detecting suicidal ideation in Chinese microblogs with psychological lexicons
Zhao et al. Topical keyphrase extraction from twitter
Jaech et al. Talking to the crowd: What do people react to in online discussions?
WO2018214164A1 (en) Recommending friends in automated chatting
Zahoor et al. Twitter sentiment analysis using lexical or rule based approach: a case study
CN110287405B (zh) 情感分析的方法、装置和存储介质
US20140156673A1 (en) Measuring and altering topic influence on edited and unedited media
KR20120108095A (ko) 소셜 데이터 분석 시스템
JP6776310B2 (ja) ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
KR20150086441A (ko) 콘텐츠 및 상관 거리에 기반하는 사람 연결
CN107203520A (zh) 酒店情感词典的建立方法、评论的情感分析方法及***
Wijeratne et al. Feature engineering for Twitter-based applications
Cortelazzo et al. Improving Labbé’s intertextual distance: testing a revised version on a large corpus of Italian literature
JP5435249B2 (ja) イベント分析装置、イベント分析方法、およびプログラム
CN113934941A (zh) 一种基于多维度信息的用户推荐***及方法
Cui et al. Personalized microblog recommendation using sentimental features
Ahiladas et al. Ruchi: Rating individual food items in restaurant reviews
Belkaroui et al. Towards events tweet contextualization using social influence model and users conversations
Charalampakis et al. Detecting irony on greek political tweets: A text mining approach
US10176176B2 (en) Assistance for video content searches over a communication network
EP3956781A1 (en) Irrelevancy filtering
Tiwary et al. Determination Of Category–Wise Influential Users Using Information Retrieval Technique from Twitter

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180201

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190104

Year of fee payment: 5