KR101910424B1

KR101910424B1 - 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR101910424B1
Application number: KR1020160169464A
Authority: KR
Inventors: 이수원; 옥경림; 김희찬
Original assignee: 숭실대학교산학협력단
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2018-10-22
Also published as: KR20180067976A; KR101910424B9

Abstract

태그의 감성 분석을 이용한 영화 평점 예측 방법은, 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성하는 단계; 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 태그(tag) 정보와 평점(rating) 정보를 추출하는 단계; 상기 태그 정보를 이용하여 감성 분석을 수행하는 단계; 및 상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평점을 예측하는 단계를 포함한다. 이에 따라, 태그(tag) 정보를 이용한 감성 분석과 평점(rating) 정보를 통해 사용자가 아직 평가하지 않은 영화 평점을 예측할 수 있다.

Description

태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR MOVIE RATINGS PREDICTION USING SENTIMENT ANALYSIS OF MOVIE TAGS, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 협업 필터링(Collaborative Filtering) 기법을 통해 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것이다.

정보가 넘쳐나는 현대에 사용자들은 많은 정보들을 일일이 직접 판단하여 취사 선택하기에는 어려움이 있다. 이에 따라, 추천 시스템은 여러 가지 정보가 쏟아지는 현대에 사용자에게 꼭 필요한 정보를 제시해줄 수 있는 중요한 기술로 평가 받고 있다.

추천 시스템은 사용자들이 노력을 덜 들이고 필요한 정보를 얻게 해주며, 아울러 추천 시스템을 제공하는 기업의 입장에서는 상품의 판매를 통해 이윤을 얻게 한다.

추천 시스템은 크게 두 가지 정도로 나눌 수 있다. 협업 필터링(Collaborative Filtering) 기법과 내용기반 필터링(Content-based Filtering) 기법이 있다.

MovieLens 등 영화 추천 시스템에서는 새로운 정보로 사용자가 직접 입력한 태그(tag) 정보를 활용한 사례는 많지 않으며, 사용하였더라도 태그 정보를 응용한 것이 아닌 그대로 연관성 측정에 사용한 것에 불과하다.

선행기술문헌의 비특허문헌 1은 협업 필터링(Collaborative Filtering) 기법을 사용하였고, 적용하는 가중치(weight) 값을 다르게 하면서 유전자 알고리즘을 통해 가장 나은 가중치 등의 결과를 제시한다. 선행기술문헌의 비특허문헌 2는 MovieLens에서 새로 추가된 태그 정보를 포함하여 유저간 연관성을 계산한다.

그러나, 이러한 기존 기술의 경우 태그 정보를 또 다른 사용자간의 유사성을 판단하는데 그대로 사용될 뿐이다.

A genetic algorithm solution to the collaborative filtering problem-Yilmaz Ar, Erkan Bostanci Ankara Improving Recommendation Accuracy Based on Item-Specific Tag Preferences-FATIH GEDIKLI and DIETMAR JANNACH

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 태그의 감성 분석을 이용한 영화 평점 예측 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 태그의 감성 분석을 이용한 영화 평점 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 태그의 감성 분석을 이용한 영화 평점 예측 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 방법은, 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성하는 단계; 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 태그(tag) 정보와 평점(rating) 정보를 추출하는 단계; 상기 태그 정보를 이용하여 감성 분석을 수행하는 단계; 및 상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평점을 예측하는 단계를 포함한다.

본 발명의 실시예에서, 상기 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성하는 단계는, 비계층적 군집분석(k-means clustering)을 통해 상기 사용자와 비슷한 성향의 다른 사용자들의 집합을 구성할 수 있다.

본 발명의 실시예에서, 상기 태그 정보를 이용하여 감성 분석을 수행하는 단계는, 감성 분석기를 이용할 수 있다.

본 발명의 실시예에서, 상기 감성 분석기를 통한 감성 분석의 결과는 긍정(positive), 부정(negative) 및 중립(objective)의 각 감성값으로 출력될 수 있다.

본 발명의 실시예에서, 상기 긍정(positive), 부정(negative) 및 중립(objective)의 감성값들의 합은 1일 수 있다.

본 발명의 실시예에서, 상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평가를 예측하는 단계는, 5*(긍정 감성값-부정 감성값)의 값을 평점 정보와 1:1 비율로 통합하여 도출할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 태그의 감성 분석을 이용한 영화 평점 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 장치는, 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성하는 이웃 집단 구성부; 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 태그(tag) 정보와 평점(rating) 정보를 추출하는 정보 추출부; 상기 태그 정보를 이용하여 감성 분석을 수행하는 감성 분석부; 및 상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평점을 예측하는 평점 예측부를 포함한다.

본 발명의 실시예에서, 상기 감성 분석부는, 감성 분석기를 이용하여, 합이 1인 긍정(positive), 부정(negative) 및 중립(objective)의 각 감성값을 출력할 수 있다.

본 발명의 실시예에서, 상기 평가 예측부는, 5*(긍정 감성값-부정 감성값)의 값을 평점 정보와 1:1 비율로 통합하여 도출할 수 있다.

이와 같은 태그의 감성 분석을 이용한 영화 평점 예측 방법에 따르면, 사용자들이 직접 작성한 영화와 관련된 단어들인 태그(tag) 정보를 감성 분석하여, 감성 분석 결과와 평점 정보를 통해 사용자가 아직 평가하지 않은 영화에 대한 평점을 예측할 수 있다. 이에 따라, 본 발명에서는 영화에 비슷한 호감을 느끼지만 사용한 단어가 다른 경우를 고려하여 감성 분석을 통해 더욱 정확한 평점 예측이 가능하다.

또한, 정보가 넘쳐나는 현대에 사용자들은 많은 정보들을 일일이 직접 판단하여 취사 선택하기에는 어려움이 있다. 추천 시스템은 사용자들이 노력을 덜 들이고 필요한 정보를 얻게 해주며, 아울러 추천 시스템을 제공하는 기업의 입장에서는 상품의 판매를 통해 이윤을 얻게 한다. 본 발명에 따른 영화 추천 시스템은 사용자가 만족할만한 영화를 추천해줌으로써 사용자와 기업 모두에게 이익을 줄 수 있다.

도 1은 본 발명에 따른 태그의 감성 분석을 이용한 영화 평점 예측의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 장치의 블록도이다.
도 3은 본 발명의 다른 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 장치의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 태그의 감성 분석을 이용한 영화 평점 예측의 개념도이다.

본 발명은 영화 추천 서비스의 데이터를 추천 시스템의 데이터로 사용하며, 최근에 새로이 추가된 사용자가 직접 입력한 태그(tag) 정보를 단순히 연관성을 측정하는데 사용하는데 그치지 않고, 감성 분석을 통해 일종의 제2의 평점(rating) 정보로 사용한다. 예를 들어, 상기 데이터를 추출하는 영화 추천 서비스는 무비렌즈(MovieLens)일 수 있다.

따라서, 종래의 평점(rating)과 태그(tag) 정보를 이용한 감성 분석 결과를 결합하여, 사용자가 아직 평가하지 않은 영화의 평점을 예측할 수 있다. 본 발명에서 태그란, 사용자들이 영화에 대해 직접 작성한 영화와 관련 있는 단어들이다.

도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 장치(10, 이하 장치)는 이웃 집단 구성부(110), 정보 추출부(130), 감성 분석부(150) 및 평점 예측부(170)를 포함한다.

본 발명의 상기 장치(10)는 태그의 감성 분석을 이용한 영화 평점 예측을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 이웃 집단 구성부(110), 상기 정보 추출부(130), 상기 감성 분석부(150) 및 상기 평점 예측부(170)의 구성은 상기 장치(10)에서 실행되는 상기 태그의 감성 분석을 이용한 영화 평점 예측을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 이웃 집단 구성부(110), 상기 정보 추출부(130), 상기 감성 분석부(150) 및 상기 평점 예측부(170)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

상기 이웃 집단 구성부(110)는 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성한다. 상기 이웃 집단은 평점을 예측할 사용자와 유사한 성향을 가진 집단으로 구성하기 위해서 사용자들의 영화 관련 사이트에 게재한 텍스트, SNS 텍스트 등의 데이터를 활용할 수 있다.

예를 들어, 상기 이웃 집단은 비계층적 군집분석(k-means clustering)을 통해 상기 사용자와 비슷한 성향의 다른 사용자들의 집합을 구성할 수 있다.

비계층적 군집분석(k-means clustering)은 n개의 객체를 g개의 클러스터(cluster, 군집)으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화된 군집을 형성한다.

이는 데이터 포인트들이 있을 때 유사한 클러스터를 찾는데 사용하는 유용한 알고리즘으로서, 데이터 포인트들이 있을 때 임의로 k개의 센트로이드(중심)을 부여하여 각 데이터 포인트와 센트로이드 거리를 모두 계산한다. 그 후에 포인트들을 가장 가까운 센트로이드에 배정하고, 동일한 클러스터로 배정을 받은 포인트들의 평균을 구하여 센트로이드를 이동시킨다.

그 다음, 다시 모든 포인트들과 센트로이드들 간의 거리를 계산하여 다시 포인트들을 가장 가까운 센트로이드에 배정한다. 이 과정을 반복 수행하여 센트로이드에 배정받는 포인트들의 변화가 더 이상 없을 때 알고리즘을 중단한다.

비계층적 군집분석은 주어진 데이터의 내부 구조에 대한 사전정보 없이 의미 있는 자료 구조를 찾을 수 있으며, 다양한 형태의 데이터에 적용이 가능하다는 장점을 갖는다.

이를 통해, 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 형성하게 된다. 이에 따라, 사용자와 비슷한 성향을 가진 사용자들로 구성된 이웃 집단의 데이터를 활용하므로, 사용자의 평점 예측의 정확도를 향상시킬 수 있다.

상기 정보 추출부(130)는 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 태그(tag) 정보와 평점(rating) 정보를 추출한다.

태그란, 어떤 정보를 검색할 때 사용하기 위해 부여하는 단어 혹은 키워드를 의미하며, 꼬리표라고도 부른다. 인터넷 정보들 중에 사진이나 동영상과 같은 멀티미디어 정보의 등장에 따라 태그의 필요성이 늘어나게 되었다. 이러한 멀티미디어 정보들은 텍스트로 작성된 정보와 달리 키워드를 가지고 검색하는 것이 불가능하므로, 정보 검색을 위하여 계층적으로 분류(Taxonomy)하여 검색하기도 한다.

그러나 가령 여행 중에 촬영한 사진의 경우 '여행'이라는 분류도 가능하지만, 촬영한 도시에 따라서 분류할 수도 있고, 사진의 이벤트 종류에 따라서 분류할 수도 있으므로 하나의 정보가 여러 분야에 복수로 속하게 된다. 이러한 경우 계층적인 분류가 불가능하게 되며, 또한 분류체계가 방대해져서 검색에 많은 시간이 소요된다. 그래서 여러 개의 텍스트로 만든 태그를 부여하여 검색하는 데 사용한다.

즉, 모든 사용자들에게 표준화된 분류체계를 유지하는 것이 실제로는 불가능한 현실에서, 특정한 정보에 적합한 단어(태그)들을 모두 나열하게 함으로써 태그의 집합으로 정보를 검색하고 분류하는 것이다. 웹 2.0의 중심 기능으로 사용자들의 참여에 의해서 중앙에서 통제되지 않고 분류된다고 해서, 이를 폭소노미(Folksonomy)라고 부르게 되었다.

트위터, 페이스북, 인스타그램 등 소셜네트워크(SNS)에서 관심 있는 글을 검색하는 데 태그를 사용하기도 하고, 태그를 일종의 공동관심사를 표현하는 키워드로 간주하여 설정하기도 한다. 태그가 일종의 커뮤니티 역할을 맡고 있으며, 소셜네트워크에서 사진을 올리고 서로 공유하는 데 태그의 활용이 증대되고 있는 것이다. 또한, 2015년 출시된 네이버의 폴라(Pholar)에서는 친구를 팔로우하는 것이 아니라 취미에 해당하는 태그를 팔로우하는 시스템을 적용하여 태그의 활용이 더 높아졌다.

본 발명에서 상기 태그 정보는 상기 이웃 집단에 속하는 사용자들이 영화에 대해 직접 작성한 영화와 관련 있는 단어들이다. 예를 들어, 영화 추천 서비스 중 하나인 무비렌즈(MovieLens)의 데이터를 활용하여 태그 정보를 추출할 수 있다.

또한, 상기 정보 추출부(130)는 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 평점(rating) 정보를 추출한다. 상기 평점 정보는 예를 들어, 0부터 5 이하의 범위를 가질 수 있다.

상기 감성 분석부(150)는 상기 태그 정보를 이용하여 감성 분석을 수행한다. 본 발명은 사용자가 직접 입력한 태그 정보를 단순히 연관성을 측정하는데 사용하는 게 아니라 태그를 감성 분석을 사용한 결과를 예측하는데 활용하였다는데 의의가 있다.

MovieLens 등 영화 추천 사이트에 새로운 정보로 사용자가 직접 입력한 태그 정보를 활용한 사례는 많지 않으며, 사용하였더라도 태그 정보를 응용한 것이 아닌 그대로 연관성 측정에 사용하는데 그칠 뿐이다.

이와 같이, 기존의 경우 태그 정보를 또 다른 사용자간의 유사성을 판단하는데 그대로 사용되었으나, 본 발명에서는 태그 정보를 이용하여 감성 분석을 함으로써 영화에 비슷한 호감을 느끼지만 사용한 단어가 다른 경우를 고려하여 감성 분석을 통해 평점 예측을 할 수 있다.

상기 감성 분석부(150)는 감성 분석기를 이용하여 상기 태그 정보를 이용하여 감성 분석을 수행할 수 있다. 예를 들어, 상기 감성 분석기는 SentiWordNet을 이용할 수 있다.

SentiWordNet은 최근 오피니언 마이닝(opinion mining)에 대한 관심이 급증하면서, 트위터와 같은 소셜 네트워크 상의 유저들이 직접 작성한 데이터들을 이용하여 감성 분석을 하는 대표적인 방법 중 하나인 감성사전을 이용한다.

SentiWordNet을 이용하여 감성 분석을 하는 경우, 긍정(positive), 부정(negative) 및 중립(objective)의 세 가지 감성값으로 출력된다. 이 세 가지 감성값의 합은 1이고, 또한 각 감성값의 범위는 0 내지 1이다.

상기 평점 예측부(170)는 상기 감성 분석부(150)의 감성 분석의 결과 및 상기 정보 추출부(130)로부터 출력되는 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평점을 예측한다.

예를 들어, 상기 평점 예측부(170)는 5*(긍정 감성값-부정 감성값)의 값을 평점 정보와 1:1 비율로 통합하여 도출할 수 있다. 본 발명에서 MovieLens의 데이터를 이용하는 경우, 평점은 0부터 5 이하의 범위를 가지고, 긍정 감성 및 부정 감성값의 각 최대값은 1이므로, 5를 곱해서 정규화할 수 있다(normalize).

다른 실시예로, 상기 평점 계산식에 가중치(weight)를 부여할 수 있으며, 가중치의 경우는 EJC(Extended Jaccard Coefficient)를 사용할 수 있다. 또한, 상기 평점 계산식은 사용하는 데이터 및 감성 분석기의 특성에 따라 변경될 수 있다.

이에 따라, 사용자들이 직접 작성한 영화와 관련된 단어들인 태그(tag) 정보를 감성 분석하여, 감성 분석 결과와 평점 정보를 통해 사용자가 아직 평가하지 않은 영화에 대한 평점을 예측할 수 있다.

도 3을 참조하면, 본 발명의 다른 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 장치(30)는 정보 추출부가 분리된 것을 제외하고, 도 2의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 2의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

상기 장치(30)는 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 태그(tag) 정보를 추출하는 태그 정보 추출부(330) 및 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 평점(rating) 정보를 평점 정보 추출부(340)를 별도로 포함한다.

상기 태그 정보 추출부(330)로부터 추출된 태그 정보는 상기 감성 분석부(150)를 통해 감성 분석된 결과가 상기 평점 예측부(170)로 전달된다. 즉, 본 발명에서 태그 정보는 그대로 사용하는 것이 아닌 감성 분석을 통해 일종의 제2의 평점(rating) 정보로 사용된다.

반면, 상기 평점 정보 추출부(340)로부터 추출된 평점 정보는 상기 평점 예측부(170)로 전달되어 평점 예측의 정보로 활용된다.

또한, 추천 시스템은 사용자들이 노력을 덜 들이고 필요한 정보를 얻게 해주며, 아울러 추천 시스템을 제공하는 기업의 입장에서는 상품의 판매를 통해 이윤을 얻게 한다. 본 발명에 따른 영화 추천 시스템은 사용자가 만족할만한 영화를 추천해줌으로써 사용자와 기업 모두에게 이익을 줄 수 있다.

도 4는 본 발명의 일 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 방법의 흐름도이다.

본 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 방법은, 도 2의 장치(10) 또는 도 3의 장치(30)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 2의 장치(10) 또는 도 3의 장치(30)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 태그의 감성 분석을 이용한 영화 평점 예측을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

도 4를 참조하면, 본 실시예에 따른 태그의 감성 분석을 이용한 영화 평점 예측 방법은, 먼저 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성한다(단계 S10).

상기 이웃 집단은 평점을 예측할 사용자와 유사한 성향을 가진 집단으로 구성하기 위해서 사용자들의 영화 관련 사이트에 게재한 텍스트, SNS 텍스트 등의 데이터를 활용할 수 있다.

이를 통해, 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 형성하게 된다. 이에 따라, 사용자와 비슷한 성향을 가진 사용자들로 구성된 이웃 집단의 데이터를 활용하므로 사용자의 평점 예측의 정확도를 향상시킬 수 있다.

상기 이웃 집단이 구성되면, 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 태그(tag) 정보와 평점(rating) 정보를 추출한다(단계 S30).

본 발명에서 상기 태그 정보는 상기 이웃 집단에 속하는 사용자들이 영화에 대해 직접 작성한 영화와 관련 있는 단어들이다. 예를 들어, 영화 추천 서비스 중 하나인 무비렌즈(MovieLens)의 데이터를 활용하여 태그 정보를 추출할 수 있다. 상기 평점 정보는 예를 들어, 0부터 5 이하의 범위를 가질 수 있다.

상기 태그 정보가 추출되면, 상기 태그 정보를 이용하여 감성 분석을 수행한다(단계 S50). 단계 S50는 감성 분석기를 이용하여 상기 태그 정보를 이용하여 감성 분석을 수행할 수 있다. 예를 들어, 상기 감성 분석기는 SentiWordNet을 이용할 수 있다.

본 발명은 사용자가 직접 입력한 태그 정보를 단순히 연관성을 측정하는데 사용하는게 아니라 태그를 감성 분석을 사용한 결과를 예측하는데 활용하였다는데 의의가 있다.

이와 같이, 기존의 경우 태그 정보를 또 다른 사용자간의 유사성을 판단하는데 그대로 사용되었으나, 본 발명에서는 태그를 감성 분석을 함으로써 영화에 비슷한 호감을 느끼지만 사용한 단어가 다른 경우를 고려하여 감성 분석을 통해 평점 예측을 할 수 있다.

상기 감성 분석의 결과가 도출되면, 상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평점을 예측한다(단계 S70).

예를 들어, 5*(긍정 감성값-부정 감성값)의 값을 평점 정보와 1:1 비율로 통합하여 도출할 수 있다. 본 발명에서 MovieLens의 데이터를 이용하는 경우, 평점은 0부터 5 이하의 범위를 가지고, 긍정 감성 및 부정 감성값의 각 최대값은 1이므로, 5를 곱해서 정규화할 수 있다(normalize).

다른 실시예로, 평점 계산식에 가중치(weight)를 부여할 수 있으며, 가중치의 경우는 EJC(Extended Jaccard Coefficient)를 사용할 수 있다. 또한, 상기 평점 계산식은 사용하는 데이터 및 감성 분석기의 특성에 따라 변경될 수 있다.

이와 같은, 태그의 감성 분석을 이용한 영화 평점 예측 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

여러 가지 정보가 쏟아지는 현대에 추천 시스템은 사용자에게 꼭 필요한 정보를 제시해줄 수 있는 중요한 기술이다. 추천 시스템은 사용자들이 노력을 덜 들이고 필요한 정보를 얻게 해주며, 아울러 추천 시스템을 제공하는 기업의 입장에서는 상품의 판매를 통해 이윤을 얻게 한다.

본 영화 추천 시스템은 사용자가 만족할만한 영화를 추천해줌으로써 사용자와 기업 모두에게 이익을 줄 수 있다. 본 발명은 영화 추천 시스템 기법으로 영화 혹은 다른 개인화 분야의 추천 시스템에 응용될 수 있을 것으로 예상된다.

10, 30: 태그의 감성 분석을 이용한 영화 평점 예측 장치
110: 이웃 집단 구성부
130: 정보 추출부
330: 태그 정보 추출부
350: 평점 정보 추출부
150: 감성 분석부
170: 평점 예측부

Claims

영화 평점 예측 장치를 통해 수행하는, 태그의 감성 분석을 이용한 영화 평점 예측 방법에 있어서,
상기 영화 평점 예측 장치에 의해, 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성하는 단계;
상기 영화 평점 예측 장치에 의해, 상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 태그(tag) 정보와 평점(rating) 정보를 추출하는 단계;
상기 영화 평점 예측 장치에 의해, 상기 태그 정보를 이용하여 감성 분석을 수행하는 단계; 및
상기 영화 평점 예측 장치에 의해, 상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평점을 예측하는 단계를 포함하되,
상기 평점 정보는 미리 정해지는 상수 범위 내의 상수값이고,
상기 영화 평점 예측 장치에 의해, 상기 태그 정보를 이용하여 감성 분석을 수행하는 단계는,
소셜 네트워크 상의 유저들이 직접 작성한 데이터들을 이용하는 감성 분석기를 이용하여, 감성 분석기를 통해 감성 분석의 결과를 긍정(positive), 부정(negative) 및 중립(objective)의 감성값으로 출력하는 것을 포함하고,
상기 긍정(positive), 부정(negative) 및 중립(objective)의 감성값들의 합은 1이고,
상기 영화 평점 장치에 의해, 상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평가를 예측하는 단계는,
상기 감성 분석의 결과로 출력되는 긍정 감성값 및 부정 감성값의 차이값을 연산하고, 상기 긍정 감성값 및 부정 감성값의 차이값과 상기 미리 정해지는 상수 범위의 최대값을 곱하여 정규화값을 연산하고, 상기 정규화값을 평점 정보와 1:1 비율로 통합하는 것을 포함하고,
상기 정규화값과 평점 정보의 통합시, 상기 평점 정보에 따라 상이한 가중치가 부여되는, 태그의 감성 분석을 이용한 영화 평점 예측 방법.
제1항에 있어서, 상기 영화 평점 예측 장치에 의해, 상기 평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성하는 단계는,
비계층적 군집분석(k-means clustering)을 통해 상기 사용자와 비슷한 성향의 다른 사용자들의 집합을 구성하는, 태그의 감성 분석을 이용한 영화 평점 예측 방법.
삭제
삭제
삭제
삭제
제1항 내지 제2항 중 어느 하나의 항에 따른 태그의 감성 분석을 이용한 영화 평점 예측 방법을 수행하기 위해 매체에 저장된 컴퓨터프로그램.
평가 대상인 영화에 대한 사용자의 평점을 예측할 데이터로 활용하기 위한 이웃 집단을 구성하는 이웃 집단 구성부;
상기 이웃 집단으로부터 상기 평가 대상인 영화에 대한 태그(tag) 정보와 평점(rating) 정보를 추출하는 정보 추출부;
상기 태그 정보를 이용하여 감성 분석을 수행하는 감성 분석부; 및
상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평점을 예측하는 평점 예측부를 포함하되,
상기 평점 정보는 미리 정해지는 상수 범위 내의 상수값이고,
상기 태그 정보를 이용하여 감성 분석을 수행하는 것은,
소셜 네트워크 상의 유저들이 직접 작성한 데이터들을 이용하는 감성 분석기를 통해 감성 분석의 결과를 긍정(positive), 부정(negative) 및 중립(objective)의 감성값으로 출력하는 것이고,
상기 긍정(positive), 부정(negative) 및 중립(objective)의 감성값들의 합은 1이고,
상기 감성 분석의 결과 및 상기 평점 정보를 이용하여, 상기 사용자의 상기 평가 대상인 영화에 대한 평점을 예측하는 것은,
상기 감성 분석의 결과로 출력되는 긍정 감성값 및 부정 감성값의 차이값을 연산하고, 상기 긍정 감성값 및 부정 감성값의 차이값과 상기 미리 정해지는 상수 범위의 최대값을 곱하여 정규화값을 연산하고, 상기 정규화값을 평점 정보와 1:1 비율로 통합하고,
상기 정규화값과 평점 정보의 통합시, 상기 평점 정보에 따라 상이한 가중치가 부여되어 통합된 평점으로 예측하는 것인, 태그의 감성 분석을 이용한 영화 평점 예측 장치.
삭제
삭제