KR102083017B1 - 플레이스의 소셜 리뷰 분석 방법 및 시스템 - Google Patents

플레이스의 소셜 리뷰 분석 방법 및 시스템 Download PDF

Info

Publication number
KR102083017B1
KR102083017B1 KR1020180073133A KR20180073133A KR102083017B1 KR 102083017 B1 KR102083017 B1 KR 102083017B1 KR 1020180073133 A KR1020180073133 A KR 1020180073133A KR 20180073133 A KR20180073133 A KR 20180073133A KR 102083017 B1 KR102083017 B1 KR 102083017B1
Authority
KR
South Korea
Prior art keywords
social
analysis
information
dictionary
category
Prior art date
Application number
KR1020180073133A
Other languages
English (en)
Other versions
KR20200000897A (ko
Inventor
김현규
Original Assignee
삼육대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼육대학교산학협력단 filed Critical 삼육대학교산학협력단
Priority to KR1020180073133A priority Critical patent/KR102083017B1/ko
Publication of KR20200000897A publication Critical patent/KR20200000897A/ko
Application granted granted Critical
Publication of KR102083017B1 publication Critical patent/KR102083017B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

본 발명은 플레이스의 소셜 리뷰 분석 방법 및 시스템에 관한 것이다. 본 발명의 일 실시예에 따른 플레이스의 소셜 리뷰 분석 방법은 사용자로부터 플레이스에 관한 검색 키워드 및 카테고리 정보를 입력 받는 단계와; 상기 검색 키워드에 대한 소셜 리뷰를 수집하는 단계와; 상기 카테고리 별로 서로 상이한 단어가 포함되도록 상기 카테고리 별로 각각 마련된 응용영역별 단어사전 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 단어사전을 이용하여 상기 소셜 리뷰에 대한 형태소 분석을 수행하는 단계; 및 상기 형태소 분석에 의해 도출된 정보를 이용하여 상기 소셜 리뷰에 대한 분석 정보를 추출 및 출력하는 단계를 포함한다.

Description

플레이스의 소셜 리뷰 분석 방법 및 시스템 {Method and system for analyzing social review of place}
본 발명은 소셜 빅 데이터를 활용하여 음식점, 숙박업소, 여행명소 등의 플레이스에 대한 분석 정보를 제공하기 위한 플레이스의 소셜 리뷰 분석 방법 및 시스템에 관한 것이다.
근래에 다양한 소셜 네트워크 서비스가 등장함에 따라 이용자들은 자신의 경험이나 의견을 다른 사람들과 쉽게 공유할 수 있는 기회가 증가하고 있으며, 이에 따라 소셜 네트워크 서비스를 마케팅 수단으로서 활용하는 시도가 이루어지고 있다.
특히 최근 포털 사이트나 SNS 사이트를 통해 음식점, 숙박업소, 여행명소 등에 대한 리뷰, 평가가 공유되고 있는데, 이러한 플레이스에 대한 온라인 리뷰, 평가 등은 수요자들이 해당 플레이스에 대한 선택 여부를 결정하는 중요한 기준이 되고 있다.
나아가 해당 플레이스의 마케팅 전략을 수립하거나 상권을 분석할 때, 소셜 리뷰에 대한 분석 정보의 활용 필요성이 점차 대두되고 있으며, 이와 관련된 기술들이 개발 및 제안되고 있다. (특허문헌 1 참조)
온라인에서 수집된 소셜 리뷰의 분석을 위해서는 리뷰 데이터에 대한 형태소 분석이 선행되어야 하는데, 이러한 형태소 분석은 단어의 유형(명사, 조사, 동사 등)을 인식하여, 키워드로서 가치가 있는 명사의 추출하고 각 단어를 기본형(표준형)으로 변환시킨다.
이러한 형태소 분석은 기본적으로 분석에 필요한 단어가 포함된 단어 사전을 검색하여 수행된다. 이 과정은 리뷰의 단어별로 전체 한글 사전을 검색하는 방식으로 수행되며, 검색된 단어가 형용사 또는 동사일 경우 가능한 모든 활용 형태를 검사/처리해야 하므로, 많은 시간과 컴퓨팅 자원이 소모되는 문제가 있다. 예를 들어, 월 단위로 전국 상권 분석 정보를 업데이트하는 방식의 상권 분석 서비스를 상정하면, 500개의 리뷰를 처리하는데 약 1분 정도가 소요되며, 플레이스별로 평균 500개의 리뷰를 가정할 경우, 전국 35000개의 플레이스에 대한 리뷰를 처리하는데 15일 정도가 소요되게 된다. 이에 따르면, 리뷰 수집에 소요되는 시간까지 포함하면, 월 단위 업데이트가 사실상 불가능하게 되는 것이다.
한편, 형태소 분석을 거친 리뷰로부터 유효한 데이터를 추출하는 단계가 수행되는데, 기존의 유효 데이터 추출 방법은 수집된 소셜 리뷰가 주어진 검색 키워드와 연관이 적은 것으로 간주한 후 미리 정의된 긍정 표현(예를 들어, '맛있다', '맛집' 등)이 포함된 리뷰만을 추출하는 방식을 사용하며, 이러한 방식은 유효 데이터로 채택되는 비율이 현저히 낮은 문제가 있다. 이와 같이, 통계의 모집단이 되는 리뷰 개수가 적을 경우, 산정 결과에 대한 정확성 및 신뢰도가 저하될 뿐만 아니라, 바이럴 마케팅에 취약해지는 문제점이 발생한다.
등록특허공보 제10-1715737호 (2017,03.07)
본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 종래 기술보다 향상된 속도를 제공할 뿐 아니라 분석 정확도의 향상이 가능한 플레이스의 소셜 리뷰 분석 방법 및 시스템을 제공하기 위한 것이다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따르면, 사용자로부터 플레이스에 관한 검색 키워드 및 카테고리 정보를 입력 받는 단계와; 상기 검색 키워드에 대한 소셜 리뷰를 수집하는 단계와; 상기 카테고리 별로 서로 상이한 단어가 포함되도록 상기 카테고리 별로 각각 마련된 응용영역별 단어사전 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 단어사전을 이용하여 상기 소셜 리뷰에 대한 형태소 분석을 수행하는 단계; 및 상기 형태소 분석에 의해 도출된 정보를 이용하여 상기 소셜 리뷰에 대한 분석 정보를 추출 및 출력하는 단계를 포함하는 플레이스의 소셜 리뷰 분석 방법이 제공될 수 있다.
또한, 상기 카테고리 정보는 음식점, 카페, 숙박업소, 관광 명소 중 하나 이상을 포함할 수 있다.
또한, 상기 소셜 리뷰에 대한 분석 정보는 연관 키워드, 연관 이미지, 인기 지수, 및 인지도 정보 중 하나 이상을 포함할 수 있다.
또한, 상기 소셜 리뷰 분석 방법은 수집된 모든 소셜 리뷰를 연관성이 있는 것으로 간주한 후, 연관성이 낮은 노이즈 패턴이 포함된 리뷰를 제외시켜 분석 정보 출력을 위한 유효 데이터를 추출하는 단계를 더 포함할 수 있다.
또한, 상기 유효 데이터를 추출하는 단계는, 상기 카테고리별로 상이한 노이즈 패턴이 포함된 응용영역별 패턴사전을 검색하여 이루어질 수 있다.
또한, 상기 소셜 리뷰 분석 방법은 상기 소셜 리뷰에 대한 분석 정보를 다른 언어로 번역하는 단계를 더 포함하고, 상기 번역 단계는, 고유명사에 대한 번역 정보가 포함되도록 별도로 마련된 고유명사 사전을 검색하여 고유명사에 대한 번역을 수행하는 단계와; 온라인 번역기를 통해 고유명사를 제외한 잔여 부분에 대한 번역을 수행하는 단계를 포함할 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 사용자로부터 플레이스에 관한 검색 키워드 및 카테고리 정보를 입력 받고, 상기 검색 키워드에 대한 소셜 리뷰를 수집하는 소셜 리뷰 수집 유닛과; 상기 소셜 리뷰에 대한 형태소 분석을 수행하는 형태소 분석 유닛; 및 상기 형태소 분석에 의해 도출된 정보를 이용하여 상기 소셜 리뷰에 대한 분석 정보를 추출 및 출력하는 분석 유닛을 포함하고, 상기 형태소 분석 유닛은, 상기 카테고리 별로 각각 마련되며, 상기 카테고리 별로 서로 상이한 단어가 포함되는 복수의 응용영역별 단어사전; 및 상기 복수의 응용영역별 단어사전 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 단어사전을 이용하여 상기 소셜 리뷰에 대한 형태소 분석을 수행하는 형태소 분석기를 포함하는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 시스템이 제공될 수 있다.
또한, 상기 형태소 분석 유닛은, 시험 데이터에 대한 기계 학습을 통해 상기 응용영역별 단어사전에 포함되는 단어는 도출하는 단어사전 학습기를 더 포함할 수 있다.
또한, 상기 소셜 리뷰 분석 시스템은, 수집된 모든 소셜 리뷰를 연관성이 있는 것으로 간주한 후, 연관성이 낮은 노이즈 패턴이 포함된 리뷰를 제외시켜 분석 정보의 출력을 위한 유효 데이터를 추출하는 노이즈 필터 유닛을 더 포함할 수 있다.
또한, 상기 노이즈 필터 유닛은 상기 카테고리별로 상이한 노이즈 패턴이 포함된 응용영역별 패턴 사전을 검색하여 필터링을 수행할 수 있다.
또한, 상기 응용영역별 단어사전 및 패턴사전은 상기 카테고리별로 모듈화되게 구성될 수 있다.
또한, 상기 소셜 리뷰 분석 시스템은 상기 소셜 리뷰에 대한 분석 정보를 다른 언어로 번역하는 번역 유닛을 더 포함하고, 상기 번역 유닛은, 고유명사에 대한 번역 정보가 포함되는 고유명사 사전; 및 상기 분석 정보 중 고유명사 부분은 상기 고유명사 사전을 이용하여 번역을 수행하고, 고유명사를 제외한 잔여 부분에 대해서는 온라인 번역기를 통해 번역이 수행되도록 하는 번역기를 포함할 수 있다. 여기서, 상기 고유명사 사전은 복수의 언어 별로 각각 구비될 수 있다.
본 발명의 일 실시예에 따르면, 카테고리 별로 응용영역별 단어사전을 마련하고, 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 단어사전을 이용하여 소셜 리뷰에 대한 형태소 분석을 수행함으로써, 소셜 리뷰에 대한 처리 속도를 월등히 향상시킬 수 있으며, 컴퓨팅 자원 소모를 줄일 수 있는 효과가 있다.
또한, 수집된 소셜 리뷰 중 유효한 데이터를 추출하는 방식으로써, 수집된 모든 소셜 리뷰를 연관성이 있는 것으로 간주한 후, 연관성이 낮은 노이즈 패턴이 포함된 리뷰를 제외시키는 긍정적 노이즈 필터링 방식을 사용함으로써, 분석 결과의 정확도 및 신뢰성을 향상시킬 수 있다.
또한, 상권 분석 정보에 대한 번역 정보를 제공하여 분석 정보의 사용층을 외국인까지 확대할 수 있으며, 번역시 별도로 마련된 고유명사 사전을 통한 고유 명사 번역을 1차적으로 수행한 후 나머지 번역을 온라인 번역기로 수행함으로써, 온라인 번역기에 통한 번역시 발생 가능한 오번역을 최소화할 수 있는 이점이 있다.
나아가, 응용영역별 단어사전 및 패턴 사전을 카테고리별로 모듈화되게 구성함으로써, 카테고리의 추가 및 응용 분야의 확장이 용이한 이점이 있다.
도 1은 본 발명의 일 실시예에 따른 플레이스의 소셜 리뷰 분석 시스템의 블록 다이어그램.
도 2는 본 발명의 일 실시예에 따른 플레이스의 소셜 리뷰 분석 방법을 나타낸 순서도.
도 3은 본 발명과 관련된 검색 키워드 및 카테고리 정보를 입력받기 위한 입력 페이지의 일 예를 예시한 도면.
도 4는 본 발명과 관련된 소셜 리뷰에 대한 노이즈 필터링 후 유효 데이터를 출력한 일 예를 예시한 도면.
도 5는 본 발명과 관련된 소셜 리뷰에 대한 분석 정보를 출력한 출력 페이지의 일 예를 예시한 도면.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명에 의한 플레이스의 소셜 리뷰 분석 방법 및 시스템의 일 실시예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 플레이스의 소셜 리뷰 분석 시스템의 블록 다이어그램이다.
도 1을 참조하면, 본 실시예에 따른 소셜 리뷰 분석 시스템은 소셜 리뷰 수집 유닛(10), 형태소 분석 유닛(20), 분석 유닛(30)을 포함한다.
소셜 리뷰 수집 유닛(10)은 사용자로부터 플레이스(음식점, 카페, 숙박업소, 관광 명소 등)에 관한 검색 키워드 및 카테고리 정보를 입력 받는다. 여기서, 검색 키워드는 플레이스의 상호명, 주소명 등이 될 수 있고, 카테고리 정보는 '음식점', '카페', '숙박업소', '관광 명소' 등이 될 수 있다. 사용자는 소셜 리뷰 수집 유닛(10)과 온라인으로 연결된 사용자 클라이언트(스마트폰, 컴퓨터 등)을 통해 해당 정보를 입력할 수 있다.
소셜 리뷰 수집 유닛(10)은 사용자로부터 입력받는 검색 키워드에 대한 소셜 리뷰를 수집한다. 소셜 리뷰 수집 유닛(10)은 기설정된 소셜 사이트(100)로부터 소셜 리뷰를 수집하며, 이러한 소셜 사이트(100)는 네이버, 다음 등의 포털 사이트와, 페이스북, 트위터, 인스타그램 등의 SNS 사이트 등을 포함할 수 있다. 소셜 리뷰는 블로그, 카페, SNS 피드 등의 게시물을 포함하며, 텍스트 이외에 이미지도 포함할 수 있다. 이러한 소셜 리뷰 데이터는 포털 및 SNS 사이트들이 제공하는 오픈 검색 API를 통해 수집 가능하며, 수집된 소셜 리뷰는 별도로 바련된 소셜 리뷰 데이터베이스(15)에 저장될 수 있다.
형태소 분석 유닛(20)은 소셜 리뷰에 대한 형태소 분석을 수행한다. 형태소 분석 유닛(20)은 소셜 리뷰를 구성하는 단어의 유형(명사, 조사, 동사 등)을 인식하고, 키워드로서 가치가 있는 명사의 추출하고 각 단어를 기본형(표준형)으로 변환시킨다.
형태소 분석 유닛(20)은 응용영역별 단어사전(21) 및 형태소 분석기(22)를 포함한다.
응용영역별 단어사전(21)은 복수개로서 카테고리 별로 각각 마련되며, 카테고리 별로 서로 상이한 단어가 포함된다. 예를 들어, 음식점, 카페, 숙박업소, 관광 명소 별로 소셜 리뷰에서 자주 언급되는 단어들이 모두 다르며, 이러한 사항을 이용하여 카테고리별로 응용용역별 단어사전(21)을 별도로 제작하여 사전의 사이즈를 줄였다. 각 응용영역별 단어사전(21)은 각 응용영역별로 주요 의미를 가지는 단어 위주로 구성될 수 있다.
형태소 분석기(22)는 복수의 응용영역별 단어사전(21) 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 단어사전(21)을 이용하여 소셜 리뷰에 대한 형태소 분석을 수행한다. 이에 따르면 기존의 공용 라이브러리(단일 라이브러리)를 사용하는 경우와 대비해서 사전 검색 시간을 대폭 단축시킬 수 있다. 또한, 형용사, 동사의 활용 형태의 처리 또한 사전 별로 제한된 단어에 한하여 처리되므로 효율성 향상이 가능하다.
형태소 분석 유닛(20)에는, 시험 데이터(Training data set)에 대한 기계 학습(machine learning)을 통해 응용영역별 단어사전(21)에 포함되는 단어를 도출하는 단어사전 학습기(23)가 추가로 구비될 수 있다.
분석 유닛(30)은 이상과 같은 형태소 분석에 의해 도출된 정보를 이용하여 소셜 리뷰에 대한 분석 정보를 추출 및 출력한다. 이러한 소셜 리뷰에 대한 분석 정보로서, 연관 키워드, 연관 이미지, 인기 지수, 및 인지도 정보 등을 들 수 있다.
이상과 같은 형태소 분석 방법에 따르면, 500개의 리뷰를 처리하는데 시간을 기존의 1분에서 5초 이내로 단축할 수 있으며, 이를 통해 플레이스별 실시간 분석이 가능해진다.
한편, 본 실시예에 의한 소셜 분석 시스템은 수집된 소셜 리뷰 중 유효한 데이터를 추출하기 위한 노이즈 필터 유닛(40)이 추가로 구비할 수 있다.
예를 들어, 검색 키워드가“동경미식”으로 주어질 경우, 검색 결과에 “동경미식 오른쪽분식집”, “동경미식 건물 2층 소아과” 등의 노이즈가 함께 포함되어 전달되므로, 이를 걸러내기 위한 필터링 과정이 필요하며, 노이즈 필터 유닛(40)은 이러한 노이즈 필터링을 수행한다.
노이즈 필터 유닛(40)은 형태소 분석 유닛(20)과 분석 유닛(30)의 사이에 연결되며, 형태소 분석 유닛(20)으로부터 받는 데이터에 대한 필터링 처리 후, 이를 분석 유닛(30)으로 전달한다. 노이즈 필터 유닛(40)의 필터링에 의해 추출된 유효 데이터는 별도로 마련된 유효 데이터 데이터베이스(45)에 저장될 수 있다.
기존의 유효 데이터 추출 방법은 수집된 소셜 리뷰가 주어진 검색 키워드와 연관이 적은 것으로 간주한 후 미리 정의된 긍정 표현(예를 들어, '맛있다', '맛집' 등)이 포함된 리뷰만을 추출하는 방식으로서, 소위 부정적(Pessimistic) 노이즈 필터링으로 지칭될 수 있다. 이러한 부정적(Pessimistic) 노이즈 필터링의 경우, 리뷰 타이틀에 “동경미식”이 있거나, "인생맛집", "강추" 등의 미리 정의된 긍정 표현이 있을 경우에 한해 유효 데이터(연관 리뷰)로 체택하게 되며, 유효 데이터로 채택되는 비율이 전체의 5 내지 10% 정도로 매우 낮다.
예를 들어, 플레이스의 추천에 있어 리뷰수가 50개인 "플레이스 A"가 1위, 리뷰수가 41개인 "플레이스 B"가 2위로 추천될 경우, "플레이스 B"에서 바이럴 마케터를 고용하여 10개의 리뷰만 올리게 되면 순위가 변동될 있게 된다. 이와 같이, 통계의 모집단이 되는 리뷰 수가 적을 경우, 산정 결과에 대한 신뢰도가 저하될 뿐만 아니라, 바이럴 마케팅에 취약해지는 문제점이 발생한다.
본 실시예에 따르면, 이와 같은 문제점을 해결하기 위하여, 노이즈 필터 유닛(40)은 수집된 모든 소셜 리뷰를 연관성이 있는 것으로 간주한 후, 연관성이 낮은 노이즈 패턴이 포함된 리뷰를 제외시켜 유효 데이터를 추출하는, 소위 긍정적(Optimistic) 노이즈 필터링 방식을 사용한다.
이러한 노이즈 패턴으로서, "오른쪽", "건물 2층"과 같은 플레이스의 인접 위치를 나타내는 부사, 버스 노선이나 지하철 노선과 같은 단어의 단순한 나열, "종로점", "강남역점"과 같은 지역별 프랜차이즈를 지칭하는 단어 등을 들 수 있다.
이러한 노이즈 패턴 또한 카테고리별로 다르게 구성될 수 있으며, 이러한 경우 노이즈 필터 유닛(40)은 카테고리별로 상이한 노이즈 패턴이 포함된 응용영역별 패턴사전(41)을 검색하여 필터링을 수행할 수 있다. 예를 들어, “분양”, “프리미엄” 등의 단어는 부동산 응용영역에서는 주요 키워드로 처리되나, 맛집, 관광명소 등의 응용영역에 대한 분석에서는 노이즈 패턴으로 인식될 수 있다. 이러한 응용영역별 노이즈 패턴의 도출 또한 기계 학습을 통해 수행 가능하다.
본 발명에 따르면, 카테고리별로 별도로 마련된 응용영역별 단어사전(21) 및 패턴사전(41)은 카테고리별로 모듈화되게 구성될 수 있다. 예를 들어, 음식점에 해당하는 단어사전(21) 및 패턴사전(41)이 모듈화된 제1 모듈과, 관광명소에 해당하는 응용을 모듈화시키고, 관광명소에 해당하는 단어사전(21) 및 패턴사전(41)이 모듈화된 제2 모듈이 별도로 구비될 수 있다. 여기서 부동산 응용영역을 추가하고 할 경우, 부동산에 해당하는 단어사전(21) 및 패턴사전(41)이 모듈화된 제3 모듈을 추가하기만 하며 되므로, 응용 영역 및 적용 분야를 용이하게 확장할 수 있다.
한편, 본 실시예에 따른 소셜 리뷰 분석 시스템에는 소셜 리뷰에 대한 분석 정보를 다른 언어로 번역하여 번역 정보를 출력하는 번역 유닛(50)이 추가로 구비될 수 있다. 이와 같이, 연관 키워드, 인지도 정보 등 관련 정보에 대한 다국어 지원을 통해 분석 정보에 대한 사용층을 외국인들까지 확대할 수 있다.
본 실시예의 번역 유닛(50)은 다국어 지원을 위해 기본적으로 온라인 번역기(예를 들어, 구글 번역)를 활용하며, 이러한 온라인 번역기의 번역 오류 문제(예를 들어, “오삼불고기”를 “5-3 bulgogi”로, “성지원식당”을 “sex support restaurant”으로 번역)를 해결하기 위해 별도의 고유명사 사전(51)을 구비한다.
번역 유닛(50)은 고유명사에 대한 번역 정보가 포함되는 고유명사 사전(51)와, 고유명사 사전(51)을 검색하여 고유명사에 대한 번역을 수행하는 번역기(52)를 포함한다. 고유명사 사전(51)은 복수의 언어 별로 각각 구비될 수 있으며, 번역기(52)는 분석 정보 중 고유명사 부분(예를 들어, "오삼불고기", "성지원" 등)은 고유명사 사전을 이용하여 번역을 수행하고, 고유명사를 제외한 잔여 부분에 대해서는 번역기 API(53)를 통해 온라인 번역기(200)를 활용하여 번역이 수행되도록 한다.
도 2는 본 발명의 일 실시예에 따른 플레이스의 소셜 리뷰 분석 방법을 나타낸 순서도이다.
도 2를 참조하여 본 실시예에 따른 소셜 리뷰 분석 방법을 상세히 설명하면, 먼저, 소셜 리뷰 수집 유닛(10)은 사용자로부터 플레이스에 대한 검색 키워드를 입력 받는다(S10). 도 3은 검색 키워드 및 카테고리 정보를 입력받기 위한 입력 페이지의 일 예를 예시하고 있다. 이에 따르면, 검색 키워드(상호명, 주소 등)는 타이핑을 통해 입력받고, 카테고리 정보(음식점, 카페, 숙박업소, 관광 명소 등)는 기설정된 메뉴 중 하나를 선택하는 방식을 통해 해당 정보를 입력 받는 것이 예시되어 있다.
다음으로, 소셜 리뷰 수집 유닛(10)은 사용자로부터 입력받는 검색 키워드에 대한 소셜 리뷰를 소셜 사이트(100)로부터 수집한다(S20).
다음으로, 형태소 분석기(22)는 카테고리 별로 서로 상이한 단어가 포함되도록 카테고리 별로 각각 마련된 응용영역별 단어사전(21) 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 단어사전(21)을 이용하여 소셜 리뷰에 대한 형태소 분석을 수행한다(S30).
다음으로, 노이즈 필터 유닛(40)은 수집된 모든 소셜 리뷰를 연관성이 있는 것으로 간주한 후, 연관성이 낮은 노이즈 패턴이 포함된 리뷰를 제외시켜 분석 정보 출력을 위한 유효 데이터를 추출한다(S40, 긍정적 노이즈 필터링). 노이즈 필터 유닛(40)은, 앞에서 설명한 바와 같이, 카테고리별로 상이한 노이즈 패턴이 포함된 응용영역별 패턴사전(41)을 검색하여 노이즈를 필터링한다.
도 4는 본 발명과 관련된 소셜 리뷰에 대한 노이즈 필터링 후 유효 데이터(연관 리뷰)를 출력한 일 예를 예시하여 보이고 있으며, 이에 따르면 연관 리뷰에 대한 요약 정보 및 원문보기 링크가 출력된 것이 예시되어 있다. 본 발명에 따르면, 노이즈 필터링 단계에서 연관 리뷰로 채택되는 비율을 기존 5 내지 10%에서 30% 이상으로 증가시킬 수 있다.
다음으로, 분석 유닛(30)은 이상에서 도출된 정보를 이용하여 소셜 리뷰에 대한 분석 정보를 추출 및 출력한다(S50). 소셜 리뷰에 대한 분석 정보는 연관 키워드, 연관 이미지, 인기 지수, 및 인지도 정보 등을 포함할 수 있다.
도 5는 본 발명과 관련된 소셜 리뷰에 대한 분석 정보를 출력한 출력 페이지의 일 예를 예시하고 있으며, 이에 따르면 분석 정보로서 검색 플레이스에 대한 연관 키워드, 인기 지수의 증감/추이 그래프가 출력된 것이 예시되어 있다.
다음으로, 필요에 따라, 소셜 리뷰에 대한 분석 정보를 다른 언어로 번역하는 단계를 추가로 수행할 수 있다(S51). 분석 정보에 대한 번역은, 앞선 설명과 같이, 별도로 마련된 고유명사 사전(51)을 검색하여 고유명사에 대한 번역을 수행한 후, 온라인 번역기(200)를 이용하여 고유명사를 제외한 잔여 부분에 대한 번역을 수행하는 방식을 통해 수행 가능하다.
한편, 이상에서 설명한 플레이스의 소셜 리뷰 분석 방법에서, 유효 데이터 추출 단계(S40) 및 분석 정보 번역 단계(S60) 중 적어도 하나는 필요에 따라 생략될 수 있다 할 것이다.
이상에서 설명한 플레이스의 소셜 리뷰 분석 방법 및 시스템은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수도 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magneticmedia), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기에서는 본 발명의 특정의 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10: 소셜 리뷰 수집 유닛 20: 형태소 분석 유닛
21: 응용영역별 단어사전 22: 형태소 분석기
23: 단어사전 학습기 30: 분석 유닛
40: 노이즈 필터 유닛 41: 응용영역별 패턴사전
50: 번역 유닛 51: 고유명사 사전
52: 번역기

Claims (13)

  1. 소셜 리뷰 수집 유닛을 통해, 사용자로부터 플레이스에 관한 검색 키워드 및 카테고리 정보를 입력 받는 단계;
    상기 소셜 리뷰 수집 유닛을 통해, 상기 검색 키워드에 대한 소셜 리뷰를 수집하는 단계;
    형태소 분석 유닛을 통해, 상기 소셜 리뷰에 대한 형태소 분석을 수행하는 단계;
    노이즈 필터 유닛을 통해, 수집된 모든 소셜 리뷰를 연관성이 있는 것으로 간주한 후, 연관성이 낮은 노이즈 패턴이 포함된 리뷰를 제외시켜 분석 정보 출력을 위한 유효 데이터를 추출하는 단계; 및
    분석 유닛을 통해, 상기 형태소 분석에 의해 도출된 정보와, 추출된 상기 유효 데이터를 이용하여 상기 소셜 리뷰에 대한 분석 정보를 추출 및 출력하는 단계를 포함하고,
    상기 카테고리 별로 서로 상이한 단어가 포함되는 응용영역별 단어사전과, 상기 카테고리별로 상이한 노이즈 패턴이 포함된 응용영역별 패턴사전이 상기 카테고리 별로 각각 마련되고,
    상기 형태소 분석 유닛은 상기 응용영역별 단어사전 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 단어사전을 이용하여 형태소 분석을 수행하며,
    상기 노이즈 필터 유닛은 상기 응용영역별 패턴사전 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 패턴사전을 검색하여 유효 데이터를 추출하는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 방법.
  2. 제1항에 있어서,
    상기 카테고리 정보는 음식점, 카페, 숙박업소, 관광 명소 중 하나 이상을 포함하는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 방법.
  3. 제1항에 있어서,
    상기 소셜 리뷰에 대한 분석 정보는 연관 키워드, 연관 이미지, 인기 지수, 및 인지도 정보 중 하나 이상을 포함하는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 방법.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    번역 유닛을 통해, 상기 소셜 리뷰에 대한 분석 정보를 다른 언어로 번역하는 단계를 더 포함하고,
    상기 번역 단계는,
    번역기를 통해 고유명사에 대한 번역 정보가 포함되도록 별도로 마련된 고유명사 사전을 검색하여 고유명사에 대한 번역을 수행하는 단계;
    온라인 번역기를 통해 고유명사를 제외한 잔여 부분에 대한 번역을 수행하는 단계를 포함하는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 방법.
  7. 사용자로부터 플레이스에 관한 검색 키워드 및 카테고리 정보를 입력 받고, 상기 검색 키워드에 대한 소셜 리뷰를 수집하는 소셜 리뷰 수집 유닛;
    상기 소셜 리뷰에 대한 형태소 분석을 수행하는 형태소 분석 유닛;
    수집된 모든 소셜 리뷰를 연관성이 있는 것으로 간주한 후, 연관성이 낮은 노이즈 패턴이 포함된 리뷰를 제외시켜 분석 정보의 출력을 위한 유효 데이터를 추출하는 노이즈 필터 유닛; 및
    상기 형태소 분석에 의해 도출된 정보와, 추출된 상기 유효 데이터를 이용하여 상기 소셜 리뷰에 대한 분석 정보를 추출 및 출력하는 분석 유닛을 포함하고,
    상기 형태소 분석 유닛은,
    상기 카테고리 별로 각각 마련되며, 상기 카테고리 별로 서로 상이한 단어가 포함되는 복수의 응용영역별 단어사전; 및
    상기 복수의 응용영역별 단어사전 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 단어사전을 이용하여 상기 소셜 리뷰에 대한 형태소 분석을 수행하는 형태소 분석기를 포함하며,
    상기 노이즈 필터 유닛은 상기 카테고리별로 상이한 노이즈 패턴이 포함된 응용영역별 패턴사전 중 사용자로부터 입력받은 카테고리 정보에 대응되는 응용영역별 패턴사전을 검색하여 필터링을 수행하는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 시스템.
  8. 제7항에 있어서, 상기 형태소 분석 유닛은,
    시험 데이터에 대한 기계 학습을 통해 상기 응용영역별 단어사전에 포함되는 단어는 도출하는 단어사전 학습기를 더 포함하는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 시스템.
  9. 삭제
  10. 삭제
  11. 제7항에 있어서,
    상기 응용영역별 단어사전 및 패턴사전은 상기 카테고리별로 모듈화되게 구성되는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 시스템.
  12. 제7항에 있어서,
    상기 소셜 리뷰에 대한 분석 정보를 다른 언어로 번역하는 번역 유닛을 더 포함하고,
    상기 번역 유닛은,
    고유명사에 대한 번역 정보가 포함되는 고유명사 사전; 및
    상기 분석 정보 중 고유명사 부분은 상기 고유명사 사전을 이용하여 번역을 수행하고, 고유명사를 제외한 잔여 부분에 대해서는 온라인 번역기를 통해 번역이 수행되도록 하는 번역기를 포함하는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 시스템.
  13. 제12항에 있어서,
    상기 고유명사 사전은 복수의 언어 별로 각각 구비되는 것을 특징으로 하는 플레이스의 소셜 리뷰 분석 시스템.
KR1020180073133A 2018-06-26 2018-06-26 플레이스의 소셜 리뷰 분석 방법 및 시스템 KR102083017B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180073133A KR102083017B1 (ko) 2018-06-26 2018-06-26 플레이스의 소셜 리뷰 분석 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180073133A KR102083017B1 (ko) 2018-06-26 2018-06-26 플레이스의 소셜 리뷰 분석 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20200000897A KR20200000897A (ko) 2020-01-06
KR102083017B1 true KR102083017B1 (ko) 2020-04-23

Family

ID=69158793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180073133A KR102083017B1 (ko) 2018-06-26 2018-06-26 플레이스의 소셜 리뷰 분석 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102083017B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220056552A (ko) 2020-10-28 2022-05-06 (주)아모레퍼시픽 문장 분석 방법 및 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102472868B1 (ko) * 2022-08-10 2022-12-01 주식회사 플리더스 게임 테스터들로부터 수집된 리뷰 데이터를 기초로 게임의 장르와 소재를 결정할 수 있는 게임 정보 관리 서버 및 그 동작 방법
KR102614638B1 (ko) * 2022-09-07 2023-12-15 (주)휴먼아이티솔루션 포토 리뷰 게시물 내의 gps 정보를 이용하여 주변의 관광지 정보를 제공하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090079575A (ko) * 2008-01-18 2009-07-22 (주)시터스 네비게이션 서비스 제공 시스템 및 장치와 서비스 제공방법
KR101005337B1 (ko) * 2008-09-29 2011-01-04 주식회사 버즈니 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
KR101134701B1 (ko) * 2010-08-09 2012-04-13 숭실대학교산학협력단 상품평 극성 분류를 위한 특징별 서술어 긍정 및 부정 사전 자동 구축 시스템 및 방법
KR101715737B1 (ko) 2014-10-02 2017-03-14 키위플 주식회사 지역 상권 흐름 분석 방법 및 이를 수행하기 위한 시스템
KR20170021454A (ko) * 2015-08-18 2017-02-28 주식회사 엠젠플러스 사용자 매체의 이용 정보에 기초하여 수집된 빅데이터 분석을 통한 개인별 상품 추천 방법 및 상품 추천 시스템
KR20160130369A (ko) * 2016-11-02 2016-11-11 에스케이플래닛 주식회사 온라인 상에 게재된 웹 문서 기반 상권 분석 서비스 시스템 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220056552A (ko) 2020-10-28 2022-05-06 (주)아모레퍼시픽 문장 분석 방법 및 시스템

Also Published As

Publication number Publication date
KR20200000897A (ko) 2020-01-06

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
KR101864361B1 (ko) 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
US7949514B2 (en) Method for building parallel corpora
Maier et al. Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections
US20130060769A1 (en) System and method for identifying social media interactions
US20110040769A1 (en) Query-URL N-Gram Features in Web Ranking
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
CN111417940A (zh) 支持复杂答案的证据搜索
KR102083017B1 (ko) 플레이스의 소셜 리뷰 분석 방법 및 시스템
JP2009157791A (ja) 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
Vanetik et al. An unsupervised constrained optimization approach to compressive summarization
Onal et al. Named entity recognition from scratch on social media
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
Touahri et al. Deep analysis of an Arabic sentiment classification system based on lexical resource expansion and custom approaches building
CN101520778A (zh) 用于确定中文词性的设备和方法
KR101916781B1 (ko) 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
Dias Cardoso et al. Language identification for social media: short messages and transliteration
Paramita et al. Methods for collection and evaluation of comparable documents
JP4401269B2 (ja) 対訳判断装置及びプログラム
Mara English-Wolaytta Machine Translation using Statistical Approach
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
Marceau et al. Quick starting dialog systems with paraphrase generation
CN114970543A (zh) 一种众包设计资源的语义分析方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant