KR20210029006A - Product Evolution Mining Method And Apparatus Thereof - Google Patents

Product Evolution Mining Method And Apparatus Thereof Download PDF

Info

Publication number
KR20210029006A
KR20210029006A KR1020190110247A KR20190110247A KR20210029006A KR 20210029006 A KR20210029006 A KR 20210029006A KR 1020190110247 A KR1020190110247 A KR 1020190110247A KR 20190110247 A KR20190110247 A KR 20190110247A KR 20210029006 A KR20210029006 A KR 20210029006A
Authority
KR
South Korea
Prior art keywords
product
major issues
preference
issues
sentence
Prior art date
Application number
KR1020190110247A
Other languages
Korean (ko)
Other versions
KR102299525B1 (en
Inventor
온병원
Original Assignee
군산대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 군산대학교산학협력단 filed Critical 군산대학교산학협력단
Priority to KR1020190110247A priority Critical patent/KR102299525B1/en
Publication of KR20210029006A publication Critical patent/KR20210029006A/en
Application granted granted Critical
Publication of KR102299525B1 publication Critical patent/KR102299525B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

The following embodiments relate to a product reputation mining method. According to the embodiment of the present invention, a product reputation mining method includes the steps of: extracting major issues related to a product; measuring preference for the major issues based on a sentiment dictionary; and generating sentiment summaries for major issues based on preferences. The present invention uses a product review so that the buyer can quickly obtain information about the product which the buyer wants to purchase through review data.

Description

제품 평가 마이닝 방법 및 이를 수행하는 장치{Product Evolution Mining Method And Apparatus Thereof}Product Evolution Mining Method And Apparatus Thereof}

이하의 실시예는 제품 평가 마이닝 방법 및 이를 수행하는 장치에 관한 것이다.The following embodiments relate to a product evaluation mining method and an apparatus for performing the same.

스마트폰 보급의 확산으로 제품 구매 시 웹 사이트 및 SNS를 이용하여 제품 리뷰를 참고하는 소비자들이 증가하고 있다. 전자 상거래 사이트의 제품 리뷰는 구매 예정자들에게 유용한 정보로 활용될 수 있지만, 구매 예정자가 직접 제품에 대한 리뷰 데이터를 찾아서 전체 내용을 일일이 읽고 분석해야하기 때문에 시간이 오래 걸릴뿐만 아니라 가공되지 않는 데이터가 줄 수 있는 정보는 한정적이다. 또한, 이러한 리뷰들은 상품의 특징을 파악하기 쉽지 않다.With the spread of smartphones, more and more consumers refer to product reviews using websites and SNS when purchasing products. Product reviews on e-commerce sites can be used as useful information for prospective purchasers. However, it takes a long time and raw data is not processed because the prospective purchaser has to read and analyze the entire contents by searching for the review data on the product himself. The information that can be given is limited. In addition, these reviews are not easy to grasp the characteristics of the product.

상품에 대한 만족도를 리뷰로 표현하는 사용자들이 늘고 있어 리뷰의 개수는 수없이 많으며, 앞으로 더더욱 증가할 것이다. 그러므로 리뷰를 일일이 읽으면서 상품에 대한 특징을 파악하고 구매 결정을 내리는 것은 점점 더 어려운 일이 될 것이다. 따라서, 리뷰를 일일이 읽으면서 상품에 대한 특징을 파악하고 구매 결정을 내리는 것은 점점 더 어려운 일이 될 것이다. As more and more users express their satisfaction with products through reviews, the number of reviews is numerous and will increase even more in the future. Therefore, it will become increasingly difficult to read reviews individually to identify product characteristics and make purchasing decisions. Therefore, it will become increasingly difficult to read reviews, identify product characteristics, and make purchasing decisions.

이러한 문제를 빅데이터 기술을 활용하여 대용량의 리뷰 데이터를 분석하고 사용자들에게 가공된 분석 결과를 시각적으로 제공하는 방법들이 제안되고 있다.To solve this problem, methods of analyzing a large amount of review data using big data technology and visually providing processed analysis results to users have been proposed.

실시예를 통해 리뷰 데이터를 통해 구매자가 구매하기 원하는 상품에 대한 정보를 신속하게 얻을 수 있도록 제품 리뷰를 이용하여 제품 평판을 마이닝하는 방법 및 이를 수행하는 장치를 제공하고자 한다.An embodiment is intended to provide a method of mining a product reputation using product reviews and an apparatus for performing the same so that information on a product desired to be purchased by a buyer can be quickly obtained through review data.

제품에 연관된 주요 이슈들을 추출하는 단계; 감성사전에 기초하여 상기 주요 이슈들에 대한 선호도를 측정하는 단계; 및 상기 선호도에 기초하여 상기 주요 이슈들에 대한 감성 요약을 생성하는 단계를 포함하는, 제품 평판 마이닝 방법이 제공될 수 있다.Extracting major issues related to the product; Measuring a preference for the major issues based on an emotion dictionary; And generating a sentiment summary for the major issues based on the preference, a product reputation mining method may be provided.

상기 제품에 연관된 주요 이슈들을 추출하는 단계는, 상기 제품에 연관된 단어들이 상기 주요 이슈들에 포함될 확률을 계산하는 단계를 포함할 수 있다.The step of extracting the major issues related to the product may include calculating a probability that words related to the product will be included in the major issues.

상기 제품에 연관된 주요 이슈들을 추출하는 단계는, 상기 이슈들 중 불용(useless) 이슈를 필터링하여 제거하는 단계를 포함할 수 있다.The step of extracting major issues related to the product may include filtering and removing a useless issue among the issues.

상기 주요 이슈들에 대한 선호도를 측정하는 단계는, 하기 수학식에 기초하여 상기 주요 이슈들에 대한 선호도를 계산하는 단계를 포함할 수 있다.Measuring the preferences for the major issues may include calculating the preferences for the major issues based on the following equation.

수학식:Equation:

Figure pat00001
Figure pat00001

-score(s,t)는 문장 s에서 단어 t의 선호도이고, , α는 첫 번째 항과 두 번째 항의 가중 평균을 구하는 파라미터이고, tokens(s)는 문장 s를 구성하는 단어들의 집합이고, |tokens(s)|는 tokens(s)집합의 단어의 수를 의미하고, P(t)는 단어 w′가 토픽 T내의 단어 t와 같을 확률임--score(s,t) is the preference of the word t in the sentence s, α is a parameter that calculates the weighted average of the first and second terms, tokens(s) is the set of words constituting the sentence s, and | tokens(s)| means the number of words in the tokens(s) set, and P(t) is the probability that the word w′ is the same as the word t in topic T-

상기 감성 요약을 생성하는 단계는, 상기 주요 이슈들을 포함하는 문장들을 상기 주요 이슈에 대한 선호도에 따라 내림차순으로 정렬하는 단계; 및 상기 정렬된 문장들 중에서 긍정 문장 및 부정 문장을 구분하는 단계를 포함할 수 있다.The generating of the sentiment summary may include: sorting sentences including the major issues in descending order according to a preference for the major issues; And separating a positive sentence and a negative sentence from among the sorted sentences.

상기 선호도 및 상기 감성 요약을 시각적으로 표현한 UI(User Interface)를 제공하는 단계를 더 포함할 수 있다.The method may further include providing a user interface (UI) visually expressing the preference and the emotion summary.

제품 평판 마이닝을 위한 장치에 있어서, 하나 이상의 프로세서; 메모리; 및 상기 메모리에 저장되어 있으며 상기 하나 이상의 프로세서에 의하여 실행되도록 구성되는 하나 이상의 프로그램을 포함하고, 상기 프로그램은, 제품에 연관된 주요 이슈들을 추출하는 단계; 감성사전에 기초하여 상기 주요 이슈들에 대한 선호도를 측정하는 단계; 및 상기 선호도에 기초하여 상기 주요 이슈들에 대한 감성 요약을 생성하는 단계를 포함하는, 장치가 제공될 수 있다.An apparatus for product reputation mining, comprising: one or more processors; Memory; And one or more programs stored in the memory and configured to be executed by the one or more processors, the program comprising: extracting major issues related to a product; Measuring a preference for the major issues based on an emotion dictionary; And generating a sentiment summary for the major issues based on the preference.

본 발명의 실시예를 통해 리뷰 데이터를 통해 구매자가 구매하기 원하는 상품에 대한 정보를 신속하게 얻을 수 있도록 제품 리뷰를 이용하여 제품 평판을 마이닝하는 방법 및 이를 수행하는 장치를 제공할 수 있다.According to an embodiment of the present invention, a method for mining a product reputation using product reviews and an apparatus for performing the same may be provided so that information on a product that a buyer wants to purchase may be quickly obtained through review data.

도 1은 일실시예에 있어서, 제품 평판 마이닝 방법의 흐름도이다.
도 2는 일실시예에 있어서, 제품 평판 마이닝의 전체 프로세스의 일례이다.
도 3은 일실시예에 있어서, 시각적으로 표현된 UI의 일례이다.
도 4는 일실시예에 있어서, 시각적으로 표현된 UI에서 선호도 및 감성 요약을 제공하는 일례이다.
도 5는 일실시예에 있어서, 제품 평가 마이닝 서비스가 웹을 통해 제공되는 흐름도이다.
도 6은 일실시예에 있어서, 제품 평판 마이닝 방법을 수행하는 장치의 블록도이다.
1 is a flowchart of a product reputation mining method according to an embodiment.
2 is an example of the overall process of product reputation mining in one embodiment.
3 is an example of a visually expressed UI according to an embodiment.
4 is an example of providing a summary of preferences and emotions in a visually expressed UI according to an embodiment.
5 is a flow chart in which a product evaluation mining service is provided through a web according to an embodiment.
6 is a block diagram of an apparatus for performing a product plate mining method according to an embodiment.

이하, 본 발명의 실시예에 대해서 첨부된 도면을 참조하여 자세히 설명하도록 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.Specific structural or functional descriptions of embodiments according to the concept of the present invention disclosed in the present specification are exemplified only for the purpose of describing embodiments according to the concept of the present invention, and embodiments according to the concept of the present invention They may be implemented in various forms and are not limited to the embodiments described herein.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Since the embodiments according to the concept of the present invention can apply various changes and have various forms, the embodiments will be illustrated in the drawings and described in detail in the present specification. However, this is not intended to limit the embodiments according to the concept of the present invention to specific disclosed forms, and includes changes, equivalents, or substitutes included in the spirit and scope of the present invention.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Terms such as first or second may be used to describe various elements, but the elements should not be limited by the terms. The terms are only for the purpose of distinguishing one component from other components, for example, without departing from the scope of the rights according to the concept of the present invention, the first component may be referred to as the second component, Similarly, the second component may also be referred to as a first component.

어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 “~사이에”와 “바로~사이에” 또는 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.When an element is referred to as being “connected” or “connected” to another element, it is understood that it may be directly connected or connected to the other element, but other elements may exist in the middle. It should be. On the other hand, when a component is referred to as being "directly connected" or "directly connected" to another component, it should be understood that there is no other component in the middle. Expressions that describe the relationship between components, for example, “between” and “just between” or “directly adjacent to” should be interpreted as well.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, “포함하다” 또는 “가지다” 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present specification are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present specification, terms such as “comprise” or “have” are intended to designate that the specified features, numbers, steps, actions, components, parts, or combinations thereof exist, but one or more other features or numbers, It is to be understood that the presence or addition of steps, actions, components, parts, or combinations thereof does not preclude the possibility of preliminary exclusion.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein including technical or scientific terms have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms as defined in a commonly used dictionary should be construed as having a meaning consistent with the meaning of the related technology, and should not be interpreted as an ideal or excessively formal meaning unless explicitly defined in the present specification. Does not.

데이터 분석 기반의 제품 평판 마이닝 시스템은 사용자 리뷰를 수집하여 제품에서 많은 사람들에게 언급되고 있는 이슈를 추출하고 주요 이슈별로 선호도 평가와 감성 요약을 실시하여 분석 결과를 웹 인터페이스를 통해 제품의 리뷰에 대한 가공된 정보를 시각적으로 제공할 수 있다.The product reputation mining system based on data analysis collects user reviews, extracts issues mentioned by many people in the product, performs preference evaluation and emotional summary for each major issue, and processes the analysis results for product reviews through a web interface. Information can be provided visually.

도 1은 일실시예에 있어서, 제품 평판 마이닝 방법의 흐름도이다.1 is a flowchart of a product reputation mining method according to an embodiment.

단계(110)에서 장치는, 제품에 연관된 주요 이슈들을 추출한다.In step 110, the device extracts major issues related to the product.

실시예에서, 해당 제품에 대한 대용량의 리뷰 데이터를 입력 받아, 해당 리뷰 데이터로부터 주요 이슈들을 추출할 수 있다. In an embodiment, by receiving a large amount of review data for a corresponding product, major issues may be extracted from the review data.

제품에 대한 평가와 관련하여 사용자들이 많이 언급하는 주제나 화제 등을 주요 이슈들로 추출될 수 있는데, 예를 들어, 가격, 가성비, 디자인, 성능, 내구성 등에 대한 이슈들이 추출될 수 있다.Subjects or topics that users frequently mention in relation to product evaluation can be extracted as major issues. For example, issues related to price, cost performance, design, performance, and durability can be extracted.

실시예에서, 해당 이슈들은 토픽 모델 이슈 자동 탐지 기능을 통해 추출될 수 있으며, 해당 기능은 장치 내에 기 저장되거나, 해당 기능을 포함하는 모듈을 통해서 이루어질 수 있다.In an embodiment, the issues may be extracted through a topic model issue automatic detection function, and the corresponding function may be previously stored in the device or may be performed through a module including the corresponding function.

실시예에서, 주요 이슈들을 추출하는 방법으로 LDA(Latent Dirichlet Allocation) 방법이 사용될 수 있는데, 해당 방법은, 리뷰에 연관된 단어들이 상기 토픽들에 속할 확률을 계산하여 가장 확률이 높은 단어들을 추출한 뒤 추출된 토픽의 단어들의 토픽 일관성을 측정하여 토픽 일관성이 높은 단어를 찾는 방법이다. 검색된 단어는 토픽의 레이블이 되고, 이 토픽은 하나의 주요 이슈로 정의할 수 있다. 이러한 방법으로 여러 주요 이슈를 추출할 수 있다.In an embodiment, the LDA (Latent Dirichlet Allocation) method may be used as a method of extracting major issues, and the method is extracted after extracting the words with the highest probability by calculating the probability that words related to the review belong to the topics. This is a method of finding words with high topic consistency by measuring topic consistency of words in the topic. The searched word becomes the topic label, and this topic can be defined as a major issue. In this way, several major issues can be extracted.

실시예에서, 토픽의 일관성을 판단하여 토픽의 이슈를 결정하는 토픽 레이블링 알고리즘은 아래와 같다.In an embodiment, a topic labeling algorithm for determining topic issues by determining topic consistency is as follows.

Figure pat00002
Figure pat00002

실시예에서, 추출된 주요 이슈들에 대해서 불용(Useless) 이슈를 필터링할 수 있다. 예컨대, 평가 이슈로 적합하지 않은 이슈들을 주요 이슈에서 제외할 수 있다.In an embodiment, Useless issues may be filtered for extracted major issues. For example, issues that are not suitable as evaluation issues can be excluded from major issues.

단계(120)에서 장치는, 감성사전에 기초하여 주요 이슈들에 대한 선호도를 측정한다.In step 120, the device measures preferences for major issues based on the sentiment dictionary.

실시예에서, 해당 제품에 대해 추출된 주요 이슈들 별로 긍정 또는 부정으로 나타나는 대중의 선호도를 판단할 수 있다. 선호도를 판단하는 데에 있어서, 하기의 수학식 1을 이용할 수 있다.In an embodiment, it is possible to determine the preference of the public as positive or negative for each of the major issues extracted for the product. In determining the preference, Equation 1 below can be used.

Figure pat00003
Figure pat00003

주요 이슈에 대한 선호도를 조사하기 위한 수학식으로, score(s,t)는 문장 s에서 단어 t의 선호도이고, , α는 첫 번째 항과 두 번째 항의 가중 평균을 구하는 파라미터이고, tokens(s)는 문장 s를 구성하는 단어들의 집합이고, |tokens(s)|는 tokens(s)집합의 단어의 수를 의미하고, P(t)는 단어 w

Figure pat00004
가 토픽 T내의 단어 t와 같을 확률을 의미한다.As an equation for investigating the preference for a major issue, score(s,t) is the preference of the word t in the sentence s, α is a parameter that calculates the weighted average of the first and second terms, and tokens(s) Is the set of words that make up the sentence s, |tokens(s)| is the number of words in the tokens(s) set, and P(t) is the word w
Figure pat00004
Is the probability that is equal to the word t in topic T.

실시예에 따른 선호도를 조사하기 위해 아래의 알고리즘이 이용될 수 있다.The following algorithm may be used to investigate the preference according to the embodiment.

상기의 알고리즘 1(Algorithm 1)은 리뷰 데이터의 주요 이슈들에 대한 선호도를 조사하기 위한 것으로, 알고리즘의 기본 실행 단위는 주요 이슈들의 연관어들이다. 실시예에 이용되는 감성 사전은 LTK(Natural Language Toolkit) 패키지 중 NLTK 3.3 버전[12]을 사용할 수 있다.Algorithm 1 above is to investigate preferences for major issues in review data, and the basic execution unit of the algorithm is related words of major issues. The sentiment dictionary used in the embodiment may use NLTK 3.3 version [12] of the Natural Language Toolkit (LTK) package.

상기의 알고리즘에 의하면, 입력된 이슈 연관어들에 대한 알고리즘의 수행 결과는 주요 이슈의 긍정 언급도, 부정 언급도 및 전체 선호도 점수를 포함하며, 초기 값은 0으로 설정될 수 있다.According to the above algorithm, the execution result of the algorithm for the input issue-related words includes positive mention, negative mention, and overall preference scores of major issues, and an initial value may be set to 0.

먼저 긍정 언급도(pos)의 경우, 이슈의 연관어가 긍정인 단어(Dp)가 감성 사전에 포함되어 있는지를 판단할 수 있다(line 2). 이때 이슈에 긍정인 단어(Dp)가 존재하는 경우, 긍정 언급도(Sp)에 이슈의 연관어가 나올 확률 분포 값(P(w))과 사전의 감성 강도인 degree(w)를 곱한다. 마찬가지로 부정인 단어(Dn)가 존재할 경우 부정 언급도(Sn)에 확률분포 값과 감성 사전의 감성 강도인 degree(w)를 곱한다. 이후, 긍정 언급도와 부정 언급도의 수식을 계산하여 전체 선호도 점수를 평가할 수 있다(line 6-7).First, in the case of a positive mention degree (pos), it can be determined whether or not a word (Dp) whose associated word of the issue is affirmative is included in the emotion dictionary (line 2). At this time, if there is a positive word (Dp) in the issue, the positive mention rate (Sp) is multiplied by the probability distribution value (P(w)) that the associated word of the issue appears and the degree (w), which is the sensitivity intensity of the dictionary. Similarly, if there is a negative word (Dn), the negative mention degree (Sn) is multiplied by the probability distribution value and degree (w), which is the sensitivity intensity of the emotion dictionary. After that, the overall preference score can be evaluated by calculating the formula for positive and negative mentions (line 6-7).

아래의 표 1 및 표 2를 이용하여 선호도를 평가하는 예시에 대해 설명하도록 한다.An example of evaluating preference will be described using Tables 1 and 2 below.

Figure pat00005
Figure pat00005

Figure pat00006
Figure pat00006

상기의 표 1 및 표 2는 특정 제품에 대한 연관어들의 확률 분포 값을 도시한 것이다. 상기의 표에 기재된 단어들 및 단어들의 확률 분포는 특정 단어에 대한 해당 이슈 내의 중요도를 나타낼 수 있다.Tables 1 and 2 above show probability distribution values of related words for a specific product. The words listed in the table above and the probability distribution of words may indicate the importance within the issue for a specific word.

예컨대, 이슈 연관어들과 연관어들의 확률분포 값은 ‘greedy, p(w):0.37’, ‘satisfied, p(w):0.23’, ‘unique, p(w):0.18’, ‘serious, p(w):0.15’이다. 준비된 감성 사전에서 위 단어들이 긍정 단어와 감성 강도로 satisfied, 2’, ‘unique, 1’, 부정 단어로 ‘greedy, 2’, ‘serious, 1’과 같이 분류되어 있다면 해당 이슈를 감성 사전으로 매칭하여 긍정 단어들과 부정 단어로 분류할 수 있다.For example, the probability distribution values of issue related words and related words are'greedy, p(w):0.37','satisfied, p(w):0.23','unique, p(w):0.18','serious, p(w):0.15'. In the prepared emotional dictionary, if the above words are classified as satisfied, 2','unique, 1'as positive words and emotional strength,'greedy, 2','serious, 1'as negative words, the relevant issue is matched with the emotional dictionary. It can be classified into positive words and negative words.

분류 이후 분류된 모든 긍정 단어와 부정 단어의 확률 분포 값과 감성 강도 스코어를 곱한 뒤 선호도 중 긍정은 모든 긍정인 단어들의 스코어 값을 더한 뒤 전체 감성 스코어의 합으로 나눈 것이다. 선호도 중 부정에 대한 결과도 마찬가지로 전체 단어들의 감성 스코어의 합으로 나눌 수 있다.After the classification, the probability distribution values of all positive and negative words classified after the classification are multiplied by the emotional intensity score, and the positive among the preferences is the sum of the total emotional scores after adding the scores of all positive words. Likewise, the result of negative among preferences can be divided by the sum of the emotional scores of all words.

Figure pat00007
Figure pat00007

상기의 실시예에 대한 감성 스코어는 수학식 2와 같이 표현될 수 있다. 긍정에 대한 스코어는 0.418, 부정에 대한 스코어는 0.582로 계산될 수 있다.The emotional score for the above embodiment may be expressed as Equation 2. The score for positive can be calculated as 0.418 and the score for negative can be calculated as 0.582.

단계(130)에서 장치는, 선호도에 기초하여 주요 이슈들에 대한 감성 요약을 생성한다.In step 130, the device generates sentiment summaries for major issues based on preferences.

실시예에 따른 감성 요약은 NLTK(Natural Language Toolkit)의 감성 분석(Sentiment Analysis)를 사용하여 생성될 수 있다.The sentiment summary according to the embodiment may be generated using sentiment analysis of NLTK (Natural Language Toolkit).

감성 분석은 텍스트의 긍정 및 부정에 대한 점수가 결정되는 과정을 포함할 수 있으며, 예를 들어 긍정은 +, 부정은 -로 표시되어 1~5의 점수로 표현될 수 있다.The sentiment analysis may include a process of determining scores for positive and negative texts. For example, positive and negative scores may be expressed as + and negative, and may be expressed as a score of 1-5.

실시예에서, 감성 요약은 리뷰 문장으로부터 주요 이슈에 관련된 연관어의 확률 분포 값을 연산할 수 있다. 이후 연산된 결과 중, 상위 소정 수(예를 들어, 15개)의 문장을 추출할 수 있으며, 이는 주요 이슈와 관련된 문장을 매칭 시키기 위한 것이다. 감성 요약을 위해 아래의 알고리즘이 이용될 수 있다.In an embodiment, the sentiment summary may calculate a probability distribution value of a related word related to a major issue from a review sentence. Thereafter, among the calculated results, a high-order predetermined number (for example, 15 sentences) may be extracted, to match sentences related to major issues. The following algorithm can be used for summarizing sentiment.

Figure pat00008
Figure pat00008

실시예에서, 알고리즘 2(Algorithm 2)는 주요 이슈 감성 요약을 위해 주요 이슈의 연관어와 관련된 문장을 찾는 알고리즘이다.In an embodiment, Algorithm 2 is an algorithm to find a sentence related to a related word of a major issue to summarize the sentiment of a major issue.

상기 알고리즘에 의해 실제 리뷰 데이터에서 주요 이슈의 연관어와 관련 있는 문장을 매칭할 수 있다. 리뷰 데이터의 문장을 s라고 지칭하고 주요 이슈의 연관어를 wj에 저장할 수 있다(line 3). 문장 s에 포함된 단어(wi)가 wj와 일치하면 wj의 확률분포(Pw) 값을 더할 수 있고(line 5), 이후 모두 더한 확률분포 스코어를 출현된 연관어의 수로 나눈 뒤 정렬하여 주요 이슈와 관련된 문장을 소정의 수로 지정할 수 있는데, 예를 들어, 상위 15개로 지정할 수 있다.According to the above algorithm, sentences related to related words of major issues can be matched from actual review data. The sentence of the review data is referred to as s, and the associated word of the major issue can be stored in wj (line 3). If the word (wi) included in the sentence s matches wj, the probability distribution (Pw) value of wj can be added (line 5), and then the probability distribution score added together is divided by the number of associated words and sorted to make a major issue. You can designate a predetermined number of sentences related to and, for example, the top 15.

실시예에서, 매칭된 문장들은 감성 분석 패키지를 이용하여 스코어 점수를 출력할 수 있다. 감성 점수는 가장 높은 점수의 긍정적인 문장을 기반으로 지정되며, 문장 내에서 가장 높은 점수를 받은 단어에 기초하여 문장에 대한 양수 점수가 부여된다.In an embodiment, the matched sentences may output a score score using a sentiment analysis package. The sentiment score is designated based on the positive sentence with the highest score, and a positive score for the sentence is given based on the word that received the highest score in the sentence.

일례로 ‘I love you but hate the current political climate’ 라는 문장이 있다면 Sentiment Analysis의 분석 결과는 ‘I love[3] you but hate[-4] the current political’ 로 -1 (sentence: 3, -4) 이라는 스코어가 출력될 수 있다. 추출된 문장은 NLTK의 감성 분석의 입력이 될 수 있다. 따라서 입력 부분은 앞서 주요 이슈의 연관어와 매칭된 문장이며 출력 부분은 문장들의 감성 스코어이다.For example, if there is a sentence saying'I love you but hate the current political climate', the analysis result of Sentiment Analysis is'I love[3] you but hate[-4] the current political' as -1 (sentence: 3, -4 ) Can be output. The extracted sentence can be an input for NLTK's sentiment analysis. Therefore, the input part is the sentence matched with the related word of the main issue above, and the output part is the sentiment score of the sentences.

출력된 문장의 스코어 값으로 정렬할 수 있다. 정렬된 문장들은 주요 이슈에 가장 관련이 있는 문장들이라 판단하여 정렬된 문장 중 탑에 속하는 소정의 수의 문장을 추출할 수 있고, 예컨대 각각의 이슈의 긍정인 문장 3개, 부정인 문장 3개를 출력할 수 있다.It can be sorted by the score value of the output sentence. The sorted sentences are judged to be the sentences most relevant to the main issue, and a predetermined number of sentences belonging to the top among the sorted sentences can be extracted. For example, 3 positive sentences and 3 negative sentences of each issue can be extracted. Can be printed.

Figure pat00009
Figure pat00009

표 3은 NLTK의 감성 분석의 결과 값을 정렬한 휴대폰 栢* S9의 성능에 관한 긍정인 문장 Top-3를 표시한 것이다.Table 3 shows the positive sentences Top-3 about the performance of the mobile phone 栢* S9, which sorted the results of the emotion analysis of NLTK.

일실시예 따른 검증으로, 감성 요약의 결과를 검증하기 위해 Sentiment Analysis Demo[14]를 사용하여 요약된 300개의 긍정인 문장을 수작업으로 선호도를 판별하여 300개의 문장 중 292개의 문장이 긍정이라는 결과가 나타났다. 8개의 문장은 다른 제품의 부정적인 의견과 해당 제품을 비교하는 리뷰로 부정적인 문장으로 판별되었다.As a verification according to an embodiment, in order to verify the result of the sentiment summary, the preference of 300 affirmative sentences summarized using the Sentiment Analysis Demo[14] was manually determined, and the result that 292 sentences out of 300 sentences were affirmative. appear. Eight sentences were identified as negative sentences as a review comparing the product with the negative opinions of other products.

도 2는 일실시예에 있어서, 제품 평판 마이닝의 전체 프로세스의 일례이다.2 is an example of the overall process of product reputation mining in one embodiment.

실시예에서, 프로세스를 위한 시스템은 데이터 입력 단계, 제품 평판 마이닝 단계, 출력 단계(웹 인터페이스)로 구성될 수 있다. 이 중, 데이터 입력 단계에서, 크롤러를 통해 웹 상의 제품에 대한 사용자 리뷰 데이터를 수집함으로써 데이터를 입력 받을 수 있다. 해당 실시예에서 사용자 리뷰 데이터는 휴대폰 리뷰 데이터를 사용할 수 있다.In an embodiment, the system for the process may consist of a data input step, a product reputation mining step, and an output step (web interface). Among them, in the data input step, data may be input by collecting user review data for products on the web through a crawler. In this embodiment, user review data may use mobile phone review data.

실시예에서, 사용자 리뷰의 수집을 위해 휴대폰 리뷰 사이트에서 "A사", "B사" 및 "C사"의 15종의 휴대폰 리뷰 데이터를 수집할 수 있다. 특정 제품에 대한 정보만을 원하는 경우, 수집된 리뷰 데이터에서 특정 제품의 정보만을 출력할 수도 있다. 상기 수집된 리뷰 데이터에서 사용자에게 키워드를 입력 받아 해당 키워드의 리뷰 데이터만을 추출하여 출력할 수 있다. 예를 들어, 사용자가 A사의

Figure pat00010
Phone X 및 B사의 栢* S9의 리뷰 데이터를 원하면, 해당 리뷰만을 키워드로 검색하여 리뷰 데이터 및 리뷰 데이터에 대한 분석 정보를 획득할 수 있다.In an embodiment, 15 types of mobile phone review data of "Company A", "Company B" and "Company C" may be collected from the mobile phone review site for collecting user reviews. If you only want information on a specific product, you can output only information on a specific product from the collected review data. A keyword may be input from the collected review data to a user, and only review data of the keyword may be extracted and output. For example, if the user
Figure pat00010
If you want the review data of Phone X and Company B's 栢* S9, you can obtain analysis information on the review data and review data by searching only the corresponding review by keyword.

실시예에서, 제품 평판 마이닝 단계는 크게 3가지로 분류될 수 있다.In the embodiment, the product reputation mining step can be largely classified into three types.

1단계는 주요 이슈를 탐지하게 되는데 여기서 이슈는 많은 사람들이 언급하는 어떤 주제나 화제가 표현되는지를 말한다.In the first step, the main issue is detected, where the issue refers to what topic or topic many people refer to.

실시예에서, 제품 평판 마이닝 시스템에서는 리뷰 데이터의 주요 이슈를 추출하여 어떤 측면에서 좋고 나쁜지 제품에 대해 대중들이 자주 언급하고 있는 것들이 무엇인지를 찾기 위해 토픽 모델인 LDA(Latent Dirichlet Allocation)를 사용할 수 있다. 이후, 추출된 토픽 내에 있는 연관어들의 토픽 일관성(Topic coherence)를 측정하여 토픽 일관성이 높은 것을 주요 이슈로 정의할 수 있다.In an embodiment, in the product reputation mining system, a topic model, Latent Dirichlet Allocation (LDA), may be used to extract major issues of review data and find out which aspects are good or bad and what the public frequently mentions about the product. . Thereafter, topic coherence of related words in the extracted topic is measured, and a high topic coherence can be defined as a major issue.

2단계는 선호도 조사 단계이다.The second stage is the preference survey stage.

실시예에서, 해당 단계에서 획득한 주요 이슈들의 선호도 조사 결과를 사용자에게 제공할 수 있다. 선호도 조사는 주요 이슈를 긍정, 부정으로 판단하여 대중의 제품에 대한 선호도를 주요 이슈별로 쉽게 알 수 있도록 한다. 예를 들어 栢* S9의 주요 이슈 ‘기능’, ‘디자인’, ‘가격’, ‘성능’ 등의 선호도를 판별하여 ‘기능’, ‘디자인’의 선호도 비율을 평가를 할 수 있다. 이를 위해 상기에 설명된 알고리즘 1이 이용될 수 있다.In an embodiment, it is possible to provide the user with the result of the preference survey of major issues acquired in the corresponding step. Preference survey judges major issues as positive or negative so that the public's preference for products can be easily identified by major issues. For example, it is possible to evaluate the preference ratio of ‘function’ and ‘design’ by discriminating preferences such as ‘feature’, ‘design’, ‘price’, and ‘performance’ of the major issues of 栢* S9. For this, Algorithm 1 described above may be used.

3단계는 감성 요약 단계이다. 주요 이슈들을 선호도 평가의 이유를 알 수 있는 과정이다. 실시예에서, 감성 요약은 선호도 평가를 뒷받침하는 증거가 될 수 있다. Step 3 is the emotional summary step. This is the process of knowing the reason for evaluating the preference of major issues. In an embodiment, the sentiment summary may be evidence to support a preference evaluation.

실시예에서, 감성 요약 단계의 성능을 향상시키기 위해 분산 처리 방법인 맵리듀스를 사용할 수 있다. 감성 요약은 크게 세 단계로 실행될 수 있다.In an embodiment, MapReduce, which is a distributed processing method, may be used to improve the performance of the sentiment summary step. Emotional summary can be executed in three major steps.

첫 번째, 주요 이슈와 가장 관련된 문장들을 매칭할 수 있다. 미리 정해진 수의 문장들이 매칭될 수 있는데, 실시예에서는 15개의 문장을 이용한다.First, it is possible to match sentences most relevant to major issues. A predetermined number of sentences may be matched. In the embodiment, 15 sentences are used.

두 번째로, 상기 문장들 각각에 대해 감성 스코어를 계산할 수 있다.Second, it is possible to calculate an emotion score for each of the sentences.

세 번째로, 계산된 감성 스코어의 오름차순으로 문장들을 정렬하여 주요 이슈의 감성 요약의 상위 소정의 개수의 문장을 출력할 수 있다.Third, by arranging the sentences in an ascending order of the calculated emotional score, a predetermined number of sentences with the top of the emotional summary of the main issue may be output.

첫 번째 및 두 번째 단계는 맵 부분에서 처리될 수 있고, 리듀스 부분에서 세 번째 단계가 처리될 수 있다.The first and second steps may be processed in the map part, and the third step may be processed in the reduce part.

실시예에서, 단일 노드와 분산 처리 시스템읜 맵리듀스 네임 노드 1대와 데이터 노드 3대의 비교 실험을 통해 처리 속도가 150% 향상됨을 확인할 수 있다.In the embodiment, it can be seen that the processing speed is improved by 150% through a comparison experiment of one MapReduce name node and three data nodes in a single node and a distributed processing system.

실시예에서, 제품 평판 마이닝이 완료된 분석 결과는 시각적으로 출력될 수 있다. 실시예에서, 도 2와 같은 실시예로 분석 결과가 출력될 수 있다.In an embodiment, the analysis result for which product reputation mining has been completed may be visually output. In an embodiment, the analysis result may be output in the embodiment as shown in FIG. 2.

도 2에 의하면, 좌측에서 사용자가 원하는 리뷰의 종류를 선택할 수 있고, 실시예에서 크롤링된 리뷰의 문서는 휴대폰의 리뷰 데이터이므로, 예를 들어, 栢* S9를 검색하면, 저장되어 있는 리뷰 데이터들 중 해당 단어를 포함하는 리뷰 데이터들이 사용자에게 출력될 수 있다.According to FIG. 2, the user can select the type of review desired by the user on the left side, and since the crawled review document in the embodiment is review data of the mobile phone, for example, when searching for 栢* S9, the stored review data Review data including the corresponding word may be output to the user.

상단에 사용자에 의해 검색된 내용이 사용자에게 출력될 수 있도록 제품명에 검색된 키워드가 노출될 수 있도록 할 수 있다.At the top, the searched keyword may be exposed in the product name so that the content searched by the user can be displayed to the user.

중앙에 있는 히트맵은 앞서 말한 주요 이슈에 대한 중요도 순서로 크기를 지정할 수 있다. 가장 큰 면적일수록 토픽의 일관성이 높은 주요 이슈이다.The heatmap in the center can be sized in order of importance to the aforementioned major issues. The larger the area, the higher the consistency of the topic is the main issue.

하나의 이슈를 클릭하면 도 3과 같이 이슈의 연관어들을 워드 클라우드 형식으로 사용자에게 보여주고, 선호도 조사의 결과를 도표로 보여줄 수 있다. 또한 감성 요약의 결과를 긍정인 문장과 부정인 문장으로 나누어 사용자에게 제공할 수 있다. 사용자에게 시각적으로 UI(User Interface)를 제공함에 있어서 사용자에게 분석 결과를 효과적으로 표현할 수 있다.When one issue is clicked, as shown in FIG. 3, the related words of the issue are shown to the user in a word cloud format, and the result of the preference survey can be shown in a table. In addition, the result of the emotional summary can be provided to the user by dividing the result into a positive sentence and a negative sentence. In providing a user with a visual UI (User Interface), the analysis result can be effectively expressed to the user.

도 5는 일실시예에 있어서, 제품 평가 마이닝 서비스가 웹을 통해 제공되는 흐름도이다.5 is a flow chart in which a product evaluation mining service is provided through a web according to an embodiment.

실시예에서, 데이터 부석 제품 평가 시스템은 웹 서버 등에 포함되거나 연동되어 도 1 내지 도 2를 통해 설명한 제품 평가 마이닝을 수행할 수 있다.In an embodiment, the data pumice product evaluation system may be included or interlocked with a web server or the like to perform product evaluation mining described with reference to FIGS. 1 to 2.

실시예에서, 사용자 인터페이스를 통해 입력되는 명령(Request)에 대응하여 데이터 필터링, 주요 이슈(Aspect) 탐지, 선호도 조사, 감성 요약 등이 실행될 수 있다. 서버에서는 해당 명령에 해당하는 코드를 실행하여 결과값을 시각화하여 출력할 수 있다. 시각화되어 사용자 인터페이스로 출력되는 결과값은 도 3 내지 4의 예시로 나타날 수 있다.In an embodiment, in response to a request input through a user interface, data filtering, major issue detection, preference survey, sentiment summary, and the like may be executed. The server can visualize and output the result value by executing the code corresponding to the command. The result values that are visualized and output to the user interface may be shown as examples of FIGS. 3 to 4.

도 6은 일실시예에 있어서, 제품 평판 마이닝 방법을 수행하는 장치의 블록도이다.6 is a block diagram of an apparatus for performing a product plate mining method according to an embodiment.

실시예에 따른 장치(600)는 메모리(610) 및 프로세서(620)를 포함하여 구성될 수 있고, 메모리(610)에 저장된 제품 평가 마이닝 방법의 프로그램을 수행할 수 있다.The device 600 according to the embodiment may include a memory 610 and a processor 620, and may execute a program of a product evaluation mining method stored in the memory 610.

장치(600)는 제품에 연관된 주요 이슈들을 추출한다.The device 600 extracts major issues related to the product.

실시예에서, 해당 제품에 대한 대용량의 리뷰 데이터를 입력 받아, 해당 리뷰 데이터로부터 주요 이슈들을 추출할 수 있다. In an embodiment, by receiving a large amount of review data for a corresponding product, major issues may be extracted from the review data.

제품에 대한 평가와 관련하여 사용자들이 많이 언급하는 주제나 화제 등을 주요 이슈들로 추출될 수 있는데, 예를 들어, 가격, 가성비, 디자인, 성능, 내구성 등에 대한 이슈들이 추출될 수 있다.Subjects or topics that users frequently mention in relation to product evaluation can be extracted as major issues. For example, issues related to price, cost performance, design, performance, and durability can be extracted.

실시예에서, 해당 이슈들은 토픽 모델 이슈 자동 탐지 기능을 통해 추출될 수 있으며, 해당 기능은 장치 내에 기 저장되거나, 해당 기능을 포함하는 모듈을 통해서 이루어질 수 있다.In an embodiment, the issues may be extracted through a topic model issue automatic detection function, and the corresponding function may be previously stored in the device or may be performed through a module including the corresponding function.

실시예에서, 주요 이슈들을 추출하는 방법으로 LDA(Latent Dirichlet Allocation) 방법이 사용될 수 있는데, 해당 방법은, 리뷰에 연관된 단어들이 상기 토픽들에 속할 확률을 계산하여 가장 확률이 높은 단어들을 추출한 뒤 추출된 토픽의 단어들의 토픽 일관성을 측정하여 토픽 일관성이 높은 단어를 찾는 방법이다. 검색된 단어는 토픽의 레이블이 되고, 이 토픽은 하나의 주요 이슈로 정의할 수 있다. 이러한 방법으로 여러 주요 이슈를 추출할 수 있다.In an embodiment, the LDA (Latent Dirichlet Allocation) method may be used as a method of extracting major issues, and the method is extracted after extracting the words with the highest probability by calculating the probability that words related to the review belong to the topics. This is a method of finding words with high topic consistency by measuring topic consistency of words in the topic. The searched word becomes the topic label, and this topic can be defined as a major issue. In this way, several major issues can be extracted.

장치(600)는, 감성사전에 기초하여 주요 이슈들에 대한 선호도를 측정한다.The device 600 measures preferences for major issues based on the emotion dictionary.

실시예에서, 해당 제품에 대해 추출된 주요 이슈들 별로 긍정 또는 부정으로 나타나는 대중의 선호도를 판단할 수 있다. 선호도를 판단하는 데에 있어서, 상기의 수학식 1을 이용할 수 있다.In an embodiment, it is possible to determine the preference of the public as positive or negative for each of the major issues extracted for the product. In determining the preference, Equation 1 above can be used.

해당 단계에서 획득한 주요 이슈들의 선호도 조사 결과를 사용자에게 제공할 수 있다. 선호도 조사는 주요 이슈를 긍정, 부정으로 판단하여 대중의 제품에 대한 선호도를 주요 이슈별로 쉽게 알 수 있도록 한다.It is possible to provide the user with the results of the preference survey of the major issues acquired at that stage. Preference survey judges major issues as positive or negative so that the public's preference for products can be easily identified by major issues.

장치(600)는, 선호도에 기초하여 주요 이슈들에 대한 감성 요약을 생성한다.Device 600 generates sentiment summaries for major issues based on preferences.

실시예에 따른 감성 요약은 NLTK의 감성 분석을 사용하여 생성될 수 있다.The sentiment summary according to the embodiment may be generated using the sentiment analysis of NLTK.

감성 분석은 텍스트의 긍정 및 부정에 대한 점수가 결정되는 과정을 포함할 수 있으며, 예를 들어 긍정은 +, 부정은 -로 표시되어 1~5의 점수로 표현될 수 있다.The sentiment analysis may include a process of determining scores for positive and negative texts. For example, positive and negative scores may be expressed as + and negative, and may be expressed as a score of 1-5.

실시예에서, 감성 요약은 리뷰 문장으로부터 주요 이슈에 관련된 연관어의 확률 분포 값을 연산할 수 있다. 이후 연산된 결과 중, 상위 소정 수(예를 들어, 15개)의 문장을 추출할 수 있으며, 이는 주요 이슈와 관련하여 문장 각각이 매칭될 수 있다.In an embodiment, the sentiment summary may calculate a probability distribution value of a related word related to a major issue from a review sentence. Thereafter, among the calculated results, a high-order predetermined number (eg, 15) of sentences may be extracted, and each sentence may be matched with respect to a major issue.

실시예에서, 제품 평판 마이닝이 완료된 분석 결과는 시각적으로 출력될 수 있다. 실시예에서, 도 2 및 도 3과 같은 실시예로 분석 결과가 출력될 수 있다.In an embodiment, the result of analysis on which product reputation mining has been completed may be visually output. In an embodiment, an analysis result may be output in an embodiment as shown in FIGS. 2 and 3.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the devices and components described in the embodiments are, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA). , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, such as one or more general purpose computers or special purpose computers. The processing device may execute an operating system (OS) and one or more software applications executed on the operating system. Further, the processing device may access, store, manipulate, process, and generate data in response to the execution of software. For the convenience of understanding, although it is sometimes described that one processing device is used, one of ordinary skill in the art, the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to operate as desired or processed independently or collectively. You can command the device. Software and/or data may be interpreted by a processing device or, to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. , Or may be permanently or temporarily embodyed in a transmitted signal wave. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operation of the embodiment, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described by the limited embodiments and drawings, various modifications and variations are possible from the above description to those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as systems, structures, devices, circuits, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and those equivalent to the claims also fall within the scope of the claims to be described later.

Claims (13)

제품에 연관된 주요 이슈들을 추출하는 단계;
감성사전에 기초하여 상기 주요 이슈들에 대한 선호도를 측정하는 단계; 및
상기 선호도에 기초하여 상기 주요 이슈들에 대한 감성 요약을 생성하는 단계
를 포함하는,
제품 평판 마이닝 방법.
Extracting major issues related to the product;
Measuring a preference for the major issues based on an emotion dictionary; And
Generating a sentiment summary for the major issues based on the preference
Containing,
Product reputation mining method.
제1항에 있어서,
상기 제품에 연관된 주요 이슈들을 추출하는 단계는,
상기 제품에 연관된 단어들이 상기 주요 이슈들에 포함될 확률을 계산하는 단계
를 포함하는,
제품 평판 마이닝 방법.
The method of claim 1,
The step of extracting major issues related to the product,
Calculating a probability that words related to the product will be included in the major issues
Containing,
Product reputation mining method.
제1항에 있어서,
상기 제품에 연관된 주요 이슈들을 추출하는 단계는,
상기 이슈들 중 불용(useless) 이슈를 필터링하여 제거하는 단계
를 포함하는,
제품 평판 마이닝 방법.
The method of claim 1,
The step of extracting major issues related to the product,
Filtering and removing useless issues among the above issues
Containing,
Product reputation mining method.
제1항에 있어서,
상기 주요 이슈들에 대한 선호도를 측정하는 단계는,
하기 수학식에 기초하여 상기 주요 이슈들에 대한 선호도를 계산하는 단계
를 포함하는,
제품 평판 마이닝 방법.
수학식:
Figure pat00011

-score(s,t)는 문장 s에서 단어 t의 선호도이고, , α는 첫 번째 항과 두 번째 항의 가중 평균을 구하는 파라미터이고, tokens(s)는 문장 s를 구성하는 단어들의 집합이고, |tokens(s)|는 tokens(s)집합의 단어의 수를 의미하고, P(t)는 단어 w
Figure pat00012
가 토픽 T내의 단어 t와 같을 확률임-
The method of claim 1,
Measuring the preference for the major issues,
Calculating a preference for the major issues based on the following equation
Containing,
Product reputation mining method.
Equation:
Figure pat00011

-score(s,t) is the preference of the word t in the sentence s, α is a parameter that calculates the weighted average of the first and second terms, tokens(s) is the set of words constituting the sentence s, and | tokens(s)| means the number of words in the tokens(s) set, and P(t) is the word w
Figure pat00012
Is the probability that is equal to the word t in topic T-
제1항에 있어서,
상기 감성 요약을 생성하는 단계는,
상기 주요 이슈들을 포함하는 문장들을 상기 주요 이슈에 대한 선호도에 따라 내림차순으로 정렬하는 단계; 및
상기 정렬된 문장들 중에서 긍정 문장 및 부정 문장을 구분하는 단계
를 포함하는,
제품 평판 마이닝 방법.
The method of claim 1,
The step of generating the sentiment summary,
Sorting sentences including the major issues in descending order according to preferences for the major issues; And
Separating a positive sentence and a negative sentence among the sorted sentences
Containing,
Product reputation mining method.
제1항에 있어서,
상기 선호도 및 상기 감성 요약을 시각적으로 표현한 UI(User Interface)를 제공하는 단계
를 더 포함하는,
제품 평판 마이닝 방법.
The method of claim 1,
Providing a UI (User Interface) visually expressing the preference and the emotion summary
Further comprising,
Product reputation mining method.
하드웨어와 결합되어 제1항 내지 제6항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
A computer program stored in a medium for executing the method of any one of claims 1 to 6 in combination with hardware.
제품 평판 마이닝을 위한 장치에 있어서,
하나 이상의 프로세서;
메모리; 및
상기 메모리에 저장되어 있으며 상기 하나 이상의 프로세서에 의하여 실행되도록 구성되는 하나 이상의 프로그램을 포함하고,
상기 프로그램은,
제품에 연관된 주요 이슈들을 추출하는 단계;
감성사전에 기초하여 상기 주요 이슈들에 대한 선호도를 측정하는 단계; 및
상기 선호도에 기초하여 상기 주요 이슈들에 대한 감성 요약을 생성하는 단계
를 포함하는,
장치.
In the apparatus for product reputation mining,
One or more processors;
Memory; And
At least one program stored in the memory and configured to be executed by the at least one processor,
The above program,
Extracting major issues related to the product;
Measuring a preference for the major issues based on an emotion dictionary; And
Generating a sentiment summary for the major issues based on the preference
Containing,
Device.
제8항에 있어서,
상기 제품에 연관된 주요 이슈들을 추출하는 단계는,
상기 제품에 연관된 단어들이 상기 주요 이슈들에 포함될 확률을 계산하는 단계
를 포함하는,
장치.
The method of claim 8,
The step of extracting major issues related to the product,
Calculating a probability that words related to the product will be included in the major issues
Containing,
Device.
제8항에 있어서,
상기 제품에 연관된 주요 이슈들을 추출하는 단계는,
상기 이슈들 중 불용(useless) 이슈를 필터링하여 제거하는 단계
를 포함하는,
장치.
The method of claim 8,
The step of extracting major issues related to the product,
Filtering and removing useless issues among the above issues
Containing,
Device.
제8항에 있어서,
상기 주요 이슈들에 대한 선호도를 측정하는 단계는,
하기 수학식에 기초하여 상기 주요 이슈들에 대한 선호도를 계산하는 단계
를 포함하는,
장치.
수학식:
Figure pat00013

-score(s,t)는 문장 s에서 단어 t의 선호도이고, , α는 첫 번째 항과 두 번째 항의 가중 평균을 구하는 파라미터이고, tokens(s)는 문장 s를 구성하는 단어들의 집합이고, |tokens(s)|는 tokens(s)집합의 단어의 수를 의미하고, P(t)는 단어 w
Figure pat00014
가 토픽 T내의 단어 t와 같을 확률임-
The method of claim 8,
Measuring the preference for the major issues,
Calculating a preference for the major issues based on the following equation
Containing,
Device.
Equation:
Figure pat00013

-score(s,t) is the preference of the word t in the sentence s, α is a parameter that calculates the weighted average of the first and second terms, tokens(s) is the set of words constituting the sentence s, and | tokens(s)| means the number of words in the tokens(s) set, and P(t) is the word w
Figure pat00014
Is the probability that is equal to the word t in topic T-
제8항에 있어서,
상기 감성 요약을 추출하는 단계는,
상기 주요 이슈들을 포함하는 문장들을 상기 주요 이슈에 대한 선호도에 따라 내림차순으로 정렬하는 단계; 및
상기 정렬된 문장들 중에서 긍정 문장 및 부정 문장을 구분하는 단계
를 포함하는,
장치.
The method of claim 8,
The step of extracting the sentiment summary,
Sorting sentences including the major issues in descending order according to preferences for the major issues; And
Separating a positive sentence and a negative sentence among the sorted sentences
Containing,
Device.
제8항에 있어서,
상기 프로그램은,
상기 선호도 및 상기 감성 요약을 시각적으로 표현한 UI(User Interface)를 제공하는 단계
를 더 포함하는,
장치.
The method of claim 8,
The above program,
Providing a UI (User Interface) visually expressing the preference and the emotion summary
Further comprising,
Device.
KR1020190110247A 2019-09-05 2019-09-05 Product Evolution Mining Method And Apparatus Thereof KR102299525B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190110247A KR102299525B1 (en) 2019-09-05 2019-09-05 Product Evolution Mining Method And Apparatus Thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190110247A KR102299525B1 (en) 2019-09-05 2019-09-05 Product Evolution Mining Method And Apparatus Thereof

Publications (2)

Publication Number Publication Date
KR20210029006A true KR20210029006A (en) 2021-03-15
KR102299525B1 KR102299525B1 (en) 2021-09-08

Family

ID=75134731

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190110247A KR102299525B1 (en) 2019-09-05 2019-09-05 Product Evolution Mining Method And Apparatus Thereof

Country Status (1)

Country Link
KR (1) KR102299525B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102597357B1 (en) * 2023-05-16 2023-11-02 주식회사 씨지인사이드 Method and System for Sentiment Analysis of News Articles based on AI
WO2023249345A1 (en) * 2022-06-20 2023-12-28 주식회사 이지태스크 Method and system for analyzing work experience data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180117944A (en) * 2017-04-20 2018-10-30 군산대학교산학협력단 Method of mining object reputation and apparatus performing the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180117944A (en) * 2017-04-20 2018-10-30 군산대학교산학협력단 Method of mining object reputation and apparatus performing the same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023249345A1 (en) * 2022-06-20 2023-12-28 주식회사 이지태스크 Method and system for analyzing work experience data
KR102597357B1 (en) * 2023-05-16 2023-11-02 주식회사 씨지인사이드 Method and System for Sentiment Analysis of News Articles based on AI

Also Published As

Publication number Publication date
KR102299525B1 (en) 2021-09-08

Similar Documents

Publication Publication Date Title
US8990149B2 (en) Generating a predictive model from multiple data sources
US10169810B2 (en) Product information inconsistency detection
CN111061979B (en) User tag pushing method and device, electronic equipment and medium
CN107908616B (en) Method and device for predicting trend words
CN110659985A (en) Method and device for fishing back false rejection potential user and electronic equipment
CN110334356A (en) Article matter method for determination of amount, article screening technique and corresponding device
US9558462B2 (en) Identifying and amalgamating conditional actions in business processes
CN111242318A (en) Business model training method and device based on heterogeneous feature library
KR102299525B1 (en) Product Evolution Mining Method And Apparatus Thereof
US11042540B2 (en) Determining whether to take an action by applying a metric calculated using natural language processing tokens
US9201967B1 (en) Rule based product classification
CN110751403A (en) Credit scoring method and device
US20140039876A1 (en) Extracting related concepts from a content stream using temporal distribution
KR102206001B1 (en) Apparatus and method for recommending e-books based on user behavior
CN112214663A (en) Method, system, device, storage medium and mobile terminal for obtaining public opinion volume
CN109409091B (en) Method, device and equipment for detecting Web page and computer storage medium
JP2021197089A (en) Output device, output method, and output program
JP6509590B2 (en) User's emotion analysis device and program for goods
CN111091416A (en) Method and device for predicting probability of hotel purchase robot
CN113962216A (en) Text processing method and device, electronic equipment and readable storage medium
Samah et al. Aspect-Based Classification and Visualization of Twitter Sentiment Analysis Towards Online Food Delivery Services in Malaysia
CN113723860A (en) Land resource asset leave audit evaluation method, device and storage medium
CN112085553A (en) Specific commodity detection method and device
Han et al. An automated cloud-based big data analytics platform for customer insights
CN113793193B (en) Data search accuracy verification method, device, equipment and computer readable medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant