KR20220071059A - 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스 - Google Patents

감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스 Download PDF

Info

Publication number
KR20220071059A
KR20220071059A KR1020200158266A KR20200158266A KR20220071059A KR 20220071059 A KR20220071059 A KR 20220071059A KR 1020200158266 A KR1020200158266 A KR 1020200158266A KR 20200158266 A KR20200158266 A KR 20200158266A KR 20220071059 A KR20220071059 A KR 20220071059A
Authority
KR
South Korea
Prior art keywords
analysis model
emotion
data
generating
evaluation
Prior art date
Application number
KR1020200158266A
Other languages
English (en)
Inventor
문은식
이병수
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020200158266A priority Critical patent/KR20220071059A/ko
Publication of KR20220071059A publication Critical patent/KR20220071059A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은, 프로세서에 의해 구현되는 감정 평가 방법으로서, 대상체의 음성 데이터를 수신하는 단계, 음성 데이터를 기초로 텍스트 데이터를 생성하는 단계, 음성 데이터 및 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 감정 분석 모델을 이용하여, 대상체의 감정을 평가하는 단계, 및 평가된 대상체의 감정을 제공하는 단계를 포함하는, 감정 평가 방법 방법 및 이를 이용한 장치를 제공한다.

Description

감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스{METHOD FOR EVALUATION OF EMOTION BASED ON EMOTION ANALYSIS MODEL AND DEVICE USING THE SAME}
본 발명은 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스에 관한 것이다.
감정이란, 인간이 가질 수 있는 정신적 상태를 의미한다.
감정 평가는 해당 대상자 개인에 대한 이해는 물론 다양한 심리 장애나 정신 질환 치료 및 사업상의 목적에도 유용할 수 있다. 감정 상태들은 행복과 슬픔, 만족과 걱정, 흥분과 진정 간의 광범위한 심리 상태뿐만 아니라 무수한 다른 심리 상태들을 포함할 수 있다. 특히, 혼란, 집중, 걱정과 같은 많은 심리 상태들이 개인 또는 사람들의 집단에 대한 이해를 돕기 위해 평가되고 분석 대상이 될 수 있다.
사람의 심리나 감정을 식별하기 위하여, 소정의 얼굴 표정들 및 머리 동작들을 이용하여 대상자가 경험 중인 감정 상태를 식별하는 기술 등이 소개되어 왔다. 관련하여, 소정의 생리학적 특징들이 사람의 심리 상태에 대한 효과적인 지표로 제공되었다. 그러나, 인간의 심리 및 감정에 영향을 미치는 것은 다양하고, 외부로 표출되는 방식이 개인마다 상이할 수 있기 때문에 경험, 또는 단일의 생리학적 특징들에 기초한 감정 평가 시스템은 신뢰도가 낮은 평가 결과를 제공할 수 있다.
이에, 대상체의 감정 상태를 인지하고 분석하여, 감정 평가의 정확도를 향상시킬 수 있는 새로운 시스템에 대한 개발이 지속적으로 요구되고 있는 실정이다.
발명의 배경이 되는 기술은 본 발명에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 발명의 배경이 되는 기술에 기재된 사항들이 선행기술로 존재한다고 인정하는 것으로 이해되어서는 안 된다.
종래의 감정 평가 시스템이 갖는 한계를 극복하기 위한 방안으로, 인공 지능 기반 예측 모델에 기초한 새로운 감정 평가 시스템이 제안되었다.
보다 구체적으로, 상기 감정 평가 시스템은, 사람의 감정과 연관된 단일 요소들에 기초하여, 사람의 감정을 분석하도록 구성된 단일 모델이 등장하였다.
그러나, 단일 요소에 기초한 감정 분석 모델은 복잡한 사람의 감정을 정확하게 분석하고 평가하는 것에 여전히 한계가 있었다.
본 발명의 발명자들은, 메시지, 음성, 표정, 제스처와 같은, 사람의 감정과 관련된 모달리티 (modality) 에 주목하였다.
특히, 본 발명의 발명자들은 비대면 소통에 있어서 사람의 감정과 밀접한 연관이 있는, 텍스트 및 음성 모달리티에 주목하였다.
본 발명의 발명자들은 텍스트 및 음성의 단일 모달리티 데이터와 함께, 멀티 모달리티 데이터에 기초하여 사람의 감정을 평가하도록 학습된 감정 분석 모델을 구축할 경우, 보다 정확하고 정밀하게 대상체의 감정을 분석하고 평가할 수 있음을 인지할 수 있었다.
한편, 본 발명의 발명자들은, 감정 분석 모델의 구축에 있어서, 교사 학습 (supervised learning) 을 하는 딥러닝 알고리즘의 경우 데이터와 데이터에 대한 평가 라벨 (class label) 이 필요함에 따라 나타나는 문제점에 대하여 주목하였다. 보다 구체적으로 본 발명의 발명자들은, 단일 모달리티 데이터의 수에 비해 데이터의 양이 상대적으로 적은 멀티 모달리티 데이터를 이용할 경우 모델의 학습의 질이 떨어질 수 있음에 주목하였다.
본 발명의 발명자들은, 이러한 문제점을 해결하기 위해, 텍스트 및 음성 각각의 단일 모달리티 데이터에 기초한 모델을 각각 구축하고, 이후 학습된 모델 각각에 대한 가중치를 입력 받을 수 있는 새로운 네트워크를 구성하였다. 그 다음, 본 발명의 발명자들은, 멀티 모달리티 데이터를 기초로 네트워크를 미세조정 (fine-tuning) 하였다.
결과적으로, 본 발명의 발명자들은 텍스트 모델, 음성 모델 그리고 두 모델을 연결한 (concatenate), 전이 학습된 (transfer learning) 앙상블 (ensemble) 구조의 감정 분석 모델을 구축하였고, 감정 분석 모델에 기초한 새로운 감정 평가 시스템을 개발할 수 있었다.
본 발명의 발명자들은, 새로운 감정 평가 시스템을 제공함으로써, 보다 정밀하게 대상체의 감정을 분류할 수 있음을 기대할 수 있었다.
이에, 본 발명이 해결하고자 하는 과제는 대상체 음성 데이터를 수신하고, 음성 데이터로부터 텍스트 데이터를 생성하고, 미리 구축된 감정 분석 모델을 이용하여 음성 데이터 및 텍스트 데이터를 기초로 대상체의 감정을 평가하도록 구성된 감정 평가 방법 및 감정 평가용 디바이스를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 감정 평가 방법을 제공한다. 상기 방법은 프로세서에 의해 구현되는 감정 평가 방법으로서, 대상체의 음성 데이터를 수신하는 단계, 음성 데이터를 기초로 텍스트 데이터를 생성하는 단계, 음성 데이터 및 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 감정 분석 모델을 이용하여, 대상체의 감정을 평가하는 단계, 및 평가된 대상체의 감정을 제공하는 단계를 포함한다.
본 발명의 특징에 따르면, 상기 방법은, 수신하는 단계 이전에, 감정 분석 모델을 생성하는 단계를 더 포함할 수 있다.
본 발명의 다른 특징에 따르면, 감정 분석 모델을 생성하는 단계는, 학습용 음성 데이터에 기초하여 감정을 평가하도록 구성된 제1 분석 모델을 생성하는 단계, 학습용 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 제2 분석 모델을 생성하는 단계, 제1 분석 모델 및 제2 분석 모델 각각의 가중치를 결정하는 단계, 및 긱각의 가중치에 기초하여 미세 조정된 감정 분석 모델을 생성하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 제1 분석 모델 및 제2 분석 모델 각각은, 각각의 가중치가 결정된 가충치 레이어를 포함하고, 각각의 가중치에 기초하여 감정 분석 모델을 생성하는 단계는, 제1 분석 모델 및 제2 분석 모델 각각의 가중치 레이어를 하나로 연결하는 연결 (concatenate) 네트워크를 생성하는 단계, 연결 네트워크에 기초하여 미세 조정된 감정 분석 모델을 생성하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 미세 조정된 감정 분석 모델을 생성하는 단계는, 학습용 음성-텍스트 통합 데이터를 수신하는 단계, 및 미세 조정된 감정 분석 모델을 생성하도록, 통합 데이터를 기초로 연결 네트워크를 미세 조정하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 연결 네트워크를 생성하는 단계는, 제1 분석 모델 및 제2 분석 모델 각각의 가중치 레이어 (layer) 를 연결하는 연결 레이어를 생성하는 단계, 및 연결 레이어에 완전 연결 네트워크 (fully connected network) 를 추가하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 제1 분석 모델의 가중치 레이어는, LSTM 레이어고, 제2 분석 모델의 가중치 레이어는, BERT 레이어일 수 있다.
본 발명의 또 다른 특징에 따르면, 텍스트 데이터를 생성하는 단계는, 음성 인식 모델을 이용하여, 음성 데이터를 텍스트 데이터로 변환하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 음성 데이터는 주파수를 포함하고, 감정 분석 모델은, 텍스트 데이터 및 주파수에 기초하여 대상체의 감정을 평가하도록 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 상기 방법은, 텍스트 데이터에 대하여 특수 문자, 한글 자모, 영어, 숫자, 및 한글자의 문장, 및 미리 결정된 수준 이상의 문장 중 적어도 하나를 제거하는 전-처리 단계를 더 포함할 수 있다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따른 감정 평가용 디바이스를 제공한다. 상기 디바이스는, 대상체의 음성 데이터를 수신하도록 구성된 통신부, 및 통신부와 통신하도록 구성된 프로세서를 포함한다. 이때, 프로세서는, 음성 데이터를 기초로 텍스트 데이터를 생성하고, 음성 데이터 및 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 감정 분석 모델을 이용하여, 대상체의 감정을 평가하고, 평가된 대상체의 감정을 제공하도록 구성된다.
본 발명의 특징에 따르면, 프로세서는, 감정 분석 모델을 생성하도록 더 구성될 수 있다.
본 발명의 다른 특징에 따르면, 프로세서는, 학습용 음성 데이터에 기초하여 감정을 평가하도록 구성된 제1 분석 모델을 생성하고, 학습용 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 제2 분석 모델을 생성하고, 제1 분석 모델 및 제2 분석 모델 각각의 가중치를 결정하고, 각각의 가중치에 기초하여 미세 조정된 감정 분석 모델을 생성하도록 더 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 제1 분석 모델 및 제2 분석 모델 각각은, 각각의 가중치가 결정된 가중치 레이어를 포함할 수 있다. 이때, 프로세서는 제1 분석 모델 및 제2 분석 모델 각각의 가중치 레이어를 하나로 연결하는 연결 (concatenate) 네트워크를 생성하고, 연결 네트워크에 기초하여 미세 조정된 감정 분석 모델을 생성하도록 더 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 수신부는, 학습용 음성-텍스트 통합 데이터를 수신하도록 더 구성될 수 있다. 이때, 프로세서는, 미세 조정된 감정 분석 모델을 생성하도록, 통합 데이터를 기초로 연결 네트워크를 미세 조정하도록 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 프로세서는, 제1 분석 모델 및 제2 분석 모델 각각의 가중치 레이어를 연결하는 연결 레이어를 생성하고, 연결 레이어에 완전 연결 네트워크 (fully connected network) 를 추가하도록 더 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 제1 분석 모델의 가중치 레이어는, LSTM 레이어고, 제2 분석 모델의 가중치 레이어는, BERT 레이어일 수 있다.
본 발명의 또 다른 특징에 따르면, 프로세서는, 음성 인식 모델을 이용하여, 음성 데이터를 텍스트 데이터로 변환하도록 더 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 음성 데이터는 주파수를 포함하고, 감정 분석 모델은, 텍스트 데이터 및 주파수에 기초하여 대상체의 감정을 평가하도록 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 프로세서는, 텍스트 데이터에 대하여 특수 문자, 한글 자모, 영어, 숫자, 및 한글자의 문장, 및 미리 결정된 수준 이상의 문장 중 적어도 하나를 제거하는 전-처리를 더욱 수행할 수 있다.
본 발명은, 멀티 모달리티 기반의 감정 분석 모델에 기초한 감정 평가 시스템을 제공함에 따라, 보다 정확하고 정밀하게 대상체의 감정을 분석하고 평가할 수 있다.
특히, 본 발명은 단일의 모달리티 데이터뿐만 아니라 멀티 모달리티 데이터를 모델의 학습에 적용함에 따라, 단일의 모달리티 또는 멀티 모달리티 데이터만으로 구축된 모델보다 감정 분석 성능이 우수한 감정 분석 모델을 제공할 수 있다.
보다 구체적으로, 본 발명은 텍스트 데이터 및 음성 데이터에 기초하여 학습된 단일의 모델의 가중치에 기초하여 전이 학습된 앙상블 구조의 감정 분석 모델을 제공함에 따라, 대상체에 대한 정밀도 높은 감정 분석 결과를 제공할 수 있다.
본 발명은, 고객 응대가 필요한 CS (Customer Satisfaction) 분야에 적용될 수 있다.
예를 들어, 본 발명의 다양한 실시예에 따른 감정 평가 시스템은 콜 센터와 같이 고객과 직접 대면하지 않고 전화를 통해 '감정 노동'을 수행하는 곳에 적용되어, 고객의 감정을 빠르고 정확하게 평가할 수 있어 부정 표현을 하는 고객의 탐지가 가능하고, 노동자는 보다 쉽게 고객에 대하여 대응할 수 있다.
또한, 본 발명은 마케팅, 여론 분석과 같은 보다 다양한 분야에 적용 가능한 감정 평가 시스템을 제공할 수 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 발명 내에 포함되어 있다.
도 1a는 본 발명의 일 실시예에 따른 감정 평가용 디바이스에 기초한 감정 평가 시스템을 예시적으로 도시한 것이다.
도 1b는 본 발명의 일 실시예에 따른 감정 평가용 디바이스의 구성을 예시적으로 도시한 것이다.
도 1c는 본 발명의 일 실시예에 따른 감정 평가용 디바이스로부터 대상체의 감정에 대한 정보를 수신 받아 출력하는 사용자 디바이스의 구성을 예시적으로 도시한 것이다.
도 2a 및 2b는 본 발명의 일 실시예에 따른 감정 평가 방법의 절차를 예시적으로 도시한 것이다.
도 3a 내지 3c는 본 발명의 다양한 실시예에 적용되는 미세 조정된 감정 분석 모델을 생성하는 절차를 예시적으로 도시한 것이다.
도 4a 내지 4c는 본 발명의 다양한 실시예에 이용되는 감정 분석 모델의 학습 및 평가 데이터를 도시한 것이다.
도 5a 및 5b는 본 발명의 다양한 실시예에 이용되는 감정 분석 모델의 평가 결과를 도시한 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
본 명세서의 해석의 명확함을 위해, 이하에서는 본 명세서에서 사용되는 용어들을 정의하기로 한다.
본원 명세서 내에서 이용되는 용어 “음성 데이터”는, 대상체 또는 사용자의 목소리를 포함하는 데이터로서, 음성 주파수를 포함할 수 있다. 이때, 음성 주파수는 사람의 감정과 연관이 있을 수 있다.
본원 명세서 내에서 이용되는 용어 “텍스트 데이터”는, 텍스트 형식의 데이터로서, 바람직하게는, 음성 데이터의 음성 인식 결과의 데이터일 수 있다.
이때, 텍스트 데이터는, 음성 데이터와의 유사도를 높이기 위해, 특수 문자, 한글 자모, 영어, 숫자, 및 한글자의 문장, 및 미리 결정된 수준 이상의 문장 (예를 들어, 200 자 이상의 문장) 를 포함하지 않을 수 있다. 만약, 상기 형태의 텍스트가 포함될 경우, 이를 제거하는 전처리가 수행될 수 있다.
본원 명세서 내에서 이용되는 용어 “감정 분석 모델”은, 음성 데이터 및 텍스트 데이터를 입력으로 하여 대상체의 감정을 분류하도록 구성된 모델일 수 있다.
이때, 감정 분석 모델은, 음성 데이터와 음성 데이터에 기초하여 생성된 텍스트 데이터를 입력으로 하여, 텍스트와 함께 음성 주파수를 분석하여 감정의 긍정 또는 부정을 예측하도록 학습된 모델일 수 있다.
이때, 감정 분석 모델은 멀티 모달리티 데이터인, 음성-텍스트 통합 데이터를 입력으로 하여 감정을 분류하도록 더 구성될 수 있으나 이에 제한되지 않고, 음성 데이터 또는 텍스트 데이터의 단일 데이터를 입력으로 하여 감정을 분류하도록 구성될 수도 있다.
본 발명의 특징에 따르면, 감정 분석 모델은, 제1 분석 모델 및 제2 분석 모델에 기초하여 전이 학습된 앙상블 구조의 모델일 수 있다.
이때, 본원 명세서 내에서 이용되는 용어 “제1 분석 모델”은, 단일 모달리티인 음성 데이터에 기초하여 감정을 분류하도록 학습된 단일 모델일 수 있다.
본원 명세서 내에서 이용되는 용어 “제2 분석 모델”은, 단일 모달리티인 텍스트 데이터에 기초하여 감정을 분류하도록 학습된 단일 모델일 수 있다.
본원 명세서 내에서 이용되는 용어 “미세 조정된 감정 분석 모델”은, 제1 분석 모델 및 제2 분석 모델에서 학습된 가중치에 기초하여 새로운 가중치가 적용되도록 미세 조정된 감정 분석 모델일 수 있다.
이때, 미세 조정된 감정 분석 모델은, 단일 데이터로 학습된 감정 분석 모델보다 감정 분류 성능이 우수할 수 있다. 특히, 학습 데이터가 많아지면 많아질수록 미세 조정된 감정 분석 모델의 성능은 단일 데이터에 기초한 모델보다 우수할 수 있다.
이때, 제1 분석 모델, 제2 분석 모델, 및 감정 분석 모델은 DNN (Deep Neural Network), DCNN (Deep Convolution Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), SSD (Single Shot Detector), 및 SVM (Support Vector Machine) 중 적어도 하나의 알고리즘에 기초할 수 있으나, 이에 제한되는 것은 아니다.
이하에서는 도 1a 내지 1c를 참조하여, 본 발명의 일 실시예에 따른 감정 평가용 디바이스에 기초한 감정 평가 시스템을 설명한다.
도 1a는 본 발명의 일 실시예에 따른 감정 평가용 디바이스에 기초한 감정 평가 시스템을 예시적으로 도시한 것이다. 도 1b는 본 발명의 일 실시예에 따른 감정 평가용 디바이스의 구성을 예시적으로 도시한 것이다. 도 1c는 본 발명의 일 실시예에 따른 감정 평가용 디바이스로부터 대상체의 감정에 대한 정보를 수신 받아 출력하는 사용자 디바이스의 구성을 예시적으로 도시한 것이다.
먼저, 도 1a을 참조하면, 감정 평가 시스템 (1000) 은, 대상체에 대한 모달리티 데이터에 기초하여 감정을 분류하도록 구성될 수 있다. 이때, 감정 평가 시스템 (1000) 은, 대상체에 대한 감정을 분류하도록 구성된 감정 평가용 디바이스 (100), 감정 평가 결과에 대한 정보를 수신하는 사용자 디바이스 (200), 및 감정과 연관된 모달리티 데이터인, 대상체의 음성 데이터 (500) 로 이루어질 수 있다.
먼저, 감정 평가용 디바이스 (100) 는 제공된 음성 데이터를 기초로 감정을 평가하기 위해 다양한 연산을 수행하는 범용 컴퓨터, 랩탑, 및/또는 데이터 서버 등을 포함할 수 있다. 이때, 사용자 디바이스 (200) 는 대상체의 감정과 연관된 웹 페이지를 제공하는 웹 서버 (web server) 또는 모바일 웹 사이트를 제공하는 모바일 웹 서버 (mobile web server) 에 액세스하기 위한 디바이스일 수 있으나, 이에 한정되지 않는다.
보다 구체적으로, 감정 평가용 디바이스 (100) 는 음성 데이터 (500) 를 수신하고, 수신된 음성 데이터에 기초하여 텍스트 데이터를 생성하고, 이를 기초로 대상체의 감정과 연관된 정보, 예를 들어 기쁨, 만족, 놀라움, 혐오, 슬픔, 짜증, 분노, 공포, 증오, 불쾌 등의 감정 상태를 제공할 수 있다.
감정 평가용 디바이스 (100) 는 대상체에 대한 감정과 연관된 데이터를 사용자 디바이스 (200) 로 제공할 수 있다.
이와 같이 감정 평가용 디바이스 (100) 로부터 제공되는 데이터는, 사용자 디바이스 (200) 에 설치된 웹 브라우저를 통해 웹 페이지로 제공되거나, 어플리케이션, 또는 프로그램 형태로 제공될 수 있다. 다양한 실시예에서 이러한 데이터는 클라이언트-서버 환경에서 플랫폼에 포함되는 형태로 제공될 수 있다.
다음으로, 사용자 디바이스 (200) 는 대상체에 대한 감정과 연관된 정보 제공을 요청하고 평가 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하는 전자 디바이스로서, 스마트폰, 태블릿 PC (Personal Computer), 노트북 및/또는 PC 등 중 적어도 하나를 포함할 수 있다.
사용자 디바이스 (200) 는 감정 평가용 디바이스 (100) 로부터 대상체에 대한 감정에 관한 평가 결과를 수신하고, 수신된 결과를 표시부를 통해 표시할 수 있다. 여기서, 평가 결과는, 긍정 또는 부정, 나아가 기쁨, 만족, 놀라움, 혐오, 슬픔, 짜증, 분노, 공포, 증오 또는 불쾌 등의 감정 상태 등을 포함할 수 있다.
다음으로, 도 1b를 참조하여, 본 발명의 감정 평가용 디바이스 (100) 의 구성 요소에 대하여 구체적으로 설명한다.
도 1b를 참조하면, 감정 평가용 디바이스 (100) 는 저장부 (110), 통신부 (120) 및 프로세서 (130) 를 포함한다.
먼저, 저장부 (110) 는 대상체에 대한 감정을 평가하는 중에 생성된 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부 (110) 는 플래시 메모리 타입, 하드디스크 타입, 멀티미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
통신부 (120) 는 감정 평가용 디바이스 (100) 가 외부 디바이스와 통신이 가능하도록 연결한다. 통신부 (120) 는 유/무선 통신을 이용하여 사용자 디바이스 (200) 와 연결되어 다양한 데이터를 송수신할 수 있다. 구체적으로, 통신부 (120) 는 또한 외부의 데이터 제공 서버 (미도시) 또는 음성 인식기 (미도시) 로부터 대상체의 음성 데이터 (500) 를 수신할 수도 있다. 나아가, 통신부 (120) 는 사용자 디바이스 (200) 로 평가 결과를 전달하는 송신부의 역할을 수행할 수도 있다.
프로세서 (130) 는 저장부 (110) 및 통신부 (120) 와 동작 가능하게 연결되며, 대상체에 대한 음성 데이터를 분석하기 위한 다양한 명령들을 수행할 수 있다.
구체적으로, 프로세서 (130) 는 통신부 (120) 를 통해 수신된 음성 데이터에 기초하여 감정을 평가하고, 분류하도록 구성될 수 있다.
이때, 프로세서 (130) 는 음성 데이터 및/또는 텍스트 데이터에 기초하여 감정을 결정하도록 구성된 구성된 감정 분석 모델에 기초할 수 있다. 감정 분석 모델은 구체적인 실시예를 통해 후술된다.
이때, 감정 평가용 디바이스 (100) 는 하드웨어 적으로 설계된 것이 제한되는 것은 아니다. 예를 들어, 감정 평가용 디바이스 (100) 의 프로세서 (130) 는 소프트웨어로 구현될 수 있다.
한편, 도 1c를 함께 참조하면, 사용자 디바이스 (200) 는 통신부 (210), 표시부 (220), 저장부 (230) 및 프로세서 (240) 를 포함한다.
통신부 (210) 는 사용자 디바이스 (200) 가 외부 디바이스와 통신이 가능하도록 구성될 수 있다. 통신부 (210) 는 유/무선 통신을 이용하여 감정 평가용 디바이스 (100) 와 연결되어 대상체의 감정의 평가와 연관된 다양한 데이터를 송신할 수 있다. 구체적으로, 통신부 (210) 는 감정 평가용 디바이스 (100) 로부터 대상체의 감정의 평가와 연관된 평가 결과, 예를 들어 감정의 긍정 여부 (긍정 또는 부정), 나아가 기쁨, 만족, 놀라움, 혐오, 슬픔, 짜증, 분노, 공포, 증오 또는 불쾌 등의 감정 상태를 송신할 수 있다.
표시부 (220) 는 대상체의 대상체의 감정의 평가와 연관된 결과를 나타내기 위한 다양한 인터페이스 화면을 표시할 수 있다. 예를 들어, 표시부 (220) 는 대상체의 감정의 긍정 여부를 확률적으로 표시하여 제공할 수 있고, 기쁨, 만족, 놀라움, 혐오, 슬픔, 짜증, 분노, 공포, 증오 또는 불쾌 등의 감정 상태를 시각적으로, 또는 청각 적으로 제공할 수도 있다.
다양한 실시예에서 표시부 (220) 는 터치스크린을 포함할 수 있다. 예를 들면, 표시부 (220) 는 전자 펜 또는 사용자의 신체의 일부를 이용한 터치 (touch), 제스처 (gesture), 근접, 드래그 (drag), 스와이프 (swipe) 또는 호버링 (hovering) 입력 등을 수신할 수 있다. 나아가, 표시부 (220) 는 대상체의 분류 감정에 따라 다양한 소리를 출력하는 스피커일 수도 있다.
저장부 (230) 는 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하기 위해 사용되는 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부 (230) 는 플래시 메모리 타입 (flash memory type), 하드디스크 타입 (hard disk type), 멀티미디어 카드 마이크로 타입 (multimedia card micro type), 카드 타입의 메모리 (예를 들어 SD 또는 XD 메모리 등), 램 (Random Access Memory, RAM), SRAM (Static Random Access Memory), 롬 (Read-Only Memory, ROM), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
프로세서 (240) 는 통신부 (210), 표시부 (220) 및 저장부 (230) 와 동작 가능하게 연결되며, 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하기 위한 다양한 명령들을 수행할 수 있다.
이하에서는 도 2a 및 2b를 참조하여 본 발명의 다양한 실시예에 따른 감정 평가 방법의 절차를 설명한다.
도 2a 및 2b는 본 발명의 일 실시예에 따른 감정 평가 방법의 절차를 예시적으로 도시한 것이다.
먼저, 도 2를 참조하면, 먼저 본 발명의 일 실시예에 따른 감정 평가 방법에 따라, 대상체의 음성 데이터가 수신된다 (S210). 그 다음, 음성 데이터에 기초하여 텍스트 데이터가 생성된다 (S220). 그 다음, 감정 분석 모델에 의해, 음성 데이터 및 텍스트 데이터에 기초하여 대상체의 감정이 평가된다 (S230). 마지막으로, 감정 평가 결과가 제공된다 (S240).
보다 구체적으로, 음성 데이터가 수신되는 단계 (S210) 에서, 대상체의 발화 데이터와 같은 음성 데이터가 수신될 수 있다.
다음으로, 텍스트 데이터가 생성되는 단계 (S220) 에서, 음성 데이터에 기초하여 텍스트 데이터가 생성된다.
본 발명의 특징에 따르면, 텍스트 데이터가 생성되는 단계 (S220) 에서, 텍스트 데이터는, 음성 인식 모델에 의해 수신된 음성 데이트가 텍스트화됨으로써 획득될 수 있다.
이때, 텍스트 데이터에 대하여, 수신된 음성 데이터와의 유사도를 높이기 위해, 특수 문자, 한글 자모, 영어, 숫자, 및 한글자의 문장, 및 미리 결정된 수준 이상의 문장 (예를 들어, 200 자 이상의 문장) 이 제거되는 전처리가 수행될 수도 있다.
다음으로, 대상체의 감정이 평가되는 단계 (S230) 에서, 감정 분석 모델에 의해 대상체의 감정이 평가된다.
보다 구체적으로, 도 2b를 함께 참조하면, 대상체의 감정이 평가되는 단계 (S230) 에서, 대상체의 음성 데이터 (310) 와 함께, 사용자의 음성 데이터 (310) 에 의해 생성된 텍스트 데이터 (320) 가 감정 분석 모델 (330) 에 입력된다.
본 발명의 특징에 따르면, 감정 분석 모델 (330) 에 음성-텍스트 통합 데이터의 멀티 모달리티 데이터가 입력될 수도 있으나, 이에 제한되는 것은 아니다.
감정 분석 모델 (330) 은 입력된 모달리티 데이터들 (310, 320), 특히 음성 데이터 (310) 의 음성 주파수에 기초하여 대상체의 감정을 긍정 또는 부정으로 출력할 수 있다.
그러나 출력값의 형태는 이에 제한되는 것이 아니며, 감정 분석 모델 (330) 은 대상체 감정의 부정 확률 또는 긍정 확률, 나아가 기쁨, 만족, 놀라움, 혐오, 슬픔, 짜증, 분노, 공포, 증오 또는 불쾌 등의 감정 상태를 출력하도록 구성될 수 있다.
도 2a 및 2b를 함께 참조하면, 최종적으로 감정 평가 결과가 제공되는 단계 (S240) 에서, 긍정 또는 부정과 같은 대상체의 감정 평가 결과 (340) 가 사용자 디바이스에 제공될 수 있다.
이에, 본 발명은 고객 응대가 필요한 CS (Customer Satisfaction) 분야에 적용될 수 있다.
예를 들어, 본 발명의 다양한 실시예에 따른 감정 평가 방법에 의해, 고객과 직접 대면하지 않고 유/무선 통신을 통해 소통하는 사용자는, 대상체인 고객의 감정을 빠르고 정확하게 인지할 수 있어, 보다 쉽게 고객응대를 수행할 수 있다.
한편, 본 발명의 다양한 실시예에 적용되는 감정 분석 모델은, 미세 조정된 모델일 수 있다.
이하에서는 도 3a 내지 3c를 참조하여, 본 발명의 다양한 실시예에 이용되는 감정 분석 모델의 구조적 특징에 대하여 설명한다.
도 3a 내지 3c는 본 발명의 다양한 실시예에 적용되는 미세 조정된 감정 분석 모델을 생성하는 절차를 예시적으로 도시한 것이다.
도 3a를 참조하면, 감정 분석 모델을 생성하기 위해, 먼저, 학습용 음성 데이터에 기초하여 감정을 평가하도록 학습된 제1 분석 모델이 생성된다 (S310). 그 다음, 학습용 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 제2 분석 모델이 생성된다 (S320). 그 다음, 이들의 학습 결과에 의해 결정된 제1 분석 모델 및 제2 분석 모델에 대한 가중치가 각각 결정되고 (S330), 각각의 가중치에 기초하여, 미세 조정된 감정 분석 모델이 생성된다 (S340).
보다 구체적으로, 제1 분석 모델이 생성되는 단계 (S310) 에서, 단일 모달리티인 음성 데이터에 기초하여 감정을 분류하도록 학습된 모델인 제1 분석 모델이 생성될 수 있다.
본 발명의 특징에 따르면, 제1 분석 모델이 생성되는 단계 (S310) 에서, 오디오 모델에 대하여, 음성 데이터의 주파수 분석을 기반으로 특징을 추출하고, 이를 기초로 감정을 분류하도록 학습이 수행될 수 있다. 그 결과 음성 데이터 기반의 제1 분석 모델이 생성될 수 있다.
예를 들어, 제1 분석 모델이 생성되는 단계 (S310) 에서, 오디오 모델은 음원의 주파수 분석을 기반으로 하는 MFCC, Delta, Acceleration 기법으로 특징을 추출할 수 있다. 이때, 각각의 특징은 20차원의 벡터 크기를 가질 수 있고, 음원 (음성 데이터) 의 프레임마다 추출된 3 개의 특징 벡터가 연결되어 총 60차원의 특징 벡터가 생성될 수 있다. 선택적으로, 길이가 가장 긴 음원을 기준으로 패딩 (padding) 값이 추가되고, 마스킹 (masking) 계층이 추가될 수 있다. 그 다음, 시계열 특징을 잘 설명할 수 있는 LSTM (Long Short Term Memory) 네트워크 기반의 학습이 진행될 수 있다. 이의 결과로 음성 데이터 기반의 제1 분석 모델이 생성될 수 있다. 그러나, 제1 분석 모델의 생성 과정에서 적용되는 특징 파라미터는 전술한 것에 제한되는 것이 아니다.
다음으로, 제2 분석 모델이 생성되는 단계 (S320) 에서, 단일 모달리티인 텍스트 데이터에 기초하여 감정을 분류하도록 학습된 모델인 제2 분석 모델이 생성될 수 있다.
예를 들어, 제2 분석 모델이 생성되는 단계 (S320) 에서, 텍스트 데이터에 기초하여 감정을 분류하도록 학습된 KORBERT 모델이 생성될 수 있다. 그러나, 이에 제한되지 않고 보다 다양한 텍스트 모델 기반의 제2 분석 모델이 생성될 수 있다.
이때, 제1 분석 모델이 생성되는 단계 (S310) 및 제2 분석 모델이 생성되는 단계 (S320) 는 동시에 수행될 수 있고, 제2 분석 모델이 생성되는 단계 (S320) 이후에 제1 분석 모델이 생성되는 단계 (S310) 가 수행될 수도 있다.
다음으로, 가중치가 각각 결정되는 단계 (S330) 에서, 제1 분석 모델 및 제2 분석 모델의 학습 결과에 의해 결정되거나, 학습 중에 적용된 가중치가 추출될 수 있다.
본 발명의 특징에 따르면, 제1 분석 모델 및 제2 분석 모델 각각은, 학습에 적용된 가중치를 포함하는, 가충치 레이어를 가질 수 있다. 예를 들어, 제1 분석 모델의 경우 가중치 레이어로서 LSTM 레이어가, 제2 분석 모델의 경우 가중치 레이어로서 BERT 레이어를 포함할 수 있다.
다음으로, 미세 조정된 감정 분석 모델이 생성되는 단계 (S340) 를 통해, 제1 분석 모델 및 제2 분석 모델 각각의 가중치에 기초하여 미세 조정된 감정 분석 모델이 생성된다.
본 발명의 특징에 따르면, 미세 조정된 감정 분석 모델이 생성되는 단계 (S340) 에서, 제1 분석 모델 및 제2 분석 모델 각각의 가중치 레이어를 하나로 연결하는 연결 (concatenate) 네트워크가 생성되고, 연결 네트워크에 기초하여 미세 조정된 감정 분석 모델이 생성될 수 있다.
본 발명의 다른 특징에 따르면, 미세 조정된 감정 분석 모델이 생성되는 단계 (S340) 에서, 학습용 음성-텍스트 통합 데이터가 수신되고, 통합 데이터를 기초로 연결 네트워크가 미세 조정될 수 있다.
이때, 연결 네트워크는, 제1 분석 모델 및 제2 분석 모델 각각의 가중치 레이어를 연결하는 연결 레이어를 생성하는 단계, 및 연결 레이어에 완전 연결 네트워크 (fully connected network) 를 추가하는 단계를 통해 생성될 수 있으나, 이에 제한되는 것은 아니다.
예를 들어, 도 3b 및 3c를 참조하면, 제1 분석 모델이 생성되는 단계 (S310) 를 통해 생성된 제1 분석 모델 (410) 은 학습된 가중치를 갖는 LSTM 레이어 (412, 412') 를 포함한다. 나아가, 제2 분석 모델이 생성되는 단계 (S320) 를 통해 생성된 제2 분석 모델 (420) 은 학습된 가중치를 갖는 BERT 레이어 (422, 422') 를 포함한다. 미세 조정된 감정 분석 모델이 생성되는 단계 (S340) 에서, 제1 분석 모델 (410) 의 마지막 레이어인 LSTM 레이어 (412') 및 제2 분석 모델 (420) 의 마지막 레이어인 BERT 레이어 (422') 가 하나의 레이어로 연결된 연결 (concatenate) 레이어 (432) 가 생성될 수 있다. 그 다음, 연결 레이어 (432) 에 완전 연결 네트워크 (fully connected network) 가 추가되어, 단일 모델인 제1 분석 모델 (410) 및 제2 분석 모델 (420) 의 각각의 가중치를 입력 받을 수 있는 새로운 네트워크가 생성될 수 있다. 최종적으로, 새롭게 수신된 학습용 음성-텍스트 통합 데이터의 멀티 모달리티 데이터에 기초하여 네트워크의 가중치가 미세 조정되고, 미세 조정된 감정 분석 모델 (440) 이 생성될 수 있다.
이러한 미세 조정된 감정 분석 모델 (440) 은 제1 분석 모델 (410) 및 제2 분석 모델 (420) 에 기초하여 전이 학습된 모델로서, 단일의 모달리티 데이터 및 멀티 모달리티 데이터가 학습에 적용되었음에 따라, 단일 데이터로 학습된 감정 분석 모델보다 감정 분류 성능이 우수할 수 있다. 특히, 학습 데이터가 많아지면 많아질수록 미세 조정된 감정 분석 모델의 성능은 단일 데이터에 기초한 모델, 예를 들어 제1 분석 모델 및 제2 분석 모델보다 우수할 수 있다.
한편, 본 발명의 다양한 실시예에 적용되는 감정 분석 모델의 미세 조정 방법은 전술한 것에 제한되는 것은 아니다.
나아가, 상기 감정 분석 모델은, 전술한 것에 제한되지 않고, 미세 조정 단계 없이 특징 추출을 기반으로 하여 학습된 모델을 포함할 수도 있다.
평가 1: 본 발명의 다양한 실시예에 적용되는 감정 분석 모델의 평가
이하에서는, 도 4a 내지 4c, 도 5a 및 5b를 참조하여 감정 분석 모델의 평가 결과를 설명한다.
보다 구체적으로, 상기 평가는 감정 분류를 하는데 있어, 멀티 모달리티인 음성-텍스트 데이터를 사용하는 것이 효과적인지 확인 하기 위해, 텍스트 데이터 및 음성 데이터의 단일 데이터에 의해 학습된 모델들 (제1 분석 모델 및 제2 분석 모델) 과 텍스트 및 음성 데이터를 학습에 적용한 앙상블 모델들 (멀티 모델 (voting), 감정 분석 모델 (fine- tuned), 멀티 모델 (feature-based)) 이 비교되었다. 이때, 앙상블 모델들은, 제1 분석 모델 및 제2 분석 모델 각각에 대한 예측 값의 평균으로 최종 예측을 수행하는 멀티 모델 (voting), 단일 모델들의 가중치에 기초하여 미세 조정된 감정 분석 모델 (fine-tuned), 및 미세 조정 없이 두 개의 데이터로 학습된 멀티 모델 (feature based) 로 이루어진다.
도 4a 내지 4c는 본 발명의 다양한 실시예에 이용되는 감정 분석 모델의 학습 및 평가 데이터를 도시한 것이다. 도 5a 및 5b는 본 발명의 다양한 실시예에 이용되는 감정 분석 모델의 평가 결과를 도시한 것이다.
먼저, 도 4a를 참조하면, 부정 또는 긍정 (non 부정) 의 영화 리뷰, 상품평 리뷰, 공개 입수 가능한 AI 허브 데이터, 음성 합성 데이터, 콜센터 데이터, 음성 인식 결과 데이터 등의 415037 개의 데이터가 각 모델들의 학습 및 평가를 위한 텍스트 데이터로 이용되었다.
도 4b를 참조하면, 부정 또는 긍정의 AI 허브 데이터, 음성 합성 데이터, 연세대학교 감정 데이터 베이스 등의 20:20:33의 데이터가 각 모델들의 학습 및 평가를 위한 음성 데이터로 이용되었다.
나아가, 도 4c를 참조하면, 음성 데이터에 대하여 감정이 라벨링된 데이터들 (데이터셋 1, 데이터셋 2, 데이터셋 3) 의 총 47,620문장 (41.5시간) 의 데이터가 각 모델들의 학습 및 평가를 위한 멀티 모달리티 데이터로 이용되었다.
다음으로, 도 5a 및 5b를 참조하면, 두 가지 데이터 셋에 기초하여 학습된 모델인 멀티 모델 (voting) 이 단일 데이터로 학습된 제1 분석 모델 및 제2 분석 모델보다 우수한 감정 분류 성능을 갖는 것으로 나타난다.
이러한 결과, 음성 데이터 또는 텍스트 데이터의 단일 모달리티 데이터보다, 두 개의 데이터 (또는, 음성-텍스트 통합 데이터) 를 이용하는 것이 대상체의 감정을 높은 정밀도로 분류할 수 있음을 의미할 수 있다.
특히, 도 5b의 보다 적은 데이터 (데이터셋 1, 데이터셋 2) 를 이용한 결과를 함께 참조하면, 본 발명의 다양한 실시예에 적용되는 미세 조정된 감정 분석 모델 (fine-tuned) 이 데이터가 증가할 경우, 감정 분류 성능이 증가하는 것으로 나타난다. 이러한 결과는, 평가 데이터가 충분할 경우, 제1 분석 모델 및 제2 분석 모델의 단일 모달리티 데이터 기반의 모델이 커버하지 못하는 부분을, 본 발명의 다양한 실시예에 적용되는 감정 분석 모델이 커버하여 보다 정밀도 높은 감정 분류 결과를 제공할 수 있음을 시사할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 일 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 감정 평가용 디바이스
110, 230: 저장부
120, 210: 통신부
130, 240: 프로세서
200: 사용자 디바이스
220: 표시부
310, 500: 음성 데이터
320: 텍스트 데이터
330: 감정 분석 모델
340: 평가 결과
410: 제1 분석 모델
412, 412': LSTM 레이어
420: 제2 분석 모델
422, 422': BERT 레이어
432: 연결 레이어
440: 미세 조정된 감정 분석 모델
1000: 감정 평가 시스템

Claims (20)

  1. 프로세서에 의해 구현되는 감정 평가 방법으로서,
    대상체의 음성 데이터를 수신하는 단계;
    상기 음성 데이터를 기초로 텍스트 데이터를 생성하는 단계;
    상기 음성 데이터 및 상기 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 감정 분석 모델을 이용하여, 상기 대상체의 감정을 평가하는 단계, 및
    평가된 대상체의 감정을 제공하는 단계를 포함하는, 감정 평가 방법.
  2. 제1항에 있어서,
    상기 수신하는 단계 이전에,
    상기 감정 분석 모델을 생성하는 단계를 더 포함하는, 감정 평가 방법.
  3. 제2항에 있어서,
    상기 감정 분석 모델을 생성하는 단계는,
    학습용 음성 데이터에 기초하여 감정을 평가하도록 구성된 제1 분석 모델을 생성하는 단계;
    학습용 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 제2 분석 모델을 생성하는 단계;
    상기 제1 분석 모델 및 상기 제2 분석 모델 각각의 가중치를 결정하는 단계, 및
    상기 각각의 가중치에 기초하여 미세 조정된 감정 분석 모델을 생성하는 단계를 포함하는, 감정 평가 방법.
  4. 제3항에 있어서,
    상기 제1 분석 모델 및 상기 제2 분석 모델 각각은, 상기 각각의 가중치가 결정된 가중치 레이어를 포함하고,
    상기 각각의 가중치에 기초하여 미세 조정된 감정 분석 모델을 생성하는 단계는,
    상기 제1 분석 모델 및 상기 제2 분석 모델 각각의 가중치 레이어를 하나로 연결하는 연결 (concatenate) 네트워크를 생성하는 단계;
    상기 연결 네트워크에 기초하여 상기 미세 조정된 감정 분석 모델을 생성하는 단계를 포함하는, 감정 평가 방법.
  5. 제4항에 있어서,
    상기 미세 조정된 감정 분석 모델을 생성하는 단계는,
    학습용 음성-텍스트 통합 데이터를 수신하는 단계, 및
    상기 미세 조정된 감정 분석 모델을 생성하도록, 상기 통합 데이터를 기초로 상기 연결 네트워크를 미세 조정하는 단계를 포함하는, 감정 평가 방법.
  6. 제4항에 있어서,
    상기 연결 네트워크를 생성하는 단계는,
    상기 제1 분석 모델 및 상기 제2 분석 모델 각각의 가중치 레이어 (layer) 를 연결하는 연결 레이어를 생성하는 단계, 및
    상기 연결 레이어에 완전 연결 네트워크 (fully connected network) 를 추가하는 단계를 포함하는, 감정 평가 방법.
  7. 제4항에 있어서,
    상기 제1 분석 모델의 가중치 레이어는, LSTM 레이어고,
    상기 제2 분석 모델의 가중치 레이어는, BERT 레이어인, 감정 평가 방법.
  8. 제1항에 있어서,
    상기 텍스트 데이터를 생성하는 단계는,
    음성 인식 모델을 이용하여, 상기 음성 데이터를 텍스트 데이터로 변환하는 단계를 포함하는, 감정 평가 방법.
  9. 제1항에 있어서,
    상기 음성 데이터는 주파수를 포함하고,
    상기 감정 분석 모델은,
    상기 텍스트 데이터 및 상기 주파수에 기초하여 상기 대상체의 감정을 평가하도록 구성된, 감정 평가 방법.
  10. 제1항에 있어서,
    상기 텍스트 데이터에 대하여 특수 문자, 한글 자모, 영어, 숫자, 및 한글자의 문장, 및 미리 결정된 수준 이상의 문장 중 적어도 하나를 제거하는 전-처리 단계를 더 포함하는, 감정 평가 방법.
  11. 대상체의 음성 데이터를 수신하도록 구성된 통신부, 및
    상기 통신부와 통신하도록 구성된 프로세서를 포함하고,
    상기 프로세서는,
    상기 음성 데이터를 기초로 텍스트 데이터를 생성하고, 상기 음성 데이터 및 상기 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 감정 분석 모델을 이용하여, 상기 대상체의 감정을 평가하고, 평가된 대상체의 감정을 제공하도록 구성된, 감정 평가용 디바이스.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 감정 분석 모델을 생성하도록 더 구성된, 감정 평가용 디바이스.
  13. 제12항에 있어서,
    상기 프로세서는,
    학습용 음성 데이터에 기초하여 감정을 평가하도록 구성된 제1 분석 모델을 생성하고,
    학습용 텍스트 데이터에 기초하여 감정을 평가하도록 구성된 제2 분석 모델을 생성하고, 상기 제1 분석 모델 및 상기 제2 분석 모델 각각의 가중치를 결정하고, 상기 각각의 가중치에 기초하여 미세 조정된 감정 분석 모델을 생성하도록 더 구성된, 감정 평가용 디바이스.
  14. 제13항에 있어서,
    상기 제1 분석 모델 및 상기 제2 분석 모델 각각은, 상기 각각의 가중치가 결정된 가중치 레이어를 포함하고,
    상기 프로세서는,
    상기 제1 분석 모델 및 상기 제2 분석 모델 각각의 가중치 레이어를 하나로 연결하는 연결 (concatenate) 네트워크를 생성하고, 상기 연결 네트워크에 기초하여 상기 미세 조정된 감정 분석 모델을 생성하도록 더 구성된, 감정 평가용 디바이스.
  15. 제14항에 있어서,
    상기 수신부는,
    학습용 음성-텍스트 통합 데이터를 수신하도록 더 구성되고,
    상기 프로세서는,
    상기 미세 조정된 감정 분석 모델을 생성하도록, 상기 통합 데이터를 기초로 상기 연결 네트워크를 미세 조정하도록 구성된, 감정 평가용 디바이스.
  16. 제14항에 있어서,
    상기 프로세서는,
    상기 제1 분석 모델 및 상기 제2 분석 모델 각각의 가중치 레이어를 연결하는 연결 레이어를 생성하고, 상기 연결 레이어에 완전 연결 네트워크 (fully connected network) 를 추가하도록 더 구성된, 감정 평가용 디바이스.
  17. 제14항에 있어서,
    상기 제1 분석 모델의 가중치 레이어는, LSTM 레이어고,
    상기 제2 분석 모델의 가중치 레이어는, BERT 레이어인, 감정 평가용 디바이스.
  18. 제11항에 있어서,
    상기 프로세서는,
    음성 인식 모델을 이용하여, 상기 음성 데이터를 텍스트 데이터로 변환하도록 더 구성된, 감정 평가용 디바이스.
  19. 제11항에 있어서,
    상기 음성 데이터는 주파수를 포함하고,
    상기 감정 분석 모델은,
    상기 텍스트 데이터 및 상기 주파수에 기초하여 상기 대상체의 감정을 평가하도록 구성된, 감정 평가용 디바이스.
  20. 제11항에 있어서,
    상기 프로세서는, 상기 텍스트 데이터에 대하여 특수 문자, 한글 자모, 영어, 숫자, 및 한글자의 문장, 및 미리 결정된 수준 이상의 문장 중 적어도 하나를 제거하는 전-처리하도록 더 구성된, 감정 평가용 디바이스.
KR1020200158266A 2020-11-23 2020-11-23 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스 KR20220071059A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200158266A KR20220071059A (ko) 2020-11-23 2020-11-23 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200158266A KR20220071059A (ko) 2020-11-23 2020-11-23 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스

Publications (1)

Publication Number Publication Date
KR20220071059A true KR20220071059A (ko) 2022-05-31

Family

ID=81786303

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200158266A KR20220071059A (ko) 2020-11-23 2020-11-23 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스

Country Status (1)

Country Link
KR (1) KR20220071059A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102506706B1 (ko) * 2022-06-09 2023-03-06 주식회사 브레인벤쳐스 Bio 태그 데이터를 이용한 기계 학습 데이터 구축용 단말 및 ai 기반의 감정 파악 시스템
KR102543647B1 (ko) 2023-01-26 2023-06-15 (주)피플리 적응적 마스크드 어텐션 메커니즘을 이용한 에스팩트 기반 문장 내 감정 분석 방법, 장치 및 시스템
CN117390141A (zh) * 2023-12-11 2024-01-12 江西农业大学 一种农业社会化服务质量用户评价数据分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102506706B1 (ko) * 2022-06-09 2023-03-06 주식회사 브레인벤쳐스 Bio 태그 데이터를 이용한 기계 학습 데이터 구축용 단말 및 ai 기반의 감정 파악 시스템
KR102543647B1 (ko) 2023-01-26 2023-06-15 (주)피플리 적응적 마스크드 어텐션 메커니즘을 이용한 에스팩트 기반 문장 내 감정 분석 방법, 장치 및 시스템
CN117390141A (zh) * 2023-12-11 2024-01-12 江西农业大学 一种农业社会化服务质量用户评价数据分析方法
CN117390141B (zh) * 2023-12-11 2024-03-08 江西农业大学 一种农业社会化服务质量用户评价数据分析方法

Similar Documents

Publication Publication Date Title
Wani et al. A comprehensive review of speech emotion recognition systems
CN112259106B (zh) 声纹识别方法、装置、存储介质及计算机设备
Lee et al. Emotion recognition using a hierarchical binary decision tree approach
Gu et al. Speech intention classification with multimodal deep learning
KR20220071059A (ko) 감정 분석 모델에 기초한 감정 평가 방법 및 이를 이용한 디바이스
WO2023019612A1 (en) Apparatus and method for speech-emotion recognition with quantified emotional states
Hema et al. Emotional speech recognition using cnn and deep learning techniques
Yang et al. Enhanced multiclass SVM with thresholding fusion for speech-based emotion classification
Emerich et al. Emotions recognition by speechand facial expressions analysis
KR102100214B1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
Krishna et al. Speech emotion recognition using machine learning
Gupta et al. Speech emotion recognition using SVM with thresholding fusion
CN111383138B (zh) 餐饮数据处理方法、装置、计算机设备和存储介质
CN113853651B (zh) 用量化的情感状态进行语音-情感识别的装置和方法
Jia et al. A deep learning system for sentiment analysis of service calls
KR20210009266A (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
US20240005911A1 (en) Systems and methods to improve trust in conversations with deep learning models
CN113886539A (zh) 话术推荐方法、装置、客服设备及存储介质
Gupta et al. Gender and age recognition using audio data—artificial neural networks
Bhavan et al. Deep learning approaches for speech emotion recognition
Juyal et al. Emotion recognition from speech using deep neural network
Anand et al. Voice and Speech Recognition Application in Emotion Detection: A Utility for Future Trends
Bi et al. A state of the art technology with machine intelligence in human emotion recognition
Biswas et al. Speech Emotion Recognition Using Deep CNNs Trained on Log-Frequency Spectrograms
Li et al. Research on Chorus Emotion Recognition and Intelligent Medical Application Based on Health Big Data