KR20080086791A

KR20080086791A - 음성 기반 감정 인식 시스템

Info

Publication number: KR20080086791A
Application number: KR1020070028922A
Authority: KR
Inventors: 이철민
Original assignee: 엘지전자 주식회사
Priority date: 2007-03-23
Filing date: 2007-03-23
Publication date: 2008-09-26

Abstract

본 발명은 음성(voice)을 이용하여 감정을 인식하는 음성 기반 감정 인식 시스템에 관한 것이다. 본 발명의 음성 기반 감정 인식 시스템에서는, 입력된 음성신호에서 음향학적인 특징정보를 추출하고, 추출된 특징정보로부터 음성을 인식한다. 그리고, 음성 인식 결과로부터 언어정보를 추출한다. 이와 같이 추출된 음향학적인 특징정보와 언어적인 특징정보를 이용해서 감정을 인식한다. 음향학적인 특징정보는 사람의 감정을 반영할 수 있는 에너지, 피치, 발성 속도 등을 사용할 수 있으며, 언어적인 특징정보는 사람의 감정을 표현하는 특정 단어의 사용 여부로부터 알 수 있다. 본 발명은 이와 같은 음향학적인 특징정보와 함께 언어적인 특징정보를 고려하여 사람의 감정을 보다 정확하게 인식할 수 있다.

음성인식, 감정인식

Description

음성 기반 감정 인식 시스템{FEELING RECOGNITION SYSTEM BASED ON VOICE}

도1은 본 발명에 따른 음성 기반 감정 인식 시스템 구성을 나타낸 도면

도2는 본 발명에 따른 음성 기반 감정 인식 시스템의 실시예 구성을 나타낸 도면

도3은 본 발명의 실시예에 따른 음성 기반 감정 인식 방법의 플로우차트

본 발명은 음성(voice)을 이용하여 감정을 인식하는 음성 기반 감정 인식 시스템에 관한 것이다.

사람과 사람, 사람과 동물, 사람과 기계 간의 의사 소통에 있어서 감정의 전달과 인식은 매우 중요한 요소가 된다. 예를 들어, 사람과 사람 사이의 감정의 전달과 인식은 음성, 몸 동작, 얼굴 표정 등의 여러 가지 요소들이 각각 개별적이거나 상호 복합적으로 작용하여 감정의 전달과 인식이 이루어지게 된다. 이러한 감정의 전달과 인식은 사람과 사람 뿐만 아니라 사람과 기계 사이의 의사 소통에 있어서도 중요한 요소가 되며, 사람의 감정을 기계가 인식하여 그 인식 결과를 출력해 줌으로써, 사람의 감정에 기반한 적절한 결과물을 낼 수 있게 한다.

홈 네트워크 시스템이나 컴퓨터 시스템에서 사람과 기기(컴퓨터) 간의 인터렉션(Human-Computer Interaction, HCI) 기술이 연구되고 있다. 사람과 사람 사이의 의사 소통에서 상대방의 감정을 인식하여 그에 따라 적절한 대응을 하는 것이 중요하듯이, HCI에서도 컴퓨터가 사용자의 감정을 인식하고 그 인식된 결과에 따라 적절한 대응을 함으로써 사람과 기기 간에 좀 더 자연스럽게 의사 소통을 할 수 있게 된다. 사람의 감정은 다양한 방법으로 표현될 수 있는데, 대개의 경우는 얼굴의 표정 변화나 목소리의 변화, 몸짓 등이 단독 혹은 상호 관련성을 가지고 표현된다.

따라서, 컴퓨터 시스템에서도 사람의 감정이 표현되는 여러가지 다양한 요소들을 분석하고 그 분석 결과를 이용해서 사람과 컴퓨터 시스템 간의 의사 소통을 보다 자연스럽게 수행할 수 있는 기법이 요구된다.

본 발명은 음성을 이용하여 사람의 감정을 인식하는 방법과 그 장치를 제공한다.

본 발명은 음성 인식 시스템에서 음향 정보와 언어 정보를 함께 사용하여 음성에서 나타나는 감정을 구분하여 인식하는 방법과 그 장치를 제공한다.

본 발명은 음성 인식 시스템에서 사람의 음성의 특징을 분석하고 음성으로부터 인식한 언어 정보를 토대로 감정 상태를 인식하는 방법과 그 장치를 제공한다.

본 발명의 실시예에 따른 음성 인식 방법은, 입력된 음성신호에서 음향학적인 특징정보를 추출하는 단계; 상기 추출된 특징정보로부터 음성을 인식하는 단계; 상기 음성 인식 결과로부터 언어정보를 추출하는 단계; 상기 추출된 음향학적 특징정보와 언어정보를 기반으로 감정 상태를 인식하는 단계; 를 포함하여 이루어지는 것을 특징으로 한다.

또한, 본 발명의 실시예에 따른 음성 인식 장치는, 입력된 음성신호에서 감정 상태를 반영하는 음향학적인 특징정보를 추출하는 특징정보 추출부; 입력된 음성신호를 인식하는 음성 인식부; 상기 음성 인식 결과로부터 감정 상태를 반영하는 언어정보를 추출하는 언어정보 추출부; 상기 추출된 음향학적 특징정보와 언어정보의 상관성을 토대로 감정 상태를 인식하는 감정 인식부; 를 포함하여 이루어지는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 음성 기반 감정 인식 시스템을 설명하면 다음과 같다.

본 발명은 사람의 음성을 인식함에 있어 그 음성으로부터 사람의 감정 상태를 인식하는 방법과 장치이다. 본 발명에서는 음성을 인식하기 위하여 특징정보를 추출하고, 추출된 특징정보에 근거하여 음성을 인식하며, 인식된 음성에 근거하여 해당 음성이 어떤 단어인지를 인식하고, 인식된 단어가 사람의 감정에 관련된 단어인지의 여부와 상기 추출된 음성 특징정보를 함께 고려하여 사람의 감정을 인식하고 그 인식 결과를 출력한다.

음성 특징정보는 여러 가지가 있을 수 있겠으나, 본 발명의 실시예에서는 음성신호에 포함되어 있는 에너지, 피치(pitch), 발성 속도를 특징정보로서 추출한다. 음성신호의 에너지, 피치, 발성 속도는 감정을 반영하는 특징정보로 사용할 수 있다는 점에 근거한다. 예를 들면, 일반적으로 분노 상태에 있을 경우 거의 대부분의 사람의 음성은 평상시 보다 높은 에너지량, 높은 피치, 빠른 발성 속도를 갖는 특징을 보이고 있다는데 근거한다. 그러므로, 에너지, 피치, 발성 속도 정보 중의 적어도 어느 하나, 또는 둘 이상, 또는 둘 이상의 요소에 대하여 사전에 (실험적으로 구한) 가중치 등을 고려한다면 음성의 위와 같은 특징정보로부터 감정 상태를 인식할 수 있다.

그렇지만, 사람의 음성은 개인별로 편차가 심하고 다양한 패턴을 갖는데다가 개개인의 성향에 따라 에너지, 피치, 발성 속도가 반드시 감정 상태를 반영한다고 볼 수는 없을 것이므로, 이와 함께 언어적인 특징정보를 고려하여 감정을 인식한다. 언어적인 특징정보는 예를 들면 특정 감정 상태에 놓여 있을 경우에 사용하게 될 가능성이 상대적으로 높은 단어를 추천할 수 있다. 예를 들면, 분노 상태에 있을 경우 큰 소리의 높은 음색으로 빠른 발성을 하는 것과 더불어 분노의 표현과 관련된 특정 단어를 구사할 가능성이 크다는데 근거하는 것이다.

본 발명에 따르면, 감정 인식을 위한 언어 정보는 감정을 나타내는 언어 및 단어들을 미리 추출하여 저장해 놓고, 해당 감정과 언어/단어 사이의 상관 관계(mutual information)를 이용하여 얻어진다.

본 발명의 실시예에서는 사람의 감정을 반영할 수 있는 음성 특징정보로서 에너지, 피치, 발성속도를 사용하고 있으나 이는 하나의 예에 불과하며, 여기에 예시되고 설명되는 특징정보로 본 발명이 제한되지 않음은 당연하다. 또한, 감정을 표현하는 단어가 어떤 것인가에 대해서도 언어적, 문화적 환경 뿐만 아니라 음성 인식 시스템이 사용될 사용 환경에 따라서도 달라질 수 있으므로 특정한 단어를 감정을 표현하는 단어라고 제한하지는 않는다.

도1은 본 발명에 따른 음성 기반 감정 인식 시스템의 구성을 보여주고 있다. 본 발명에 따른 음성 기반 감정 인식 시스템은 입력된 음성신호에서 음성신호 특징정보를 검출하기 위한 음성신호 검출부(10), 음성신호의 특징정보를 이용하여 음성을 인식하기 위한 음성 인식부(20), 인식된 음성신호에서 감정 인식을 위한 특정 언어 정보를 검출하기 위한 언어 정보 검출부(30), 검출된 언어 정보와 음성신호의 특징정보를 이용하여 감정 상태를 인식하기 위한 감정 인식부(40)를 포함한다.

이와 같이 구성된 본 발명에 따른 음성 기반 감정 인식 시스템에서는 사람의 음성에서 추출한 음향학적인 특징정보와, 인식된 단어 사이의 상관성을 고려하여 감정을 인식한다.

사람의 감정은 음성에 직접 관련된 특성들 이외에도 사용하는 언어를 통해서도 표현되어 질 수 있다. 예를 들면, 콜 센터를 통해서 서비스를 요청할 때, 시스템이 제대로 사용자의 의도를 파악하지 못해 엉뚱한 응답을 할 때, 사용자들의 감정은 점점 화가 나는 상태로 갈 것이다. 이 때, 많은 사용자들이 평상시 사용하는 단어들과는 다른 단어들을 사용하는 경우가 대부분이며 극단적으로는 욕설을 하는 경우도 있다. 따라서, 이러한 언어 정보를 감정을 인식하는 주요한 수단으로 사용할 수 있다. 감정에 따른 언어 및 단어들은 파악하려고 하는 감정에 따라 미리 시스템에 저장되어 있으며, 언어 정보를 얻기 위해 음성 인식 시스템과 연동된다.

음성신호 검출부(10)는 사람의 음성에서 감정 인식 및 음성 인식에 필요한 특징들을 추출해 내는 부분이다. 감정 인식에 사용되는 음성 특징들은 에너지, 피치, 발성 속도이다. 음성 인식에 필요한 특징들은 에너지, 피치를 비롯하여 기존에 알려진 음성인식 기법들에서 필요로 하는 특징들을 그대로 사용하여도 무방하다.

음성신호 검출부(10)에서 추출된 특징정보들은 음성 인식부(20)와 감정 인식부(40)에 전달된다. 감정 인식에 필요한 특징정보들은 감정 인식부(40)에 전달되며, 음성 인식에 필요한 특징정보들은 음성 인식부(20)에 전달된다.

음성 인식부(20)는 음성신호 검출부(10)에서 검출된 특징정보를 이용해서 음성을 인식한다. 즉, 어떤 단어를 발음한 것인지를 인식한다. 인식된 결과(여기서는 단어 정보)는 언어 정보 검출부(30)에 전달된다. 언어 정보 검출부(30)는 인식된 단어(언어)가 사전에 저장(또는 설정)해 놓은 감정 표현 단어에 해당하는지의 여부를 해당 단어 검색을 통해서 검출하고, 그 검출 결과를 감정 인식부(40)에 전달한다.

감정 인식부(40)는 음성신호 검출부(10)에서 검출된 음향학적인 특징정보와 언어정보 검출부(30)에서 검출된 언어정보를 이용하여 사람의 감정 상태를 인식하고 그 인식 결과를 출력한다. 음향학적인 특징정보인 에너지, 피치, 발성 속도 정보를 단어 정보와 함께 고려하여 사람의 감정 상태를 인식하는 것이다. 감정 인식에 사용될 상기 각 요소들은 적어도 하나 또는 그 이상의 음향학적인 특징정보와 언어적인 특징정보가 함께 고려된다. 각각의 요소는 동일한 비중으로 다뤄질 수도 있겠지만, 시스템 사용 환경에 따라서 적응적으로 다르게 가중치를 부여하여 고려될 수도 있다. 예를 들면, 입력된 음성신호에서 성별을 구별하고(성별의 구별 기법 은 이미 알려진 음성 인식 기법에 근거하여도 무방하다), 남성의 경우에는 에너지에 가장 높은 가중치를 부여하고 이 것과 단어 정보를 함께 고려하여 인식 결과를 출력하는 방법을 사용할 수 있다. 여성의 경우에는 에너지 보다는 피치와 발성 속도에 더 높은 가중치를 부여하고 이 것과 단어 정보를 함께 고려하여 인식 결과를 출력하는 방법을 사용할 수 있다.

감정을 인식한 결과는 여러 가지 형태로 출력될 수 있는데, 가장 간단한 방법으로는 감정의 구분이 비교적 용이한 '평상시', '분노', '슬픔', '즐거움' 등의 4개 항목 정도로 인식 결과를 제공할 수 있으며, 인식 결과는 각각을 표현하는 약속된 형태의 데이터 값(코드 값)으로 출력하거나 혹은 텍스트 값으로 출력할 수 있을 것이다. 이 보다 더 단순하거나 혹은 더 세분화된 감정 인식의 결과를 내는 것은 상기 음향학적인 특징정보와 언어적인 특징정보들의 가중치 조절을 통해서 이루어질 수 있을 것이다. 특정한 환경에서 고려하지 않을 특징정보에 대해서는 가중치를 '0'으로 설정하는 방법을 사용할 수도 있을 것이다.

도2는 본 발명에 따른 음성 기반 감정 인식 시스템의 실시예에 따른 시스템 구성을 보여준다.

앞서 도1을 참조하여 설명한 바와 같이, 음성신호 검출부(10)는 입력된 음성신호의 에너지를 추출하는 에너지 추출부(11), 입력된 음성신호의 피치를 추출하는 피치 추출부(12), 입력된 음성신호의 발성 속도를 추출하는 발성 속도 추출부(13)를 포함하고 있다. 음성 인식부(20)는 상기 음성신호 검출부(10)에서 추출된 음성신호의 특징정보를 처리하기 위한 특징 처리부(21), 특징정보에 근거하여 음성 인 식을 수행하는 인식 처리부(22), 음성 인식에 필요한 특징정보를 제공하기 위한 특징 데이터 베이스부(DB)(23)를 포함한다. 언어정보 검출부(30)는 음성 인식 결과 문장으로부터 감정 표현에 관련된 단어를 선택하기 위한 단어 선택부(31), 감정 표현 단어들과 해당 감정 사이의 상관도 정보를 제공하기 위한 단어 사전부(32), 상기 단어 선택부(31)에 의해서 선택된 단어에 근거하여 감정 표현에 관련된 언어정보를 획득하기 위한 언어정보 획득부(33)를 포함한다.

에너지 추출부(11)는 입력된 음성신호의 에너지를 추출하고, 피치 추출부(12)는 입력된 음성신호의 피치를 추출하며, 발성 속도 추출부(13)는 입력된 음성신호의 발성 속도를 추출한다. 추출된 각 특징정보들은 감정 인식부(40)에 전달되어 감정 인식에 사용됨과 함께, 음성 인식부(20)에 전달되어 입력 음성의 인식을 위한 정보로 사용된다. 여기서, 에너지를 추출하는 방법이나 피치를 추출하는 방법, 발성 속도를 추출하는 방법은 당해 기술분야에서 이미 알려진 기법을 사용하여도 무방하므로 이에 대한 구체적인 예시와 설명은 관련 기술을 참조하기로 하여 생략한다.

특징 처리부(21)는 음성 인식을 위하여 상기 음성신호 검출부(10)로부터 제공되는 특징정보를 처리하는데, 여기서는 예를 들면 에너지 정보와 피치 정보를 이용해서 음성이 발음되는 구간(시작점과 끝점)을 정한다거나 에너지와 피치 정보를 이용해서 기본 주파수와 고조파 성분 등을 분석하는 등의, 기존에 알려진 음성 인식 기법과 같은 특징정보 처리를 수행한다.

인식 처리부(22)는 특징 처리부(21)에서 제공되는 음성 특징정보와 특징 DB(23)에 저장된 특징정보를 이용해서 입력 음성을 인식한다. 즉, 입력된 특징정보를 토대로 특징 DB(23)를 검색하여 특징 정보들 간의 유사도를 기준으로 어떤 음성이 발음되었는지를 인식하는 것이다. 인식된 결과는 언어정보 검출부(30)로 전달된다.

언어정보 검출부(30)는 음성 인식부(20)에서 인식된 언어정보(즉, 단어)가 미리 저장(또는 설정)해 놓은 단어정보(감정 표현에 사용된다고 간주되는 단어)에 해당하는지의 여부를 판정하고, 그 결과를 감정 인식부(40)에 전달한다.

이를 위하여, 언어정보 검출부(30)는 단어 선택부(31), 단어 사전부(32), 언어정보 획득부(33)를 구비한다. 단어 선택부(31)는 음성 인식부(20)로부터 입력된 문장에서 감정 표현과 관련된 단어를 선택한다. 감정 표현과 관련된 단어들과 해당 감정 사이의 상관도는 감정 표현 단어 사전, 즉 단어 사전부(32)에서 제공한다. 단어 사전부(32)는 단어와 감정 사이의 상관도를 이용하여 생성되는데, 이는 앞서 설명한 바와 같이 특정 감정을 표현하는 것으로 간주될 수 있는 단어들을 선정하여 이를 해당 감정을 표현하는 단어로 등록해 놓음으로써 구축될 수 있다. 문장 내에 감정을 표현하는 단어들이 많으면 많을수록 상관도를 더하는 방법으로 감정과 단어 간의 상관도를 측정할 수 있을 것이다.

단어 선택부(31)에 의해서 입력 음성(문장) 중에 특정 감정을 표현하는 단어가 선택되면 이는 언어정보 획득부(33)로 전달되고, 언어정보 획득부(33)는 해당 단어로부터 감정을 표현하는 언어적인 특징정보, 즉 문장이 나타내는 감정을 결정하여 그 결과를 감정 인식부(40)로 전달한다.

감정 인식부(40)는 음성신호 검출부(10)에서 전달된 에너지, 피치, 발성속도 정보와 언어정보 검출부(30)에서 전달된 언어정보 간의 상관성을 고려하여 현재 사용자의 감정이 어떤 상태인지를 판정하고, 판정된 결과, 즉 인식 결과를 출력한다.

여기서, 음향학적인 특징정보와 언어적인 특징정보를 어떻게 상호 고려할 것인지와 그 인식 결과를 출력하는 방법의 예는 앞서 도1을 참조하여 설명한 바와 같다. 그리고, 문장이 나타내는 감정을 결정하는 방법으로는 패턴 인식기를 사용할 수 있는데, 예를 들면 'Nearest Neighborhood' 방법을 사용할 수 있다. 이 방법은 상기 특징정보들에 근거하여 그 특징정보들이 감정 결정의 지표(기준) 근방에 위치할수록 해당 감정으로 판정할 근거가 더욱 명백해 진다는 것으로 이해하면 무방하다.

도3은 지금까지 설명한 음성 기반 감정 인식 시스템의 수순을 보여준다. 시스템에 음성신호가 입력된다(S10). 입력된 음성신호에 대해서 음성신호의 특징정보를 추출한다(S20). 추출된 특징정보에 근거하여 해당 음성이 어떤 것인지를 인식한다(S30). 인식된 결과로부터 언어정보를 추출한다(S40). 추출된 음성 특징정보와 언어정보로부터 감정을 인식한다(S50). 감정을 인식하는 것은, 음향학적인 특징정보와 언어적인 특징정보의 상관성을 고려하여 결정할 수 있는데, 얼마나 빠른 속도로 얼마나 높은 피치로, 또 얼마나 큰 소리로 말하는가를 각각의 특징정보로부터 판단하고, 감정을 표현하는 것으로 간주될 수 있는 단어를 몇 번이나 구사하는지의 여부와 함께 그 단어를 구사하는 시간 기간 동안의 상기 음향학적인 특징정보는 어떠한지 등을 고려함으로써 이루어질 수 있다. 다음에는 이와 같이 인식된 결과를 출력한다(S60). 인식 결과의 출력 방법은 텍스트, 코드값, 소리, 이미지 등 매우 다양한 방법을 적절하게 사용할 수 있으며, 이는 당해 기술분야에서 용이하게 선택 가능한 범주에 있다.

본 발명은 음성에서의 감정 인식에 있어 음성 정보와 언어 정보를 함께 이용 함으로써 음성을 기반으로 감정을 인식하는 성능의 향상을 기 할 수 있다.

또한, 본 발명은 HCI(Human-Computer Interaction) 분야에 적용하여 사용자와 컴퓨터 사이의 의사 소통을 좀 더 자연스럽게 할 수 있다.

Claims

입력된 음성신호에서 음향학적인 특징정보를 추출하는 단계; 상기 추출된 특징정보로부터 음성을 인식하는 단계; 상기 음성 인식 결과로부터 언어정보를 추출하는 단계; 상기 추출된 음향학적 특징정보와 언어정보를 기반으로 감정 상태를 인식하는 단계; 를 포함하여 이루어지는 것을 특징으로 하는 음성 기반 감정 인식방법.
제 1 항에 있어서, 상기 인식된 음성에서 감정을 표현하는 단어를 선택하여 해당 감정에 대한 언어 정보를 추출하는 것을 특징으로 하는 음성 기반 감정 인식방법.
제 1 항에 있어서, 상기 감정 인식에 사용될 음성 특징정보는 입력 음성신호의 에너지, 피치, 발성 속도 중의 적어도 어느 하나 이상인 것을 특징으로 하는 음성 기반 감정 인식방법.
제 1 항에 있어서, 상기 감정 인식에 사용될 언어적인 특징정보는 선택되는 단어와 해당 감정 사이의 상관도에 근거하여 획득하는 것을 특징으로 하는 음성 기반 감정 인식방법.
제 1 항에 있어서, 상기 감정 인식에 사용될 음성 특징정보는 입력 음성신호의 에너지, 피치, 발성 속도 중의 적어도 어느 하나 이상에 대하여 각각 가중치를 부여하여 인식에 사용되는 것을 특징으로 하는 음성 기반 감정 인식방법.
입력된 음성신호에서 감정 상태를 반영하는 음향학적인 특징정보를 추출하는 특징정보 추출부; 입력된 음성신호를 인식하는 음성 인식부; 상기 음성 인식 결과로부터 감정 상태를 반영하는 언어정보를 추출하는 언어정보 추출부; 상기 추출된 음향학적 특징정보와 언어정보의 상관성을 토대로 감정 상태를 인식하는 감정 인식부; 를 포함하여 이루어지는 것을 특징으로 하는 음성 기반 감정 인식 장치.
제 6 항에 있어서, 감정을 표현하는 단어 정보를 제공하기 위한 단어 사전부를 더 포함하고, 상기 언어정보 추출부는 상기 인식된 음성으로부터 상기 단어 사전부를 참조하여 감정을 표현하는 언어정보를 획득하는 것을 특징으로 하는 음성 기반 감정 인식 장치.
제 6 항에 있어서, 상기 음향학적인 특징정보는 입력된 음성신호의 에너지, 피치, 발성 속도 중의 적어도 어느 하나 이상인 것을 특징으로 하는 음성 기반 감정 인식장치.
제 6 항에 있어서, 상기 인식된 음성 문장 내에 감정을 표현하는 단어들이 복수 개인 경우 각 단어들과 해당 감정 간의 상관도를 가산하여 해당 언어정보를 획득하는 것을 특징으로 하는 음성 기반 감정 인식장치.
제 6 항에 있어서, 상기 음향학적인 특징정보와 언어적인 특징정보 각각에 대하여 가중치를 부여하여 감정 인식에 사용하는 것을 특징으로 하는 음성 기반 감정 인식장치.