KR101221188B1

KR101221188B1 - 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체

Info

Publication number: KR101221188B1
Application number: KR1020110039199A
Authority: KR
Inventors: 박종철; 이호준
Original assignee: 한국과학기술원
Priority date: 2011-04-26
Filing date: 2011-04-26
Publication date: 2013-01-10
Also published as: KR20120121298A

Abstract

인간과 상호작용하는 보조 로봇에서 출력할 감정 음성을 개인 운율 모델에 기반하여 합성하기 위한 방법 및 이러한 보조 로봇이 개시된다. 본 발명에 따른 방법은, 개인별 음성을 분석하여 개인별 감정 운율 구조(personal emotional prosody structure)의 특성을 추출하는 감정 운율 구조 특성 추출하고, 추출된 개인별 감정 운율 구조를 감정 음성 데이터베이스에 저장하는 단계, 보조 로봇의 주위 환경에 대한 상황 정보를 수신하고, 수신된 상황 정보에 따라 입력 텍스트를 결정하며, 결정된 입력 텍스트의 문장 타입을 식별하는 단계, 입력 텍스트 및 목표 감정을 수신하는 수신 단계, 감정 음성 데이터베이스로부터 음성을 합성할 발화자(speaker)에 상응하는 개인별 감정 운율 구조를 검색하는 단계, 및 입력 텍스트를 무감정 음성(emotionless speech)으로 변환하고, 변환된 무감정 음성을 목표 감정에 상응하는 개인별 감정 운율 구조에 기반하여 수정함으로써 발화자에 상응하는 감정 음성을 생성하며, 생성된 감정 음성의 문장 어미(sentence final syllable)를 식별된 문장 타입에 따라서 수정하여 출력하는 감정 음성 합성 단계를 포함한다. 본 발명에 의하여 사용자와 보조 로봇 사이의 상호 작용의 품질을 향상시킬 수 있다.

Description

감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체{Assistive robot with emotional speech synthesizing function, method of synthesizing emotional speech for the assistive robot, and recording medium}

본 발명은 인간과 상호 작용하는 보조 로봇(assistive robot)에서, 상황에 따른 감정 음성을 합성하기 위한 기술에 관한 것이며, 특히, 출력되는 음성의 문장 타입에 따라서 감정 음성의 어미를 수정하여 인간과 로봇 간의 상호 작용의 효과를 향상시키기 위한 감정 음성 합성 방법 및 보조 로봇에 관한 것이다.

대화(speech)는 인간-인간의 상호작용 동안 생각을 표현하기 위해 가장 기초적이고 널리 사용되고 있는 통신 방식이다. 또한, 인간과 기계 사이의 사용자 친화적 인터페이스로서도 연구된다. 예를 들면, 보조 로봇은 정보를 제공하기 위해 날씨, TV 프로그램과 약물 투여 스케줄과 같은 일일 활동에 대하여 음성을 이용한다.

특히, 부모의 사회 활동 시간이 늘어나면서 동시에 아이들이 혼자 집에서 보내는 시간도 늘어나고 있다. 따라서 아이들의 자립심을 크게 제한하지 않으면서 노출되기 쉬운 실내 위험으로부터 아이들을 보호하고 아이의 심리, 감정적 상태에 따라 적절한 지도를 해주는 도움이 필요하다. 로봇 기술의 진보는 여러 가지 방법으로 실생활에서 사람들을 돕는 것을 가능하게 한다. 예를 들면, 바닥을 청소하는 로봇은 청소하는 동안에 장애물을 자동적으로 극복할 수 있다. 그럼에도 불구하고, 현재의 연구 중 대다수는 장애인 및 노인들을 돌보는 것에 집중하고 있다.

예를 들어, 장애자가 공장 환경에서 근무하는 것을 돕는 기술된 이동식 보조 로봇(Kang et al, 2008)은 장애인의 상체 및 하체 장애를 극복하도록 이용된다. 하지만, 이 로봇은 주로 하지 및 상지 장애를 극복하기 위해 사용되었다. 그들이 신체의 움직임만을 돕는 것에 제한되었기 때문에 이 로봇 시스템은 인간의 로봇 상호작용에 시각적인 음성 인터페이스를 필요로 하지 않았다. 또한 노인의 일일 활동, 예컨대 일기 예보, TV 프로그램과 약물 투여 스케줄에 관한 정보를 제공하여 돕는 발달한 이동식 로봇((Roy et al, 2000 및 Pineau et al, 2003)도 제공되었는데, 이 로봇도 개인화된 음성 운율을 이용하지는 못한다.

그런데, 음성 합성에 있어서의 최신 기술은 매우 높은 인식률로 인공 음성을 합성한다. 특히, 단위 선택 알고리즘(unit-selection algorithm)을 사용하는 문자 음성 변환(TTS) 시스템의 출력은 실제 인간의 음성과 거의 동일하게 간주되기도 한다. 운율 구조에는 발화 기간(duration), 음량(loudness), 및 기본적인 주파수 변화 등이 포함되며, 음질이란 발화원의 세부 사항을 나타낸다. 비록 합성 결과가 각각의 단위 선택 음성 데이터베이스에 따라 상이한 운율 구조와 음성 품질을 나타내긴 하지만, 일반용 TTS 시스템은 주어진 문장을 위해 거의 같은 품질의 음성 결과를 제공한다. 만일 동일한 음성 데이터베이스와 문장이 선택된다면, 발화자의 감정 상태와 같은 문맥상의 정보에 관계없이 동일한 합성 결과를 가져올 것이다. 하지만, 합성된 음성의 품질과 억양의 자연스러움(naturalness)은 여전히 중요한 극복 과제로 남아 있다. 음질과 자연스러움의 개선에 대한 요구와 더불어, 자연스러우면서 효과적인 방식으로 필요한 정보를 제공하기 위한 음성 합성 기술이 필요하다. 이러한 목적을 달성하기 위해, 우선 여러 가지 타입의 감정적인 표현이 일반적으로 상응하는 데이터셋으로 변환되고, 그 결과가 각 타입의 감정 음성의 모델링을 위해 사용된다. 이런 종류의 방대한 데이터셋 분석 기술은 서비스를 제공하는 정보의 성능을 양적 및 질적으로 향상시켰다.

즉, 일반용 음성 합성 시스템의 음질을 개선할 필요성과 함께, 감정 구어 표현을 자연스러우면서도 효과적인 방식으로 이루어내기 위한 여러 가지 연구가 수행되는데, 이들 중 몇 가지는 분 명세서에 참조되어 통합되는 참조 문헌들(Huang et al., 2001; Jurafsky and Martin, 2000; Tatham and Morton, 2005, Cowie et al., 2001; Gobl and Chasaide, 2003; Johnstone and Scherer, 1999; Tatham and Morton, 2004)에 소개된 바와 같다. 그런데, 이러한 기술들의 평균 인식 비율은 감정 효과를 이용하여 합성된 중립(neutral) 텍스트에 대해서 단지 27.1%에 불과하다. 이러한 연구에서는 목표 감정에 상응하는 한 개의 데이터베이스를 사용하고, 감정에 특유한 선택 기준으로서 음성 품질과 운율에 관한 파라미터를 사용했다. 또한, 최근에는 이상의 연구 내용에 추가하여 감정 변화에 따른 억양 정보까지 표현하여 좀 더 자연스러운 음성 합성 결과를 만드는 방법에 대한 연구가 활발히 진행되고 있다. 억양 정보 중에서도 특히 음의 높낮이 변화가 감정 상태를 표현하는데 가장 큰 영향을 미치는 것으로 알려져 있다. 그러나 이러한 음의 높낮이 변화는 발화자의 발화 특성이나 습관 등에 의해 많은 영향을 받고 음의 높낮이 변화가 일반적인 발화문에서는 잘 나타나지 않는 등의 문제점 때문에 세부적인 문장 요소의 음의 높낮이 변화에 대한 연구보다는 문장 단위의 처리에 대한 연구가 주로 진행되고 있다.

그러나, 감정 음성 합성과 같이 개인 경험에 의거하는 상호 작용에서는 이러한 해결책이 적합하지 않다. 방대한 연구의 결과, 개개의 발화자가 감정을 표현하는 그들 자신의 방법은 그들의 개인 경험에 기초한다는 것과 방대한 데이터셋은 이러한 개개인의 경험과는 상대적으로 많은 차이점을 가진다는 것이 알려졌다. 즉, 이러한 방식은 감정 음성 합성과 같이 개인적 경험에 기반한 상호작용과는 양호하게 동작하지 않는다. 실험적으로, 개별 화자들은 개인적 경험에 기반한 다양한 방식의 감정 표현 방식을 가지고 있다. 또한, 방대한 데이터셋 관리를 통해서도 이러한 개인화되고 상대적인 차이점은 간과하기 쉽다.

즉, 종래 기술에 의한 감정 음성 합성 기술은 다음과 같은 한계를 가진다.

첫째로, 감정은 매우 섬세하고 개인적인 정신 상태이기 때문에, 이러한 감정을 획일적으로 범주화하는 것은 가능하지 않다. 그러나, 종래 기술에 의하면 "기본" 감정이라는 개념을 채택하고, 다른 감정을 나타내기 위하여 이러한 기본 감정을 변경시키거나 이들을 혼합한다. 그러나, 기본 감정을 구성하는 것이 무엇인지에 대해서는 의견 일치가 이루어지지 않고 있으며, 각 연구마다 서로 다른 개수의 기본 감정을 도입하고 있는 등, 이러한 접근법은 적절하지 못하다.

종래 기술의 두 번째 문제는, 운율, 음질과 원본 텍스트의 정보 수정을 위한 다양한 감정 음성 합성 기법이 존재한다는 점이다(이에 대해서는 참조 문헌들(Baenziger and Scherer, 2005; Cowie et al., 2001; Mozziconacci, 2002; Oudeyer, 2003; Scherer, 1986; Schroeder, 2001; Tatham and Morton, 2004; Murray and Arnott, 2008)을 참조한다. 그러나, 종래 기술에 따르면 각각의 감정을 구별하기 위한 음질 및 텍스트 정보의 명확한 가이드라인을 설정하는 것은 매우 어렵다. 또한, 강도(intensity)와 휴지 길이(pause length)보다 피치(pitch)와 발화 속도(speech rate)의 감정 운율 구조가 개개의 발화자(즉 개인 정보)에게 더 많이 의존하는 속성을 가진다. 그리고, 이러한 개인 정보는 각 감정 운율 구조(즉 개인 운율 모델)의 상대적 차이점을 모델링할 수 있도록 허용하는데, 이것은 종래의 방대한 데이터셋 분석 기술에서는 불가능한 것이었다.

그러므로, 발화자들의 개성 및 상대적인 차이점를 고려하여 감정 운율 구조(emotional prosody structure)를 구현하는 것은 물론, 보조 로봇에서 출력할 메시지의 문장 타입에 따라서 감정 음성의 어미를 수정하기 위한 보조 로봇용 감정 음성 합성 방법이 절실히 요구된다.

또한, 보조 로봇 주위의 환경 정보에 따라서 바람직한 메시지를 다양한 감정 음성으로써 출력함으로써, 로봇과 사람 간의 상호 작용 효과를 현저히 향상시킬 수 있는 보조 로봇이 절실히 요구된다.

본 발명의 목적은 상황 정보에 따라서 감정 음성을 합성하고, 합성된 감정 음성을 문장 타입에 따라서 수정함으로써 인간과 보조 로봇 간의 상호 작용을 향상시킬 수 있는 보조 로봇을 제공하는 것이다.

상기와 같은 목적들을 달성하기 위한 본 발명의 일면은, 인간과 상호작용하는 보조 로봇(assistive robot)에서 출력할 감정 음성을 개인 운율 모델에 기반하여 합성하기 위한 방법에 관한 것이다. 본 발명에 따른 방법은, 개인별 음성을 분석하여 개인별 감정 운율 구조(personal emotional prosody structure)의 특성을 추출하는 감정 운율 구조 특성 추출하고, 추출된 개인별 감정 운율 구조를 감정 음성 데이터베이스에 저장하는 단계, 보조 로봇의 주위 환경에 대한 상황 정보를 수신하고, 수신된 상황 정보에 따라 입력 텍스트를 결정하며, 결정된 입력 텍스트의 문장 타입을 식별하는 단계, 입력 텍스트 및 목표 감정을 수신하는 수신 단계, 감정 음성 데이터베이스로부터 음성을 합성할 발화자(speaker)에 상응하는 개인별 감정 운율 구조를 검색하는 단계, 및 입력 텍스트를 무감정 음성(emotionless speech)으로 변환하고, 변환된 무감정 음성을 목표 감정에 상응하는 개인별 감정 운율 구조에 기반하여 수정함으로써 발화자에 상응하는 감정 음성을 생성하며, 생성된 감정 음성의 문장 어미(sentence final syllable)를 식별된 문장 타입에 따라서 수정하여 출력하는 감정 음성 합성 단계를 포함한다. 특히, 감정 운율 구조 특성 추출 단계는, 발화자의 기본 감정(basic emotion)에 따른 음성 정보를 포함하는 데이터셋으로부터 일반 감정 운율 구조를 추출하는 일반 감정 운율 구조 추출 단계, 및 각 발화자의 개인별 감정 운율 구조를 일반 감정 운율 구조와 비교하여 개인별 감정 운율 구조의 상대적 차분치를 파라미터화하는 개인별 감정 운율 구조 추출 단계를 포함한다. 또한, 개인별 감정 운율 구조 추출 단계는, 발화자의 각각의 감정에 따른 음성의 전체 피치(overall pitch), 강도(intensity), 및 발화 속도(speech rate)를 파라미터로서 문장 레벨에서 분석하는 문장 레벨 감정 운율 구조 분석 단계, 발화자의 각각의 감정에 따른 음성에 포함되는 억양구(intonation phrase, IP)들 간의 휴지 길이(pause length)를 파라미터로서 억양구 레벨에서 분석하는 억양구 레벨 감정 운율 구조 분석 단계, 및 발화자의 각각의 감정에 따른 음성에 포함되는 억양구들 각각의 억양구 경계 패턴(IP boundary pattern)을 파라미터로서 음절 레벨에서 분석하는 음절 레벨 감정 운율 구조 분석 단계를 포함한다. 더 나아가, 문장 레벨 감정 운율 구조 분석 단계는, 감정별 음성의 피치값의 사분위간 평균(interquartile mean, IQM)을 연산하는 단계, 감정별 음성의 강도 중 소정값 이상의 강도를 선택하는 단계, 감정별 음성의 전체 발화 길이로부터 발화 속도를 연산하는 단계, 피치값, 강도 및 발화 속도를 정규화하여 문장별 불일치(disparity) 및 발화자별 불일치를 제거하는 단계, 및 정규화된 결과를 이용하여, 중립의 감정 상태에 상응하는 개인별 감정 운율 구조를 표준으로 하여 감정별 개인별 감정 운율의 파라미터들의 차이를 연산하고, 연산 결과를 이용하여 개인별 감정 운율 구조를 구성하는 단계를 포함한다. 특히, 억양구 레벨 감정 운율 구조 분석 단계는, 감정별 음성의 억양구 간 휴지 영역(pause region)을 검출하는 단계, 및 휴지 영역들의 전체 길이를 합산하여 전체 휴지 길이를 연산하는 단계를 포함하고, 음절 레벨 감정 운율 구조 분석 단계는, 음성의 억양구 경계 패턴을 L%, H%, LH%, HL%, LHL%, HLH%, HLHL%, LHLH% 및 LHLHL% 중 하나에 상응하는 피치 컨투어(pitch contour)로서 분석하는 단계를 포함한다. 또한, 감정 음성 합성 단계는 TTS(Text-to-Speech) 시스템을 이용하여 입력 텍스트를 무감정 음성으로 변환하는 단계, 감정 음성 데이터베이스로부터 발화자의 목표 감정에 상응하는 감정 운율 구조를 검색하는 단계, 검색된 감정 운율 구조의 파라미터들을 이용하여 무감정 음성을 수정함으로써 감정 음성을 생성하는 음성 수정 단계, 및 생성된 감정 음성의 어미를 문장 타입에 따라서 수정하는 어미 수정 단계를 포함하고, 음성 수정 단계는 개인별 감정 운율 구조로부터 목표 감정에 상응하는 피치 컨투어를 파라미터로서 추출하는 단계, 및 추출된 피치 컨투어를 이용하여 무감정 음성의 피치 컨투어를 수정하는 음절 레벨 수정 단계를 포함한다. 더 나아가, 음성 수정 단계는 개인별 감정 운율 구조로부터 목표 감정에 상응하는 휴지 길이를 파라미터로서 추출하는 단계, 및 추출된 휴지 길이를 이용하여 무감정 음성의 휴지 길이를 수정하는 억양구 레벨 수정 단계를 포함한다. 또한, 음성 수정 단계는 개인별 감정 운율 구조로부터 목표 감정에 상응하는 전체 피치, 전체 강도, 및 발화 속도를 파라미터로서 추출하는 단계, 및 추출된 전체 피치, 전체 강도, 및 발화 속도를 이용하여 무감정 음성의 전체 피치, 전체 강도, 및 발화 속도를 수정하는 문장 레벨 수정 단계를 포함하고, 어미 수정 단계는 감정 음성의 억양이 L%, LH%, LHL%, LHLH%, LHLHL%, H%, HL%, HLH% 및 HLHL% 중 하나가 되도록 수정하고, 수정된 억양에 따라서 감정 음성의 어미를 수정하는 단계를 포함한다.

상기와 같은 목적들을 달성하기 위한 본 발명의 다른 면은, 본 발명의 일면에 따른 방법을 구현하기 위한 컴퓨터에 의하여 실행될 수 있는 명령어들을 포함하는 컴퓨터 프로그램이 기록된 컴퓨터에 의하여 독출될 수 있는 기록 매체에 관한 것이다.

상기와 같은 목적들을 달성하기 위한 본 발명의 또다른 면은, 인간과 상호작용하며, 상황 정보에 따른 감정 음성을 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 보조 로봇에 관한 것이다. 본 발명에 따른 보조 로봇은 개인별 음성을 분석하여 개인별 감정 운율 구조의 특성을 추출하는 감정 운율 구조 특성 추출부, 추출된 개인별 감정 운율 구조를 저장하는 감정 음성 데이터베이스, 보조 로봇의 주위 환경에 대한 상황 정보를 수신하기 위한 상황 정보 수신부, 수신된 상황 정보에 따라 입력 텍스트를 결정하며, 결정된 입력 텍스트의 문장 타입을 식별하는 문장 타입 식별부, 및 입력 텍스트 및 목표 감정이 수신되면 입력 텍스트를 무감정 음성으로 변환하고, 감정 음성 데이터베이스로부터 음성을 합성할 발화자에 상응하는 개인별 감정 운율 구조를 검색하며, 변환된 무감정 음성을 목표 감정에 상응하는 개인별 감정 운율 구조에 기반하여 수정함으로써 발화자에 상응하는 감정 음성을 생성하고, 생성된 감정 음성의 문장 어미를 식별된 문장 타입에 따라서 수정하여 출력하는 감정 음성 합성부를 포함한다. 특히, 감정 운율 구조 특성 추출부는 발화자의 기본 감정에 따른 음성 정보를 포함하는 데이터셋으로부터 일반 감정 운율 구조를 추출하는 동작, 및 각 발화자의 개인별 감정 운율 구조를 일반 감정 운율 구조와 비교하여 개인별 감정 운율 구조의 상대적 차분치를 파라미터화하는 동작을 수행하도록 적응되고, 감정 운율 구조 특성 추출부는, 개인별 감정 운율 구조를 추출하기 위하여, 발화자의 각각의 감정에 따른 음성의 전체 피치, 강도, 및 발화 속도를 파라미터로서 문장 레벨에서 분석하는 문장 레벨 감정 운율 구조 분석 동작, 발화자의 각각의 감정에 따른 음성에 포함되는 억양구(IP)들 간의 휴지 길이를 파라미터로서 억양구 레벨에서 분석하는 억양구 레벨 감정 운율 구조 분석 동작, 및 발화자의 각각의 감정에 따른 음성에 포함되는 억양구들 각각의 억양구 경계 패턴을 파라미터로서 음절 레벨에서 분석하는 음절 레벨 감정 운율 구조 분석 동작을 수행하도록 적응된다. 특히, 감정 운율 구조 특성 추출부는, 문장 레벨 감정 운율 구조를 분석하기 위하여, 감정별 음성의 피치값의 사분위간 평균(IQM)을 연산하는 동작, 감정별 음성의 강도 중 소정값 이상의 강도를 선택하는 동작, 감정별 음성의 전체 발화 길이로부터 발화 속도를 연산하는 동작, 피치값, 강도 및 발화 속도를 정규화하여 문장별 불일치 및 발화자별 불일치를 제거하는 동작, 및 정규화된 결과를 이용하여, 중립의 감정 상태에 상응하는 개인별 감정 운율 구조를 표준으로 하여 감정별 개인별 감정 운율의 파라미터들의 차이를 연산하고, 연산 결과를 이용하여 개인별 감정 운율 구조를 구성하는 동작을 수행하도록 적응된다. 더 나아가, 감정 운율 구조 특성 추출부는, 억양구 레벨 감정 운율 구조를 분석하기 위하여, 감정별 음성의 억양구 간 휴지 영역을 검출하는 동작, 및 휴지 영역들의 전체 길이를 합산하여 전체 휴지 길이를 연산하는 동작을 수행하도록 적응되고, 감정 운율 구조 특성 추출부는, 음절 레벨 감정 운율 구조를 분석하기 위하여, 음성의 억양구 경계 패턴을 L%, H%, LH%, HL%, LHL%, HLH%, HLHL%, LHLH% 및 LHLHL% 중 하나에 상응하는 피치 컨투어로서 분석하는 동작을 수행하도록 적응된다. 특히, 감정 음성 합성부는 TTS 시스템을 이용하여 입력 텍스트를 무감정 음성으로 변환하는 동작, 감정 음성 데이터베이스로부터 발화자의 목표 감정에 상응하는 감정 운율 구조를 검색하는 동작, 및 검색된 감정 운율 구조의 파라미터들을 이용하여 무감정 음성을 수정함으로써 감정 음성을 생성하는 음성 수정 동작, 및 생성된 감정 음성의 어미를 문장 타입에 따라서 수정하는 어미 수정 동작을 수행하도록 적응된다. 또한, 감정 음성 합성부는, 음성 수정 동작을 수행하기 위하여, 개인별 감정 운율 구조로부터 목표 감정에 상응하는 피치 컨투어를 파라미터로서 추출하는 동작, 및 추출된 피치 컨투어를 이용하여 무감정 음성의 피치 컨투어를 수정하는 음절 레벨 수정 동작을 수행하도록 적응되고, 음성 수정 동작을 수행하기 위하여, 개인별 감정 운율 구조로부터 목표 감정에 상응하는 휴지 길이를 파라미터로서 추출하는 동작, 및 추출된 휴지 길이를 이용하여 무감정 음성의 휴지 길이를 수정하는 억양구 레벨 수정 동작을 수행하도록 적응된다. 더 나아가, 감정 음성 합성부는, 음성 수정 동작을 수행하기 위하여, 개인별 감정 운율 구조로부터 목표 감정에 상응하는 전체 피치, 전체 강도, 및 발화 속도를 파라미터로서 추출하는 동작, 및 추출된 전체 피치, 전체 강도, 및 발화 속도를 이용하여 무감정 음성의 전체 피치, 전체 강도, 및 발화 속도를 수정하는 문장 레벨 수정 동작을 수행하도록 적응되고, 어미 수정 동작을 수행하기 위하여, 감정 음성의 억양이 L%, LH%, LHL%, LHLH%, LHLHL%, H%, HL%, HLH% 및 HLHL% 중 하나가 되도록 수정하고, 수정된 억양에 따라서 감정 음성의 어미를 수정하는 동작을 수행하도록 적응된다.

본 발명에 의하여, 개인 운율 모델에 기반하여, 감정 정보를 발화 표현에 추가할 수 있는 것은 물론, 출력되는 음성의 문장 타입에 따라 어미도 수정할 수 있다.

도 1은 본 발명의 일면에 의한 보조 로봇용 감정 음성 합성 방법을 개념적으로 나타내는 흐름도이다.
도 2 및 도 3은 각 발화자에 대한 평균 피치값 및 평균 강도값을 각각 나타내는 그래프들이다.
도 4는 개인 정보를 고려한 각 감정 상태의 평균 피치값을 나타내는 그래프이다.
도 5는 개인 정보를 고려한 각 감정의 강도값을 나타내는 그래프이다.
도 6은 각 감정에 대한 발화 속도를 나타내는 그래프이다.
도 7은 각 감정에 대한 정규화된 휴지 길이를 도시하는 그래프이다.
도 8은 본 발명의 다른 면에 의한 감정 음성 합성 기능을 가지는 보조 로봇을 개념적으로 나타내는 블록도이다.
도 9는 원본 운율 구조 및 감정 합성 결과를 나타내는 그래프이다.
도 10은 문장 타입에 따라서 오직 어미에만 집중하여 수행한 수정된 운율 구조의 예를 도시한다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “...기”, “모듈”, “블록” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일면에 의한 보조 로봇용 감정 음성 합성 방법을 개념적으로 나타내는 흐름도이다.

우선, 본 발명에 의한 보조 로봇은 uSPACE(Ubiquitous Smart Parenting and Customized Education)을 위해 이용될 수 있다. 이러한 보조 로봇은 RFID와 같은 무선 통신 기술을 기반으로 아이들을 물리적 위험으로부터 보호하고 자연 언어처리 기술을 이용하여 아이의 심리, 감정 상태에 따른 음악과 애니메이션의 멀티미디어 콘텐츠를 제공할 수 있다. 또한 지속적인 지도가 필요한 일정 관리, 일상 생활에서 도움을 주는 전자제품 사용법 안내 등의 정보를 제공하여 아이 스스로 자신의 일을 할 수 있도록 도움을 준다. 본 발명에 따른 보조 로봇은 가상의 가정에서 발생될 수 있는 각종 사고를 막기 위하여 적용될 수도 있다.

우선, 본 발명에 의한 감정 음성 합성 방법을 구현하기 위해서는 개인별 감정 운율 구조의 특성을 추출하고, 결정된 개인별 감정 운율 구조를 감정 음성 데이터베이스에 저장해야 한다(S110). 이 과정에 대해서는 명세서의 해당 부분에서 상세히 후술된다.

보조 로봇과 인간의 상호 작용의 품질을 향상시키기 위해서는 개인화된 메시지(customized message)를 생성하는 것이 필수적이다. 또한, 사용자 적응된 인터페이스를 이용할 경우 보조 로봇과 인간의 및 의사 소통 품질도 향상시킬 수 있다. 그런데, 개인화된 메시지를 효율적으로 전달하기 위하여, 사용자의 특성 및 그들의 행동 패턴을 고려해야 한다.

반복된 위험 행동에 의한 다양한 음성을 분석한 결과, 예를 들어, 철수야, 콘센트는 전기가 흐르기 때문에 그 곳에 물건을 집어 넣으면 아주 위험해요.“와 같이 서술형 문장이, 반복된 행동 패턴에 따라서, ”철수는 선생님과 약속한 거 잊어버렸어요? 자~ 친구들과 다 같이 약속하자!“와 같은 청유형 문장으로, 그리고, 다시 반복되면 ”철수야! 왜 자꾸 말을 안듣니? 선생님은 철수가 다칠까 봐 걱정이 돼서 그러는 거야!! 철수야 위험하니까 거기서 놀지 마세요!“와 같은 명령형 문장으로 변화된다는 것을 알 수 있다.

반복 행동을 식별하기 위하여, 소정 시간 동안의 행동 반복 패턴을 분석하는 것이 가능하다. 예를 들어, 5세 유아의 주의 집중력은 15-25분으로 알려진다. 따라서, 이러한 시간 이내의 행동은 반복된 행동으로 식별하여 청유형 및 명령형 문장을 출력할 수 있다. 반복 검출 센서로는 사용자 및 사용자의 현재 위치를 식별하기 위한 RFID 센서 또는, 행동을 식별하기 위한 터치센서 또는 포스 센서(force sensor)가 이용될 수 있다.

또한, 이러한 행동 패턴은 ‘상황 정보(context information)'로서 지도 메시지(guiding message)를 생성하는데 이용될 수 있다. ’상황 정보‘란 유비쿼터스 시스템에서 널리 이용되는 개념으로, 다양한 센서들의 센서 출력을 조합하여 유추해낸 구체적인 현재 상태에 대한 정보를 의미한다. 유비쿼터스 시스템 및 상황 정보에 대해서는 종래 기술이므로 명세서의 간략화를 위하여 더 이상의 상세한 설명이 생략된다.

이와 같이 상황 정보를 고려하여 지도 메시지가 결정되면, 사용자의 이름, 위치, 문장 타입, 감정 등을 고려하여 문장을 합성하고, 해당 문장의 타입을 식별한다(S120).

본 발명에서 이용하는 한국어 감정 운율 합성 시스템은 문장 타입과 감정 상태에 따라 운율 구조를 수정한다. 본 발명에서는 감정 운율 구조를 각 발화자를 위해 구성된 상대적인 운율 차이로 간주하고, 개인별로 이 차이를 파라미터화하여 모델링한다. 문장 타입을 식별하기 위하여, 본 발명에서는 우리는 주어진 문장 내에서 나타나는 형태 정보 및 구문 정보의 조합을 사용한다. 본 발명에 의한 감정 운율 통합 시스템은 일반 TTS 시스템의 후처리 모듈로 이용될 수 있다.

문장 타입 및 운율 구조( sentenct type and prosody structure )

채택된 문장 타입은 문장의 구문 정보 뿐만 아니라, 어떤 주제에 대한 발화자의 감정 및 태도에 대한 정보도 나타낸다. 한국어에서, 문장은 어미(final ending) 및 구두점에 따라서 5개의 문장 타입(서술형, 명령형, 청유형, 의문형, 감탄형)로 나뉜다. 표 1에 나타난 바와 같이, 동일한 어미 “-어” 및 “-어요”가 몇 가지 문장 타입에서 동일하게 나타나기 때문에 어미와 구두점만 고려해서는 문장 타입을 식별하기가 어렵다.

문장 타입은 사용자의 반복 패턴 등의 상황 정보를 이용하여 결정될 수 있음은 전술된 바와 같다. 또한, 문장 타입은 차종 어미(prefinal endings), 부정문 여부, 술어의 타입, 주어, 부사, 호격 단어, 및 조동사와 같은 요소들을 판단함으로써 결정될 수도 있다. 특히, 차종 어미, 부정문 여부 판단 및 술어의 타입은 문장 타입을 결정하기 위한 1차 단서로 이용되고, 주어, 부사, 호격 단어, 조동사들은 2차 단서로 이용될 수도 있다. 다음 표 1은 한국어의 문장 타입 및 어미 간의 관계를 나타낸다.

각 문장 타입(Chung and Park, 2009)에 대한 형태론 및 구문론적 단서를 언어학적으로 분석한 것에 기반하여, 본 발명은 자동적으로 문장 타입을 식별하는 시스템을 제공한다. 본 발명에 의한 시스템은 우선 문장을 수신하고 1차 단서가 존재하는지 판단한다. 1차 단서에 의하여 문장 타입이 결정되지 않는 경우에만 2차 단서들을 고려한다. 문장 타입을 결정하는 것에 성공하면, 시스템은 출력으로 문장 타입을 반환한다. 본 발명에 의한 시스템은 KAIST 형태 분석기(http://morph.kaist.ac.kr/)를 사용했으며, 이 시스템은 파이손(Python)에서 구현되었으나, 이는 본 발명을 한정하는 것으로 이해되어서는 안된다.

문장 타입 식별 시스템의 결과를 검사하기 위하여, 어미 ‘-어’ 또는 ‘-어요’를 가지는 문장을 고려한다. 이 목적을 위해, 1000개의 문장을 한국어 TV 드라마에서 수집하였으며, 각 문장 타입별 분포가 다음 표 2에 나타난다.

또한, 표 3은 데이터셋에서의 평가 결과를 나타낸다.

설명 문장은 내려가는 억양을 주로 가지는 반면에, 의문형 문장은 올라가는 억양을 가진다. 도 25에 제시된 것처럼, 한국어의 명령형 및 감탄형 문장은 복잡한 억양 컨투어를 가진다. 한국어에서는 적어도 9개의 뚜렷한 억양 타입이 식별되는데, 이들은 L%, LH%, LHL%, LHLH%, LHLHL%, H%, HL%, HLH% 및 HLHL%이다. 여기서, L과 H는 낮고(L) 높은(H) 피치값을 나타내고, %는 억양구 경계를 나타낸다. 종래의 연구(Jun(2000))를 참조하면, 다음 표 33에서와 같이 한국어의 각 억양구의 역할을 알 수 있다.

한국어의 뚜렷한 억양 타입 9개를 정리하면 다음과 같다.

- L%(설명문)사실을 진술하며, 가장 흔함.

- H%(의문문)yes/no 질문과 같이 정보를 구함.

- LH%(명령문) 질문 및 “불쾌하고 불편한” 감정을 표시

- HL%설명문 및 wh-의문문에서 공통

- LHL%(감탄문)‘주장하면서 설득력이 있고 긍정적인’이라는 의미, HL%의 강화된 의미

- HLH%발화자가 자신감이 있을 경우, 일반적으로 사용되지 않음.

- LHLH%LH%의 강화된 의미, 하지만 흔치 않음

- HLHL%HL%, LHL%의 강화된 의미

- LHLHL%LHL%의 강화된 의미이지만, 거의 사용되지 않음.

분석 결과를 고려하여, 본 발명에서는 각 문장 타입에 상이한 어미 톤(final tone)을 할당한다.

이와 같이 입력 텍스트 및 문장 타입이 결정되면(S130), TTS 시스템을 이용하여 입력 텍스트를 무감정 음성으로 변환한다(S140). 무감정 음성이란 일반적인 TTS 시스템의 출력 결과를 의미한다.

그러면, 감정 음성 데이터베이스에서 음성을 합성할 발화자의 목표 감정에 상응하는 개인별 감정 운율 구조를 검색하고(S150), 검색된 개인별 감정 운율 구조의 파라미터들을 이용하여 무감정 음성을 음절, 억양구, 및 문장 레벨에서 수정하여 감정 음성을 생성(S160). 감정 음성의 합성 방법에 대해서는 명세서의 해당 부분에서 상세히 후술된다.

그러면, 식별된 문장 타입에 따라 감정 음성의 억양 및 어미를 수정한다(S170).

보조 로봇의 음성 인터페이스를 위한 한국어 감정 음성 합성 시스템

출력 음성 인터페이스를 구현하는 데에는 문장 타입 및 개인 정보가 이용된다. 본 발명에 의한 시스템은 억양구 수준, 단어 수준, 및 음절 수준의 운율 수정을 구현한다. 이러한 타겟 영역은 TTS 시스템이 SAPI(Microsoft Speech API)를 지원한다면 자동으로 검출될 수 있다. 그렇지 않으면, 본 발명에 의한 시스템은 휴지기(pause)의 위치 정보에 기반하여 목표 영역의 시작점 및 종말점을 추정한다. 또한, 사용자는 직접 목표 영역을 선택할 수도 있다. 본 발명에 의한 시스템의 일 실시예에서, 모든 기능은 PRAAT 스크립트(Boersma and Weenink, 2001)에서 구현될 수 있다.

도 10은 문장 타입에 따라서 오직 어미에만 집중하여 수행한 수정된 운율 구조의 예를 도시한다.

도 10에서 윗쪽 선은 강도 컨투어(intensity contour)를 나타내고, 아랫쪽 선은 피치 컨투어를 나타낸다.

그 결과로 얻어지는 감정 음성을 보조 로봇이 출력한다(S180).

이와 같이, 본 발명에 의한 감정 음성 합성 시스템은 문장 타입과 감정 상태에 따라 주어진 문장의 운율 구조를 수정한다. 또한, 문장 타입의 식별에 대해, 본 발명에서는 주어진 문장 내에서 나타나는 형태상과 구문론의 정보의 조합을 사용한다. 그리고, 감정 운율 구조의 분석에 대해, 본 발명에서는 후술되는 개인화된 접근에 따른다.

본 발명에서 이용하는 로봇 공학 기술에서는 얼굴 표정, 신체 움직임과 음성을 통하여 로봇과 사용자 간의 상호작용을 구현하기 때문에, 그 효과가 탁월하다.

이하, 본 발명에 의한 보조 로봇용 감정 음성 합성 방법을 구체적으로 설명한다.

감정은 개인의 경험에 기반한 심리상태로, 최근 다양한 형태의 사람과 기계 사이의 상호작용이 급속히 증가하면서 상호작용에 기반한 여러 분야에 직간접적인 영향을 미치고 있다. 종래 기술에서는 감정의 종류를 범주화하여 해당 범주의 감정을 인식 및 표현하는 과정에서 보편성을 찾으려고 노력해 왔다. 물론, 종래 기술에 의한 접근법을 통해서도 정보기술 분야의 정보습득, 정보가공, 정보표현 등의 과정에서 어느 정도 성공적인 결과를 얻을 수 있고, 감정에 기반한 상호작용에서도 어느 정도 긍정적인 결과를 보여주고 있다.

그런데, 기쁨, 슬픔, 화남의 감정과 높은 연관성을 보이는 운율 구조를 분석하고, 그러나 이러한 분석결과를 기반으로 개발한 감정 음성 합성 시스템에서 일부 감정의 인식결과가 매우 좋지 않다는 것이 여러 차례의 실험을 통해서 확인되었다. 처음에는 이러한 문제를 운율구조에 기반한 감정 합성의 한계로 생각하였으나, 합성된 감정 음성과 실제 사람에 의해 발화된 감정 음성을 조합하여 실행한 인식 테스트에서도 실제 발화된 감정 음성이 좋지 않은 인식결과를 보이는 이유를 설명하기에는 어려움이 있었다.

감정은 개인의 경험에 기반한 심리상태이므로 감정의 인식 및 표현 역시 개인의 경험에 기반하여 이루어지게 된다. 따라서 개인의 특성이 충분히 반영되지 못한 채 보편성을 강조하게 되면 개별적이고 상대적인 형태의 정보는 분석 및 표현 과정에서 사라지게 된다. 그러므로, 본 발명에 의한 감정 음성 합성 방법은 감정을 개별적이고 상대적인 형태의 정보로 보고, 이러한 정보를 감정 음성 합성 시스템에서 표현하는 방법에 대해 논의한다.

이를 위해 기쁨, 슬픔, 화남, 분노의 감정에 따른 운율정보를 사용자 모델의 형태로 분석하여, 각 발화자가 가지는 특징적 감정 표현방식을 음의 높낮이 곡선, 음의 평균적 높낮이, 음의 평균적 세기, 음의 평균적 발화길이, 휴지의 평균적 발화길이의 변화로 살펴보고, 이러한 사용자 모델이 감정 음성합성 시스템의 합성결과에 미치는 영향을 살펴본다. 또한 감정음성 표현의 상대적인 특징을 분석하기 위해서 사용자 모델에 따른 감정 음성합성 결과를 평가할 때, 피실험자에게 합성된 감정음성 표현의 상대적인 특징을 인지할 수 있는 충분한 적응 기간을 주고 인식 결과의 변화를 살펴본다. 그 결과 사용자 모델을 적용한 감정 음성합성 결과의 인식 테스트에서는 이전 결과에 비해 상당한 인식률의 향상을 확인할 수 있었고, 감정음성 표현의 상대적인 특징을 고려한 인지 테스트에서는 거의 정확한 인식률을 확인할 수 있었다.

도 1의 특성 추출 단계(S110)에 대하여 설명한다. 본 발명에서는 여러 개의 기본 감정에 따른 개인별 음성을 분석하여 개인별 감정 운율 구조(personal emotional prosody structure)의 특성을 추출한다. 이 때, 감정 운율 구조 특성을 추출하기 위하여, 우선 발화자의 기본 감정(basic emotion)에 따른 음성 정보를 포함하는 데이터셋으로부터 일반 감정 운율 구조를 추출한다. 그러면, 음성을 음절, 억양구, 및 문장 별로 각각 분석하여 개인별 감정 운율 구조를 생성한다. 이 경우, 발화자의 각각의 감정에 따른 음성의 전체 피치(overall pitch), 강도(intensity), 및 발화 속도(speech rate)가 문장 레벨에서 분석되고, 발화자의 감정에 따른 음성에 포함되는 억양구(intonation phrase, IP)들 간의 휴지 길이(pause length)를 억양구 레벨에서 분석되며, 발화자의 감정에 따른 음성에 포함되는 억양구들 각각의 억양구 경계 패턴(IP boundary pattern)을 파라미터가 음절 레벨에서 분석된다. 문장, 억양구, 및 음절 레벨 파라미터들에 대해서는 명세서의 해당 부분에서 상세히 후술된다. 또한, 각 발화자의 개인별 감정 운율 구조를 일반 감정 운율 구조와 비교하고, 일반 감정 운율 구조에 대한 개인별 감정 운율 구조의 상대적 차분치를 해당 개인별 감정 운율 구조의 파라미터로서 결정한다. 그러면, 결정된 개인별 감정 운율 구조를 감정 음성 데이터베이스에 저장한다.

이렇게 개인별 감정 운율 구조가 모두 분석되고 저장되면, 외부로부터 입력 텍스트 및 목표 감정을 수신한다. 본 명세서에서 목표 감정이란 입력 텍스트를 음성으로 변환한 신호에 추가될 감정 정보를 의미한다.

그러면, TTS 시스템을 이용하여 입력 텍스트를 무감정 음성으로 변환한다. 본 명세서에서 무감정 음성(emotionless speech)란, 입력 텍스트를 동일한 변환 알고리즘을 이용하여 일괄적으로 변환한 결과를 의미한다. 이러한 무감정 음성은 감정 정보가 추가적으로 가미된 음성인 감정 음성과 구별된다.

그러면, 감정 음성 데이터베이스로부터 음성을 합성할 발화자의 목표 감정에 상응하는 개인별 감정 운율 구조를 검색한다. 그러면, 검색된 개인별 감정 운율 구조의 파라미터들을 이용하여 무감정 음성을 음절, 억양구, 및 문장 레벨에서 각각 수정함으로써 감정 음성을 생성한다. 특히, 무감정 음성으로부터 감정 음성을 생성하기 위하여, 개인별 감정 운율 구조로부터 목표 감정에 상응하는 피치 컨투어가 추출된다. 그러면, 추출된 피치 컨투어를 이용하여 무감정 음성의 피치 컨투어가 수정된다.

또한, 억양구 레벨 수정을 위해서는, 개인별 감정 운율 구조로부터 목표 감정에 상응하는 휴지 길이를 파라미터로서 추출한 뒤, 추출된 휴지 길이를 이용하여 무감정 음성의 휴지 길이가 수정된다. 뿐만 아니라, 문장 레벨 수정을 위하여, 개인별 감정 운율 구조로부터 목표 감정에 상응하는 전체 피치, 전체 강도, 및 발화 속도를 파라미터로서 추출한다. 그러면, 추출된 전체 피치, 전체 강도, 및 발화 속도를 이용하여 무감정 음성의 전체 피치, 전체 강도, 및 발화 속도를 수정할 수도 있다.

감정 음성 합성 단계에서 수행되는 음절, 억양구, 및 문장 레벨 음성 수정 동작에 대해서는 명세서의 해당 부분에서 상세히 후술한다.

그러면, 최종적으로 얻어진 감정 음성은 외부로 재생된다.

본 발명에 의한 감정 음성 합성 방법에서 음성을 합성하기 위하여 개인별 감정 운율 구조를 이용하는 이유는, 종래의 TTS 시스템을 통한 합성 결과의 인식률이 높지 않기 때문이다. 즉, 감정을 방대한 데이터셋 분석으로부터 얻어질 수 있는 보편적인 정보로 간주하면 결과가 양호하지 않다. 특히, 실제 인간의 음성 녹음을 이용해도 인식률은 단지 17.1%에 불과하다. 따라서, 이러한 낮은 인식 비율은 운율 수정의 한계에 기인한다는 결론을 얻었다. 따라서, 한국어 감정 음성 합성 시스템을 개발할 때 감정 정보를 분석하기 위한 가이드라인을 찾는데 있어서 보편적인 감정이 아니라 개인화된 정보를 고려할 필요가 있다.

이하, 본 발명을 더욱 상세히 설명한다.

개인 운율 모델을 이용한 한국 감정 음성 합성 기법

일상적인 대화 동안, 우리는 그 주된 의미에 따라서 특정의 단어 또는 구를 선택한다. 그러나 문맥과 그 발음에 따라, 주된 의미는 다른 방식으로 바뀔 수 있다. 예를 들면, 만일 단어가 분노의 감정 상태로 표현되면, 그 단어는 부정적인 감각을 전달할 것이다. 반대로, 만일 그 단어가 행복의 감정 상태로 표현되면, 그것은 반어적인 경우를 제외한다면 긍정적인 것으로 해석될 것이다.

본 발명에 의한 감정 음성 합성 방법은, 감정 운율 구조(emotional prosody structure)를 상이한 감정들 사이의 상대적 운율 차이라고 간주한다. 감정 운율 구조를 분석하기 위하여, 본 발명은 대한민국의 음성 정보 기술 및 산업 증진 센터(Speech Information Technology and Industry Promotion Center)에 의하여 배포되는 한국어 감정 음성 말뭉치를 사용한다. 하지만, 이는 본 발명을 한정하는 것으로 이해되어서는 안된다. 본 발명에서는 예시적으로 10개의 감정 중립 문장을 사용하며, 분노, 두려움, 행복, 슬픔과 중립과 같은 5 개의 기본 감정들을 선택한다.

문장 레벨 운율 구조 분석( Sentence Level Prosody Structure Analysis )

문장 레벨 운율 구조를 알아내기 위하여, 본 발명에서는 각 감정 상태에 대한 전체 피치, 강도, 및 발화 속도값을 분석한다. 우선, 추출된 피치값의 사분위간 평균(interquartile mean, IQM)이 계산된다. 그리고, 50 dB 이상의 강도가 선택되는데, 이것은 가청 범위의 최소 레벨이라고 알려진 값이다.

문장 레벨 운율 구조의 분석에 대한 각 발화자의 음성 스타일(개인전용의 정보)의 효과를 발견하기 위해, 중립의 감정 상태로 발화된 음성의 피치와 강도값에 대한 분산 분석(analysis of variance, ANOVA) 테스트가 수행된다.

도 2는 각 발화자에 대한 평균 피치값을 나타내는데, 여기서 F = 364.924, p = 0.000 < 0.05의 관계가 만족된다.

도 3은 각 발화자에 대한 평균 강도값을 나타내는데, 여기서 F = 16.338, p = 0.000의 < 0.05의 관계가 만족된다.

도 2 및 도 3에 도시된 것과 같은 ANOVA 테스트 결과로부터, 모든 귀무가설(null hypothesis, 歸無假說) 들은 버려지고, 성 정보 및 피치값 사이의 강한 상관성이 확인된다. 또한, 감정 피치와 강도 구조에 대한 각 값을 추출한 이후에, 내배하는 문장 의존적 불일치(sentence dependent disparities) 및 발화자 의존적 불일치들을 정정하기 위하여 정규화 프로세스가 수행된다. 본 발명에서는, 중립을 표준 상태로 간주하고, 이와 같은 표준 및 동일한 발화자에 의하여 발음된 동일한 문장으로부터 추출된 각 감정 운율 구조 간의 차이점을 연산한다.

피치 분석

개인 정보의 속성을 조사하기 위하여, 본 발명에서는 6명의 발화자에 따라서 240개의 문장을 분류하고, 상이한 감정에 대한 피치값의 차이에 집중하면서 일련의 ANOVA 테스트를 수행했다. 테스트 결과가 도 4에 도시된다.

도 4는 개인 정보를 고려한 각 감정 상태의 평균 피치값을 나타내는 그래프이다.

도 4를 참조하면, 우리는 각 감정 상태의 평균 피치값은 각 발화자에 대하여 매우 민감하다는 것을 알 수 있는데, 따라서 각 감정에 대한 대표값을 결정하는 데에는 일반화된 피치값이 적합하지 않다는 것을 알 수 있다.

강도 분석

일방향 ANOVA 테스트가 240 개의 문장에 대하여 수행됨으로써, 상이한 감정들 간의 일반화된 강도값들을 발견할 수 있다. 도 4에 도시된 ANOVA 테스트의 결과로부터, 귀무 가설은 명백하게 폐기되었다.

감정 강도 구조에서 개인 정보의 역할을 파악할 수 있도록 하기 위해, 240 개의 문장을 6명의 발화자를 고려하여 각 40 문장으로 세분했다. 일련의 ANOVA 테스트를 수행하였으며, 그 결과가 도 5에 도시된다.

도 5는 개인 정보를 고려한 각 감정의 강도값을 나타내는 그래프이다.

도 5를 참조하면, 도 5는 KKS와 PYH와 같은 두 가지 특별한 경우를 제외하고 강도값의 순서가 슬픔, 두려움, 행복과 분노의 순서로 양호하게 보존되었음을 알 수 있다. 이를 통하여, 발화자는 각 감정에 대한 자신만의 동일한 강도값을 가진다는 것을 알 수 있다. 이는 정규화 프로세스를 사전에 수행한 경우에도 동일하다.

발화 속도 분석

각 감정 상태에 대한 상대적인 발화 속도의 분석을 위하여, 300개의 발화 문장에 대하여 음성 구역(speech region)을 주석화(annotation)한다. 각 문장을 주석화한 이후에, 동일한 발화자에 의하여 발화된 음성의 각 감정 상태에 대한 음성 구역의 전체 길이를 측정한다. 그러면, 음성 구역의 길이를 정규화하여 특정 감정-대-중립의 비율을 연산한다. 표 4는 각 감정에 대한 정규화된 발화 속도를 나타내며, 도 6은 각 감정에 대한 발화 속도를 나타내는 그래프이다.

그 결과, 발화된 표현에 대화에 관련된 정보를 부가시키기 위해서는 개인적 발화 속도를 고려해야 한다는 것을 알 수 있다.

억양구 레벨 운율 구조 분석

문장 레벨보다 작은 단위의 레벨을 통한 감정 운율 구조의 분석을 위하여, K-ToBI 레이블링 시스템을 이용하여 한국어 감정 음성 말뭉치를 주석화한다. 한국어에는 예컨대 L%, H%, LH%, HL%, LHL%, HLH%, HLHL%, LHLH%와 LHLHL%와 같은 9개의 억양구(IP) 경계 성조(boundary tone)가 식별된다는 것이 알려진 바 있다. 또한, 상이한 감정 상태에 따라 피치 컨투어의 변화를 모델링하기 위해 이러한 IP 경계 패턴이 중요한 역할을 한다는 것이 널리 알려진다. 반면에, 강세구(accentual phrase, AP)의 표면 성조 패턴(surface tonal pattern)은 감정 상태와 무관하게 일반적으로 "L+H L+Ha" 또는 "L Ha" 패턴을 가진다.

본 발명에서는 운율 연구를 위하여 언어학적 지식에 기반한 K-ToBI(Korean Tone and Break Indices) 레이블링 시스템을 이용한 방법을 사용하였다. K-ToBI 기반한 모델링을 위해서는 크게 두 가지의 작업이 필요하다. 먼저 입력문장으로부터 억양을 몇 가지 형태의 레이블로 분류된 레이블 중에서 해당 문서에 적합한 레이블을 추정해야 하고, 추정한 레이블을 통해 F0 궤적을 생성해야 한다. 이러한 방식의 특징은 대용량의 데이터에서 통계적 방식으로 F0궤적의 추출이 가능하지만, 체계적인 분류 체계 및 언어학적 지식을 이용한 대용량의 코퍼스 구축이 선행되어야 한다는 단점이 있다.

K- ToBI 시스템

ToBI(Tone and Break Indices) 레이블링 시스템은 영어에 기반한 운율 레이블링 시스템으로 1992년 소개되었고, 이후 많은 언어권에서 ToBI 레이블링 시스템이 고안되었다. K-ToBI 레이블링 시스템은 영어권의 ToBI와 일본어의 J-ToBI에 기반해서 만들어졌고, 최근의 모델은 단어 층(word tier), 음성학 성조 층(phonological tone tier), 브레이크-인덱스 층(break-index tier), 및 부수 층(miscellaneous tier)의 5개의 층(tier)으로 구성되어 있다. 각 층은 이벤트가 발생한 시간과 기호로 이루어져 있고, F0궤적의 표현은 초기 톤(initial tone)과 강세 톤(accentual tone), 경계 톤(boundary tone)으로 구성되어 있다.

한국어의 운율 구조는 억양구와 강세구 두 개의 운율단위로 이루어져 있고, 억양구는 하나 이상의 강세구로 구성되며, 마지막의 톤 변화를 의미하는 'H%', 'L%', 'HL%'등 기호로 표현된다. 강세구의 시작부분에 'H-'가 올 수 있으며, 강세구의 마지막 부분은 'Lha'로 구성된다. 또한 끊어 읽는 정도에 따라 '0'부터 '3'까지의 정지 인덱스가 있다. '0'은 연음을 의미하고, '3'은 끊어 읽기가 가장 뚜렷한 곳을 나타내는 기호이다. 이 네 가지 인덱스 중에서 '2'는 강세구의 경계가 되고, '3'은 억양구의 경계를 의미한다.

나머지 두 개의 층은 어절의 경계를 표시하는 단어층(word tier)과 숨소리나 웃음 등 기타 다른 정보를 표시하는 기타층(miscellaneous tier)이다.

피치 컨투어 분석

주된 IP 경계 성조를 분석하기 위하여, K-ToBI 레이블링 시스템을 이용하여 음성의 300 조각을 주석화한다. K-ToBI 레이블링된 데이터의 통계적 분석을 위하여, Pearson의 Chi-square 테스트가 수행된다. 표 5는 K-ToBI 레이블링에 Pearson의 Chi-square 테스트를 수행한 결과를 나타낸다.

표 2에서 알 수 있는 바와 같이, 결과를 통하여 귀무가설이 배제된다(p = 0.0의 < 0.05). 이 결과는 각 감정이 어떤 감정을 나머지 감정과 구별시킬 수 있는 뚜렷한 IP 경계 성조를 가진다는 사실을 통계적으로 지원한다. 그러면, 각 감정의 뚜렷한 피치 컨투어를 식별하기 위하여 조절 잔여량(adjusted residuals)이 연산된다. 표 6은 중립을 포함하는 각 감정에 따르는 뚜렷한 IP 경계 성조를 식별하기 위하여 연산된 조절 잔여량을 나타낸다.

피치 컨투어 패턴의 통계적 분석을 통하여, 우리가 분노와 HL%, 두려움과 H%, 행복과 LH%, 슬픔과 H%, 및 중립 및 L% 사이에 매우 강한 상호 관계가 있음을 알 수 있다. 만일 우리가 피치 컨투어의 분석으로부터 중립을 제외하면, L% IP 경계 패턴은 표 7에 나타난 슬픔에 할당될 것이다. 표 4는 중립을 제외하는 각 감정에 따르는 뚜렷한 IP 경계 성조를 식별하기 위하여 연산된 조절 잔여량을 나타낸다.

개인화 정보의 역할을 평가하기 위하여, 6명의 발화자에 따른 300개의 문장을 분류하고 일련의 Chi-square 테스트를 수행하지만, 중요한 차이점은 발견되지 않는다. 이러한 결과는 IP 경계 패턴이 상이한 감정 사이의 상대적인 피치값이 아니라 피치 컨투어의 상징적 표현(symbolic representation)이라는 사실에 기인한다고 판단될 수 있다.

휴지 길이 분석

비록 K-ToBI 레이블링 데이터의 분석으로부터 중단 색인(break indices)의 상징적 표현을 얻었다고 하더라도, 대화에 반영되는 정보의 수정을 위해서는 상대적 휴지 길이도 분석해야 한다.

300 개의 발화 문장에 대해서 유지 구역을 주석화하고, 동일한 발화자에 의하여 발화된 각 문장의 휴지 구역의 전체 길이를 연산한다. 일반화된 휴지 길이는 표 8에 나열된다. 표 8은 각 감정에 대한 일반화된 휴지 길이를 나타내며, 도 7은 그 결과를 도시하는 그래프이다.

CWJ 및 KKS와 같은 두 가지 특별한 경우를 제외하고 휴지 길이의 순서가 행복, 분노, 두려움, 및 슬픔의 순서로 양호하게 보존되었음을 알 수 있다. 정규화된 휴지 길이도 모든 발화자를 대표하는 값으로는 사용될 수 없다. 예를 들면, 만일 감정 운율 구조에 대한 대푯값으로 일반화된 휴지 길이를 이용하면, 각 발화자의 뚜렷한 특성이 없어질 것이기 때문이다. 그러므로, 개인 정보를 이용하여 음성을 합성해야 한다.

개인 전형적인 기반의 감정 운율 통합 시스템

범용 TTS 시스템에 억양구 레벨 및 문장 레벨 감정 운율 구조를 통합시키기 위하여, 도 8에 도시된 것과 같은 감정 음성 합성 시스템이 제공된다.

이해의 편의를 위하여, TTS 시스템에 대해서 간단히 설명하면 다음과 같다.

일반적인 문서-음성 변환(TTS; Text-to-Speech) 시스템의 구성은 크게 자연어처리부, 음소/운소 추출부, 신호처리부로 나뉠 수 있다. 자연어처리부에서는 형태소 분석, 구문 분석을 통해 음소/운소 추출부에서 사용할 기본적인 정보를 제공하는 부분이다. 음소/운소 추출부에서는 자연어처리부의 기초적 정보를 바탕으로 입력문서를 발음형태와 음소/운소 추출부에서 사용할 정보를 생성하는 작업을 한다. 즉, 형태소 분석 및 구문분석 등을 통해 알파벳이나 숫자, 기호 등을 정확한 한글형태로 변환하고, 다양한 음운변화를 고려한 발음선택을 한다. 또한 운율 경계를 추정하고, 신호처리부의 입력으로 사용되는 다양한 파라미터를 추정하게 된다.

마지막으로 신호처리부에서는 상위에서 추출된 파라미터를 이용하여 음성을 복원해내는 작업을 한다.

이 중에서 운율처리부는 신호처리부에서 사용될 억양의 물리학적 신호인 F0궤적(Fundamental Frequency Contour)이 생성되는 부분으로 이 정보는 합성음의 자연성과 이해도를 향상시키는 중요한 역할을 한다. 음성에 있어서 운율이란 피치, 음성의 크기, 음절의 길이 등의 음성학적 변화측면의 신호적인 특징을 의미한다. 여기에 발화 속도 또는 리듬(rhythm)등과 같은 시간적인 특징을 포함시키기도 한다.

일반적으로 운율은 일련의 억양구의 연속으로 이루어져 있다고 생각하고, 운율처리의 츨발은 이 억양구의 추출에서 시작된다. 추출된 억양구는 다양한 모델링 방법을 통해 물리적 신호인 F0궤적으로 변환되게 된다.

도 8은 본 발명의 다른 면에 의한 감정 음성 합성 기능을 가지는 보조 로봇을 개념적으로 나타내는 블록도이다.

도 8에 도시된 보조 로봇(800)은 감정 운율 구조 특성 추출부(810), 문장 어미 수정부(820), TTS 시스템(830), 및 감정 음성 합성부(850), 및 감정 음성 데이터베이스(890)를 포함한다. 또한, 감정 음성 합성부(850)는 음절 레벨 수정부(860), 억양구 레벨 수정부(870), 및 문장 레벨 수정부(880)를 포함한다.

감정 운율 구조 특성 추출부(810)는 개인별 음성을 분석하여 개인별 감정 운율 구조의 특성을 추출하여, 추출된 결과를 감정 음성 데이터베이스(890)에 저장한다. TTS 시스템(830)은 입력 텍스트 및 목표 감정이 수신되면 입력 텍스트를 무감정 음성으로 변환하고, 감정 음성 합성부(850)는 무감정 음성을 감정 음성 데이터베이스(890)로부터 수신된 개인별 감정 운율 구조에 따라 수정함으로써 감정 정보가 반영된 감정 음성을 생성하여 출력한다.

특히, 감정 운율 구조 특성 추출부(810)는 발화자의 기본 감정(basic emotion)에 따른 음성 정보를 포함하는 데이터셋으로부터 일반 감정 운율 구조를 추출하고, 각 발화자의 개인별 감정 운율 구조를 일반 감정 운율 구조와 비교하여 개인별 감정 운율 구조의 상대적 차분치를 파라미터화한다. 더 나아가, 감정 운율 구조 특성 추출부(810)는 문장 레벨, 억양구 레벨, 및 음절 레벨에서 각각 파라미터를 추출한다. 예를 들어, 감정 운율 구조 특성 추출부(810)는 발화자의 각각의 감정에 따른 음성의 전체 피치, 강도, 및 발화 속도를 파라미터로서 문장 레벨에서 분석할 수 있다. 또한, 감정 운율 구조 특성 추출부(810)는 발화자의 각각의 감정에 따른 음성에 포함되는 억양구(IP)들 간의 휴지 길이를 파라미터로서 억양구 레벨에서 분석하고, 발화자의 각각의 감정에 따른 음성에 포함되는 억양구들 각각의 억양구 경계 패턴을 파라미터로서 음절 레벨에서 분석할 수 있다.

이 경우, 문장, 억양구, 및 음절 레벨에서 각 파라미터를 추출하는 과정은 전술된 바와 같기 때문에 명세서의 간략화를 위하여 반복되는 설명이 생략된다. 표 9는 감정 운율 구조 특성 추출부(810)에 의하여 추출된 파라미터를 개인별로 나타낸다.

음절 레벨 수정부(860)는 개인별 감정 운율 구조로부터 목표 감정에 상응하는 피치 컨투어를 파라미터로서 추출하고, 추출된 피치 컨투어를 이용하여 무감정 음성의 피치 컨투어를 수정한다. 또한, 억양구 레벨 수정부(870)는 개인별 감정 운율 구조로부터 목표 감정에 상응하는 휴지 길이를 파라미터로서 추출하고, 추출된 휴지 길이를 이용하여 무감정 음성의 휴지 길이를 수정한다. 더 나아가, 문장 레벨 수정부(880)는 개인별 감정 운율 구조로부터 목표 감정에 상응하는 전체 피치, 전체 강도, 및 발화 속도를 파라미터로서 추출하고, 추출된 전체 피치, 전체 강도, 및 발화 속도를 이용하여 무감정 음성의 전체 피치, 전체 강도, 및 발화 속도를 수정한다.

또한, 보조 로봇(800)은, 문장 타입 식별부 및 상황 정보 수신부를 더 포함할 수도 있다. 상황 정보 수신부는 보조 로봇의 주위 환경에 대한 상황 정보를 수신한다. 그러면, 문장 타입 식별부는 수신된 상황 정보에 따라 입력 텍스트를 결정하며, 결정된 입력 텍스트의 문장 타입을 식별한다. 그러면, 문장 어미 수정부(820)는 생성된 감정 음성의 어미를 결정된 문장 타입에 따라서 수정한다. 이 과정에서, 문장 어미 수정부(820)는 어미 수정 동작을 수행하기 위하여 상기 감정 음성의 억양이 L%, LH%, LHL%, LHLH%, LHLHL%, H%, HL%, HLH% 및 HLHL% 중 하나가 되도록 수정하고, 수정된 억양에 따라서 감정 음성의 어미를 수정한다.

범용 TTS 시스템에 의하여 일반적으로 합성되는 무감정 음성에 대한 적절한 개인 모델을 선택하기 위하여, 보조 로봇(800)은 무감정 음성의 IQM을 도 2에 도시된 각 발화자의 피치값과 비교한다. 개인 모델이 선택되면, 상응하는 파라미터들이 억양구 레벨 운율 수정 및 문장 레벨 운율 수정을 위하여 연속적으로 이용된다.

이 동작을 위한 스크립트는 다음과 같다.

# PRAAT script for the modification of pitch contours

if emotion$ == "Anger"

Formula... 'IQMPitch' + 'MaxPitch'*sin(x/dur*pi)

elsif emotion$ == "Fear"

Formula... 'IQMPitch' + 'MaxPitch'*(x/dur)

elsif emotion$ == "Happiness"

Formula... 'IQMPitch' + 'MaxPitch'*exp((x/dur)-0.5)

elsif emotion$ == "HappinessFinal"

Formula... 'IQMPitch' + 'MaxPitch'*sin(x/dur*pi)

elsif emotion$ == "Sadness"

Formula... 'IQMPitch' + 'MaxPitch'*(x/dur)

피치 컨투어 수정 함수는 표 7에 나타나는 각 K-ToBI 피치 컨투어의 모델링을 위한 선형 함수, 사인 함수, 및 지수 함수를 사용한다. 모든 함수는 PRAAT 스크립트로서 구현될 수 있다(Boersma and Weenink, 2001 참조).

평가

감정 운율 통합 시스템과 그 개인 모델을 평가하기 위하여 인식 테스트가 수행되었다. 이를 위하여 다음과 같은 5 개의 문장이 사용되며, 여성 음성을 가지는 상업용 한국어 TTS 시스템을 이용하여 무감정 음성을 생성한다(http://www.voiceware.co.kr의 VoiceText 참조).

문장 1: 난 가지 말라고 하면서 문을 닫았어.

문장 2: 정말 그렇단 말이야.

문장 3: 나도 몰라.

문장 4: 우리가 하는 일이 얼마나 중요한지 너는 모를 꺼야.

문장 5: 바람과 해님이 서로 힘이 더 세다고 다투고 있을 때 한 나그네가 따뜻한 외투를 입고 걸어 왔습니다.

그러면, 20 개의 감정 음성(1 문장당 화남, 두려움, 행복 및 슬픔의 4개의 감정을 반영)이 생성된다.

도 9는 원본 운율 구조 및 감정 합성 결과를 나타내는 그래프이다.

도 9는 "난 가지 말라고 하면서 문을 닫았어."라는 문장에 대한 운율 구조를 나타낸다. 연속되는 선은 강도 컨투어를 나타내고, 끊어진 선은 피치 컨투어를 나타낸다.

이 테스트는 평균 연령 28.8세인 40명의 여성 유치원 교사에 대해서 실시되었다. 그들은 무작위로 정렬된 감정 합성 음성의 20 조각들을 들은 이후에 그들이 화남, 두려움, 행복, 및 슬픔이라고 생각하는 음성을 고르도록 지시되었다. 표 10은 40명에 대해서 수행한 인식 테스트 결과를 나타낸다.

표 10을 참조하면, 감정 중에서 화남이 가장 인식하기 쉬운 것을 알 수 있으며, 두려움은 가장 인식하기 어려운 것을 알 수 있다. 그러나, 전체적인 성공률은 행복 감정을 포함하여 우연히 나올 수 있는 값보다 더 높다. 종래 기술에서 나타난 평가 결과와 비교하면, 표 10에 나타난 성공률은 매우 바람직한 것이라고 할 수 있는데, 그것은 종래의 인식률은 우연히 나올 수 있는 값에 가깝기 때문이다(Lee and Park, 2009; Schroeder 2001).

전술된 바와 같이, 본 발명에 의한 감정 음성 합성 기술은 각 감정을 운율 특징의 변화로 간주하고, 다른 감정 중에 각 별개의 운율이 들어맞는 특징을 발견한다. 특히, 본 발명은 감정을 방대한 데이터셋을 분석하는 것에서 얻을 수 있는 보편적인 정보로 간주하지 않기 때문에, 인식률을 향상시킬 수 있다. 즉, 본 발명에 의한 감정 음성 합성 기술은 감정의 근본적인 특성을 고려하면서 감정이 일종의 보편적인 정보가 아니라고 전재하고, 4 개의 기본 감정인 분노, 두려움, 행복과 슬픔의 감정 운율 구조를 분석한다. 분석한 결과로서 얻어지는 개인별 감정 운율 구조는 피치, 강도와 휴지 길이와 같은 파라미터를 포함한다. 그리고, 이러한 파라미터를 이용하여 TTS 시스템에 의하여 합성된 무감정 음성에 감정 정보를 가미한다.

본 발명에 의한 감정 음성 합성 기술은 충분한 사전 훈련 경험으로 지지된 일련의 반복된 인식 테스트로부터, 모든 감정에 대해 최고 95.5%의 평균 인식률을 달성한다. 본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 본 발명에서 감정 운율 구조를 생성하기 위하여 한국어 문장을 발화한 사람들은 다음 표 11에 나타난 것처럼 6명이다.

하지만, 이러한 발화자들은 예시적으로 제공된 것일 뿐이며, 다른 발화자들을 이용해서도 각 감정에 따른 개인별 감정 운율 구조를 생성할 수 있음은 물론이다.

또한, 본 발명에 따르는 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 분산 컴퓨터 시스템에 의하여 분산 방식으로 실행될 수 있는 컴퓨터가 읽을 수 있는 코드를 저장할 수 있다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

인간과 상호작용하는 보조 로봇(assistive robot)에서 출력할 감정 음성을 개인 운율 모델에 기반하여 합성하기 위한 방법에 있어서,
개인별 음성을 분석하여 개인별 감정 운율 구조(personal emotional prosody structure)의 특성을 추출하는 감정 운율 구조 특성 추출하고, 추출된 개인별 감정 운율 구조를 감정 음성 데이터베이스에 저장하는 단계;
상기 보조 로봇의 주위 환경에 대한 상황 정보를 수신하고, 수신된 상황 정보에 따라 입력 텍스트를 결정하며, 결정된 입력 텍스트의 문장 타입을 식별하는 단계;
상기 입력 텍스트 및 목표 감정을 수신하는 수신 단계;
상기 감정 음성 데이터베이스로부터 음성을 합성할 발화자(speaker)에 상응하는 개인별 감정 운율 구조를 검색하는 단계; 및
상기 입력 텍스트를 무감정 음성(emotionless speech)으로 변환하고, 변환된 무감정 음성을 상기 목표 감정에 상응하는 상기 개인별 감정 운율 구조에 기반하여 수정함으로써 상기 발화자에 상응하는 감정 음성을 생성하며, 생성된 감정 음성의 문장 어미(sentence final syllable)를 식별된 문장 타입에 따라서 수정하여 출력하는 감정 음성 합성 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제1항에 있어서, 상기 감정 운율 구조 특성 추출 단계는,
상기 발화자의 기본 감정(basic emotion)에 따른 음성 정보를 포함하는 데이터셋으로부터 일반 감정 운율 구조를 추출하는 일반 감정 운율 구조 추출 단계; 및
각 발화자의 개인별 감정 운율 구조를 상기 일반 감정 운율 구조와 비교하여 상기 개인별 감정 운율 구조의 상대적 차분치를 파라미터화하는 개인별 감정 운율 구조 추출 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제2항에 있어서, 상기 개인별 감정 운율 구조 추출 단계는,
상기 발화자의 각각의 감정에 따른 음성의 전체 피치(overall pitch), 강도(intensity), 및 발화 속도(speech rate)를 파라미터로서 문장 레벨에서 분석하는 문장 레벨 감정 운율 구조 분석 단계;
상기 발화자의 각각의 감정에 따른 음성에 포함되는 억양구(intonation phrase, IP)들 간의 휴지 길이(pause length)를 파라미터로서 억양구 레벨에서 분석하는 억양구 레벨 감정 운율 구조 분석 단계; 및
상기 발화자의 각각의 감정에 따른 음성에 포함되는 억양구들 각각의 억양구 경계 패턴(IP boundary pattern)을 파라미터로서 음절 레벨에서 분석하는 음절 레벨 감정 운율 구조 분석 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제3항에 있어서, 상기 문장 레벨 감정 운율 구조 분석 단계는,
감정별 음성의 피치값의 사분위간 평균(interquartile mean, IQM)을 연산하는 단계;
감정별 음성의 강도 중 소정값 이상의 강도를 선택하는 단계;
감정별 음성의 전체 발화 길이로부터 상기 발화 속도를 연산하는 단계;
상기 피치값, 강도 및 발화 속도를 정규화하여 문장별 불일치(disparity) 및 발화자별 불일치를 제거하는 단계; 및
정규화된 결과를 이용하여, 중립의 감정 상태에 상응하는 개인별 감정 운율 구조를 표준으로 하여 감정별 개인별 감정 운율의 파라미터들의 차이를 연산하고, 연산 결과를 이용하여 상기 개인별 감정 운율 구조를 구성하는 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제3항에 있어서, 상기 억양구 레벨 감정 운율 구조 분석 단계는,
감정별 음성의 억양구 간 휴지 영역(pause region)을 검출하는 단계; 및
상기 휴지 영역들의 전체 길이를 합산하여 전체 휴지 길이를 연산하는 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제3항에 있어서, 상기 음절 레벨 감정 운율 구조 분석 단계는,
상기 음성의 억양구 경계 패턴을 L%, H%, LH%, HL%, LHL%, HLH%, HLHL%, LHLH% 및 LHLHL% 중 하나에 상응하는 피치 컨투어(pitch contour)로서 분석하는 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제1항에 있어서, 상기 감정 음성 합성 단계는,
TTS(Text-to-Speech) 시스템을 이용하여 상기 입력 텍스트를 무감정 음성으로 변환하는 단계;
상기 감정 음성 데이터베이스로부터 상기 발화자의 상기 목표 감정에 상응하는 감정 운율 구조를 검색하는 단계;
검색된 감정 운율 구조의 파라미터들을 이용하여 상기 무감정 음성을 수정함으로써 상기 감정 음성을 생성하는 음성 수정 단계; 및
생성된 감정 음성의 어미를 상기 문장 타입에 따라서 수정하는 어미 수정 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제7항에 있어서, 상기 음성 수정 단계는,
상기 개인별 감정 운율 구조로부터 상기 목표 감정에 상응하는 피치 컨투어를 파라미터로서 추출하는 단계; 및
추출된 피치 컨투어를 이용하여 상기 무감정 음성의 피치 컨투어를 수정하는 음절 레벨 수정 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제7항에 있어서, 상기 음성 수정 단계는,
상기 개인별 감정 운율 구조로부터 상기 목표 감정에 상응하는 휴지 길이를 파라미터로서 추출하는 단계; 및
추출된 휴지 길이를 이용하여 상기 무감정 음성의 휴지 길이를 수정하는 억양구 레벨 수정 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제7항에 있어서, 상기 음성 수정 단계는,
상기 개인별 감정 운율 구조로부터 상기 목표 감정에 상응하는 전체 피치, 전체 강도, 및 발화 속도를 파라미터로서 추출하는 단계; 및
추출된 전체 피치, 전체 강도, 및 발화 속도를 이용하여 상기 무감정 음성의 전체 피치, 전체 강도, 및 발화 속도를 수정하는 문장 레벨 수정 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제7항에 있어서, 상기 어미 수정 단계는,
상기 감정 음성의 억양이 L%, LH%, LHL%, LHLH%, LHLHL%, H%, HL%, HLH% 및 HLHL% 중 하나가 되도록 수정하고, 수정된 억양에 따라서 상기 감정 음성의 어미를 수정하는 단계를 포함하는 것을 특징으로 하는 보조 로봇용 감정 음성 합성 방법.
제1항 내지 제11항 중 어느 한 항에 따르는 방법을 구현하기 위한 컴퓨터에 의하여 실행될 수 있는 명령어들을 포함하는 컴퓨터 프로그램이 기록된 컴퓨터에 의하여 독출될 수 있는 기록 매체.
인간과 상호작용하며, 상황 정보에 따른 감정 음성을 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 보조 로봇에 있어서,
개인별 음성을 분석하여 개인별 감정 운율 구조의 특성을 추출하는 감정 운율 구조 특성 추출부;
추출된 개인별 감정 운율 구조를 저장하는 감정 음성 데이터베이스;
상기 보조 로봇의 주위 환경에 대한 상황 정보를 수신하기 위한 상황 정보 수신부;
수신된 상황 정보에 따라 입력 텍스트를 결정하며, 결정된 입력 텍스트의 문장 타입을 식별하는 문장 타입 식별부; 및
입력 텍스트 및 목표 감정이 수신되면 상기 입력 텍스트를 무감정 음성으로 변환하고, 상기 감정 음성 데이터베이스로부터 음성을 합성할 발화자에 상응하는 개인별 감정 운율 구조를 검색하며, 변환된 무감정 음성을 상기 목표 감정에 상응하는 상기 개인별 감정 운율 구조에 기반하여 수정함으로써 상기 발화자에 상응하는 감정 음성을 생성하고, 생성된 감정 음성의 문장 어미를 식별된 문장 타입에 따라서 수정하여 출력하는 감정 음성 합성부를 포함하는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제13항에 있어서, 상기 감정 운율 구조 특성 추출부는,
상기 발화자의 기본 감정에 따른 음성 정보를 포함하는 데이터셋으로부터 일반 감정 운율 구조를 추출하는 동작, 및
각 발화자의 개인별 감정 운율 구조를 상기 일반 감정 운율 구조와 비교하여 상기 개인별 감정 운율 구조의 상대적 차분치를 파라미터화하는 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제14항에 있어서, 상기 감정 운율 구조 특성 추출부는, 상기 개인별 감정 운율 구조를 추출하기 위하여,
상기 발화자의 각각의 감정에 따른 음성의 전체 피치, 강도, 및 발화 속도를 파라미터로서 문장 레벨에서 분석하는 문장 레벨 감정 운율 구조 분석 동작,
상기 발화자의 각각의 감정에 따른 음성에 포함되는 억양구(IP)들 간의 휴지 길이를 파라미터로서 억양구 레벨에서 분석하는 억양구 레벨 감정 운율 구조 분석 동작, 및
상기 발화자의 각각의 감정에 따른 음성에 포함되는 억양구들 각각의 억양구 경계 패턴을 파라미터로서 음절 레벨에서 분석하는 음절 레벨 감정 운율 구조 분석 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제15항에 있어서, 상기 감정 운율 구조 특성 추출부는, 문장 레벨 감정 운율 구조를 분석하기 위하여,
감정별 음성의 피치값의 사분위간 평균(IQM)을 연산하는 동작,
감정별 음성의 강도 중 소정값 이상의 강도를 선택하는 동작,
감정별 음성의 전체 발화 길이로부터 상기 발화 속도를 연산하는 동작,
상기 피치값, 강도 및 발화 속도를 정규화하여 문장별 불일치 및 발화자별 불일치를 제거하는 동작, 및
정규화된 결과를 이용하여, 중립의 감정 상태에 상응하는 개인별 감정 운율 구조를 표준으로 하여 감정별 개인별 감정 운율의 파라미터들의 차이를 연산하고, 연산 결과를 이용하여 상기 개인별 감정 운율 구조를 구성하는 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제15항에 있어서, 상기 감정 운율 구조 특성 추출부는, 억양구 레벨 감정 운율 구조를 분석하기 위하여,
감정별 음성의 억양구 간 휴지 영역을 검출하는 동작, 및
상기 휴지 영역들의 전체 길이를 합산하여 전체 휴지 길이를 연산하는 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제15항에 있어서, 상기 감정 운율 구조 특성 추출부는, 음절 레벨 감정 운율 구조를 분석하기 위하여,
상기 음성의 억양구 경계 패턴을 L%, H%, LH%, HL%, LHL%, HLH%, HLHL%, LHLH% 및 LHLHL% 중 하나에 상응하는 피치 컨투어로서 분석하는 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제13항에 있어서, 상기 감정 음성 합성부는,
TTS 시스템을 이용하여 상기 입력 텍스트를 무감정 음성으로 변환하는 동작,
감정 음성 데이터베이스로부터 상기 발화자의 상기 목표 감정에 상응하는 감정 운율 구조를 검색하는 동작, 및
검색된 감정 운율 구조의 파라미터들을 이용하여 상기 무감정 음성을 수정함으로써 상기 감정 음성을 생성하는 음성 수정 동작, 및
생성된 감정 음성의 어미를 상기 문장 타입에 따라서 수정하는 어미 수정 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제19항에 있어서, 상기 감정 음성 합성부는, 상기 음성 수정 동작을 수행하기 위하여,
상기 개인별 감정 운율 구조로부터 상기 목표 감정에 상응하는 피치 컨투어를 파라미터로서 추출하는 동작, 및
추출된 피치 컨투어를 이용하여 상기 무감정 음성의 피치 컨투어를 수정하는 음절 레벨 수정 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제19항에 있어서, 상기 감정 음성 합성부는, 상기 음성 수정 동작을 수행하기 위하여,
상기 개인별 감정 운율 구조로부터 상기 목표 감정에 상응하는 휴지 길이를 파라미터로서 추출하는 동작, 및
추출된 휴지 길이를 이용하여 상기 무감정 음성의 휴지 길이를 수정하는 억양구 레벨 수정 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제19항에 있어서, 상기 감정 음성 합성부는, 상기 음성 수정 동작을 수행하기 위하여,
상기 개인별 감정 운율 구조로부터 상기 목표 감정에 상응하는 전체 피치, 전체 강도, 및 발화 속도를 파라미터로서 추출하는 동작, 및
추출된 전체 피치, 전체 강도, 및 발화 속도를 이용하여 상기 무감정 음성의 전체 피치, 전체 강도, 및 발화 속도를 수정하는 문장 레벨 수정 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.
제19항에 있어서, 상기 감정 음성 합성부는, 상기 어미 수정 동작을 수행하기 위하여,
상기 감정 음성의 억양이 L%, LH%, LHL%, LHLH%, LHLHL%, H%, HL%, HLH% 및 HLHL% 중 하나가 되도록 수정하고, 수정된 억양에 따라서 상기 감정 음성의 어미를 수정하는 동작을 수행하도록 적응되는 것을 특징으로 하는 감정 음성 합성 기능을 가지는 보조 로봇.