KR102351021B1

KR102351021B1 - 음성 트레이닝 데이터 선별 방법 및 이를 이용하는 장치

Info

Publication number: KR102351021B1
Application number: KR1020190146623A
Authority: KR
Inventors: 박태훈; 서수보; 유은택; 윤호원; 장훈
Original assignee: 주식회사 셀바스에이아이
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2022-01-14
Also published as: KR20210059321A; WO2021096040A1

Abstract

음성 트레이닝 데이터 선별 방법, 및 이를 이용하는 장치가 제공된다. 상기 방법은 하나 이상의 음성 데이터들을 입력 받는 단계; 및 음향 파라미터에 기초하여, 하나 이상의 음성 데이터들 중 기계학습을 위한 음성 트레이닝 데이터를 결정하는 단계를 포함한다.

Description

음성 트레이닝 데이터 선별 방법 및 이를 이용하는 장치{METHOD FOR SCREENING VOICE TRAINING DATA AND APPARATUS USING THE SAME}

본 발명은 기계학습을 위한 음성 트레이닝 데이터를 선별하는 장치 및 방법에 관한 것이다.

TTS(Text-To-Speech)는 언어학적 지식을 통해 분석하여 음운정보와 운율정보를 추출/생성하고 이 정보를 이용하여 합성음을 생성하는 음성합성 기술로서, 특히 지속적으로 변경되는 정보 또는 녹음이 불가능한 방대한 정보의 음성전달에 사용된다. 예를 들어, TTS는 AI플랫폼을 이용한 스마트 홈 서비스 기기의 음성안내, 금융 분야의 음성안내, 네비게이션의 POI(Point Of Interest) 음성안내, eBook, 사전, 각종 안내방송 등에 사용될 수 있다.

TTS를 이용한 합성음 생성 분야에서는 최근 DNN(Deep Neural Network)에 기반한 접근(이하, DNN-TTS)이 활발하다.

DNN-TTS에서는, (i) 음성 트레이닝 데이터의 기계학습을 통해, 입력된 문자(text)에 대한 합성음(audio)을 출력하는 새로운 합성음 생성 모델을 만들거나, (ii) 종래의 기-합성음 생성 모델에 새로운 음성 트레이닝 데이터의 기계학습을 추가적으로 적용시켜(adaptation training), 입력된 문자에 대한 합성음을 출력하는 합성음 생성 모델을 만들 수 있다.

이때, 양질의 합성음을 생성하기 위해, 양적으로 충분한 음성 트레이닝 데이터가 요구될 뿐만 아니라, 음성 트레이닝 데이터가 양적으로 충분하더라도 질적으로 부족하다면 양질의 합성음이 생성되기 어렵기 때문에, 질적으로도 높은 트레이닝 데이터가 요구된다.

발명의 배경이 되는 기술은 본 발명에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 발명의 배경이 되는 기술에 기재된 사항들이 선행기술로서 존재한다는 것으로 인정하는 것으로 이해되어서는 안 된다.

본 발명의 발명자들은 DNN-TTS에서 양질의 합성음을 생성하기 위한 음성 트레이닝 데이터를 선별하는 방법 및 장치를 제공하고자 한다.

보다 구체적으로, 음향 분석 기술을 이용하여, 음향 파라미터(acoustic parameter)에 기초하여, 음성 트레이닝 데이터를 선별하는 방법 및 장치를 제공하고자 한다

본 발명의 해결하고자 하는 과제는 이상에서 예시된 내용에 의해 제한되지 않으며, 보다 다양한 과제들이 본 명세서 내에 포함되어 있다.

본 발명의 일 실시예에 따른, 음성 트레이닝 데이터 선별방법이 제공된다. 상기 방법은 하나 이상의 음성 데이터들을 입력 받는 단계; 및 음향 파라미터에 기초하여, 하나 이상의 음성 데이터들 중 기계학습을 위한 음성 트레이닝 데이터를 결정하는 단계를 포함한다.

본 발명의 다른 특징에 따르면, 음향 파라미터는 지터(jitter), 시머(shimmer), 신호대잡음비(SNR), 및 음절당 발화 속도 중 적어도 하나를 포함할 수 있다.

본 발명의 또 특징에 따르면, 지터에 기초하여, 음성 트레이닝 데이터를 결정하는 단계는, 하나 이상의 음성 데이터들 각각의 피치, 및 기본-음성 트레이닝 데이터의 평균 피치에 기초하여, 하나 이상의 음성 데이터들 각각의 지터를 결정하는 단계; 및 지터가 제 1 미리 결정된 범위 내인 음성 데이터를 음성 트레이닝 데이터로 결정하는 단계를 포함하고, 제 1 미리 결정된 범위는 0 % 내지 4 %일 수 있다.

본 발명의 또 특징에 따르면, 지터에 기초하여, 음성 트레이닝 데이터를 결정하는 단계는, 하나 이상의 음성 데이터들 각각의 피치, 및 상기 기-합성음 생성 모델의 기계학습에 사용된 음성 트레이닝 데이터의 평균 피치에 기초하여, 하나 이상의 음성 데이터들 각각의 지터를 결정하는 단계; 및 지터가 제 1 미리 결정된 범위 내인 음성 데이터를 음성 트레이닝 데이터로 결정하는 단계를 포함하고, 제 1 미리 결정된 범위는 0 % 내지 4 %일 수 있다.

본 발명의 또 특징에 따르면, 제 1 미리 결정된 범위는 0 % 내지 3.6 %일 수 있다.

본 발명의 또 특징에 따르면, 시머에 기초하여, 음성 트레이닝 데이터를 결정하는 단계는, 하나 이상의 음성 데이터들 각각의 피크 투 피크 진폭, 및 기본-음성 트레이닝 데이터의 평균 피크 투 피크 진폭에 기초하여, 하나 이상의 음성 데이터들 각각의 시머를 결정하는 단계; 및 시머가 제 2 미리 결정된 범위 내인 음성 데이터를 음성 트레이닝 데이터로 결정하는 단계를 포함하고, 제 2 미리 결정된 범위는 0 % 내지 15 %일 수 있다.

본 발명의 또 특징에 따르면, 시머에 기초하여, 음성 트레이닝 데이터를 결정하는 단계는, 상기 하나 이상의 음성 데이터들 각각의 피크 투 피크 진폭, 및 기-합성음 생성 모델의 기계학습에 사용된 음성 트레이닝 데이터의 평균 피크 투 피크 진폭에 기초하여, 하나 이상의 음성 데이터들 각각의 시머를 결정하는 단계; 및 시머가 제 2 미리 결정된 범위 내인 음성 데이터를 상기 음성 트레이닝 데이터로 결정하는 단계를 포함하고, 제 2 미리 결정된 범위는 0 % 내지 15 %일 수 있다.

본 발명의 또 특징에 따르면, 제 2 미리 결정된 범위는 0 % 내지 12 %일 수 있다.

본 발명의 또 특징에 따르면, 신호대잡음비에 기초하여, 음성 트레이닝 데이터를 결정하는 단계는, 하나 이상의 음성 데이터들 각각의 신호대잡음비가 제 3 미리 결정된 값 이상인 음성 데이터를 음성 트레이닝 데이터로 결정하고, 제 3 미리 결정된 값은 15 dB일 수 있다.

본 발명의 또 특징에 따르면, 제 3 미리 결정된 값은 20 dB일 수 있다.

본 발명의 또 특징에 따르면, 음절당 발화 속도에 기초하여, 음성 트레이닝 데이터를 결정하는 단계는, 하나 이상의 음성 데이터들 각각의 음절당 발화 속도가 제 4 미리 결정된 범위인 음성 데이터를 음성 트레이닝 데이터로 결정하고, 제 4 미리 결정된 범위는 0 초 내지 0.2 초일 수 있다.

본 발명의 또 특징에 따르면, 제 4 미리 결정된 범위는 0 초 내지 0.16 초일 수 있다.

본 발명의 또 특징에 따르면, 하나 이상의 음성 데이터들의 발화자가 여성인 경우, 우선적으로 지터에 기초하여 음성 트레이닝 데이터를 결정하고, 다른 음향 파라미터에 기초하여 음성 트레이닝 데이터를 결정하는 단계는, 지터에 기초하여 음성 트레이닝 데이터로 결정된 하나 이상의 음성 데이터를 대상으로만 수행될 수 있다.

본 발명의 또 특징에 따르면, 하나 이상의 음성 데이터들의 발화자가 남성인 경우, 우선적으로 시머에 기초하여 음성 트레이닝 데이터를 결정하고, 다른 음향 파라미터에 기초하여 음성 트레이닝 데이터를 결정하는 단계는, 시머에 기초하여 음성 트레이닝 데이터로 결정된 하나 이상의 음성 데이터를 대상으로만 수행될 수 있다.

본 발명의 다른 실시예에 따른, 음성 트레이닝 데이터 선별 장치가 제공된다. 상기 장치는 저장부, 통신부, 및 제어부를 포함하고, 저장부는 하나 이상의 음성 데이터들을 저장하도록 구성되고, 통신부는 하나 이상의 음성 데이터들을 수신하도록 구성되고, 제어부는, 음향 파라미터를 기초로 하여, 하나 이상의 음성 데이터들 중 기계학습을 위한 음성 트레이닝 데이터를 결정하도록 구성된다.

본 발명은 DNN-TTS에서, 보다 양질의 합성음을 생성할 수 있도록 음성 트레이닝 데이터를 제공할 뿐만 아니라, 기계학습에 보다 적합한 음성 트레이닝 데이터를 자동적으로 선별하여 음성 트레이닝 데이터를 (전)처리하는 시간 및 비용을 보다 감소시키는 효과가 있다.

나아가, 보다 양질의 음성 트레이닝 데이터를 확보함으로써, 보다 짧은 시간과 낮은 비용으로 보다 양질의 합성음을 생성할 수 있는 모델을 트레이닝 할 수 있다.

본 발명의 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 보다 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 음성 트레이닝 데이터 선별 방법의 순서도이다.
도 2 및 3은 DNN-TTS에서 합성음을 생성하는 모델들의 개략도들이다.
도 4는 하나 이상의 음성 데이터들(D₁, D₂, D₃,…,D_n-2, D_n-1, D_n) 중 일 음성 데이터(D₃)에서 지터를 설명하기 위한 파형도이다.
도 5 및 6은 지터에 기초하여 음성 트레이닝 데이터를 결정하는 방법의 순서도들이다.
도 7는 하나 이상의 음성 데이터들(D₁, D₂, D₃,…,D_n-2, D_n-1, D_n) 중 일 음성 데이터(D₃)에서 시머를 설명하기 위한 파형도이다.
도 8 및 9은 시머에 기초하여 음성 트레이닝 데이터를 결정하는 방법의 순서도들이다.
도 10은 본 발명의 일 실시예에 따른 음성 트레이닝 데이터 선별 장치의 블록도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서, 명시적으로 반대로 언급되지 않는 한, "A 또는 (or) B," "A 및/또는 (and/or) B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 비배타적 (non-exclusive) 으로 나열된 항목들의 모든 가능한 조합을 포함하는 것을 지칭하는 것으로 이해될 수 있다. 예를 들어, “또는 B"는 i) A, ii) B, 및 iii) A 및 B인 경우를 모두 포함하는 것으로 이해될 수 있고, "A 및 B 중 적어도 하나" 및 "A 또는 B 중 적어도 하나"는 i) 적어도 하나의 A, ii) 적어도 하나의 B, 및 iii) 적어도 하나의 A 및 적어도 하나의 B인 경우를 모두 포함하는 것으로 이해될 수 있다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징의 존재를 의미할 뿐, 추가적인 특징의 존재를 배제하지 않는다.

본 명세서에서, "제 1," "제 2," "첫째," 또는 "둘째," 등의 표현들은 관련된 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 하나의 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐, 해당 구성요소들을 제한하지 않는다.

본 명세서에서, 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 명세서에서, 다양한 실시예의 특징들 각각은 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 통상의 기술자가 충분히 이해할 수 있는 바와 같이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

이하에서는, 첨부된 도면을 참조하여, 본 발명의 다양한 실시예에 대해 상세하게 설명한다.

도 1는 본 발명의 일 실시예에 따른 음성 트레이닝 데이터 선별 방법의 순서도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 트레이닝 데이터 선별 방법은, 하나 이상의 음성 데이터들을 수신하는 단계(110)를 포함한다.

단계(110)에서, 음성 데이터는 오디오 파일로서, 3GP, AIFF, ACC, ALAC, AMR, ATRAC, AU, AWB, dvf, flac, mmf, mp3, Mpc, msv, ogg, Opus, TTA, VOX, WAV 등의 형식일 수 있다. 음성 데이터는, 기계학습을 위한 하나 이상의 분석구간들로 나누어진 하나의 오디오 파일일 수 있고, 기계학습을 위한 하나 이상의 분석구간들 별로 나누어진 하나 이상의 오디오 파일일 수 있다. 음성 데이터는 기계학습을 위해 녹음된 데이터일 수도 있으며, 다른 데이터로부터 수집된 데이터일 수 있다.

본 발명의 일 실시예에 따른 음성 트레이닝 데이터 선별 방법은, 음향 파라미터에 기초하여, 하나 이상의 음성 데이터들 중 기계학습을 위한 음성 트레이닝 데이터를 결정하는 단계(120)를 포함한다.

단계(120)에서 결정된 음성 트레이닝 데이터는 합성음 생성 모델을 만들기 위한 기계학습에 사용된다. 합성음 생성 모델이 양질의 합성음을 생성하기 위해서는, 음성 트레이닝 데이터의 양과 질이 확보되어야 하는데, 트레이닝 데이터의 양과 질이 부족한 경우, 부자연스러운 억양, 부정확한 발음 등으로 인해 양질의 합성음 생성이 어렵다.

음향 파라미터를 통해서, 주기, 진폭, 잡음, 파형 등과 관련된 음성 데이터의 불규칙적인 변동이나 왜곡이 직간접적으로 측정될 수 있기 때문에, 단계(120)에서는 음향 파라미터에 기초하여 음성 데이터들 중 음성 트레이닝 데이터를 결정(선별)된다. 다양한 실시예에서, 지터, 시머, 신호대잡음비, 음절당 발화 속도 등이 음향 파라미터로 사용될 수 있다.

단계(120)에서 결정된 음성 트레이닝 데이터는, 음향 파라미터에 기초한 자동적인 선별을 통해서, 이러한 불규칙적인 변동이나 왜곡이 최소화된다. 이에 따라, 단계(120)에서 결정된 음성 트레이닝 데이터를 통해, 합성음 생성 모델을 만들기 위한 기계학습에서, 보다 짧은 시간과 보다 낮은 (전)처리 비용으로도, 매우 뛰어난 음질의 합성음의 생성이 가능한 합성음 생성 모델을 만들 수 있다.

DNN-TTS에서는, 전술한 바와 같이, (i) 음성 트레이닝 데이터의 기계학습을 통해, 합성음 생성 모델을 만들거나(이하, 제 1 방식), (ii) 종래의 기-합성음 생성 모델에 음성 트레이닝 데이트의 기계학습을 추가적으로 적용시켜 합성음 생성 모델을 만들 수 있다(이하, 제 2 방식). 제 1 방식 및 제 2 방식 모두에서 기계학습에 사용되는 음성 트레이닝 데이터는, 음향 파라미터에 기초하여 결정될 수 있다. 다만, 지터와 시머에 기초하여 음성 트레이닝 데이트를 결정하는 것은 두 가지 방식에 따라 지터와 시머의 측정에 있어서 차이가 있는 바, 이하에서 구체적으로 설명한다.

도 2는 음성 트레이닝 데이터의 기계학습을 통해 만들어진 합성음 생성 모델에서 합성음이 생성되는 과정(제 1 방식)을 나타내는 개략도이다.

도 2를 참조하면, 합성음 생성 모델은 발화자가 B인 음성 트레이닝 데이터(B)의 기계학습을 통해 만들어진다. 음성 트레이닝 데이터(B)는 발화자가 B인 음성데이터(B)로부터 음향 파라미터에 기초하여 자동적으로 선별된다.

선별에 있어서, 음향 파라미너 중 지터와 시머에 기초하여 음성 데이터(B) 중 음성 트레이닝 데이터(B)를 결정하는 과정에 있어서, 발화자가 A인 기본-음성 트레이닝 데이터(A)와 음성 데이터(B)가 비교된다.

보다 구체적으로, 음성 데이터(B)의 지터의 측정에 있어서 평균 주기는 음성 데이터(B)의 평균 주기가 사용되는 것이 아니라, 기본-음성 트레이닝 데이터(A)의 평균 주기가 사용됨으로써 기본-음성 트레이닝 데이터(A)와 음성 데이터(B)가 비교된다.

또한, 음성 데이터(B)의 시머의 측정에 있어서 평균 피크 투 피크 진폭은 음성 데이터(B)의 평균 피크 투 피크 진폭이 사용되는 것이 아니라, 기본-음성 트레이닝 데이터(A)의 평균 피크 투 피크 진폭이 사용 사용됨으로써 기본-음성 트레이닝 데이터(A)와 음성 데이터(B)가 비교된다.

지터와 시머의 측정에 있어서 평균 주기와 평균 피크 투 피크 진폭이 비교되는 관계는 jitter(machine learning), shimmer(machine learning) 식에서 구체적으로 후술한다.

제 1 방식에서, 음성 데이터(B)와 비교되는 기본-음성 트레이닝 데이터(A)는 기계학습에 적합하다고 사용자에 의해 설정된 양질의 데이터로서, 기계학습을 저해하는 음성 데이터의 불규칙적인 변동이나 왜곡이 매우 적은 데이터이다. 기본-음성 트레이닝 데이터(A)는 사용자에 의해, 사용자의 목적과 그에 따른 미리 결정된 기준을 가지고 설정될 수 있다. 예를 들어, 사용자는 DNN-TTS를 통해 만들어진 ARS용 합성음 생성 모델에서 생성된 음성 데이터를, 기본-음성 트레이닝 데이터로 설정할 수 있다.

이에 따라, 제 1 방식에서, 기본-음성 트레이닝 데이터(A)와 음성 데이터(B)의 비교를 통해서, 지터 및 시머에 있어서 양질의 데이터인 기본-음성 트레이닝 데이터(A)와 정합성(consistency)이 매우 높은 음성 데이터(B)가 음성 트레이닝 데이터(B)로 결정됨으로써, 기계학습을 저해하는 불규칙적인 변동이나 왜곡이 매우 적은 데이터가 음성 트레이닝 데이터로 선별되는 이점이 있다.

도 3은 기-합성음 생성 모델에 음성 트레이닝 데이터의 기계학습을 추가적으로 적용시켜 만들어진 합성음 생성 모델에서 합성음 생성 과정(제 2 방식)을 나타내는 개략도이다.

도 3을 참조하면, 합성음 생성 모델은 기-합성음 생성 모델에 음성 트레이닝 데이터(B)가 추가적으로 기계학습되어 적용됨으로써 만들어진다.

음성 트레이닝 데이터(B)의 선별을 위해, 음성 데이터(B)가 비교되는 대상이 발화자가 C인 음성 트레이닝 데이터(C)라는 점을 제외하면, 비교되는 방식은 제 1 방식과 관련하여 전술한 바와 같다.

음성 트레이닝 데이터(C)는 기-합성음 생성 모델의 기계학습에 사용된 음성 트레이닝 데이터로서, 설정되는 기-합성음 생성 모델에 따라 달라진다. 기-합성음 생성 모델은 사용자에 의해, 사용자의 목적과 그에 따른 미리 결정된 기준을 가지고 설정될 있다.

제 2 방식에서, 음성 트레이닝 데이터(C)와 음성 데이터(B)의 비교를 통해서, 지터 및 시머에 있어서 음성 트레이닝 데이터(C)와 정합성이 매우 높은 음성 데이터(B)가 음성 트레이닝 데이터(B)로 결정된다. 이에 따라, 기-합성음 생성 모델에 음성 트레이닝 데이터(B)가 추가적으로 기계학습되어 적용됨에 있어서, 기-합성음 생성 모델과 매우 높은 정합성을 가지고 음성 트레이닝 데이터가 적용되는 이점이 있다.

단계(120)에서, 음향 파라미터는, 후술하는 지터, 시머, 신호대잡음비, 음절당 평균 발화 속도가 음성 데이터와 관련하여 가지는 특성을 고려하여, 다양한 방식으로 조합되어 음성 트레이닝 데이터의 결정에 사용될 수 있다.

이하에서는 음향 파라미터로서 피치, 지터, 시머, 신호대잡음비, 및 음절당 평균 발화 속도에 기초한 음성 트레이닝 데이터의 선별에 대해여 구체적으로 설명한다.

지터 또는 시머에 기초한 음성 트레이닝 데이터 선별

음성에서 피치(주파수)는 성대의 주기적인 떨림에 의해 생성된다. 주파수(frequency) 또는 주기(period)의 측면에서 보면, 음성에서 시간 축 상에 피크들을 주기적으로 나타내는 주파수들이 생성되고, 이를 제 1 포먼트(formant), 제 2 포먼트, …,제 n 포먼트라고 한다.

자연스럽게 발성된 음성의 주기성은 완벽하지 않기 때문에, 음성의 주기성에 있어서 변동은 항상 일어난다. 음성에 있어서, 주기(period)의 싸이클 간 변동은 피치(pitch) 변동 또는 주기(period) 변을 의미하고 지터(jitter)라고 지칭된다.

음성에 있어서, 진폭(amplitude)의 싸이클 간 변동은 진폭(amplitude) 변동을 의미하고, 시머(shimmer)라고 지칭된다.

도 4은 하나 이상의 음성 데이터들 (D₁, D₂, D₃,…D_n-2, D_n-1, D_n) 중 일 음성 데이터 (D₃)에서 지터를 설명하기 위한 파형도이다.

도 4의 (a) 및 4의 (b)를 참조하면, 하나 이상의 음성 데이터들은 기계학습을 위한 하나 이상의 분석구간들을 가지고, 음성 데이터(D₃)의 분석구간에서 문자(문장 등)에 해당하는 음성(성문음)을 살펴보면, 주기는 T₁, T₂, T₃이고, 개수는 3(N)개 임을 알 수 있다.

도 4의 (b)를 참조하면, 음성 데이터(D₃)에서 주기(피치)를 나타내는 T₁, T₂, T₃가 일정한 것이 아니라, 사이클 간 변동cycle-to-cycle variation)을 나타내고, 그 변동의 절대값의 합을 평균 주기(피치)로 나눈 값이 지터가 된다. 지터의 값은 다양한 방식으로 측정될 수 있다. 지터는 다음과 같은 식에 의해 퍼센트 단위로 측정될 수 있으나, 이에 한정되는 것은 아니다.

평균 주기는, 일반적으로 하나 이상의 음성 데이터들의 분석구간 별로 측정되나, 본 발명의 발명의 발명자들은, 전술한 바와 같이, 평균 주기가 (i) 기본-음성 트레이닝 데이터(A)의 평균 주기로서 측정되거나(제 1 방식), (ii) 음성 트레이닝 데이터(C)의 평균 주기로서 측정되는 경우, 지터에 기초한 음성 트레이닝 데이터의 결정에 있어서 이점이 있음 발견하였다.

기본-음성 트레이닝 데이터(A) 또는 음성 트레이닝 데이터(C)와 비교를 통한 지터는, 다음과 같은 식에 의해 퍼센트 단위로 측정된다.

도 5 및 도 6은 제 1 방식 및 제 2 방식에 따라, 지터에 기초하여 음성 트레이닝 데이터를 결정하는 방법의 순서도들이다.

도 5를 참조하면, 제 1 방식에서, 음성 데이터들(B) 각각의 피치와 기본-음성 트레이닝 데이터(A)의 평균 피치에 기초하여, jitter(machine learning)이 측정되고(S510), jitter(machine learning)의 값이 제 1 미리 결정된 범위 내인 음성 데이터들(B)이 음성 트레이닝 데이터(B)로 결정된다(S520).

도 6을 참조하면, 제 2 방식에서, 음성 데이터들(B) 각각의 피치와 음성 트레이닝 데이터(C)의 평균 피치에 기초하여, jitter(machine learning)이 측정되고(S610), jitter(machine learning)의 값이 제 1 미리 결정된 범위 내인 음성 데이터들(B)이 음성 트레이닝 데이터(B)로 결정된다(S610).

지터는 성대의 진동이 불규칙적인 발성장애가 있는 음성(dysphonic voice)에서 크게 나타나는 특성이 있다. 관련하여, 본 발명의 발명자들은 지터가 제 1 미리 결정된 범위 내에 있는 경우, 불규칙한 발성장애가 보다 적은 음성 트레이닝 데이터임을 발견하였다.

특히, 제 1 미리 결정된 범위가 0 % 내지 4 %, 바람직하게는 0 % 내지 3.6 % 내에 있는 경우, 발성장애가 없거나 있더라도, (i) 양질의 데이터인 기본-음성 트레이닝 데이터(A)와 정합성(consistency)이 매우 높은 음성 데이터(B)가 음성 트레이닝 데이터(B)로 결정됨으로써, 기계학습을 저해하는 불규칙적인 변동이나 왜곡이 매우 적은 데이터가 음성 트레이닝 데이터로 선별되고(제 1 방식), (ii) 기-합성음 생성 모델에 음성 트레이닝 데이터(B)가 추가적으로 기계학습되어 적용됨에 있어서, 기-합성음 생성 모델과 매우 높은 정합성을 가지고 음성 트레이닝 데이터가 적용(제 2 방식)되는 이점이 있다.

도 7은 하나 이상의 음성 데이터들 (D₁, D₂, D₃,…,D_n-2, D_n-1, D_n) 중 일 음성 데이터 (D₃)에서 지터를 설명하기 위한 파형도이다.

도 7의 (a) 및 7의 (b)를 참조하면, 하나 이상의 음성 데이터들은 기계학습을 위한 하나 이상의 분석구간들을 가지고, 음성 데이터(D₃)의 분석구간에서 문자(문장 등)에 해당하는 음성(성문음)을 살펴보면, 진폭은 A₁, A₂, A₃이고, 개수는 3(N)개 임을 알 수 있다.

도 7의 (b)를 참조하면, 음성 데이터(D₃)에서 진폭을 나타내는 A₁, A₂, A₃가 일정한 값이 아니라, 피크 투 피크 변동(peak-to-peak variation)을 나타내고, 그 변동의 절대값의 합을 평균 진폭으로 나눈 값이 시머가 된다. 시머의 값은 다양한 방식으로 측정될 수 있다. 시머는 다음과 같은 퍼센트 단위로 측정될 수 있으나, 이에 한정되는 것은 아니다.

평균 진폭은, 일반적으로 하나 이상의 음성 데이터들의 분석구간 별로 측정되나, 본 발명의 발명자들은, 전술한 바와 같이, 평균 진폭이 (i) 기본-음성 트레이닝 데이터(A)의 평균 피크 투 피크 진폭으로서 측정되거나(제 1 방식), (ii) 음성 트레이닝 데이터(C)의 평균 피크 투 피크 진폭으로서 측정되는 경우, 시머에 기초한 음성 트레이닝 데이터의 결정에 있어서 이점이 있음 발견하였다.

기본-음성 트레이닝 데이터(A) 또는 음성 트레이닝 데이터(C)와 비교를 통한 시머는, 다음과 같은 식에 의해 퍼센트 단위로 측정된다.

도 8 및 도 9는 시머에 기초하여 음성 트레이닝 데이터를 결정하는 방법의 순서도들이다.

도 8를 참조하면, 제 1 방식에서, 음성 데이터들(B) 각각의 피크 투 피크 진폭과 기본-음성 트레이닝 데이터(A)의 평균 피크 투 피크 진폭에 기초하여, shimmer(machine learning)이 측정되고(S810), shimmer (machine learning)의 값이 제 1 미리 결정된 범위 내인 음성 데이터들(B)이 음성 트레이닝 데이터(B)로 결정된다(S820).

도 9을 참조하면, 제 2 방식에서, 음성 데이터들(B) 각각의 피크 투 피크 진폭과 음성 트레이닝 데이터(C)의 평균 피크 투 피크 진폭에 기초하여, shimmer(machine learning)이 측정되고(S910), jitter(machine learning)의 값이 제 1 미리 결정된 범위 내인 음성 데이터들(B)이 음성 트레이닝 데이터(B)로 결정된다(S910).

시머는 성대 진동의 진폭과 관련되어, 시머가 큰 경우 음성의 크기(loudness)의 변동이 크게 나타난다. 또한, 시머는 기식음(breathiness)이 크거나 잡음(noise)이 큰 경우에도 크게 나타난다. 관련하여, 본 발명의 발명자들은 시머가 제 2 미리 결정된 범위 내에 있는 경우, 음성의 크기가 보다 일정하고 기식음, 소음 등이 작은 음성 트레이닝 데이터임을 발견하였다.

특히, 제 2 미리 결정된 범위가 0 % 내지 15 %, 바람직하게는 0 % 내지 12 % 내에 있는 경우, 음성 크기의 불규칙성, 기식음, 소음 등이 없거나 있더라도, (i) 양질의 데이터인 기본-음성 트레이닝 데이터(A)와 정합성(consistency)이 매우 높은 음성 데이터(B)가 음성 트레이닝 데이터(B)로 결정됨으로써, 기계학습을 저해하는 불규칙적인 변동이나 왜곡이 매우 적은 데이터가 음성 트레이닝 데이터로 선별되고(제 1 방식), (ii) 기-합성음 생성 모델에 음성 트레이닝 데이터(B)가 추가적으로 기계학습되어 적용됨에 있어서, 기-합성음 생성 모델과 매우 높은 정합성을 가지고 음성 트레이닝 데이터가 적용됨으로써, (제 2 방식)되는 이점이 있다.

이에 따라, 지터 및 시머에 기초하여, 기계학습에 보다 적합한 음성 트레이닝 데이터의 선별이 자동적으로 이루어져 음성 트레이닝 데이터를 (전)처리하는 시간 및 비용을 보다 감소시키는 동시에, 기계학습을 저해하는 불규칙적인 변동이나 왜곡이 매우 적은 음성 트레이닝 데이터가 선별되고(제 1 방식), 기-합성음 생성 모델에 대한 추가적인 기계학습에 있어서 정합성이 매우 높은 음성 트레이닝 데이터가 선별되어 적용됨으로써, 결국 보다 짧은 시간과 낮은 비용으로 보다 양질의 합성음을 생성하는 음성 트레이닝 데이터가 선별된다.

한편, 음성 데이터에서 발화자의 성별과 관련하여, 기계학습에 적합한 음성 트레이닝 데이터 선별을 위해, 시머 또는 지터가 이용될 수 있다. 일반적으로, 성별에 따른 음성 특징과 관련하여, 여성의 음성은 남성의 음성보다 높은 피치(주파수)를 가질 뿐만 아니라, 피치에 있어서의 불확정성(pitch uncertainty) 또는 변동(pitch perturbation)이 여성의 음성에서 남성의 음성보다 높게 나타난다. 이와 달리, 진폭에 있어서의 불확정성(amplitude uncertainty) 또는 변동(amplitude perturbation)은 남성의 음성에서 여성의 음성보다 높게 나타난다.

이에 따라, 본 발명의 발명자들은, 음성 데이터의 발화자가 여성인 경우, 피치 변동이 남성보다 크다는 특성을 고려하여 음성 파라미터의 우선순위를 정하여 음성 데이터를 선별할 수 있다. 보다 구체적으로, 최우선적으로 지터에 기초하여 음성 데이터 중 음성 트레이닝 데이터 후보군을 결정한 후에, 다음으로 시머 등 다른 음향 파라미터에 기초하여 이러한 음성 트레이닝 데이터 후보군 중 최종적으로 선별될 음성 트레이닝 데이터를 결정할 수 있다. 즉, 순차적인 선별과정을 통해서, 모든 음성 데이터들 대상으로 지터, 시머, 신호대잡음비, 음절당 발화 속도 등을 기초로 선별하는 것이 아니라, 순차적으로 트레이닝 데이터 후보군을 줄여나가는 방식으로 최종적으로 선별될 음성 트레이닝 데이터를 결정하여, 음성 트레이닝 데이터를 (전)처리하는 시간 및 비용을 보다 감소시킬 수 있다.

음성 데이터의 발화자가 남성인 경우, 진폭 변동이 여성보다 크다는 특성을 고려하여, 최우선적으로 시머에 기초하여 음성 데이터 중 음성 트레이닝 데이터 후보군을 결정한 후에, 다음으로 지터 등 다른 음향 파라미터에 기초하여 음성 트레이닝 데이터 후보군 중 최종적으로 선별될 음성 트레이닝 데이터를 결정할 수 있다.

신호대잡음비에 기초한 음성 트레이닝 데이터 선별

신호대잡음비(SNR, signal to noise ratio)는 언어를 포함하는 녹음된 오디오 파일의 음성(신호)에서, 음성(신호)의 세기(

)를 배경잡음(background noise) 등을 포함하는 잡음의 세기(

)로 나눈 값으로, 음성(신호)과 소음의 비를 나타내고, 다음과 같은 식에 의해 dB 단위로 측정될 수 있다.

신호대잡음비가 높을수록 잡음이 적게 포함된 것으로서, 음성 트레이닝 데이터의 기계학습에 있어서, 언어(speech)와 이에 대응하는 문자(text)와 연관된 학습이 보다 높은 정확도와 효율성을 가지고 수행된다.

이에 따라, 본 발명의 발명자는 신호대잡음비가 제 3 미리 결정된 값보다 큰 범위 내에 있는 음성 데이터의 경우 잡음이 보다 적게 포함된 음성 데이터로서, 기계학습에 보다 적합함을 발견하였다. 나아가, 본 발명의 발명자는 음성 데이터에서 제 3 미리 결정된 값이 15 dB, 바람직하게는 20 dB인 경우, 잡음이 없거나 있더라도 기계학습에 음성 트레이닝 데이터로 사용되기에 보다 적합함을 발견하였다.

음절당 발화 속도에 기초한 음성 트레이닝 데이터 선별

음절당 발화 속도는 음성 데이터에서 한 음절(syllable)을 발화하는데 걸리는 평균 시간을 나타낸다. 발화 속도는 다양한 요인에 의해 영향을 받게 되는데, 특히 유창하지 않은 발화의 양이나 발음의 연장이나 막힘, 깨진 낱말 등의 발생을 포함하는 운율적이지 못한 발성 등으로 인하여, 평균 발화 속도가 느리게 나타난다.

이에 따라, 본 발명의 발명자는 음절당 발화속도가 제 4 미리 결정된 범위 내에 있는 음성 데이터라면, 보다 유창한 발성을 포함하는 음성 데이터로서 기계학습에 보다 적합함을 발견하였다. 나아가, 본 발명의 발명자는, 음성 데이터에서 음절당 발화 속도가 0 초 내지 0.2 초, 바람직하게는 0초 내지 0.16 초인 경우, 발성이 유창하거나 다소 유창하지 않은 부분이 있더라도 기계학습에 음성 트레이닝 데이터로 사용되기에 보다 적합함을 발견하였다.

도 10은 본 발명의 일 실시예에 따른 음성 트레이닝 데이터 선별 장치의 블록도이다.

도 10을 참조하면, 음성 트레이닝 데이터 선별 장치(1000)는 저장부(1010), 통신부(1020), 및 제어부(1030)를 포함한다. 저장부(1010)는 음성 데이터들 저장할 수 있다. 다양한 실시예에서, 저장부(1010)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으나, 이에 제한되지 않는다. 통신부(920)는 제한되지 않고, 무선 통신부(예를 들어, 셀룰러 통신부, 근거리 무선 통신부, 또는 GNSS(global navigation satellite system) 통신부 등) 또는 유선 통신부(예를 들어, LAN(local area network) 통신부, 또는 전력선 통신부 등)를 포함하고, 그 중 해당하는 통신부를 이용하여 근거리 통신 네트워크(예를 들어, 블루투스, WiFi direct 또는 IrDA(infrared data association) 등) 또는 원거리 통신 네트워크(예를 들어, 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크 등)를 통해 외부 디바이스와 통신할 수 있다. 또한, 통신부(1020)는 음성 데이터 또는 음성 트레이닝 데이터를 송수신할 수 있다. 제어부(1030)는 프로세서를 포함할 수 있으며, 제어부(1010)는 저장부(1020) 및 통신부(1030)와 동작 가능하게 연결되며, 음향 파라미터에 기초하여, 하나 이상의 음성 데이터들 중 기계학습을 위한 음성 트레이닝 데이터를 결정하도록 구성된다. 또한, 제어부(1030)는, 전술한 바와 같은, 음성 트레이닝 데이터를 결정하는 다양한 방법들을 수행하도록 구성될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

하나 이상의 음성 데이터들을 수신하는 단계; 및
지터(jitter), 시머(shimmer), 신호대잡음비(SNR), 및 음절당 발화 속도 중 적어도 둘 이상을 포함하는 복수의 음향 파라미터에 기초하여, 상기 하나 이상의 음성 데이터들 중 기계학습을 위한 음성 트레이닝 데이터를 결정하는 단계를 포함하되,
상기 음성 트레이닝 데이터를 결정하는 단계는,
상기 복수의 음향 파라미터에서 사용자 별 음향 파라미터의 우선 순위를 결정하고, 상기 결정된 우선 순위에 따라 순차적으로 이전 음향 파라미터에 기초하여 결정된 음성 트레이닝 데이터 후보군에서 다음 음향 파라미터에 기초하여 음성 트레이닝 데이터를 결정하는 단계인, 음성 트레이닝 데이터 선별 방법.
삭제
제 1 항에 있어서,
상기 지터에 기초하여, 상기 음성 트레이닝 데이터를 결정하는 단계에서,
상기 하나 이상의 음성 데이터들 각각의 피치, 및 기본-음성 트레이닝 데이터의 평균 피치에 기초하여, 상기 하나 이상의 음성 데이터들 각각의 지터를 결정하는 단계; 및
상기 지터가 제 1 미리 결정된 범위 내인 음성 데이터를 상기 음성 트레이닝 데이터로 결정하는 단계를 포함하고,
상기 제 1 미리 결정된 범위는 0 % 내지 4 %인, 음성 트레이닝 데이터 선별 방법.
제 1 항에 있어서,
상기 지터에 기초하여, 상기 음성 트레이닝 데이터를 결정하는 단계는,
상기 하나 이상의 음성 데이터들 각각의 피치, 및 기-합성음 생성 모델의 기계학습에 사용된 음성 트레이닝 데이터의 평균 피치에 기초하여, 상기 하나 이상의 음성 데이터들 각각의 지터를 결정하는 단계; 및
상기 지터가 제 1 미리 결정된 범위 내인 음성 데이터를 상기 음성 트레이닝 데이터로 결정하는 단계를 포함하고,
상기 제 1 미리 결정된 범위는 0 % 내지 4 %인, 음성 트레이닝 데이터 선별 방법.
제 3 항 또는 제 4 항에 있어서,
상기 제 1 미리 결정된 범위는 0 % 내지 3.6 %인, 음성 트레이닝 데이터 선별 방법.
제 1 항에 있어서,
상기 시머에 기초하여, 상기 음성 트레이닝 데이터를 결정하는 단계는,
상기 하나 이상의 음성 데이터들 각각의 피크 투 피크 진폭, 및 기본-음성 트레이닝 데이터의 평균 피크 투 피크 진폭에 기초하여, 상기 하나 이상의 음성 데이터들 각각의 시머를 결정하는 단계; 및
상기 시머가 제 2 미리 결정된 범위 내인 음성 데이터를 상기 음성 트레이닝 데이터로 결정하는 단계를 포함하고,
상기 제 2 미리 결정된 범위는 0 % 내지 15 %인, 음성 트레이닝 데이터 선별 방법.
제 1 항에 있어서,
상기 시머에 기초하여, 상기 음성 트레이닝 데이터를 결정하는 단계는,
상기 하나 이상의 음성 데이터들 각각의 피크 투 피크 진폭, 및 기-합성음 생성 모델의 기계학습에 사용된 음성 트레이닝 데이터의 평균 피크 투 피크 진폭에 기초하여, 상기 하나 이상의 음성 데이터들 각각의 시머를 결정하는 단계; 및
상기 시머가 제 2 미리 결정된 범위 내인 음성 데이터를 상기 음성 트레이닝 데이터로 결정하는 단계를 포함하고,
상기 제 2 미리 결정된 범위는 0 % 내지 15 %인, 음성 트레이닝 데이터 선별 방법.
제 6 항 또는 제 7 항에 있어서,
상기 제 2 미리 결정된 범위는 0 % 내지 12 %인, 음성 트레이닝 데이터 선별 방법.
제 1 항에 있어서,
상기 신호대잡음비에 기초하여, 상기 음성 트레이닝 데이터를 결정하는 단계는, 상기 하나 이상의 음성 데이터들 각각의 신호대잡음비가 제 3 미리 결정된 값 이상인 음성 데이터를 상기 음성 트레이닝 데이터로 결정하고, 상기 제 3 미리 결정된 값은 15 dB인, 음성 트레이닝 데이터 선별 방법.
제 9 항에 있어서,
상기 제 3 미리 결정된 값은 20 dB인, 음성 트레이닝 데이터 선별 방법.
제 1 항에 있어서,
상기 음절당 발화 속도에 기초하여, 상기 음성 트레이닝 데이터를 결정하는 단계는, 상기 하나 이상의 음성 데이터들 각각의 음절당 발화 속도가 제 4 미리 결정된 범위인 음성 데이터를 상기 음성 트레이닝 데이터로 결정하고, 상기 제 4 미리 결정된 범위는 0 초 내지 0.2 초인, 음성 트레이닝 데이터 선별 방법.
제 11 항에 있어서,
상기 제 4 미리 결정된 범위는 0 초 내지 0.16 초인, 음성 트레이닝 데이터 선별 방법.
제 1 항에 있어서,
상기 하나 이상의 음성 데이터들의 발화자가 여성인 경우,
우선적으로 상기 지터에 기초하여 상기 음성 트레이닝 데이터를 결정하고,
다른 음향 파라미터에 기초하여 상기 음성 트레이닝 데이터를 결정하는 단계는, 상기 지터에 기초하여 상기 음성 트레이닝 데이터로 결정된 상기 하나 이상의 음성 데이터를 대상으로만 수행되는, 음성 트레이닝 데이터 선별 방법.
제 1 항에 있어서,
상기 하나 이상의 음성 데이터들의 발화자가 남성인 경우,
우선적으로 상기 시머에 기초하여 상기 음성 트레이닝 데이터를 결정하고,
다른 음향 파라미터에 기초하여 상기 음성 트레이닝 데이터를 결정하는 단계는, 상기 시머에 기초하여 상기 음성 트레이닝 데이터로 결정된 상기 하나 이상의 음성 데이터를 대상으로만 수행되는, 음성 트레이닝 데이터 선별 방법.
저장부, 통신부, 및 제어부를 포함하는 음성 트레이닝 데이터 선별 장치로서,
상기 저장부는 하나 이상의 음성 데이터들을 저장하도록 구성되고,
상기 통신부는 상기 하나 이상의 음성 데이터들을 수신하도록 구성되고,
상기 제어부는, 지터(jitter), 시머(shimmer), 신호대잡음비(SNR), 및 음절당 발화 속도 중 적어도 둘 이상을 포함하는 복수의 음향 파라미터를 기초로 하여, 상기 하나 이상의 음성 데이터들 중 기계학습을 위한 음성 트레이닝 데이터를 결정하되,
상기 복수의 음향 파라미터에서 사용자 별로 상이한 음향 파라미터 우선 순위를 결정하고, 상기 결정된 우선 순위에 따라 순차적으로 이전 음향 파라미터에 기초하여 결정된 음성 트레이닝 데이터 후보군에서 다음 음향 파라미터에 기초하여 음성 트레이닝 데이터를 결정하도록 구성되는, 음성 트레이닝 데이터 선별 장치.