KR102072235B1

KR102072235B1 - 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템

Info

Publication number: KR102072235B1
Application number: KR1020160167004A
Authority: KR
Inventors: 이성주; 박전규; 이윤근; 정훈
Original assignee: 한국전자통신연구원
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2020-02-03
Also published as: KR20180065759A; US20180166071A1

Abstract

본 발명은 자동음성인식 시스템 학습 및 음향모델 훈련을 위해 필수적인 음성데이터베이스 분류에 관한 기술로서, 입력 음성 신호를 이용하여 음성 신호의 발화속도를 자동 분류하는 방법 및 이를 이용한 음성 인식 시스템에 관한 것이다.
본 발명에 따른 자동 발화속도 분류를 이용한 음성인식 시스템은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 음성 인식부와, 단어 격자 정보를 이용하여 단어별 발화속도를 추정하는 발화속도 추정부와, 발화속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부 및 발화속도가 정규화된 음성 신호에 대한 리스코어링을 수행하는 리스코어링부를 포함하는 것을 특징으로 한다.

Description

자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템{AUTOMATIC SPEAKING RATE CLASSIFICATION METHOD AND SPEECH RECOGNITION SYSTEM USING THEREOF}

본 발명은 자동음성인식 시스템 학습 및 음향모델 훈련을 위해 필수적인 음성데이터베이스 분류에 관한 기술로서, 입력 음성 신호를 이용하여 음성 신호의 발화속도를 자동 분류하는 방법 및 이를 이용한 음성 인식 시스템에 관한 것이다.

음성인식 기술은 일상생활 속에서 사용하는 단말기를 제어하거나 서비스를 이용함에 있어, 마우스나 키보드 등의 입력 장치를 사용하지 않고, 사람에게 가장 친화적이며 편리한 의사소통 도구인 목소리를 사용하여 원하는 기기의 기능을 실행시키거나, 서비스를 제공받을 수 있도록 지원하는 기술이다.

이러한 음성인식 기술은 홈네트워크, 텔레매틱스, 지능형 로봇 등에 적용될 수 있으며, 정보기기가 소형화되고 이동성이 중요시되는 시대에서 음성인식 기술의 중요성이 더욱 커지고 있다.

자동음성인식 시스템 학습을 위하여는 음성데이터베이스 분류가 필수적인데, 종래 기술에 따르면 발화자의 성별, 대화/읽기 등에 따라 그 분류가 이루어지나, 발화속도 판별 및 그를 통한 음성데이터베이스 분류에 대한 해결책은 제시하지 못하는 한계점이 있다.

본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 음성 파일을 이용하여 그 발화속도를 분류하고, 단어별 발화속도를 추정 및 정규화하며, 음성인식의 성능을 향상시키는 것이 가능한 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템을 제안한다.

본 발명에 따른 자동 발화속도 분류 방법은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 단계와, 단어 격자 정보를 이용하여 음절 발화속도를 추정하는 단계 및 음절 발화속도를 이용하여 발화속도를 기설정 기준보다 빠른 속도, 정상 속도, 느린 속도로 각각 판별하는 단계를 포함하는 것을 특징으로 한다.

본 발명에 따른 자동 발화속도 분류를 이용한 음성인식 시스템은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자 정보를 추출하는 음성 인식부와, 단어 격자 정보를 이용하여 단어별 발화속도를 추정하는 발화속도 추정부와, 발화속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부 및 발화속도가 정규화된 음성 신호에 대한 리스코어링을 수행하는 리스코어링부를 포함하는 것을 특징으로 한다.

본 발명에 따른 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템은자동적으로 발화속도에 따라 음성데이터베이스를 분류함으로써, 음향모델 훈련을 위해 필수적인 음성데이터베이스의 분석을 수행하고 음성인식 시스템의 성능을 향상시키는 효과가 있다.

본 발명에 따르면 자동적으로 발화속도를 고려하여 음성데이터베이스를 분류함으로써, 정상속도 범위를 벗어나는(특히, 정상속도보다 빠른) 음성신호의 학습 시스템 내 비율을 적절히 조정하는 것이 가능한 효과가 있다.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 나타내는 순서도이다.
도 2는 본 발명의 실시예에 따른 음절 발화속도 판별 과정을 나타내는 순서도이다.
도 3은 본 발명의 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이다.
도 4는 본 발명의 다른 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 이용한 음성인식 시스템을 나타내는 도면이다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.

도 1은 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 나타내는 순서도이고, 도 3은 본 발명의 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이며, 도 4는 본 발명의 다른 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이다.

본 발명의 실시예에 따른 자동 발화속도 분류 방법은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 단계와, 단어 격자 정보를 이용하여 음절 발화속도를 추정하는 단계 및 음절 발화속도를 이용하여 발화속도를 기설정 기준보다 빠른 속도, 정상 속도, 느린 속도로 각각 판별하는 단계를 포함한다.

S100 단계에서 전사(transcription) 정보가 존재하는 것으로 판단된 경우, 음성신호 강제 정렬부(110)는 전사 정보와 음성 인식 시스템을 이용하여, 입력된 음성 신호를 강제 정렬하고 단어 격자 정보를 추출한다(S150).

이 때, 언어 모델(120)은 자동 음성 인식을 위한 언어모델(language model)이며, 대표적으로 wFST(weighted Finite State Transducer)기반의 음성 인식을 위한 언어모델이다.

음성인식 시스템의 사전(130)은 자동 음성 인식을 위한 단어 사전(lexicon)이며, 음향 모델(140)은 자동 음성인식을 위한 음향 모델(acoustic model)이다.

S100 단계에서 전사 정보가 존재하지 않는 경우, 음성 인식부(150)는 전술한 언어 모델(120), 사전(130) 및 음향 모델(140)을 이용하여 음성 인식을 수행하여 단어 격자 정보를 추출한다(S200).

이 때, 일반적인 음성 인식을 이용하면 단어 격자의 단어 경계 정보 획득에 있어 그 정확도가 떨어지는 문제점이 있어, 본 발명의 실시예에 따르면 확률분포의 차이를 계산하는 쿨백-라이블러 발산(Kullback-Leibler divergence)을 이용하여, 경계정보를 정제한다.

본 발명의 실시예에 따르면, 입력 음성 신호의 스펙트럼으로부터, 아래 [수학식 1]과 같이 확률 밀도 함수(PDF, Probability Density Function)을 구한다.

이어서, 기준이 되는 프레임의 좌,우에 위치한 프레임들로부터 PDF mean μ_left, μ_right와 Σ_left, Σ_right를 구한 다음, 아래 [수학식 2]에 대입하여 쿨백-라이블러 발산을 구한다.

본 발명의 실시예에 따르면, 쿨백-라이블러 발산이 최고값을 가지는 새로운 단어 경계정보를 아래 [수학식 3]과 같이 구할 수 있다.

이 때, 리스코어링부(500)는 High-level 지식을 이용하여 추출된 단어 격자 정보를 재정렬한 후, 향상된 단어 격자 정보를 추출한다(S200).

S250단계는 단어 격자 정보를 이용하여 음절 발화속도를 추정하는 단계로서, 발화속도 추정부(200)는 단어별 지속 시간(duration) 정보 추출부(210), 음절별 지속시간 정보 추정부(220), 음절 발화속도 추정부(230)를 포함하여 구성된다.

단어별 지속 시간 정보 추출부(210)는 단어 격자 정보를 이용하여 단어 지속시간(word duration) 정보를 추출하며, 예컨대 단위는 msec임이 바람직하다.

음절별 지속시간 정보 추정부(220)는 단어 지속 시간 정보로부터 평균 음절당 지속 시간 정보를 추출하고, 음절 발화속도 추정부(230)는 평균 음절당 지속 시간 정보를 이용하여 음절발화속도를 추정한다.

음절발화속도는 단위 시간(sec)당 발화되는 음절(syllables)로서, 발화속도(speaking rate)의 판별 기준이 된다.

S300단계는 음절 발화속도를 이용하여 발화속도를 기설정된 기준보다 빠른 속도, 정상 속도, 느린 속도로 각각 판별하는 단계로서, 발화속도 판별부(300)는 발화속도 판별 지식과 음절 발화속도를 이용하여 발화속도를 3가지로 분류하게 된다.

정상 발화속도를 3.3syl/sec 내지 5.9syl/sec로 기설정된 범위를 정하는 경우, 도 2에 도시된 바와 같이 음절 발화속도가 3.3syl/sec보다 작은 경우에는 느린 속도로 판별하고(S320), 음절 발화속도가 3.3syl/sec 내지 5.9syl/sec 사이인 경우에는 정상 속도로 판별하며(S340), 음절 발화속도가 5.9syl/sec보다 큰 경우에는 빠른 속도로 판별한다(S360).

도 5는 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 이용한 음성인식 시스템을 나타내는 도면이다.

본 발명의 실시예에 따른 자동 발화속도 분류 방법을 이용한 음성인식 시스템은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자 정보를 추출하는 음성 인식부(160)와, 단어 격자 정보를 이용하여 단어별 발화 속도를 추정하는 발화 속도 추정부(200)와, 발화 속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부(700) 및 발화 속도가 정규화된 음성 신호에 대한 리스코어링을 수행하는 리스코어링부(800)를 포함한다.

음성 인식부(160)는 언어 모델(120), 사전(130), 음향 모델(140)을 이용하여 입력 음성 신호로부터 단어 격자 정보를 추출하며, 예컨대 단어 격자 정보는 음성 인식을 통해 인식된 단어 후보들의 연결 및 방향성이 표시된 그래프이다.

발화 속도 추정부(200)는 단어별 지속 시간 정보 추출부(240), 단어별 음절 발화속도 추정부(250) 및 발화속도 판별부(260)를 포함한다.

단어별 지속 시간 정보 추출부(240)는 단어 격자 정보로부터 단어별 지속 시간(duration) 정보를 추출하고, 단어별 음절 발화 속도 추정부(250)는 단어별 지속 시간을 이용하여 단어별 평균 음절 발화 속도(단위: syl/sec)를 추정한다.

발화속도 판별부(260)는 단어별 평균 음절 발화 속도를 이용하여 각 단어별 발화속도를 판별하는데, 평균 음절 발화 속도가 기설정 범위(예: 3.3syl/sec 내지 5.9syl/sec)내인 경우에는 정상 속도로 판별하고, 기설정 범위를 벗어나는 경우 빠른 속도 또는 느린 속도임을 판별한다.

발화 속도 정규화부(700)는 빠르거나 느린 속도인 것으로 판별된 단어에 대하여 발화 속도를 정규화하는데, 발화속도 변환 방법(time-scale modification method)을 이용한다.

발화 속도 정규화부(700)는 기설정된 정규발화 속도(예: 4syl/sec)로 발화 속도를 정규화하는데, 시간축 변환 방법들 중 SOLA(Synchronized Over-Lap and ADD) 기법에 의하면 시간축 변환율이 1.0보다 작은 경우는 발화 속도를 빠르게 합성하는 것이고, 시간축 변환율이 1.0보다 큰 경우에는 발화 속도를 느리게 합성하는 것이다.

판별된 음절 발화 속도 α가 3.3syl/sec보다 적은 느린 속도의 단어인 경우, 4.0/α 의 시간축 변화율로 느린 발성을 정상발성 속도로 정규화하며, 판별된 음절 발화 속도 α가 5.9syl/sec보다 큰 빠른 속도의 단어인 경우, α/4.0의 시간축 변화율로 빠른 발성을 정상발성 속도로 정규화한다.

리스코어링부(800)는 사전(910) 및 음향 모델(920)을 이용하여, 발화속도가 정규화된 음성 신호를 리스코어링하여, 최종 음성 인식 결과를 획득하게 된다.

본 발명의 실시예에 따르면, 입력 음성 신호의 발화 속도를 자동 분류하고(예: 정상 속도인 경우 출력 파라미터는 0, 빠른 속도인 경우 출력 파라미터는 1, 느린 속도인 경우 출력 파라미터는 -1), 빠르거나 느린 속도의 단어를 정상 발화 속도로 정규화한 후 리스코어링을 수행하여 최종 음성 인식 결과를 획득함으로써, 음성 인식의 성능을 향상시키는 효과가 있다.

이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

110: 음성신호 강제 정렬부 120: 언어 모델
130: 사전 140: 음향 모델
150, 160: 음성 인식부 200: 발화속도 추정부
210: 단어별 지속 시간 정보 추출부
220: 음절별 지속 시간 정보 추정부
230: 음절 발화속도 추정부
240: 단어별 지속시간 정보 추출부
250: 단어별 음절 발화속도 추정부
260: 발화속도 판별부 300: 발화속도 판별부
400: 발화속도 판별 지식 DB 500: 리스코어링부
600: High-level 지식 700: 발화속도 정규화부
800: 리스코어링부 910: 사전
920: 음향 모델

Claims

(a) 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하되, 전사 정보가 존재하지 않는 경우 음성 인식 시스템을 이용하여 단어 격자 정보를 추출하는 단계;
(a-1) 상기 단어 격자 정보를 재정렬한 후 향상된 단어 격자 정보를 추출하는 단계;
(b) 상기 단어 격자 정보를 이용하여 음절 발화속도를 추정하는 단계; 및
(c) 상기 음절 발화속도를 이용하여 발화속도를 기설정 기준보다 빠른 속도, 정상 속도, 느린 속도로 각각 판별하는 단계
을 포함하는 자동 발화속도 분류 방법.
제1항에 있어서,
상기 (a) 단계는 전사 정보가 존재하는 경우, 상기 전사 정보와 언어모델, 단어 사전 및 음향 모델을 이용하여 상기 입력 음성 신호를 강제 정렬하고, 상기 단어 격자 정보를 추출하는 것
인 자동 발화속도 분류 방법.
삭제
제1항에 있어서,
상기 입력 음성 신호의 스펙트럼으로부터 확률 밀도 함수를 구하고, 기준이 되는 프레임의 좌우 프레임들로부터 획득한 데이터를 이용하여 쿨백-라이블러 발산을 구하여, 상기 단어 격자 정보를 추출하기 위한 경계정보를 획득하는 것
인 자동 발화속도 분류 방법.
제1항에 있어서,
상기 (a-1) 단계는 high level knowledge를 이용하여 상기 추출된 단어 격자 정보를 재정렬하는 것
인 자동 발화속도 분류 방법.
제1항에 있어서,
상기 (b) 단계는 상기 단어 격자 정보를 이용하여 단어별 지속 시간을 추출하고, 상기 단어별 지속 시간을 이용하여 평균 음절당 지속 시간 정보를 추출하며, 상기 음절 발화속도를 추정하는 것
인 자동 발화속도 분류 방법.
제1항에 있어서,
상기 (c) 단계는 발화속도 판별 지식과 상기 음절 발화속도를 이용하여 발화속도를 분류하는 것
인 자동 발화속도 분류 방법.
제1항에 있어서,
(d) 판별된 발화속도를 정규화하여 음성 신호에 대한 리스코어링을 수행하고, 최종 음성 인식 결과를 획득하는 단계
를 더 포함하는 자동 발화속도 분류 방법.
입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 음성 인식부;
상기 단어 격자 정보를 이용하여 단어별 발화속도를 추정하는 발화속도 추정부;
발화속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부; 및
상기 발화속도가 정규화된 음성 신호에 대한 리스코어링을 수행하고, 추출된 단어 격자 정보를 재정렬한 후, 향상된 단어 격자 정보를 추출하는 리스코어링부
를 포함하는 자동 발화속도 분류를 이용한 음성인식 시스템.
제9항에 있어서,
상기 단어 격자 정보는 음성 인식을 통해 인식된 단어 후보들의 연결 및 방향성이 표시된 그래프인 것
을 특징으로 하는 자동 발화속도 분류를 이용한 음성인식 시스템.
제9항에 있어서,
상기 발화속도 추정부는 단어별 지속 시간 정보를 추출하고, 이를 이용하여 단어별 평균 음절 발화속도를 추정하는 것
인 자동 발화속도 분류를 이용한 음성인식 시스템.
제11항에 있어서,
상기 발화속도 추정부는 상기 단어별 평균 음절 발화속도를 이용하여 각 단어별 발화속도를 판별하되, 음절 발화속도가 기설정 범위 내인지 여부를 판단하여 정상 속도, 느린 속도 및 빠른 속도의 발화속도임을 각각 판별하는 것
인 자동 발화속도 분류를 이용한 음성인식 시스템.
제9항에 있어서,
상기 발화속도 정규화부는 시간축 변환율을 고려하여 기설정 범위보다 빠르거나 느린 발화속도를 상기 정상 발성 속도로 정규화하는 것
인 자동 발화속도 분류를 이용한 음성인식 시스템.
제9항에 있어서,
상기 리스코어링부는 단어 사전 및 음향모델을 이용하여 상기 발화속도가 정규화된 음성 신호를 리스코어링하여 최종 음성 인식 결과를 획득하는 것
인 자동 발화속도 분류를 이용한 음성인식 시스템.