KR20120054845A - 로봇의 음성인식방법 - Google Patents

로봇의 음성인식방법 Download PDF

Info

Publication number
KR20120054845A
KR20120054845A KR1020100116180A KR20100116180A KR20120054845A KR 20120054845 A KR20120054845 A KR 20120054845A KR 1020100116180 A KR1020100116180 A KR 1020100116180A KR 20100116180 A KR20100116180 A KR 20100116180A KR 20120054845 A KR20120054845 A KR 20120054845A
Authority
KR
South Korea
Prior art keywords
noise
speaker
acoustic model
new
model
Prior art date
Application number
KR1020100116180A
Other languages
English (en)
Inventor
김기범
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020100116180A priority Critical patent/KR20120054845A/ko
Priority to US13/298,442 priority patent/US20120130716A1/en
Publication of KR20120054845A publication Critical patent/KR20120054845A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

기본 음향 모델이 하나 존재하고 잡음 환경과 화자가 달라질 때마다 잡음 환경 별 및 화자 별 특성을 반영한 병렬적인 음향 모델을 여러 개 생성하여 가짐으로써 환경 및 화자에 따라 여러 개의 음향 모델 중 하나를 자유로이 가져다 인식시키는 것이 가능하기 때문에 모델 훈련 환경과 테스트 환경과의 불일치를 근본적으로 제거할 수 있어 음성 인식 능력을 향상시킬 수 있는 로봇의 음성인식방법을 개시한다.

Description

로봇의 음성인식방법{SPEECH RECOGNITION METHOD FOR ROBOT}
본 발명은 로봇의 음성인식방법에 관한 것으로, 더욱 상세하게는 환경 변화나 화자 변화에도 음성인식이 가능한 로봇의 음성인식방법에 관한 것이다.
최근 로봇산업의 성장과 함께 사람과 로봇간의 의사소통을 위해서 다양한 음성인식알고리즘이 로봇 시스템에 사용되고 있다. 특히 인간과 의사소통이 필수적인 로봇의 경우 사용자의 음성을 분석하여 사용자가 누구인지 그리고 무엇을 말하는지를 파악해야 한다.
최근에는 음성인식에 대한 소비자의 요구에 따라 음성인식을 위한 마이크로폰을 부착한 로봇 제품이 개발되고 있다.
로봇은 마이크로폰을 통해 입력된 음원을 음성인식기술을 이용해서 각 음성의 독특한 특징을 추출하여 음성신호를 정확하게 모델링하고, 각 음성의 특징을 구별함으로써 음원의 음성내용을 인식한다.
음성인식기술이 널리 쓰이기 위해서는 다양한 환경에서 음성인식성능을 보장할 수 있어야 하는 데 이를 위해서는 여러 가지 기술적 문제가 해결되어야 한다.
음성 인식률 하락의 가장 근본적인 원인은 실제적으로 발화를 하는 테스트 환경과 음향 모델링(Acoustic Modeling)에 사용되는 훈련 환경과의 불일치 때문이다. 이러한 불일치의 원인으로는 인식 대상 음성에 부가되는 다양한 간섭신호, 음향 모델 구축 시 포함되지 않은 화자의 발성 등이 될 수 있는데 이러한 불일치를 제거하는 기법은 잡음이 섞인 음성이 입력되었을 때 잡음에 해당하는 부분을 줄여 전체적으로, 향상된 음질의 신호를 생성하는 음성 향상(speech enhancement) 기법, 잡음에 의하여 오염된 입력 음성의 특징을 깨끗한 음성에서 추출한 특징으로 변환시켜주는 특징 보상 (feature compensation) 기법, 특징 보상 기법과는 반대로 인식 모델을 변환하여 마치 적응된 모델이 현재의 잡음이 섞인 음성으로부터 학습된 것처럼 하는 모델 적응(model adaptation) 기법 등이 있다.
일반적인 모델 적응 기법을 이용한 음성인식방식에서는 잡음 환경에 대한 종속성(dependency)을 없애기 위해 클린 환경에서 구축된 단 하나의 음향 모델(Acoustic Model)을 사용하게 된다. 기존에 제안되는 모델링 기법들은 이러한 단 하나의 음향 모델을 어떻게 하면 잘 만들어서 인식 성능 및 인식 속도를 높일 것이냐 하는 것에 초점을 맞춰 왔다.
즉, 기존의 로봇의 음성인식방법은 잡음 환경과 화자의 변화에 대처할 수 있는 하나의 음향 모델을 만드는 것을 목적으로 한다.
따라서 화자 종속 대 어휘 연속음성인식(speaker independent large vocabulary continuous speech recognition)이라는 음성 인식의 최종 목표에는 부합하지만 실제적으로 그 성능은 제한적일 수밖에 없다.
이것은 기존 방식이 일반화되는 화자 적응, 일반화되는 잡음 환경 적응을 위해 하나의 모델을 적응시키기 때문이다. 하나의 모델이 임의의 환경에서 임의의 화자가 발성에 적응하는 것은 현재 음성 인식 기술로는 안정적인 성능을 보장할 수 없다.
본 발명의 일 측면은 모델 적응 기법을 이용하여 음성 인식하는 로봇의 음성인식장치에서 잡음 환경 변화와 화자 변화에도 음성 인식 능력을 향상시킬 수 있도록 기본 음향 모델로부터 잡음 환경 별 및 화자 별 특성을 반영한 음향 모델을 각각 생성하고, 생성된 음향 모델들을 이용하여 음성을 인식하는 로봇의 음성인식방법을 제공한다.
이를 위해 본 발명의 일 측면에 따른 로봇의 음성인식방법은 잡음 환경별로 잡음에 적응된 음향 모델을 생성 및 저장하고, 화자 별로 화자에 적응된 음향 모델을 생성 및 저장하고, 음성 인식 환경에서 잡음과 음성을 입력받고, 상기 입력된 잡음에 적응된 제1 음향 모델과 상기 입력된 음성의 화자에 적응된 제2 음향 모델을 선택하고, 상기 선택된 제1 및 제2 음향 모델을 이용하여 상기 입력된 음성에 대한 음성인식을 수행하는 것을 포함한다.
또한, 상기 잡음에 적응된 음향 모델의 생성 및 저장은, 병렬 모델 결합(Parallel Model Combination ; PMC) 방식을 이용하여 상기 잡음 환경별로 잡음에 적응된 음향 모델을 생성하는 것을 포함한다.
또한, 상기 잡음에 적응된 음향 모델의 생성 및 저장은, 자코비안 적응(Jacobian Adaptation ; JA) 방식을 이용하여 상기 잡음 환경별로 잡음에 적응된 음향 모델을 생성하는 것을 포함한다.
또한, 상기 화자 별로 화자에 적응된 음향 모델의 생성 및 저장은. 은닉 마르코프 모델(hidden Markov Model ; HMM), 최대 사후(Maximum A Posteriori ; MAP)방법, 또는 최대 가능도 선형 회귀(Maximum Likelihood Linear Regression ; MLLR) 방법 중 어느 하나를 이용하여 상기 화자 별로 화자에 적응된 음향 모델을 생성하는 것을 포함한다.
또한, 잡음 환경별로 잡음에 적응된 음향 모델을 저장할 때 잡음 환경별 특성을 반영한 태그를 붙여 저장하고, 화자 별로 화자에 적응된 음향 모델을 저장할 때 화자별 특성을 반영한 태그를 붙여 저장하는 것을 포함한다.
또한, 상기 입력된 잡음에 적응된 제1 음향 모델과 상기 입력된 음성의 화자에 적응된 제2 음향 모델 선택은, 상기 태그를 근거로 하여 이루어지는 것을 포함한다.
본 발명의 다른 측면에 따른 로봇의 음성인식방법은 음성 인식 환경에서 잡음과 음성을 입력받고, 상기 입력된 잡음이 새로운 잡음인지를 판단하고, 상기 입력된 잡음이 새로운 잡음이면 상기 새로운 잡음에 따라 미리 설정된 클린 음향 모델을 변화시켜 상기 새로운 잡음에 적응된 음향 모델을 생성하고, 상기 새로운 잡음에 적응된 음향 모델을 생성 후 상기 입력된 음성의 화자가 등록된 화자인지를 판단하고, 상기 입력된 음성의 화자가 등록되지 않은 새로운 화자이면 상기 새로운 화자에 따라 미리 설정된 클린 음향 모델을 변화시켜 상기 새로운 화자에 적응된 음향 모델을 생성하고, 상기 생성된 음향 모델들을 저장하는 것을 포함한다.
또한, 상기 입력된 잡음이 새로운 잡음인지 판단은, 상기 입력된 잡음에 대한 통계적 수치를 미리 저장된 잡음 모델과 비교하고, 비교결과에 따라 상기 입력된 잡음이 새로운 잡음인지 아닌지를 판단하는 것을 포함한다.
또한, 상기 입력된 음성의 화자가 새로운 화자인지 판단은, 상기 입력된 음성의 특징을 추출하고, 추출된 특징과 미리 등록된 화자 모델과의 유사도를 계산하고, 계산된 유사도를 근거로 하여 상기 입력된 음성의 화자가 새로운 화자인지 아닌지를 판단하는 것을 포함한다.
또한, 상기 새로운 잡음에 적응된 음향 모델의 생성은, 병렬 모델 결합(Parallel Model Combination ; PMC) 방식 또는 자코비안 적응(Jacobian Adaptation ; JA) 방식 중 어느 하나를 이용하여 상기 새로운 잡음에 적응된 음향 모델을 생성하는 것을 포함한다.
또한, 상기 새로운 화자에 적응된 음향 모델의 생성은, 은닉 마르코프 모델(hidden Markov Model ; HMM), 최대 사후(Maximum A Posteriori ; MAP)방법, 또는 최대 가능도 선형 회귀(Maximum Likelihood Linear Regression ; MLLR) 방법 중 어느 하나를 이용하여 상기 새로운 화자에 적응된 음향 모델을 생성하는 것을 포함한다.
이상에서 설명한 본 발명의 일 측면에 따르면, 기존에는 깨끗한 단 하나의 음향 모델만을 가지고 음성을 인식하는 데 반면에 제안하는 기법은 기본 음향 모델이 하나 존재하고 잡음 환경 별 및 화자 별 특성을 반영한 병렬적인 음향 모델을 여러 개 가짐으로써 환경 및 화자에 따라 여러 개의 모델 중 하나를 자유로이 가져다 인식시킬 수 있어 모델 훈련 환경과 테스트 환경과의 불일치를 근본적으로 제거할 수 있으므로 음성 인식 능력을 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 로봇의 음성인식장치의 구성도이다.
도 2는 본 발명의 일실시예에 따른 로봇의 음성인식장치의 제어블록도이다.
도 3은 본 발명의 일실시예에 따른 로봇의 음성인식장치에서 잡음 환경에의 모델 적응을 설명하기 위한 제어흐름도이다.
도 4는 본 발명의 일실시예에 따른 로봇의 음성인식장치에서 잡음 환경에의 모델 적응 후의 모델구조를 설명하기 위한 구성도이다.
도 5는 본 발명의 일실시예에 따른 로봇의 음성인식장치에서 화자에의 모델 적응을 설명하기 위한 제어흐름도이다.
도 6은 본 발명의 일실시예에 따른 로봇의 음성인식장치에서 화자에의 모델 적응 후의 모델구조를 설명하기 위한 구성도이다.
도 7은 본 발명의 일실시예에 따른 로봇의 음성인식장치의 제어방법에 대한 제어흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 설명한다.
도 1은 본 발명의 일실시예에 따른 로봇의 음성인식장치의 구성을 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 로봇의 음성인식장치는 마이크로폰을 가진다. 로봇의 음성인식장치 송신측의 발성자로부터 음성 신호가 수신되면 모델 적응 기법을 이용하여 그 음성 신호가 새로운 잡음 환경과 화자를 나타내는 경우 잡음 환경 적응 및 화자 적응을 수행함으로써 발성자의 음성을 인식한다.
이러한 로봇의 음성인식장치는 잡음 환경별로 잡음에 적응된 음향 모델을 생성 및 저장하고, 화자 별로 화자에 적응된 음향 모델을 생성 및 저장하고, 음성 인식 환경에서 잡음 음성과 화자 음성을 입력받고, 입력된 잡음 음성과 화자 음성에 해당하는 잡음에 적응된 음향 모델과 화자에 적응된 음향 모델을 선택하고, 선택된 잡음에 적응된 음향 모델과 화자에 적응된 음향 모델을 이용하여 음성인식을 수행한다.
보통은 환경과 화자가 제한되어 있으므로 로봇의 음성 인식장치가 임의의 환경, 임의의 환경, 임의의 화자를 대상으로 한다는 가정을 현실적으로 제한할 필요가 있다. 하나의 모델이 임의의 화자와 환경에 대처하기란 현실적으로 어려우므로 사용하는 화자와 환경의 개수를 제한해 각각에 대해 적응된 여러 모델이 호환성 있게 사용되는 것이 현실에 부합하는 애플리케이션을 만들 수 있다.
본 발명은 환경에의 모델 적응, 그리고 화자에의 모델 적응 크게 두 부분으로 구성된다.
잡음 환경에의 모델 적응 부분은 음성 인식을 하게 되는 환경의 주변(ambient) 잡음 타입을 체크하고 저장해 주변 환경의 변화에 음향 모델이 대응하게 하는 부분이다.
화자 모델 적응 부분은 발화하는 화자의 타입을 체크하고 저장해 화자마다의 발성 변화에 모델이 대응하게 하는 부분이다. 모델이 변할 수 있는 요소를 환경과 화자의 두 가지 타입으로 정해 놓고 각 변화에 대해 깨끗한 음향 모델을 적절히 변형함으로써 환경 변화, 화자 변화에 강인한 음성 인식기를 만들 수 있다. 음향 모델은 인식 네트워크를 구성하는 기본 통계적 모델이며 보통 음소별로 평균값과 분산값으로 모델링 된다.
깨끗한 음향 모델은 모델 적응을 위한 소스가 되므로 적응되어지는 모델들은 이 깨끗한 음향 모델을 복사해서 사용하게 된다. 새로 적응될 모델 공간은 화자, 환경 별로 구분되므로 각 원소가 모델인 2 차원 모델 행렬을 구성하게 되어 잡음 환경에의 모델 적응과 화자에의 모델 적응이 수행되게 된다.
기존의 로봇의 음성인식장치가 깨끗한 음향 모델을 단 하나만 가지고 있고 모델 적응 기법을 통과한다 하더라도 단 하나의 변형된 모델을 가지는데 반해 본 발명에서 제안하는 로봇의 음성인식장치는 간단한 음향 모델이 하나 존재하고 잡음 환경별, 화자별 특성을 반영한 태그를 붙여 환경 변화에 적응되고 화자 변화에 적응한 병렬적인 음향 모델을 여러 개 가진다.
다시 말해 환경, 화자에 따라 여러 개의 모델 중 하나를 자유로이 가져다 인식시킬 수 있는 유연함, 강인함을 로봇의 음성인식장치에 부과할 수 있고 모델 훈련 환경과 테스트 환경과의 불일치를 근본적으로 제거함으로써 음성 인식에서의 전처리 문제에 대한 해결책을 제시할 수 있다.
도 2는 본 발명의 일실시예에 따른 로봇의 음성인식장치의 제어블록을 나타낸 도면이다.
도 2에 도시된 바와 같이, 로봇의 음성인식장치(1)는 음성신호를 입력받고 입력된 음성신호를 인식에 적합한 형태의 특징을 추출 후 그 결과를 이용하여 입력된 음성을 인식하게 된다.
이를 위해 로봇의 음성인식장치는 입력부(10), 특징추출부(20), 음성인식부(30) 및 저장부(40)를 포함한다.
입력부(10)는 마이크로폰을 통해 음성신호를 입력받아 특징추출부(20)로 전달한다.
또한, 입력부(10)는 마이크로폰을 통해 음성신호를 입력받아 음성인식부(30)에 직접 전달한다.
또한, 입력부(10)는 마이크로폰을 통해 잡음신호를 입력받아 음성인식부(30)에 직접 전달한다.
특징추출부(20)는 입력부(10)를 통해 전달받은 음성신호의 특징을 추출하는 역할을 한다. 예를 들면, 음성 데이터를 프레임별로 나누고 각 프레임에 해당하는 멜 캡스트럼 계수(Cepstrum Coefficient)를 구하여 특징을 추출하는 MFCC(Mel-Frequency Cepstrum Coefficient) 등의 방법을 이용하여 음성신호의 특징을 추출한다.
음성인식부(30)는 특징추출부(20)에 의해 추출된 음성신호의 특징과, 입력부를 통해 직접 전달받은 음성신호 또는/ 및 잡음신호에 대하여 모델 적응 기법을 적용한 결과를 근거로 하여 음성을 인식한다. 예를 들면, 음성인식부(30)는 잡음이 섞인 음성에서 추출된 특징은 여과 없이 제공받으며 대신 모델 적응에 의해 이미 저장된 깨끗한 음향 모델이 잡음이 섞인 음성에 적응되어 사용됨으로써 음성인식을 수행한다.
또한, 음성인식부(30)는 음성 인식 환경에서 새로운 잡음과 새로운 화자 음성이 입력될 때마다 잡음 환경별로 잡음에 적응된 음향 모델을 생성 및 저장하고, 화자 별로 화자에 적응된 음향 모델을 생성 및 저장한다.
이러한 상태에서 음성인식부(30)에 새롭지 않은 잡음과 화자 음성이 입력되면, 이미 저장된 복수의 음향 모델 중에서 입력된 잡음 음성과 화자 음성에 해당하는 잡음에 적응된 음향 모델과 화자에 적응된 음향 모델을 선택하고, 선택된 잡음에 적응된 음향 모델과 화자에 적응된 음향 모델을 이용하여 음성인식을 수행한다.
모델 적응 기법은 특징보상 방법과는 달리, 입력 특징은 수정하지 않고 대신 인식 모델을 잡음 상황에 맞도록 적응시키는 방식이다. 현재 거의 모든 음성인식 시스템에서는, 은닉 마르코프 모델(hidden Markov Model ; HMM)을 인식 모델로 채택하고 있는데 이들 HMM 은 많은 양의 오염되지 않은 음성으로 학습을 한 것이다.
따라서 모델 적응 기법은 이들 HMM 을 잡음이 섞인 음성으로부터 학습한 형태로 변형하는 것이다. 모델적응 기법은 원래, 화자적응을 위하여 쓰이는 기법들로부터 시작되었는데 그 대표적인 예가 최대 사후(Maximum A Posteriori ; MAP)방법과 최대 가능도 선형 회귀(Maximum Likelihood Linear Regression ; MLLR) 방법이다. MAP 기법은 적응데이터를 통하여 얻어지는 인식모델과 미리 알고 있는 모델을 보간(interpolation) 하는 방식이고, MLLR 기법은 각 인식모델에 적응데이터로부터 구해지는 매트릭스(matrix)를 부가하여 변환하는 방식이다.
위에서 언급한 화자 적응을 위하여 쓰이는 이들 두 방법 외에 잡음환경에서 주로 쓰이는 모델적응 기법으로는 대표적으로 병렬 모델 결합(Parallel Model Combination ; PMC) 방식과 계산량을 대폭 개선한 자코비안 적응(Jacobian Adaptation ; JA) 방식이 있다. PMC 방식은 깨끗한 음성과 잡음을 각각 다른 모델 (HMM)로 표현하고 이 두 모델을 결합하여, 잡음이 섞인 음성의 모델을 생성하는 방법으로 설명될 수 있는데 PMC 방식에 의한 모델 적응 기법은 성능이 매우 좋다는 장점이 있지만, 중간 단계에서 로그와 지수(exponential) 함수의 계산이 수반되기 때문에 계산량이 많다는 단점이 있다. PMC 방식의 계산량을 효과적으로 줄일 수 있는 방법이 PMC 에서 사용되는 비선형 함수를 선형적으로 근사화 하는 것이고 이것이 JA 방식이다.
저장부(40)는 기본 음향 모델 정보와, 잡음 환경별로 잡음에 적응된 음향 모델 정보와, 화자 별로 화자에 적응된 음향 모델 정보 등을 저장한다.
<잡음 환경에의 모델 적응>
음성인식부(30)는 발성자의 발성 전에 마이크로폰으로부터 주변 잡음을 입력받게 되면 초기 입력 잡음의 평균과 분산을 포함한 패턴을 저장하게 된다. 환경이 바뀌거나 새로운 잡음이 들어와 주변 잡음이 변하게 되면 바뀐 잡음 환경에 대한 통계적 수치를 기존에 저장된 잡음 모델과 비교하고 다르다고 판단되면 새로운 잡음 모델을 생성한다. 그리고, 잡음 모델에 대한 적응을 거치게 되면 음향 모델은 기존 깨끗한 모델 외에 잡음에 적응된 음향 모델이 생성되게 된다.
도 3은 본 발명의 일실시예에 따른 로봇의 음성인식장치에서 잡음 환경에의 모델 적응을 설명하기 위한 제어흐름을 나타낸 도면이다. 도 4는 본 발명의 일실시예에 따른 로봇의 음성인식장치에서 잡음 환경에의 모델 적응 후의 모델구조를 설명하기 위한 구성을 나타낸 도면이다.
도 3을 살펴보면, 음성인식부(30)는 발성자의 발성 전에 입력부(10)를 통해 입력된 주변 잡음을 체크한다(100).
주변 잡음 체크 후 음성인식부(30)는 체크된 주변 잡음에 대한 통계적 수치를 미리 저장된 잡음 모델과 비교해서 체크된 주변 잡음과 미리 저장된 잡음 모델과의 유사도를 계산한다(110).
체크된 주변 잡음과 미리 저장된 잡음 모델과의 유사도를 계산 후 음성인식부(30)는 유사도 계산결과에 따라 체크된 주변 잡음이 새로운 잡음인지를 판단한다(120).
만약, 계산된 유사도가 미리 설정된 값 이하이면, 음성인식부(30)는 체크된 주변 잡음이 새로운 잡음이 아닌 것으로 판단하여 제어를 종료할 수 있도록 미리 설정된 루틴으로 리턴한다.
한편, 계산된 유사도가 미리 설정된 값을 초과하면, 음성인식부(30)는 체크된 주변 잡음이 새로운 잡음인 것으로 판단하여 이 새로운 잡음이 적응된 음향 모델을 생성한다(130).
새로운 잡음이 적응된 음향 모델을 생성 후 음성인식부(30)는 새로운 잡음이 적응된 음향 모델을 저장부(40)에 저장한다(140). 그런 후 미리 설정된 루틴으로 리턴한다.
이러한 방식에 의해 잡음 환경이 새롭게 변화할 때마다 기존 깨끗한 음향 모델 외에 각각의 잡음에 적응된 음향 모델이 각각 생성되어 저장된다.
즉, 만약 n 개의 다른 환경에 적응되었을 경우 각 환경 별로 하나씩의 모델을 생성하게 되어 음향 모델은 n 개가 생성되게 된다(도 4 참조).
도 4에 도시된 바와 같이, 새로운 잡음 환경에 적응된 음향 모델은 예를 들면, PMC 방식을 이용하여 클린 음향 모델과 새로운 잡음을 결합하는 방식으로 생성된다. 즉, PMC 방식에 의해 클린 음향 모델을 새로운 잡음에 맞게 변화시켜 환경 변화에 적응시킴으로써 새로운 잡음에 적응된 음향 모델이 생성되게 된다.
<화자에의 모델 적응>
음성인식부(30)의 모델 적응 기법 중에서 잡음 환경에의 모델 적응 기술은 환경 변화에 대처하는 음향 모델을 생성한다면 화자에의 모델 적응 기술은 화자 변화에 대처하는 음향 모델을 생성한다.
음성인식부(30)는 새로운 화자의 발성 통계를 저장부(40)에 저장하게 되는데 일반적인 화자 식별 (speaker verification) 기술이 화자가 누구인지 또는 발성하고 있는 화자가 이미 등록된 화자인지 등록되지 않은 화자인지를 구별하는 것이 기본적인 기능이라면 화자에의 모델 적응 기술은 화자 적응까지 수행하게 된다. 즉 발화자를 인식해 기존에 등록된 화자 모델과의 유사도를 계산한 후 새로운 화자라 판단되면 화자 적응을 수행하게 된다.
화자 적응은 깨끗한 음향 모델을 전사(transcription) 한 후 기존 모델과의 음소(phoneme) 매칭을 통해 화자에 종속한(dependent) 음소값을 변경해 새로운 화자 모델을 구성하게 된다. 만약 기존에 저장된 화자 모델이라 판단되면 화자 적응은 이루어지지 않게 된다.
도 5는 본 발명의 일실시예에 따른 로봇의 음성인식장치에서 화자에의 모델 적응을 설명하기 위한 제어흐름을 나타낸 도면이다. 도 6은 본 발명의 일실시예에 따른 로봇의 음성인식장치에서 화자에의 모델 적응 후의 모델구조를 설명하기 위한 구성을 나타낸 도면이다.
도 5을 살펴보면, 먼저 음성인식부(30)는 발화자를 인식한다(200).
발화자를 인식 후 음성인식부(30)는 인식된 발화자에 대한 통계적 수치를 미리 등록된 화자 모델과 비교해서 인식된 발화자와 미리 등록된 화자 모델과의 유사도를 계산한다(210).
인식된 발화자와 미리 등록된 화자 모델과의 유사도를 계산 후 음성인식부(30)는 유사도 계산결과에 따라 인식된 발화자가 등록되지 않은 새로운 화자인지를 판단한다(220).
만약, 계산된 유사도가 미리 설정된 값 이하이면, 음성인식부(30)는 인식된 발화자가 새로운 화자가 아닌 것으로 판단하여 제어를 종료할 수 있도록 미리 설정된 루틴으로 리턴한다.
한편, 계산된 유사도가 미리 설정된 값을 초과하면, 음성인식부(30)는 인식된 발화자가 새로운 화자인 것으로 판단하여 이 새로운 화자가 적응된 음향 모델을 생성한다(230).
새로운 화자가 적응된 음향 모델을 생성 후 음성인식부(30)는 새로운 화자가 적응된 음향 모델을 저장부(40)에 저장한다(240). 그런 후 미리 설정된 루틴으로 리턴한다.
이러한 방식에 의해 화자가 새롭게 변화할 때마다 기존 깨끗한 음향 모델 외에 각각의 화자에 적응된 음향 모델이 각각 생성되어 저장된다.
음성인식부(30)에서 잡음 환경에의 모델 적응과 화자에의 모델 적응까지 수행하면, 음향 모델은 n 개의 환경, m 개의 화자에 대해 서로 다른 m * n 개의 모델 공간을 생성한다(도 6 참조).
따라서 향후 로봇의 음성인식장치가 구동될 때마다 잡음 환경에의 모델 적응과 화자에의 모델 적응을 거쳐 환경 및 화자 별로 가장 유사한 음향 모델을 선택해 음성을 보다 효과적으로 인식할 수 있다.
도 7은 본 발명의 일실시예에 따른 로봇의 음성인식장치의 제어방법에 대한 제어흐름을 나타낸 도면이다.
도 7을 살펴보면, 음성인식부(30)는 잡음 및 음성을 입력받는다(300).
잡음 및 음성을 입력받은 후 음성인식부(30)는 입력된 잡음에 적응된 음향 모델을 선택한다(310).
이와 함께 음성인식부(30)는 입력된 음성의 화자에 적응된 음향 모델을 선택한다(320).
그리고, 작동모드 310에서 선택된 잡음에 적응된 음향 모델과 작동모드 320에서 선택된 음성의 화자에 적응된 음향 모델을 이용하여 작동모드 300에서 입력된 음성에 대한 음성인식을 수행한다(330).
이상에서와 같이, 본 발명의 일 측면에 따르면, 하나의 음향 모델은 환경과 화자의 변화에 의해 구분되어 지는 2 차원 모델 공간으로 확장되게 되고 환경 및 화자가 변화됨에 따라 새로운 음향 모델을 추가함으로써 입력되는 음성이 기존 모델과 매치되지 않는다고 하더라도 좀 더 강인한 성능을 가지게 할 수 있다. 즉, 본 발명에서는 환경, 화자에 따라 여러 개의 모델 중 하나를 자유로이 가져다 인식시킬 수 있는 유연함, 강인함을 제공할 수 있고 모델 훈련 환경과 테스트 환경과의 불일치를 근본적으로 제거함으로써 음성 인식에서의 전처리 문제에 대한 해결책을 제시할 수 있다.
10 : 입력부 20 : 특징추출부
30 : 음성인식부 40 : 저장부

Claims (11)

  1. 잡음 환경별로 잡음에 적응된 음향 모델을 생성 및 저장하고;
    화자 별로 화자에 적응된 음향 모델을 생성 및 저장하고;
    음성 인식 환경에서 잡음과 음성을 입력받고;
    상기 입력된 잡음에 적응된 제1 음향 모델과 상기 입력된 음성의 화자에 적응된 제2 음향 모델을 선택하고;
    상기 선택된 제1 및 제2 음향 모델을 이용하여 상기 입력된 음성에 대한 음성인식을 수행하는; 것을 포함하는 로봇의 음성인식방법.
  2. 제1항에 있어서,
    상기 잡음에 적응된 음향 모델의 생성 및 저장은, 병렬 모델 결합(Parallel Model Combination ; PMC) 방식을 이용하여 상기 잡음 환경별로 잡음에 적응된 음향 모델을 생성하는 것을 포함하는 로봇의 음성인식방법.
  3. 제1항에 있어서,
    상기 잡음에 적응된 음향 모델의 생성 및 저장은, 자코비안 적응(Jacobian Adaptation ; JA) 방식을 이용하여 상기 잡음 환경별로 잡음에 적응된 음향 모델을 생성하는 것을 포함하는 로봇의 음성인식방법.
  4. 제1항에 있어서,
    상기 화자 별로 화자에 적응된 음향 모델의 생성 및 저장은. 은닉 마르코프 모델(hidden Markov Model ; HMM), 최대 사후(Maximum A Posteriori ; MAP)방법, 또는 최대 가능도 선형 회귀(Maximum Likelihood Linear Regression ; MLLR) 방법 중 어느 하나를 이용하여 상기 화자 별로 화자에 적응된 음향 모델을 생성하는 것을 포함하는 로봇의 음성인식방법.
  5. 제1항에 있어서,
    잡음 환경별로 잡음에 적응된 음향 모델을 저장할 때 잡음 환경별 특성을 반영한 태그를 붙여 저장하고, 화자 별로 화자에 적응된 음향 모델을 저장할 때 화자별 특성을 반영한 태그를 붙여 저장하는 것을 포함하는 로봇의 음성인식방법.
  6. 제2항에 있어서,
    상기 입력된 잡음에 적응된 제1 음향 모델과 상기 입력된 음성의 화자에 적응된 제2 음향 모델 선택은, 상기 태그를 근거로 하여 이루어지는 것을 포함하는 로봇의 음성인식방법.
  7. 음성 인식 환경에서 잡음과 음성을 입력받고;
    상기 입력된 잡음이 새로운 잡음인지를 판단하고;
    상기 입력된 잡음이 새로운 잡음이면 상기 새로운 잡음에 따라 미리 설정된 클린 음향 모델을 변화시켜 상기 새로운 잡음에 적응된 음향 모델을 생성하고;
    상기 새로운 잡음에 적응된 음향 모델을 생성 후 상기 입력된 음성의 화자가 등록된 화자인지를 판단하고;
    상기 입력된 음성의 화자가 등록되지 않은 새로운 화자이면 상기 새로운 화자에 따라 미리 설정된 클린 음향 모델을 변화시켜 상기 새로운 화자에 적응된 음향 모델을 생성하고;
    상기 생성된 음향 모델들을 저장하는; 것을 포함하는 로봇의 음성인식방법.
  8. 제7항에 있어서,
    상기 입력된 잡음이 새로운 잡음인지 판단은, 상기 입력된 잡음에 대한 통계적 수치를 미리 저장된 잡음 모델과 비교하고, 비교결과에 따라 상기 입력된 잡음이 새로운 잡음인지 아닌지를 판단하는 것을 포함하는 로봇의 음성인식방법.
  9. 제7항에 있어서,
    상기 입력된 음성의 화자가 새로운 화자인지 판단은, 상기 입력된 음성의 특징을 추출하고, 추출된 특징과 미리 등록된 화자 모델과의 유사도를 계산하고, 계산된 유사도를 근거로 하여 상기 입력된 음성의 화자가 새로운 화자인지 아닌지를 판단하는 것을 포함하는 로봇의 음성인식방법.
  10. 제7항에 있어서,
    상기 새로운 잡음에 적응된 음향 모델의 생성은, 병렬 모델 결합(Parallel Model Combination ; PMC) 방식 또는 자코비안 적응(Jacobian Adaptation ; JA) 방식 중 어느 하나를 이용하여 상기 새로운 잡음에 적응된 음향 모델을 생성하는 것을 포함하는 로봇의 음성인식방법.
  11. 제7항에 있어서,
    상기 새로운 화자에 적응된 음향 모델의 생성은, 은닉 마르코프 모델(hidden Markov Model ; HMM), 최대 사후(Maximum A Posteriori ; MAP)방법, 또는 최대 가능도 선형 회귀(Maximum Likelihood Linear Regression ; MLLR) 방법 중 어느 하나를 이용하여 상기 새로운 화자에 적응된 음향 모델을 생성하는 것을 포함하는 로봇의 음성인식방법.
KR1020100116180A 2010-11-22 2010-11-22 로봇의 음성인식방법 KR20120054845A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100116180A KR20120054845A (ko) 2010-11-22 2010-11-22 로봇의 음성인식방법
US13/298,442 US20120130716A1 (en) 2010-11-22 2011-11-17 Speech recognition method for robot

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100116180A KR20120054845A (ko) 2010-11-22 2010-11-22 로봇의 음성인식방법

Publications (1)

Publication Number Publication Date
KR20120054845A true KR20120054845A (ko) 2012-05-31

Family

ID=46065153

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100116180A KR20120054845A (ko) 2010-11-22 2010-11-22 로봇의 음성인식방법

Country Status (2)

Country Link
US (1) US20120130716A1 (ko)
KR (1) KR20120054845A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
KR20200132693A (ko) * 2020-04-27 2020-11-25 군산대학교산학협력단 로봇 및 자율이동체 정밀 모션 제어를 위한 단독형 음성인식 기반 에이전트 모듈
KR20200132694A (ko) * 2020-04-27 2020-11-25 군산대학교산학협력단 로봇 및 자율이동체 정밀 모션 제어를 위한 단독형 음성인식 기반 에이전트 모듈의 작동방법

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012368731A1 (en) * 2012-02-03 2014-08-21 Nec Corporation Communication draw-in system, communication draw-in method, and communication draw-in program
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10650805B2 (en) * 2014-09-11 2020-05-12 Nuance Communications, Inc. Method for scoring in an automatic speech recognition system
KR102371770B1 (ko) * 2015-01-19 2022-03-07 삼성전자주식회사 음성 인식 장지 및 방법
GB2546981B (en) * 2016-02-02 2019-06-19 Toshiba Res Europe Limited Noise compensation in speaker-adaptive systems
WO2017200081A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 取得方法、生成方法、それらのシステム、及びプログラム
CN109313900A (zh) * 2016-06-15 2019-02-05 索尼公司 信息处理设备和信息处理方法
JP6461058B2 (ja) * 2016-09-06 2019-01-30 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
US10204621B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
US10204620B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
EP3451330A1 (en) 2017-08-31 2019-03-06 Thomson Licensing Apparatus and method for residential speaker recognition
CN108009573B (zh) * 2017-11-24 2020-08-14 北京物灵智能科技有限公司 一种机器人情绪模型生成方法、情绪模型以及交互方法
CN108492821B (zh) * 2018-03-27 2021-10-22 华南理工大学 一种减弱语音识别中说话人影响的方法
JP7259843B2 (ja) * 2018-03-30 2023-04-18 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN111627426B (zh) * 2020-04-30 2023-11-17 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及***、电子设备及介质
JP7395446B2 (ja) * 2020-09-08 2023-12-11 株式会社東芝 音声認識装置、方法およびプログラム
CN112652304B (zh) * 2020-12-02 2022-02-01 北京百度网讯科技有限公司 智能设备的语音交互方法、装置和电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US20030050783A1 (en) * 2001-09-13 2003-03-13 Shinichi Yoshizawa Terminal device, server device and speech recognition method
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
CN1453767A (zh) * 2002-04-26 2003-11-05 日本先锋公司 语音识别装置以及语音识别方法
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN110556097B (zh) * 2018-06-01 2023-10-13 声音猎手公司 定制声学模型
KR20200132693A (ko) * 2020-04-27 2020-11-25 군산대학교산학협력단 로봇 및 자율이동체 정밀 모션 제어를 위한 단독형 음성인식 기반 에이전트 모듈
KR20200132694A (ko) * 2020-04-27 2020-11-25 군산대학교산학협력단 로봇 및 자율이동체 정밀 모션 제어를 위한 단독형 음성인식 기반 에이전트 모듈의 작동방법

Also Published As

Publication number Publication date
US20120130716A1 (en) 2012-05-24

Similar Documents

Publication Publication Date Title
KR20120054845A (ko) 로봇의 음성인식방법
US11887582B2 (en) Training and testing utterance-based frameworks
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US8019602B2 (en) Automatic speech recognition learning using user corrections
Gales Model-based techniques for noise robust speech recognition
US6442519B1 (en) Speaker model adaptation via network of similar users
US9070367B1 (en) Local speech recognition of frequent utterances
US8930196B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
JP4274962B2 (ja) 音声認識システム
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
WO2020043162A1 (en) System and method for performing multi-model automatic speech recognition in challenging acoustic environments
US20080004876A1 (en) Non-enrolled continuous dictation
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
WO2010035892A1 (en) Speech recognition method
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN101432799A (zh) 基于高斯混合模型的变换中的软校准
KR20110010233A (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
Herbig et al. Self-learning speaker identification for enhanced speech recognition
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP4864783B2 (ja) パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
KR20110071742A (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
CN111933121A (zh) 一种声学模型训练方法及装置
Huda et al. A variable initialization approach to the EM algorithm for better estimation of the parameters of hidden markov model based acoustic modeling of speech signals
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
Singh et al. Voice Recognition In Automobiles

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid