KR102410914B1 - 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법 - Google Patents

음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR102410914B1
KR102410914B1 KR1020150101201A KR20150101201A KR102410914B1 KR 102410914 B1 KR102410914 B1 KR 102410914B1 KR 1020150101201 A KR1020150101201 A KR 1020150101201A KR 20150101201 A KR20150101201 A KR 20150101201A KR 102410914 B1 KR102410914 B1 KR 102410914B1
Authority
KR
South Korea
Prior art keywords
voice signal
standard
user
acoustic model
model
Prior art date
Application number
KR1020150101201A
Other languages
English (en)
Other versions
KR20170009338A (ko
Inventor
민윤홍
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150101201A priority Critical patent/KR102410914B1/ko
Priority to US15/147,965 priority patent/US20170018270A1/en
Publication of KR20170009338A publication Critical patent/KR20170009338A/ko
Application granted granted Critical
Publication of KR102410914B1 publication Critical patent/KR102410914B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)

Abstract

음성 인식 기술에 관한 것으로, 표준화 된 음향 모델 및 타겟팅된 표준 음향 모델을 생성하는 것과 관련된다. 일 양상에 따른 음성 인식 장치는 사용자 음성 신호를 표준 음성 신호의 포맷으로 변환하는 변환기, 변환된 표준 음성 신호를 표준 음향 모델에 적용하는 음향 모델 적용부 및 표준 음향 모델의 적용 결과를 기초로 사용자 음성 신호를 인식하는 해석부를 포함할 수 있다.

Description

음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법{Modeling apparatus for voice recognition and method and apparatus for voice recognition}
음향 모델의 구축 및 음성 인식 기술과 관련된다.
일반적으로, 음향 모델을 학습하기 위한 학습 데이터는 여러 사람의 음성 신호로부터 획득된 것으로, 다양한 음성, 억양 등의 변동성이 반영되었기 때문에, 특정 개인에 대한 인식 성능 개선을 위해서는 별도의 처리 과정이 필요하다.
일 예로, 다양한 사람들의 음성 데이터로 음향 모델을 학습하고, 개인의 특성을 반영하여 음향 모델을 재학습시키는 방법이 있다. 다른 예로, 개인의 음성 데이터를 변환하여 기존의 음향 모델에 입력하는 방법이 있다.
종래의 기술은 사람의 음성으로부터 음향 모델을 학습하므로, 음향 모델에 개인의 음성 특징을 반영하기 위해서는 수많은 학습 데이터가 필요하다. 예를 들어, 수십 내지 수만 명의 사람들로부터 음성 데이터를 획득해야 할 필요가 있다. 또한, 음성 인식률을 높이기 위해서는 학습에 이용할 표본 집단의 선정 및 표본 집단의 크기 등을 고려하여야 하며, 표본 집단의 선정 후에도 데이터의 수집을 위해서는 막대한 데이터 수집 비용이 필요하다.
표준성, 범용성 있는 표준 음향 모델을 구축하고, 타겟팅된 표준 음향 모델을 이용하여 음성을 인식하는 기술을 제시한다.
일 양상에 따른 음성 인식 장치는 사용자 음성 신호를 표준 음성 신호 포맷으로 변환하는 변환기, 변환된 표준 음성 신호를 표준 음향 모델에 적용하는 음향 모델 적용부 및 표준 음향 모델의 적용 결과를 기초로 사용자 음성 신호를 인식하는 해석부를 포함할 수 있다.
표준 음성 신호의 포맷은 TTS(Text-to-Speech)를 이용하여 생성 되는 음성 신호의 포맷을 포함할 수 있다.
변환기는 신경망 모델인 AutoEncoder, Deep autoencoder, Denoising autoencoder, Recurrent autoencoder, RBM 중의 어느 하나를 기반으로 할 수 있다.
변환기는 사용자 음성 신호를 다수의 프레임으로 분할하고, 각 프레임별로 k-디멘션의 특징 벡터들을 추출하여, 추출한 특징 벡터를 표준 음성 신호의 포맷으로 변환할 수 있다.
표준 음성 신호의 포맷은 MFCC 특징 벡터 및 필터뱅크 중 적어도 하나의 형태를 포함하고, 프레임의 수 및 디멘션에 관한 정보 중 하나 이상을 포함할 수 있다.
표준 음향 모델은 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 및 NN(Neural Network) 중의 어느 하나를 기반으로 할 수 있다.
다른 양상에 따른 음성 인식을 위한 모델 구축 장치는 표준 음성 신호를 기초로 학습 데이터를 수집하는 학습 데이터 수집부, 학습 데이터를 이용하여 변환기 및 표준 음향 모델 중 적어도 하나를 학습하는 학습부 및 학습 결과를 기초로 변환기 및 표준 음향 모델을 구축하는 모델 구축부를 포함할 수 있다.
표준 음성 신호는 TTS(Text-to-Speech)를 이용하여 생성 되는 음성 신호 및 변환기를 이용하여 사용자 음성 신호를 변환 시킨 음성 신호 중 적어도 하나를 포함할 수 있다.
학습 데이터 수집부는 TTS를 이용하여 전자 사전 및 문법 규칙을 분석하여 합성음을 생성할 수 있다.
학습 데이터 수집부는 사용자 음성 신호에 대응하는 표준 음성 신호를 학습 데이터로 더 수집할 수 있다.
이때, 사용자 음성 신호에 대응하는 표준 음성 신호는, 사용자 음성 신호와 동일한 텍스트에 대해 TTS를 이용하여 생성한 음성 신호일 수 있다.
학습 데이터 수집부는 음성 인식 결과 생성된 문장에 대해 사용자로부터 피드백을 받고, 피드백을 받은 문장으로부터 생성한 표준 음성 신호를 학습 데이터로 더 수집할 수 있다.
변환기는 신경망 모델인 AutoEncoder, Deep autoencoder, Denoising autoencoder, Recurrent autoencoder, RBM 중의 어느 하나를 기반으로 할 수 있다.
학습부는 사용자 음성 신호의 특징 벡터 및 사용자 음성 신호에 대응하는 표준 음성 신호의 특징 벡터 사이의 거리가 최소화되도록 변환기를 학습할 수 있다.
학습부는 유클리드 거리(Euclidean distance)를 포함하는 거리 계산 기법 중 어느 하나에 기초하여 특징 벡터 사이의 거리를 계산할 수 있다.
표준 음향 모델은 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 및 NN(Neural Network) 중의 어느 하나를 기반으로 할 수 있다.
또 다른 양상에 따른 음성 인식 방법은 사용자 음성 신호를 표준 음성 신호의 포맷으로 변환하는 단계, 변환된 표준 음성 신호를 표준 음향 모델에 적용하는 단계, 및 표준 음향 모델의 적용 결과를 기초로 사용자 음성 신호를 인식하는 단계를 포함할 수 있다.
변환기는 신경망 모델인 AutoEncoder, Deep autoencoder, Denoising autoencoder, Recurrent autoencoder, RBM 중의 어느 하나를 기반으로 할 수 있다.
변환하는 단계는 변환기로 입력된 사용자 음성 신호를 다수의 프레임으로 분할하고, 각 프레임별로 k-디멘션의 특징 벡터들을 추출하여, 추출한 특징 벡터를 표준 음성 신호의 포맷으로 변환할 수 있다.
표준 음성 신호의 포맷은 MFCC 특징 벡터 및 필터뱅크 중 적어도 하나의 형태를 포함하고, 프레임의 수 및 디멘션에 관한 정보 중 하나 이상을 포함할 수 있다.
표준화, 범용화된 표준 음향 모델 및 타겟팅된 표준 음향 모델을 구축할 수 있다. 표준 음성 신호를 학습 데이터로 이용함으로써 음향 모델을 학습하기 위한 대용량의 데이터를 확보하는데 드는 비용과 시간을 획기적으로 줄일 수 있다. 또한, 타겟팅된 표준 음향 모델을 이용함으로써 음성 인식률 및 정확도를 향상시킬 수 있다.
도 1은 일 양상에 따른 음성 인식 장치(100)의 블록도이다.
도 2는 다른 양상에 따른 음성 인식을 위한 모델 구축 장치(200)의 블록도이다.
도 3은 일 실시 예에 따른 변환기 및 표준 음향 모델과의 관계를 설명하기 위한 도면이다.
도 4는 일 실시 예에 따른 음성 인식을 위한 모델 구축 장치(200)를 이용하여 변환기의 파라미터를 설정하는 일 예이다.
도 5은 또 다른 양상에 따른 음성 인식 장치(100)를 이용한 음성 인식 방법의 흐름도이다.
기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
일 실시 예에 따르면, 음성 인식 장치(100)는 소프트웨어 형태로, 음성 인식 기능을 구현할 수 있는, 스마트폰/스마트 TV/기타 웨어러블 디바이스에 탑재될 수 있으며, 다른 실시 예에 따르면 서버에서 동작할 수 있다. 음성 인식 장치(100)는 소프트 웨어 또는 하드웨어적으로 구성될 수 있다.
도 1은 일 양상에 따른 음성 인식 장치(100)의 블록도이다. 일 양상에 따른 음성 인식 장치(100)는 변환기(110), 음향 모델 적용부(120), 해석부(130)를 포함한다.
변환기(110)는 사용자 음성 신호를 표준 음성 신호 포맷으로 변환한다. 표준 음성 신호의 포맷은 TTS(Text-to-Speech)를 이용하여 생성 되는 음성 신호의 포맷일 수 있다. 변환기(110)는 소정의 프로세스에 의해 사용자의 실제 음성 신호를 동일한 스크립트에 대한 TTS 음성 신호와 매칭함으로써, 사전에 학습될 수 있다. 이때, 변환기(110)는 신경망 모델인 AutoEncoder, Deep autoencoder, Denoising autoencoder, Recurrent autoencoder, RBM 중의 어느 하나를 기반으로 할 수 있다.
일 실시 예에 따르면, 변환기(110)는 입력된 사용자 음성 신호를 다수의 프레임으로 분할하고, 각 프레임 별로 k-디멘션의 특징 벡터들을 추출하여, 추출한 특징 벡터의 포맷을 표준 음성 신호 포맷으로 변환할 수 있다. 이때, 추출한 특징 벡터들은 MFCC (Mel-scale frequency cepstral cofficient) 특징 벡터 또는 필터뱅크의 형태일 수 있다. 그 외에 특징 벡터들을 추출하는 기술은 다양할 수 있으므로 제시된 실시 예 이외에도 다양한 특징 벡터 추출 알고리즘이 이용될 수 있다.
예를 들어, 변환기(110)는 사용자 음성 신호를 다수의 프레임으로 분할하고, 감지된 주파수 또는 실제 측정된 주파수와 관련 있는 mel-scale의 스펙트럼으로부터 각 프레임별로 k-디멘션의 MFCC 특징 벡터들을 추출할 수 있다.
일 예로, 변환기(110)는 입력된 음성 신호를 초당 100 프레임으로 분할하고, 각 프레임마다 12-디멘션의(12-dimention, 12차 계수) MFCC 특징들을 추출할 수 있다. 만일 사용자 음성 신호가 5초 가량 입력된다면, 변환기(110)는 사용자 음성 신호를 500 프레임으로 분할하고, 각 프레임별로 12-디멘션의 특징 벡터들을 추출할 수 있다.
예를 들어, 만일 사용자가 말을 빨리 하는 습관이 있다면, 표준 음성 신호가 5초 정도인 문장을 사용자는 실제로 4초 만에 읽을 수 있다. 이때, 변환기(110)는 표준 음성 신호를 500 프레임으로 분할하고, 사용자 음성 신호는 400 프레임으로 분할할 수 있다. 즉, 사용자의 언어 습관 및 사용자 고유의 특징으로 인해 사용자 음성 신호와 표준 음성 신호로부터 추출한 특징 벡터들 사이의 포맷이 상이할 수 있다.
변환기(110)는 사용자 음성 신호로부터 추출된 특징 벡터를 표준 음성 신호 포맷으로 변환함으로써, 이를 표준 음향 모델에 적용하기 위한 표준 음성 신호로 변환할 수 있다. 이때, 표준 음성 신호 포맷은 MFCC 특징 벡터 또는 필터뱅크의 형태이고, 프레임의 수 및 디멘션에 관한 정보를 포함할 수 있다. 예를 들어, 특징 벡터들의 포맷은 MFCC 특징들을 추출한다고 가정할 때 12,13,26,39와 같은 k-디멘션을 가질 수 있다. 또한, 40-디멘션 이상의 필터뱅크의 특징들이 추출될 수 있다. 또한, 특징 벡터들의 포맷은 시차(time difference), 시차의 차이(difference of time difference)를 포함하는 형태일 수 있다. 이때, 시차의 의미는 v(t)-v(t-1)이고, 시차의 차이는 (v(t+1)-v(t))-(v(t)-v(t-1))로 표현될 수 있다. 이 경우, 특징들의 디멘션은 몇 배 증가할 수 있다.
제시된 실시 예 이외에도, 특징 벡터들의 포맷은 다양할 수 있으므로, 특징 벡터들의 포맷의 구체적인 내용은 제시된 실시 예에 한정되지 않아야 할 것이다.
음향 모델 적용부(120)는 표준 음성 신호 포맷으로 변환된 사용자 음성 신호를 표준 음향 모델에 적용한다. 이때, 표준 음향 모델은 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 및 NN(Neural Network) 중의 어느 하나를 기반으로 하는 음향 모델일 수 있다.
이때, 표준 음향 모델은 사용자의 특징 정보를 반영하도록 사전에 학습된 타겟팅된 표준 음향 모델일 수 있다. 만일, 타겟팅된 표준 음향 모델이 사용자의 특징 정보를 충분히 반영할 만큼 잘 학습되어 있다면, 음성 인식률 및 정확도를 높일 수 있다. 타겟팅된 표준 음향 모델은 사용자의 언어 습관, 억양, 톤, 자주 사용하는 어휘, 사투리 사용 습관 등이 반영되어 있으므로, 각 사용자에게 맞춤화, 최적화 될 수 있다.
해석부(130)는 표준 음향 모델의 적용 결과를 기초로 사용자 음성 신호를 인식한다. 이때, 인식된 음성 인식 결과는 표준 음향 모델을 각 사용자에게 타겟팅된 표준 음향 모델을 학습하기 위한 학습 데이터로 제공될 수 있다. 이하, 타겟팅된 표준 음향 모델을 구축하는 음성 인식을 위한 모델 구축 장치에 대해 설명한다.
도 2는 다른 양상에 따른 음성 인식을 위한 모델 구축 장치(200)의 블록도이다. 일 실시 예에 따른 음성 인식을 위한 모델 구축 장치(200)는 학습 데이터 수집부(210), 학습부(220), 모델 구축부(230) 를 포함할 수 있다.
학습 데이터 수집부(210)는 표준 음성 신호를 기초로 학습 데이터를 수집한다. 여기서, 표준 음성 신호는 TTS(Text-to-Speech)를 이용하여 생성 되는 음성 신호 일 수 있다. 예를 들어, 학습 데이터 수집부(210)는 문장, 스크립트와 같은 텍스트를 수집하고, 전자 사전 및 문법 규칙을 분석하여 텍스트를 합성음 또는 기계음으로 생성하여 학습 데이터로 수집할 수 있다. 또한, 학습 데이터 수집부(210)는 입력된 사용자 음성 신호가 변환기를 통하여 표준 음성 신호로 변환되면, 이를 학습 데이터로 수집할 수 있다.
표준 음성 신호를 학습 데이터로 이용하는 경우 사용자의 성별, 악센트, 톤, 음색, 말투, 억양에 관계 없이, 일반화, 표준화 될 수 있는 음향 모델의 구축이 가능하다. 또한, 데이터 수집의 시간, 비용을 획기적으로 절약할 수 있다. 게다가, 학습 데이터 수집부(210)는 학습 데이터로 문서를 수집함으로써, 일상적인 언어 환경에서 잘 쓰지 않는 학술 자료, 고유 명사 등이 포함된 학습 데이터의 수집이 가능하다.
일반적으로 음향 모델은 사람의 실제 음성으로부터 학습되는데 이 경우 음향 모델의 언어가 달라지는 경우 특정 언어로 학습된 음향 모델은 다른 언어를 사용하는 곳에서는 사용할 수 없다. 그러나, 학습 데이터 수집부(210)는 문장 또는 텍스트를 수집하고, 이는 텍스트 번역 기술과 결합하여 번역된 문장에 대한 음성 신호를 손쉽게 생성할 수 있으므로, 표본 데이터의 선정 과정 및 언어 변경에 따른 음향 모델의 변환 과정을 획기적으로 절약할 수 있다.
또한, 학습 데이터 수집부(210)가 학습 데이터로 표준 음성 신호를 이용하여 음향 모델을 표준화할 수 있다. 표준화된 음향 모델은 범용성, 호환성을 가지며, 필요한 컴퓨팅 계산의 양을 현저하게 줄일 수 있다.
또 다른 예로, 학습 데이터 수집부(210)는 TTS 버전을 달리하여 하나의 문장을 성별, 억양, 악센트, 톤, 사투리 등의 언어 습관을 달리하는, 다양한 버전의 표준 음성 신호를 생성할 수 있다. 이 경우, 특정 그룹, 국가에 대해 타겟팅된 표준 음향 모델을 구축할 수 있다.
한편, 학습 데이터 수집부(210)는 표준 음성 신호뿐 아니라, 사람으로부터 수집된 음성 신호 또한 수집할 수 있고, 음성 인식을 위한 모델 구축 장치(200)는 종래의 모델과 호환 가능하게 표준 음향 모델을 설계할 수 있을 것이다.
일 실시 예에 따르면, 학습 데이터 수집부(210)는 사용자 음성 신호 및 사용자 음성 신호에 대응하는 표준 음성 신호를 학습 데이터로 수집할 수 있다. 이때, 사용자 음성 신호에 대응하는 표준 음성 신호는, 사용자 음성 신호와 동일한 텍스트에 대해 TTS를 이용하여 생성한 음성 신호일 수 있다. 예를 들어, 학습 데이터 수집부(210)는 사용자에게 문장 또는 스크립트를 제공하고, 사용자로부터 실제 음성 신호를 입력 받을 수 있으며, 동일한 문장 또는 스크립트에 대해 TTS를 이용하여 생성한 표준 음성 신호를 수집할 수 있다.
다른 실시 예에 따르면, 학습 데이터 수집부(210)는 음성 인식 결과 생성된 문장에 대해 사용자로부터 피드백을 받고, 상기 피드백을 받은 문장으로부터 생성한 표준 음성 신호를 학습 데이터로 수집할 수 있다. 예를 들어, 학습 데이터 수집부(210)는 음성 인식 장치(100)의 음성 인식 결과 생성된 문장을 사용자에게 제공할 수 있다. 사용자는 음성 인식 결과가 정확하면 그에 대한 확인을 할 수 있고, 정확하지 않다면 잘못 인식된 부분을 정정하여 학습 데이터 수집부(210)에 입력할 수 있다. 음성 인식을 위한 모델 구축 장치(200)는 피드백을 받은 문장을 표준 음성 신호로 생성하여 학습 데이터로 이용함으로써, 표준 음향 모델을 타겟팅하고, 음성 인식률을 높일 수 있다.
한편, 표준 음향 모델을 학습시키는 표준 음성 신호는 광범위한(large scale) 학습 데이터가 필요할 수 있으며, 이에 반해 변환기를 학습시키는 표준 음성 신호는 사용자의 특징 정보를 파악하기 위함이므로 표준 음향 모델의 학습 데이터 중 일부면 충분할 수 있다.
학습부(220)는 학습 데이터를 이용하여 변환기 및 표준 음향 모델을 학습한다. 일 실시 예에 따르면, 변환기는 신경망 모델인 AutoEncoder, Deep autoencoder, Denoising autoencoder, Recurrent autoencoder, RBM 중의 어느 하나 또는 이들의 딥 버전(deep version)을 기반으로 할 수 있다. 또한, 표준 음향 모델은 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 및 NN(Neural Network) 중의 어느 하나를 기반으로 할 수 있다.
일 실시 예에 따르면, 학습부(220)는 학습 데이터 중 사용자 음성 신호 및 사용자 음성 신호에 대응하는 표준 음성 신호를 기초로 변환기를 학습할 수 있다. 예를 들어, 학습부(220)는 사용자 음성 신호를 다수의 프레임으로 분할하고, 각 프레임 별로 k-디멘션의 특징 벡터들을 추출할 수 있다. 학습부(220)는 추출한 사용자 음성 신호의 특징 벡터를 표준 음성 신호의 특징 벡터 포맷으로 변환하여 사용자 음성 신호 및 사용자 음성 신호에 대응하는 표준 음성 신호의 특징 벡터를 매칭함으로써 변환기를 학습시킬 수 있다. 이때, 추출한 특징 벡터들은 MFCC (mel-scale frequency cepstral cofficient) 특징 벡터 또는 필터뱅크의 형태일 수 있다.
또한, 추출한 특징 벡터의 포맷은 시차(time difference), 시차의 차이(difference of time difference)를 포함하는 형태일 수 있다. 이때, 시차의 의미는 v(t)-v(t-1)이고, 시차의 차이는 (v(t+1)-v(t))-(v(t)-v(t-1))로 표현될 수 있다. 이 경우, 특징들의 디멘션은 몇 배 증가할 수 있다. 일 예로, 13-디멘션의 MFCC 특징 벡터에 시차에 관한 내용을 포함하는 경우 39-디멘션의 특징 벡터가 될 수 있고, 마찬가지로, 41-디멘션의 필터 뱅크에 시차에 관한 내용을 포함하는 경우 특징 벡터는 123 디멘션의 특징 벡터가 될 수 있다.
일 실시 예에 따르면, 학습부(220)는 사용자 음성 신호의 특징 벡터와 사용자 음성 신호에 대응하는 표준 음성 신호의 특징 벡터 사이의 거리를 정의하고, 정의한 특징 벡터 사이의 거리를 최소화하는 파라미터를 최적의 파라미터로 설정함으로써 변환기를 학습할 수 있다. 이때, 학습부는 유클리드 거리(Euclidean distance)를 포함하는 거리 계산 기법 중 어느 하나에 기초하여 특징 벡터 사이의 거리를 계산할 수 있다. 한편, 제시된 실시 예 이외에도 벡터 사이의 거리를 계산하는 다른 기법이 이용될 수 있다. 이에 대해서는 도 4를 통하여 후술한다. 학습부(220)는 변환기를 학습하고, 학습 결과 사용자의 특징 정보를 표준 음향 모델에 제공할 수 있다.
모델 구축부(230)는 학습부(220)에서 학습한 학습 결과를 기초로 변환기 및 표준 음향 모델을 구축한다. 일 실시 예에 따르면, 모델 구축부(230)는 변환기로부터 입력되는 사용자의 특징 정보를 반영하여, 타겟팅된 표준 음향 모델을 구축할 수 있다. 이때, 타겟팅된 표준 음향 모델은 한 명의 사용자 각각에 대해 타겟팅되거나, 타겟 도메인, 또는 특정 그룹에 대해 타겟팅될 수 있다.
표준 음향 모델을 구축하면, 표준 음향 모델의 학습 시간 및 학습 비용을 줄일 수 있다. 예를 들어 음성 데이터의 수집 및 음성 인식 엔진 개발과 유지 보수에 사용되는 리소스를 획기적으로 줄일 수 있다. 또한, 비교적 작은 크기의 변환기만을 학습하여, 표준 모델을 개인화 또는 타겟팅할 수 있고, 타겟팅된 표준 음향 모델은 음성 인식 엔진의 정확도를 향상시킬 수 있다.
도 3은 일 실시 예에 따른 변환기 및 표준 음향 모델과의 관계를 설명하기 위한 도면이다. 이하, 도 1 및 도 2를 참고하여 음성 인식 장치(100) 및 음성 인식을 위한 모델 구축 장치(200)를 이용하는 과정을 설명한다.
먼저, 음성 인식을 위한 모델 구축 장치(200)는 변환기(310) 및 표준 음향 모델(330)을 학습 시킬 학습 데이터를 수집한다. 도 3을 참고하면, 음성 인식을 위한 모델 구축 장치(200)는 하나의 문장에 대해, 사용자가 문장을 실제로 읽어서 생성한 사용자의 실제 음성 신호 및 TTS를 이용하여 생성한 표준 음성 신호를 학습 데이터로 수집할 수 있다. 수집된 학습 데이터는 변환기(310)로 입력되고, 음성 인식을 위한 모델 구축 장치(200)는 사용자 음성 신호 및 사용자 음성 신호에 대응하는 표준 음성 신호를 학습 데이터로하여 변환기(310)를 학습시킨다.
예를 들어, 음성 인식을 위한 모델 구축 장치(200)는 입력된 사용자 음성 신호 및 사용자 음성 신호에 대응하는 표준 음성 신호를 다수의 프레임으로 분할하고, 각 프레임 별로 k-디멘션의 특징 벡터들을 추출하여, 추출한 사용자 음성 신호의 특징 벡터와 표준 음성 신호의 특징 벡터를 매칭함으로써 변환기를 학습시킬 수 있다. 변환기(310)의 학습 결과 사용자의 특징 정보가 표준 음향 모델(330)에 입력될 수 있다.
한편, 음성 인식을 위한 모델 구축 장치(200)는 NN(Neural Network)에 기반하여 음향 모델을 학습할 수 있으며, 이때 학습 데이터로 표준 음성 신호를 이용하므로 이를 표준 음향 모델(330)이라 부를 수 있다. 일반적으로 음향 모델에서 학습 데이터의 선정은 음향 모델의 정확성, 인식률을 높이는데 결정적인 역할을 하며, 음성 인식을 위한 모델 구축 장치(200)가 구축한 표준 음향 모델(330)은 표준성, 범용성, 호환성등을 가질 수 있다.
일 실시 예에 따르면, 음성 인식을 위한 모델 구축 장치(200)는 변환기를 통해 사용자의 특징 정보가 생성되면, 사용자의 특징 정보를 표준 음향 모델(330)에 반영하여 타겟팅된 표준 음향 모델(330)을 구축할 수 있다. 이 경우 표준 음향 모델은 개인화(personalization), 최적화(optimization)되어 각각의 타겟에 대한 적합성을 가질수 있다.
이때, 만일 사용자 한 명으로부터 사용자의 실제 음성 신호를 수집하는 것이 아니라, 특정 그룹 또는 동일한 언어를 사용하는 표본 집단 등으로부터 사용자의 실제 음성 신호를 수집하고, 변환기를 통하여 사용자 음성 신호를 표준 음성 신호로 변환하여 학습 데이터를 수집하는 경우, 음성 인식을 위한 모델 구축 장치(200)는 타겟 도메인에 대해 타겟팅된 표준 음향 모델(330)을 구축할 수 있을 것이다. 사용자의 특징 정보가 반영된 타겟팅된 표준 음향 모델(330)을 이용하는 경우, 음성 인식의 정확도 및 음성 인식률을 높일 수 있다.
도 4는 일 실시 예에 따른 음성 인식을 위한 모델 구축 장치(200)를 이용하여 변환기의 파라미터를 설정하는 일 예이다. 도 2를 참고하면, 음성 인식을 위한 모델 구축 장치(200)는 음성 신호로부터 특징 벡터들을 추출할 수 있다. 예를 들어, 음성 인식을 위한 모델 구축 장치(200)는 음성 신호가 입력되면, 음성 신호를 다수의 프레임들로 분할하고, 분할한 프레임들 각각을 mel scale의 스펙트럼으로 나타내어, 각각의 프레임들로부터 k-디멘션(dimension)의 MFCC 특징 벡터들을 추출할 수 있다.
일 실시 예에 따르면, 음성 인식을 위한 모델 구축 장치(200)는 사용자의 실제 음성 신호 및 사용자 음성 신호에 대응하는 표준 음성 신호로부터 각각 특징 벡터들을 추출할 수 있다. 예를 들어, 사용자의 실제 음성 신호가 3초 정도의 음성 신호라면, 1초를 100 프레임으로 분할한다고 가정하였을 때, 사용자 음성 신호로부터 300개의 프레임들이 나올 수 있다. 그리고, 300 프레임 각각에 대해 13-디멘션의 특징 벡터들이 추출될 수 있다. 한편, 사용자 음성 신호에 대응하는 표준 음성 신호는 사용자 음성 신호와는 포맷이 다를 수 있다. 예를 들어, 표준 음성 신호는 3초 정도의 음성 신호로, 표준 음성 신호의 특징 벡터는 300 프레임의 12-디멘션의 특징 벡터가 될 수 있다
도 4를 참고하면, 일 예로, 변환기는 f(x;w)의 함수로 표현될 수 있다. x는 함수의 입력에 해당하며, 도 4에서 300 프레임, 13-디멘션을 가지는 사용자의 입력(420)일 수 있다. w는 함수를 결정하는 파라미터(410)이고, TTS 포맷(430) 및 사용자의 입력(420)으로부터 구해질 수 있다. 도 4의 실시 예에서, TTS 포맷(430)은 300 프레임, 12-디멘션을 가질 수 있다.
여기서, 음성 인식을 위한 모델 구축 장치(200)는 변환기가 최적의 성능을 달성할 수 있도록 하는 파라미터 w를 결정할 수 있다. 예를 들어, 음성 인식을 위한 모델 구축 장치(200)는 사용자 음성 신호의 특징 벡터와 표준 음성 신호의 특징 벡터 사이의 거리 dist(y,z)를 정의할 수 있다. 음성 인식을 위한 모델 구축 장치(200)는 정의된 벡터 사이의 거리 dist(y,f(x,w))를 최소화하는 파라미터를 최적의 성능을 달성하는 파라미터로 결정할 수 있다.
일 예로, y,z는 벡터이므로 dist(y,z)를 y와 z 사이의 거리를 유클리드 거리(Euclidean length) 또는 유클리드 놈(Euclidean norm)을 이용하여 계산할 수 있다. 한편, 제시된 실시 예 이외에도 벡터 y와 z 사이의 거리는 다른 방법으로 계산될 수 있으며, 벡터 y와 z 사이의 거리를 계산하면, 정의된 벡터 사이의 거리를 최소화하는 파라미터를 최적의 파라미터로 결정할 수 있다. 도 4의 실시 예에서, 파라미터 w는 12*13의 행렬로 결정될 수 있고, 이때, 파라미터의 개수는 12*13=146개가 된다. 즉, 146개의 파라미터를 찾으면, 사용자 음성 신호를 표준 음성 신호의 포맷으로 변환할 수 있다.
음성 인식을 위한 모델 구축 장치(200)는 사용자로부터 많은 양의 음성 신호를 수집하고, 사용자 음성 신호 및 사용자 음성 신호에 대응하는 표준 음성 신호에 기초하여 필요한 파라미터들을 설정함으로써 변환기를 학습할 수 있다.
도 5은 일 양상에 따른 음성 인식 장치(100)를 이용한 음성 인식 방법의 흐름도이다.
먼저, 음성 인식 장치(100)는 변환기를 이용하여 사용자 음성 신호를 표준 음성 신호의 포맷으로 변환할 수 있다(610). 이때, 표준 음성 신호의 포맷은 TTS(Text-to-Speech)를 이용하여 생성 되는 음성 신호의 포맷일 수 있다.
예를 들어, 음성 인식 장치(100)는 변환기로 입력된 사용자 음성 신호를 다수의 프레임으로 분할하고, 각 프레임 별로 k-디멘션의 특징 벡터들을 추출하여, 추출한 특징 벡터의 포맷을 표준 음성 신호의 포맷으로 변환할 수 있다. 이때, 추출한 특징 벡터들은 MFCC (mel-scale frequency cepstral cofficient) 특징 벡터 또는 필터뱅크의 형태일 수 있다. 예를 들어, 음성 인식 장치(100)는 사용자 음성 신호를 다수의 프레임으로 분할하고, 감지된 주파수 또는 실제 측정된 주파수와 관련 있는 mel scale의 스펙트럼으로부터 각 프레임별로 k-디멘션의 MFCC 특징 벡터들을 추출할 수 있다.
음성 인식 장치(100)는 변환기에 입력된 사용자 음성 신호로부터 특징 벡터를 추출하고, 추출한 특징 벡터를 표준 음성 신호 특징 벡터 포맷으로 변환함으로써, 사용자 음성 신호를 표준 음향 모델에 적용하기 위한 표준 음성 신호로 변환할 수 있다. 이때, 표준 음성 신호의 포맷은 MFCC 특징 벡터 또는 필터뱅크의 형태이고, 프레임의 수 및 디멘션에 관한 정보를 포함할 수 있다. 예를 들어, 특징 벡터들의 포맷은 MFCC 특징들을 추출한다고 가정할 때 12,13,26,39와 같은 k-디멘션을 가질 수 있다. 또한, 40-디멘션 이상의 필터뱅크의 특징들이 추출될 수 있다.
또한, 특징 벡터들의 포맷은 시차(time difference), 시차의 차이(difference of time difference)를 포함하는 형태일 수 있다. 이때, 시차의 의미는 v(t)-v(t-1)이고, 시차의 차이는 (v(t+1)-v(t))-(v(t)-v(t-1))로 표현될 수 있다. 이 경우, 특징들의 디멘션은 몇 배 증가할 수 있다.
제시된 실시 예 이외에도, 특징 벡터들의 포맷은 다양할 수 있으므로, 특징 벡터들의 포맷의 구체적인 내용은 제시된 실시 예에 한정되지 않아야 할 것이다.
그 다음, 음성 인식 장치(100)는 변환된 표준 음성 신호를 표준 음향 모델에 적용한다(620). 이때, 표준 음향 모델은 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 및 NN(Neural Network) 중의 어느 하나를 기반으로 하는 음향 모델일 수 있다.
이때, 표준 음향 모델은 사용자의 특징 정보를 반영하도록 사전에 학습된 타겟팅된 표준 음향 모델일 수 있다. 만일, 타겟팅된 표준 음향 모델이 사용자의 특징 정보를 충분히 반영할 만큼 잘 학습되어 있다면, 음성 인식률 및 정확도를 높일 수 있다. 타겟팅된 표준 음향 모델은 사용자의 언어 습관, 억양, 톤, 자주 사용하는 어휘, 사투리 사용 습관 등이 반영되어 있으므로, 각 사용자에게 맞춤화, 최적화 될 수 있다.
그 다음, 음성 인식 장치(100)는 표준 음향 모델의 적용 결과를 기초로 사용자 음성 신호를 인식한다(630).
한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 개시된 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 음성 인식 장치
110,310: 변환기
120: 음향 모델 적용부
130: 해석부
200: 음성 인식을 위한 모델 구축 장치
210: 학습 데이터 수집부
220: 학습부
230: 모델 구축부
330: 표준 음향 모델

Claims (20)

  1. 사용자 음성 신호를 표준 음성 신호 포맷으로 변환하는 변환기;
    상기 변환된 표준 음성 신호를 표준 음향 모델에 적용하는 음향 모델 적용부; 및
    상기 표준 음향 모델의 적용 결과를 기초로 상기 사용자 음성 신호를 인식하는 해석부를 포함하고,
    상기 변환기는 신경망 모델인 AutoEncoder, Deep autoencoder, Denoising autoencoder, Recurrent autoencoder, RBM 중의 어느 하나를 기반으로 하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 표준 음성 신호의 포맷은 TTS(Text-to-Speech)를 이용하여 생성 되는 음성 신호의 포맷을 포함하는 음성 인식 장치.
  3. 삭제
  4. 제1항에 있어서,
    상기 변환기는 상기 사용자 음성 신호를 다수의 프레임으로 분할하고, 상기 각 프레임별로 k-디멘션의 특징 벡터들을 추출하여, 추출한 특징 벡터를 상기 표준 음성 신호의 포맷으로 변환하는 음성 인식 장치.
  5. 제4항에 있어서,
    상기 표준 음성 신호의 포맷은 MFCC 특징 벡터 및 필터뱅크 중 적어도 하나의 형태를 포함하고, 프레임의 수 및 디멘션에 관한 정보 중 하나 이상을 포함하는 음성 인식 장치.
  6. 제1항에 있어서,
    상기 표준 음향 모델은
    GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 및 NN(Neural Network) 중의 어느 하나를 기반으로 하는 음성 인식 장치.
  7. 표준 음성 신호를 기초로 학습 데이터를 수집하는 학습 데이터 수집부;
    상기 학습 데이터를 이용하여 변환기 및 표준 음향 모델 중 적어도 하나를 학습하는 학습부; 및
    상기 학습 결과를 기초로 상기 변환기 및 표준 음향 모델을 구축하는 모델 구축부를 포함하고,
    상기 표준 음성 신호는 TTS(Text-to-Speech)를 이용하여 생성되는 음성 신호 및 변환기를 이용하여 사용자 음성 신호를 변환시킨 음성 신호 중 적어도 하나를 포함하고,
    상기 학습 데이터 수집부는 상기 TTS를 이용하여 전자 사전 및 문법 규칙을 분석하여 합성음을 생성하는 음성 인식을 위한 모델 구축 장치.
  8. 삭제
  9. 삭제
  10. 제7항에 있어서,
    상기 학습 데이터 수집부는 사용자 음성 신호에 대응하는 표준 음성 신호를 학습 데이터로 더 수집하는 음성 인식을 위한 모델 구축 장치.
  11. 제10항에 있어서,
    상기 사용자 음성 신호에 대응하는 표준 음성 신호는, 상기 사용자 음성 신호와 동일한 텍스트에 대해 TTS를 이용하여 생성한 음성 신호인 음성 인식을 위한 모델 구축 장치.
  12. 제7항에 있어서,
    학습 데이터 수집부는 음성 인식 결과 생성된 문장에 대해 사용자로부터 피드백을 받고, 상기 피드백을 받은 문장으로부터 생성한 표준 음성 신호를 학습 데이터로 더 수집하는 음성 인식을 위한 모델 구축 장치.
  13. 제7항에 있어서,
    상기 변환기는 신경망 모델인 AutoEncoder, Deep autoencoder, Denoising autoencoder, Recurrent autoencoder, RBM 중의 어느 하나를 기반으로 하는 음성 인식을 위한 모델 구축 장치.
  14. 제10항에 있어서,
    상기 학습부는 상기 사용자 음성 신호의 특징 벡터와 상기 표준 음성 신호의 특징 벡터 사이의 거리가 최소화되도록 상기 변환기를 학습하는 음성 인식을 위한 모델 구축 장치.
  15. 제14항에 있어서,
    상기 학습부는 유클리드 거리(Euclidean distance)를 포함하는 거리 계산 기법 중 어느 하나에 기초하여 상기 특징 벡터 사이의 거리를 계산하는 음성 인식을 위한 모델 구축 장치.
  16. 제7항에 있어서,
    상기 표준 음향 모델은
    GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 및 NN(Neural Network) 중의 어느 하나를 기반으로 하는 음성 인식을 위한 모델 구축 장치.
  17. 사용자 음성 신호를 표준 음성 신호의 포맷으로 변환하는 단계;
    상기 변환된 표준 음성 신호를 표준 음향 모델에 적용하는 단계; 및
    상기 표준 음향 모델의 적용 결과를 기초로 상기 사용자 음성 신호를 인식하는 단계를 포함하고,
    상기 변환하는 단계는 신경망 모델인 AutoEncoder, Deep autoencoder, Denoising autoencoder, Recurrent autoencoder, RBM 중의 어느 하나를 기반으로 변환하는 음성 인식 방법.
  18. 삭제
  19. 제17항에 있어서,
    상기 변환하는 단계는 상기 사용자 음성 신호를 다수의 프레임으로 분할하고, 상기 각 프레임별로 k-디멘션의 특징 벡터들을 추출하여, 추출한 특징 벡터를 상기 표준 음성 신호의 포맷으로 변환하는 음성 인식 방법.
  20. 제19항에 있어서,
    상기 표준 음성 신호의 포맷은 MFCC 특징 벡터 및 필터뱅크 중 적어도 하나의 형태를 포함하고, 프레임의 수 및 디멘션에 관한 정보 중 하나 이상을 포함하는 음성 인식 방법.
KR1020150101201A 2015-07-16 2015-07-16 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법 KR102410914B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150101201A KR102410914B1 (ko) 2015-07-16 2015-07-16 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
US15/147,965 US20170018270A1 (en) 2015-07-16 2016-05-06 Speech recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150101201A KR102410914B1 (ko) 2015-07-16 2015-07-16 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170009338A KR20170009338A (ko) 2017-01-25
KR102410914B1 true KR102410914B1 (ko) 2022-06-17

Family

ID=57776293

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150101201A KR102410914B1 (ko) 2015-07-16 2015-07-16 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법

Country Status (2)

Country Link
US (1) US20170018270A1 (ko)
KR (1) KR102410914B1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614826B2 (en) * 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
US10403303B1 (en) * 2017-11-02 2019-09-03 Gopro, Inc. Systems and methods for identifying speech based on cepstral coefficients and support vector machines
CN107909995B (zh) * 2017-11-16 2021-08-17 北京小米移动软件有限公司 语音交互方法和装置
KR102550932B1 (ko) 2017-12-29 2023-07-04 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치
KR20190129580A (ko) 2018-05-11 2019-11-20 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
KR20200011796A (ko) * 2018-07-25 2020-02-04 엘지전자 주식회사 음성 인식 시스템
US10810996B2 (en) * 2018-07-31 2020-10-20 Nuance Communications, Inc. System and method for performing automatic speech recognition system parameter adjustment via machine learning
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
KR102637339B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US10210861B1 (en) * 2018-09-28 2019-02-19 Apprente, Inc. Conversational agent pipeline trained on synthetic data
WO2020111676A1 (ko) * 2018-11-28 2020-06-04 삼성전자 주식회사 음성 인식 장치 및 방법
US10573296B1 (en) 2018-12-10 2020-02-25 Apprente Llc Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
WO2020153736A1 (en) 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
CN109817246B (zh) * 2019-02-27 2023-04-18 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN111785282A (zh) * 2019-04-03 2020-10-16 阿里巴巴集团控股有限公司 一种语音识别方法及装置和智能音箱
CN111862944B (zh) * 2019-04-30 2024-04-02 北京嘀嘀无限科技发展有限公司 语音识别装置、方法、电子设备和计算机可读存储介质
WO2020231181A1 (en) * 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Method and device for providing voice recognition service
CN112242134B (zh) * 2019-07-01 2024-07-16 北京邮电大学 语音合成方法及装置
KR20210090781A (ko) * 2020-01-10 2021-07-21 삼성전자주식회사 사운드 처리 방법 및 이 방법을 실행하는 디바이스
CN111312286A (zh) * 2020-02-12 2020-06-19 深圳壹账通智能科技有限公司 年龄识别方法、装置、设备及计算机可读存储介质
JP2023546989A (ja) 2020-10-08 2023-11-08 モジュレイト インク. コンテンツモデレーションのためのマルチステージ適応型システム
US11568858B2 (en) * 2020-10-17 2023-01-31 International Business Machines Corporation Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
CN113077782B (zh) * 2021-03-01 2023-01-17 北京声智科技有限公司 语音识别模型的数据处理方法及装置
CN114360558B (zh) * 2021-12-27 2022-12-13 北京百度网讯科技有限公司 语音转换方法、语音转换模型的生成方法及其装置
CN114453852A (zh) * 2022-02-16 2022-05-10 上海海事大学 基于语音识别控制机械臂进行叶片装配的方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094031A1 (en) 2007-10-04 2009-04-09 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Text Independent Voice Conversion
US20090094027A1 (en) * 2007-10-04 2009-04-09 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Improved Voice Conversion
US20120041764A1 (en) * 2010-08-16 2012-02-16 Kabushiki Kaisha Toshiba Speech processing system and method
US20150161983A1 (en) 2013-12-06 2015-06-11 Fathy Yassa Method and apparatus for an exemplary automatic speech recognition system

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US5956671A (en) * 1997-06-04 1999-09-21 International Business Machines Corporation Apparatus and methods for shift invariant speech recognition
US6826306B1 (en) * 1999-01-29 2004-11-30 International Business Machines Corporation System and method for automatic quality assurance of user enrollment in a recognition system
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US6917918B2 (en) * 2000-12-22 2005-07-12 Microsoft Corporation Method and system for frame alignment and unsupervised adaptation of acoustic models
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
US8849667B2 (en) * 2012-07-31 2014-09-30 Novospeech Ltd. Method and apparatus for speech recognition
US8438029B1 (en) * 2012-08-22 2013-05-07 Google Inc. Confidence tying for unsupervised synthetic speech adaptation
US9633652B2 (en) * 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094031A1 (en) 2007-10-04 2009-04-09 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Text Independent Voice Conversion
US20090094027A1 (en) * 2007-10-04 2009-04-09 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Improved Voice Conversion
US20120041764A1 (en) * 2010-08-16 2012-02-16 Kabushiki Kaisha Toshiba Speech processing system and method
US20150161983A1 (en) 2013-12-06 2015-06-11 Fathy Yassa Method and apparatus for an exemplary automatic speech recognition system

Also Published As

Publication number Publication date
KR20170009338A (ko) 2017-01-25
US20170018270A1 (en) 2017-01-19

Similar Documents

Publication Publication Date Title
KR102410914B1 (ko) 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
Desai et al. Feature extraction and classification techniques for speech recognition: A review
Ghai et al. Literature review on automatic speech recognition
Lal et al. Cross-lingual automatic speech recognition using tandem features
Vlasenko et al. Modeling phonetic pattern variability in favor of the creation of robust emotion classifiers for real-life applications
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
Khelifa et al. Constructing accurate and robust HMM/GMM models for an Arabic speech recognition system
Bhatt et al. Feature extraction techniques with analysis of confusing words for speech recognition in the Hindi language
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
CN112349289A (zh) 一种语音识别方法、装置、设备以及存储介质
Verma et al. Age driven automatic speech emotion recognition system
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Ghai et al. Continuous speech recognition for Punjabi language
Tripathi et al. Improvement of phone recognition accuracy using speech mode classification
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
Chauhan et al. Comparative study of MFCC and LPC algorithms for Gujrati isolated word recognition
Biswas et al. Speech recognition using weighted finite-state transducers
Maqsood et al. A comparative study of classifier based mispronunciation detection system for confusing
Syiem et al. Comparison of Khasi speech representations with different spectral features and hidden Markov states
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
Sayem Speech analysis for alphabets in Bangla language: automatic speech recognition
Paul et al. A novel pre-processing technique of amplitude interpolation for enhancing the classification accuracy of Bengali phonemes
Ali et al. Automatic speech recognition of Urdu words using linear discriminant analysis
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant