KR101398639B1 - 음성 인식 방법 및 그 장치 - Google Patents

음성 인식 방법 및 그 장치 Download PDF

Info

Publication number
KR101398639B1
KR101398639B1 KR1020070100995A KR20070100995A KR101398639B1 KR 101398639 B1 KR101398639 B1 KR 101398639B1 KR 1020070100995 A KR1020070100995 A KR 1020070100995A KR 20070100995 A KR20070100995 A KR 20070100995A KR 101398639 B1 KR101398639 B1 KR 101398639B1
Authority
KR
South Korea
Prior art keywords
phoneme
speech
language model
unit
string group
Prior art date
Application number
KR1020070100995A
Other languages
English (en)
Other versions
KR20090035944A (ko
Inventor
공동건
명현
방석원
윤재삼
오유리
김민아
김홍국
박지훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070100995A priority Critical patent/KR101398639B1/ko
Publication of KR20090035944A publication Critical patent/KR20090035944A/ko
Application granted granted Critical
Publication of KR101398639B1 publication Critical patent/KR101398639B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 음성 인식 장치는 입력된 음성 신호의 특징 벡터로부터 음성 격자(Phonetic Lattice)를 생성하는 제1 음소 인식부와, 음성 격자를 음소 규칙을 이용하여 보정하는 언어 모델 보정부 및 보정된 음성 격자를 이용하여 특징 벡터로부터 음성을 인식하는 제2 음소 인식부를 포함한다.
음성 인식, 음성 등록, 언어 모델, 음향 모델, 언어 모델 보정, 실시간 음성 인식.

Description

음성 인식 방법 및 그 장치{Method and apparatus for speech registration}
본 발명은 음성 인식 장치 및 방법에 관한 것으로, 보다 상세하게는 언어 모델 보정 기반의 이중 경로 음성 인식(Two-pass decoding) 방법 및 장치에 관한 것이다.
일반적으로 지능형 로봇은 로봇이 스스로 판단하여 행동할 수 있는 로봇을 말하며, 인간과 현실 공간을 공유하고 상호 작용하면서 인간의 기능을 수행하는 기술 융합 시스템으로 주부의 가사 노동을 보조하거나 청소 로봇, 잔디 깎기 로봇 등으로 사용될 수 있다. 한편, 사람과 지능형 로봇간의 상호 작용을 위해서는 사람에게 있어서 가장 자연스럽고 쉬운 인터페이스 중의 하나인 음성을 이용하는 것이 효율적이다. 특히, 사용자의 편의성을 증대시키기 위해 가정에서 사용되는 청소 로봇이나 오락용 로봇 등을 음성을 이용하여 명령하여 작동하는 것이 요구된다.
이러한 기능을 수행하기 위해서는 기본적으로 사용자의 음성을 실시간으로 등록하고 이를 인식하는 기능이 필요하다. 실시간 음성 처리란 사용자가 느끼기에 사람과 로봇 사이의 대화가 사람과 사람 사이의 대화와 같이 로봇이 음성을 처리하는 시간을 사용자가 느끼지 못할 정도로 실제로 기다리는 시간이 없음을 의미한다. 따라서 사용자의 음성이 끝나자마자 로봇에서의 결과가 출력되어야 한다.
종래의 음성 인식 장치는 단어 기반으로 미리 등록된 단어에 한해서 사용할 수 있어 목적에 따라 음성 인식 기능이 제한적이고 OOV(Out Of Vocabulary)에 대한 처리가 필요하였다. 따라서, 무제한의 단어를 입력 받기 위한 방법 중의 하나로서, 발음 사전 없이 음소 단위의 언어 모델과 음향 모델을 이용하여 음소 인식을 수행하는 방법을 사용하였다.
그러나, 종래의 음성 인식 장치 및 방법에는 다음과 같은 문제점이 있다.
먼저, 모노폰(Monophone) 기반의 음향 모델과 음소 기반의 n-gram 언어 모델을 사용하여 음소 인식을 수행하는 경우에는 실시간으로 음소 인식을 수행할 수 있으나 인식 성능이 현저히 저하되는 문제점이 있었다. 반면에, 트라이폰(Triphone) 기반의 음향 모델과 음소 기반의 n-gram 언어 모델을 사용할 경우에는(이하, 종래 기술 A라고 한다.), 인식 성능은 향상되나 계산량의 증가로 실시간으로 음소 인식을 수행하기 어려운 문제점이 있었다.
또한, 기존의 이중 경로 음성 인식 방법(Two-pass decoding)(이하, 종래 기술 B라고 한다.)은 먼저 unigram, bigram과 같은 단순한 언어 모델을 적용하여 Fast pass decoding을 수행하고, trigram 등과 같은 보다 복잡한 언어 모델의 탐색 공간을 축소시키고 확률을 재조정하여 다시 Second pass decoding을 수행한다. 이를 통해 계산량을 줄이고, 음성 인식의 정확도를 어느 정도 높일 수 있었으나, 음성의 오인식률이 높은 문제점은 여전히 존재하였다.
본 발명은 상기한 문제점을 개선하기 위해 고안된 것으로, 본 발명이 이루고자 하는 기술적 과제는 언어 모델 보정 기반의 이중 경로 음성 인식 장치 및 방법을 제공함으로써, 무제한의 단어를 실시간으로 등록시킬 수 있고, 음성의 인식의 정확도를 높일 수 있는 음성 인식 장치 및 방법을 제공하는 것이다.
본 발명의 기술적 과제는 이상에서 언급한 것들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제는 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 장치는 입력된 음성 신호의 특징 벡터로부터 음성 격자(Phonetic Lattice)를 생성하는 제1 음소 인식부와, 상기 음성 격자를 음소 규칙을 이용하여 보정하는 언어 모델 보정부 및 상기 보정된 음성 격자를 이용하여 상기 특징 벡터로부터 음성을 인식하는 제2 음소 인식부를 포함한다.
또한, 상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 방법은 입력된 음성 신호의 특징 벡터로부터 음성 격자를 생성하는 단계와, 상기 음성 격자를 음소 규칙을 이용하여 보정하는 단계 및 상기 보정된 음성 격자를 이용하여 상기 특징 벡터로부터 음성을 인식하는 단계를 포함한다.
상기한 바와 같은 본 발명의 음성 인식 장치 및 방법에 따르면 다음과 같은 효과가 하나 혹은 그 이상 있다.
첫째, 미리 내장된 발음 사전에 존재하는 단어만을 등록하던 기존 기술과 달리 무제한의 단어를 등록시키고 인식할 수 있다.
둘째, 언어 모델 보정 기반의 이중 경로 음성 인식으로 인해 성능 향상을 통해 새로운 단어를 실시간으로 등록시키고 인식할 수 있으며, 음성 인식의 정확도를 높일 수 있는 음성 인식 장치 및 방법을 제공할 수 있다.
셋째, 사용자의 편의성을 증대시키기 위하여 로봇 및 가전기기에 음성 인식을 접목하여 사용자와의 즉각적이고 원활한 상호 작용을 위해 가전기기로의 불필요한 근접 접근 및 키보드 등의 입력 도구의 불필요한 조작을 제거할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이 때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함할 수 있다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다.
이하, 본 발명의 실시예들에 의하여 음성 인식 장치 및 방법을 설명하기 위한 도면들을 참고하여 본 발명에 대해 설명하도록 한다.
도 1은 본 발명의 일실시예에 따른 음성 인식 장치의 구성을 나타내는 블록도이다.
본 발명의 일실시예에 따른 음성 인식 장치(100)는, 특정 벡터 추출부(110)와, 제1 음소 인식부(120)와, 언어 모델 보정부(130) 및 제2 음소 인식부(140)를 포함할 수 있다.
한편, 본 발명의 일실시예에 따른 음성 인식 장치(100)는 음성의 인식은 물 론, 새로운 음성의 등록을 위해서도 사용될 수 있다. 이하, 음성의 인식 기능을 예를 들어 설명하기로 한다.
특징 벡터 추출부(110)는 입력된 음성 신호(10)를 단위 프레임으로 분할하여 분할된 프레임 영역에 대응되는 특징 벡터(112)를 추출하는 역할을 한다.
먼저, 음성 신호가 음성 인식 장치(100)에 입력되면 음성 구간 검출(Voice Activity Detection, VAD)를 통하여 입력된 음성 신호(10)에서 실제의 음성 구간을 검출할 수 있다. 검출된 음성 구간에 대하여 음성 신호로부터 음성 인식에 적합한 정보를 획득하기 위해 음성의 특징을 추출한다. 이 때, 음성 신호의 주파수 특성을 단위 프레임 별로 계산하여 음성 신호에 포함된 특징 벡터(112)를 추출하게 된다. 이를 위하여, 특징 벡터 추출부(110)에는 아날로그 음성 신호를 디지털로 변환하는 아날로그-디지털 변환 수단(A/D Converter)이 구비되어 있을 수 있는데, 디지털로 변환된 음성 신호는 약 10ms 단위의 프레임으로 나뉘어 처리될 수 있다. 예를 들어, 16kHz의 표준화율 하에서는 음성 인식을 위한 샘플수는 160개이다. 이와 같은 단위 프레임은 적어도 하나 이상의 은닉 마르코프 모델 상태(Hidden Markov Model 상태)를 포함할 수 있다.
바람직하게는, 특징 벡터 추출부(110)는 멜-주파수 켑스트럼 계수(Mel-Frequency Cepstrum Coefficients, MFCC) 특징 추출 방식을 이용하여 특징 벡터(112)를 추출할 수 있다. 멜-주파수 켑스트럼 계수 특징 추출 방식은 멜-켑스트럼 계수, 로그 에너지, 그리고 이들의 1차, 2차 미분을 결합한 형태의 특징 벡터(112)를 사용할 수 있다.
한편, 특징 벡터 추출부(110)는 단위 프레임 영역에서 음성 신호의 특징을 추출하는데 있어서, 선형 예측 부호화(Linear Predictive Coding, LPC), 선형 예측 부호화에 의한 켑스트럼(LPC derived Cepstrum), 인지 성형 예측(Perceptive Linear Prediction, PLP), 청각 모델(Audio Model) 특징 추출 및 필터 뱅크(Filter Bank) 등의 방법을 사용할 수도 있다.
제1 음소 인식부(120)는 입력된 음성 신호(10)의 특징 벡터(112)로부터 음성 격자(Phonetic Lattice)(128)를 생성하는 역할을 한다.
도 2는 도 1의 음성 인식 장치에서 제1 음소 인식부가 음성 신호의 특징 벡터로부터 음성 격자를 생성하는 과정을 나타낸 도면이다.
도 2에 도시된 바와 같이, 제1 음소 인식부(120)는 특징 벡터(112)를 제1 음향 모델(122)과 언어 모델(124)을 이용하여 패턴 매칭시켜 음소를 인식하여 제1 음소열 군(126)을 생성하고, 제1 음소열 군(126)으로부터 음성 격자(128)를 생성할 수 있다. 이 단계에서의 음소 인식을 Fast-Pass Decoding이라 한다.
바람직하게는, 제1 음향 모델(122)은 모노폰(Monophone) 기반의 음향 모델을 사용할 수 있다. 일반적으로, 음향 모델은 단어, 음절, 음소 단위 등으로 학습된 은닉 마르코프 모델(Hidden Markov Model, HMM)을 사용할 수 있는데, 음소 단위 HMM을 음성 인식에 사용하는 것이 효율적이다. 음소 단위 HMM은 단일 음소만을 고려한 모노폰(Monophone) 모델과 앞뒤 음소를 고려한 트라이폰(Triphone) 모델을 주로 사용할 수 있다. 실제 발음되는 음소는 앞뒤 음소에 따라 기준 음소의 음성 특성이 다르므로 트라이폰 모델을 사용함으로써 인식 성능을 높일 수 있다. 그러나 트라이폰 모델을 사용할 경우, 그 모델 수가 모노폰 모델 개수의 3승배가 되어 음소 인식 수행에 있어서 막대한 시간이 요구되는 단점이 있다.
따라서, 제1 음소 인식부(120)에서는 모노폰 기반의 음향 모델을 사용하여 음소 인식을 수행할 수 있다. 한편, 음성 인식에 사용하는 모노폰 기반의 음향 모델은 21개의 모음과 19개의 자음, 2개의 묵음으로 총 42개의 음소를 포함할 수 있다.
한편, 언어 모델(124)은 문법 등 인간의 언어 발생 패턴을 모델링하고 인식 공간을 한정시킴으로써 탐색 공간을 줄여서 인식 시간 및 계산량을 줄이기 위하여 사용하며, 통계 기반 방식을 사용할 수 있다. 통계 기반 방식은 주어진 상황에서 발화된 음성의 데이터베이스로부터, 가능한 단어열의 확률값을 통계적으로 추정하는 방식이다. 이 기법을 통하여 생성된 언어 모델은 문법에 맞지 않는 문장도 수용하는 유연한 구조를 가지나, 이 경우 탐색 공간이 커지는 단점을 가진다. 통계 기반 방식의 언어 모델 중 대표적인 것이 n-gram으로, 이전 n-1 개의 단어들로부터 다음에 나타날 단어의 확률을 정의하는 방식이다. 즉, 단어열에 대한 확률을 이전 n-1 개의 단어들의 조건부 확률들의 곱으로 근사화될 수 있다.
바람직하게는, 입력된 음성 신호(10)를 등록하고자 할 때에는 언어 모델(124)로서 음소 단위의 bigram 기반의 언어 모델을 사용할 수 있고, 입력된 음성 신호(10)를 인식하고자 할 때에는 단어 단위의 unigram 기반의 언어 모델을 사용할 수 있다.
도 3은 음소 단위의 bigram 기반의 언어 모델을 나타내는 도면이다.
음소 단위의 bigram 기반의 언어 모델은 현재 음소에 대한 확률을 이전 음소에 대한 조건부 확률들의 곱으로 근사화한 언어 모델이다. 즉, n 개의 음소를 가지는 모노폰 기반의 음향 모델을 이용하여 음성 인식을 수행한다고 하면, n×n에 해당하는 탐색 공간을 필요로 한다.
예를 들어, 42개의 음소를 가지는 음향 모델을 이용하여 음성 인식을 수행한다고 하면, 트라이폰 모델 기반의 음향 모델의 경우, 42개의 음소에 대하여 앞뒤에 위치하는 음소를 고려해야 하기 때문에 약 70,000개 (42×42×42개)의 음소에 대한 음향 모델을 사용해야 한다. 또한, 두 개의 음소 사이에 나타날 수 있는 확률값을 고려하는 bigram 기반의 언어 모델을 사용할 경우, 70,000개 음소의 제곱승(70,000×70,000개)에 해당하는 수만큼 탐색 공간을 필요로 하게 된다. 따라서, 음성 인식 성능을 향상시킬 수는 있으나, 계산량이 증가하고 음소 인식에 소요되는 시간이 크게 늘어나므로 실시간으로 음소 인식을 수행하기 어려움이 있다.
따라서, 본 발명의 일실시예에 따른 음성 인식 장치(100)에서는 제1 음소열 군(126)을 인식하기 위한 시간을 줄이기 위해서 모노폰 기반의 음향 모델을 가지고 bigram 기반의 언어 모델을 생성하여 인식에 사용함으로써 탐색 공간을 줄여 처리 속도를 크게 줄일 수 있다.
한편, 제1 음소열 군(126)은 비터비 알고리즘(Viterbi Algorithm)을 이용하여 생성될 수 있다. 즉, 특징 벡터(112)는 제1 음향 모델(122)과 언어 모델(124)을 이용하여 패턴 매칭시켜 제1 음소열 군(126)을 생성하는 패턴 매칭 방법으로, 동적 프로그램 중 하나인 비터비 알고리즘을 사용할 수 있다. 비터비 알고리즘에서는 입 력된 음성 신호(10)의 각 프레임에 대하여 모든 음소의 모든 상태(State)에 대해서 상태 확률 계산 과정을 수행함으로써 입력된 음성 신호(10)에 대한 모든 가능한 음소열에 대한 확률을 계산한 후, 최고의 확률을 가지는 제1 음소열(즉, N-best 음소열)들을 찾아낼 수 있다. 최고의 확률을 가지는 제1 음소열 군(126)을 이루는 음소열의 개수는 음성 인식 장치(100) 내에서 미리 설정된 값일 수 있다. 또한, 비터비 알고리즘의 수행 능력을 증대시키기 위해서 일정 이상의 확률을 가지는 상태들 만을 계산하는 가지치기(Pruning) 방식을 사용할 수 있다. 따라서, 음성 격자(128)는 비터비 알고리즘과 가지치기에 의해서 생성된 N-best 음소열(126)을 이용하여 생성할 수 있다.
도 4는 제1 음소 인식부에서 제1 음소열 군을 생성한 후 이에 해당하는 음성 격자를 생성한 상태를 나타내는 예시도이다.
예를 들어, 제1 음소 인식부(120)에서 "학교"라는 입력된 음성 신호(10)에 대해 모노폰 기반의 음향 모델(122)과 bigram 기반의 언어 모델(124)로 음소 인식을 수행할 경우, 비터비 알고리즘을 통해 가지치기되고 살아남은 제1 음소열 군(126)은 "h a g g jo", "h a g G jo", "a g g I o a", " h E g g jo"일 수 있다. 이러한 제1 음소열 군(126)은 입력된 음성 신호(10)에 대해 인식 가능한 모든 음소열들 중 최고의 확률을 가지는 음소열(N-best 음소열)들을 의미한다. 이 후, 제1 음소열 군(126)을 이용하여 음성 격자(128)를 생성할 수 있다.
상기와 같이, 제1 음소 인식부(120)에서는 모노폰 기반의 음향 모델(122)을 이용하여 신속한 음소 인식을 행하여 생성한 음성 격자(128)를 생성하고, 이러한 음성 격자(128)를 이용하여 한정된 음소만으로 이루어진 언어 모델로 재생성하여 사용하므로, 이후 제2 음소 인식부(140)에서의 음소 인식에서 탐색 공간을 크게 줄일 수 있다.
언어 모델 보정부(130)는 음성 격자(128)를 음소 규칙을 이용하여 보정하는 역할을 한다. 즉, 언어 모델 보정부(130)는 제1 음소 인식부(120)에서 생성된 음성 격자(128)를 보정함으로써 제2 음소 인식부(140)에서 보다 정확하고 신속한 음소 인식을 수행할 수 있도록 할 수 있다.
도 5는 도 1의 음성 인식 장치에서 언어 모델 보정부를 나타낸 블록도이다.
본 발명의 일실시예에 따른 음성 인식 장치(100)의 언어 모델 보정부(130)는, 음소열 생성부(131)와, 음소열 선택부(132)와, 음소열 보정부(133) 및 음성 격자 생성부(134)를 포함할 수 있다.
음소열 생성부(131)는 제1 음소 인식부(120)에서 생성된 음성 격자(128)로부터 가능한 음소열 군을 생성할 수 있다. 그리고, 음소열 선택부(132)는 음소열 생성부(131)에서 생성된 음소열 군을 확률 값에 따라 정렬한 후, 높은 확률 값을 가지는 음소열 군을 선택할 수 있다. 그리고, 음소열 보정부(133)는 음소열 선택부(132)에서 선택된 음소열 군을 음소 규칙을 이용하여 변환하여 보정된 음소열 군을 생성할 수 있다.
음소열 보정부(133)에서 음소열 군을 변환하는 데 있어서 사용되는 음소 규칙은, 언어 모델 보정을 위해 많은 실험 데이터를 기반으로 하여 특정 영역에 의존적인 통계적 기법을 사용하는 대신, 음성학 또는 음운론의 지식을 기반으로 보편적 인 규칙을 적용할 수 있다. 예를 들어, 음소 규칙은 한국 어문 규정집의 표준 발음법을 이용할 수 있다.
아래의 표 1은 언어 모델 보정부의 음소열 보정부에서 음소열을 변환하는데 적용 가능한 음소 규칙의 예시를 나타낸다.
번호 규칙명 음소열 보정된 음소열
규칙 1 중복 자음열 제거 자음1-자음2-자음3 자음1-자음2
자음1-자음3
자음2-자음3
규칙 2 이중 자음의 단어 끝 음소 제거 자음1-자음2-묵음(sil) 자음1-묵음(sil)
자음2-묵음(sil)
규칙 3 종성 불가능 자음의 단어 끝 음소 제거 음소1-자음1-묵음(sil) 음소1-묵음(sil)
규칙 4 이중 자음의 단어 첫 음소 제거 묵음(sil)-자음1-자음2 묵음(sil)-자음1
묵음(sil)-자음2
규칙 5 짧은 고모음의 무성화 보정 {/ㅍ, ㅌ, ㅋ, ㅊ, ㅅ, ㅆ, ㅎ/}-{자음} {/ㅍ, ㅌ, ㅋ, ㅊ, ㅅ, ㅆ, ㅎ/}-{/ㅣ, ㅟ, ㅜ, ㅡ/}
규칙 6 유음화 보정 {/ㄹ/}-{/ㄹ/} {/ㄴ/}-{/ㄹ/}
{/ㄹ/}-{/ㄴ/}
{/ㄹ/}-{/ㄹ/}
규칙 7 장애음의 비음화 보정 {/ㅁ, ㄴ, ㅇ/}-{비음} {/ㅂ, ㄷ, ㄱ/}-{비음}
{/ㅁ, ㄴ, ㅇ/}-{비음}
규칙 8 ㄷ-구개음화 보정 {/ㅈ, ㅊ/}-{모음}-묵음(sil) {/ㄷ, ㅌ/}-{모음}
{/ㅈ, ㅊ/}-{모음}
규칙 9 어간 종성 /ㄴ, ㅁ/ 뒤에서의 경음화 보완 {/ㅣ, ㅁ/}-{/ㄲ, ㄸ, ㅃ, ㅆ, ㅉ/} {/ㅣ, ㅁ/}-{/ㄱ, ㄷ, ㅂ, ㅅ, ㅈ/}
{/ㅣ, ㅁ/}-{/ㄲ, ㄸ, ㅃ, ㅆ, ㅉ/}
규칙 10 ㄹ-두음 법칙 보정 묵음(sil)-{/ㄴ/}-{/ㅣ, ㅖ, ㅕ, ㅑ, ㅒ/} 묵음(sil)-{/ㄴ/}-{/ㅣ, ㅖ, ㅕ, ㅑ, ㅒ/}
묵음(sil)-{/ㄹ/}-{/ㅣ, ㅖ, ㅕ, ㅑ, ㅒ/}
규칙 11 구개 자음 뒤에서의 구개 반모음 탈락 보정 /ㅈ, ㅊ/-/ㅕ/ /ㅈ, ㅊ/-/ㅓ/
규칙 12 "j" 첨가 /ㅣ, ㅔ. ㅐ, ㅟ, ㅚ/-/ㅓ/ /ㅣ, ㅔ. ㅐ, ㅟ, ㅚ/-/ㅕ/
/ㅣ, ㅔ. ㅐ, ㅟ, ㅚ/-/ㅓ/
예를 들어, 입력된 음성 신호(10)가 "같다"인 경우, 제1 음소 인식부(120)로부터 생성된 음소열이 "ㄱ ㅏ ㅌ ㅅ ㄷ ㅏ"일 수 있다. 이 때, "ㅌ", "ㅅ", "ㄷ" 부분은 표 1에 나타난 바와 같이, 규칙 1의 "중복 자음열 제거"의 음소 규칙을 통해, "ㅌ"-"ㅅ", "ㅌ"-"ㄷ", 또는 "ㅅ"-"ㄷ"을 포함하는 음소열로 변환될 수 있다. 따라서, 보정된 음소열 군은 "ㄱ ㅏ ㅌ ㅅ ㅏ", "ㄱ ㅏ ㅌ ㄷ ㅏ", 및 "ㄱ ㅏ ㅅ ㄷ ㅏ"가 될 수 있다.
마지막으로, 음성 격자 생성부(134)는 음소열 보정부(133)에서 보정된 음소열 군으로부터 보정된 음성 격자(135)를 생성할 수 있다. 또한, 보정된 음성 격자(135)에 대해서 2-gram, 3-gram 등의 고차 언어 모델을 적용함으로써, 보정된 음성 격자(135) 내의 음소열 간의 확률을 조정할 수 있다.
상기와 같이 언어 모델 보정부(130)에서 보정된 음성 격자(135)는 제2 음소 인식부(140)에서 음소 인식을 하는데 있어서 언어 모델로서 사용할 수 있다. 따라서, 제1 음소 인식부(120)에서의 Fast-Pass Decoding 과정에서 생길 수 있는 오류를 언어 모델 보정 기법을 이용하여 보정한 후, 그 결과를 제2 음소 인식부(140)에서의 Second-Pass Decoding 과정에 적용함으로써 보다 신뢰도 높은 음소 인식을 수행할 수 있다.
제2 음소 인식부(140)는 보정된 음성 격자(135)를 이용하여 특징 벡터(112)로부터 음성을 인식하는 역할을 한다.
도 6은 도 1의 음성 인식 장치에서 제2 음소 인식부가 입력된 음성 신호의 특징 벡터로부터 N-Best 음소열을 생성하는 음소 인식 과정을 나타낸 도면이다.
제2 음소 인식부(140)에서는, 제1 음소 인식부(120)에서 설명한 바와 같이, 특징 벡터(112)를 제2 음향 모델(142)과 보정된 음성 격자(135)를 이용하여 패턴 매칭시켜 음소를 인식할 수 있다. 이 단계에서의 음소 인식을 Second-Pass Decoding이라 한다.
바람직하게는, 제2 음향 모델(142)은 트라이폰 기반의 음향 모델을 사용할 수 있다. 상술한 바와 같이, 트라이폰 기반의 음향 모델을 사용함으로써, 음소 인식을 보다 정확하게 수행할 수 있다.
제2 음소 인식부(140)에서 음소를 인식하여 생성된 N-Best 음소열 군(144)을 입력된 음성 신호(10)에 대한 발음으로 인식함으로써 인식 과정을 종료한다. 이러한 음소 인식을 통해 음성 등록 과정을 수행할 수도 있다. 이 때에 N-Best 음소열은 최고의 확률값을 가지는 음소열들을 의미한다.
도 7은 종래 기술 A, 종래 기술 B, 및 본 발명의 일실시예에 따른 음성 인식 장치를 이용하여 입력된 음성 신호를 인식한 경우, 각각의 단어 인식 에 소요된 시간을 비교한 그래프이다.
종래 기술 A의 경우, 42개의 음소를 가지는 트라이폰 기반의 음향 모델을 사용하였는데, 약 70,000 개의 음소를 검색하여야 하기 때문에 음성 인식에 소요되는 시간이 가장 많이 필요하다. 그리고, 종래 기술 B의 경우, 모노폰 기반의 음향 모델로 음소 인식을 수행한 후(Fast-Pass Decoding), 그 결과를 기반으로 한 언어 모델과 트라이폰 기반의 음향 모델로 음소 인식을 수행하여(Second-Pass Decoding) 언어 모델의 탐색 공간을 축소시키고 그에 따른 계산량이 줄어 음성 인식에 소요되는 시간이 가장 적게 요구된다. 본 발명의 경우, 모노폰 기반의 음향 모델을 이용하여 음성 격자(128)를 생성하고 이를 보정한 음성 격자(128) 기반의 언어 모델을 이용하여 음소 인식을 행하기 때문에 종래 기술 B보다 좀 더 많은 시간이 소요된다.
도 8는 종래 기술 A, 종래 기술 B, 및 본 발명의 일실시예에 따른 음성 인식 장치를 이용하여 입력된 음성 신호를 인식한 경우, 각각의 단어 오인식률을 비교한 그래프이다.
도 8에서는 음성 인식에 대한 정확도를 나타내기 위해 단어의 오인식률(Word Error Rate, WER)을 이용하였다.
종래 기술 A의 경우, 트라이폰 기반의 음향 모델을 사용함으로써 가장 낮은 오인식률을 보였으며, 종래 기술 B의 경우, 모노폰 기반의 음향 모델로 음소 인식을 수행하여 생성된 언어 모델과 트라이폰 기반의 음향 모델을 이용하여 음성 인식을 수행함으로써 오인식률이 높게 나타났다.
그러나, 본 발명의 경우, 종래 기술 A에 비해 단어의 오인식률이 상대적으로 약 14% 정도 증가하였지만, 종래 기술 B의 오인식률에 비해 상대적으로 약 18% 정도 감소하게 되었다.
도 7 및 도 8을 참조하면, 종래 기술 A의 경우, 가장 낮은 오인식률을 보였으나 음성 인식에 소요되는 시간에 비해 크게 향상된 보이지 못함을 알 수 있다. 또한, 종래 기술 B의 경우, 음성 인식에 소요되는 시간은 짧으나 음성 인식에 있어서 오인식률이 높아서 정확도가 떨어짐을 알 수 있다. 따라서, 본 발명의 일실시예에 따른 음성 인식 장치 및 방법에 의하면, 종래 기술 A에 비해 소요 시간을 크게 줄일 수 있을 뿐 아니라, 종래 기술 B에 비해 음성 인식에 대한 정확도를 훨씬 높일 수 있게 된다.
따라서, 본 발명의 일실시예에 따른 음성 인식 장치 및 방법에 의하면, 이중 경로 음성 인식 방법을 이용하여 탐색 공간을 줄임으로써 음성 인식에 소요되는 시간을 줄여 실시간으로 음성을 인식할 수 있다. 또한, 언어 모델을 보정함으로써 음성 인식에 대한 정확도를 향상시킬 수 있다.
상기와 같이 구성되는 본 발명의 일실시예에 따른 음성 인식 방법을 설명하면 다음과 같다.
도 10은 본 발명의 일실시예에 따른 음성 인식 방법을 나타낸 순서도이다.
먼저 입력된 음성 신호(10)를 단위 프레임으로 분할하여 분할된 프레임 영역에 대응되는 특징 벡터(112)를 추출할 수 있다(S201). 그리고, 제1 음소 인식부(120)에서 특징 벡터(112)를 제1 음향 모델(122), 즉 모노폰 기반의 음향 모델과 언어 모델을 이용하여 패턴 매칭시켜 음소를 인식하여 제1 음소열 군(126)을 생성할 수 있다(S202). 그리고, 제1 음소열 군(126)으로부터 음성 격자(128)를 생성할 수 있다(S203). 제1 음소 인식부(120)에서의 음소 인식(Fast-Pass Decoding)은 모노폰 기반의 음향 모델을 사용함으로써 음소 인식을 수행하는 시간을 줄일 수 있다.
다음으로, 언어 모델 보정부(130)에서는 제1 음소 인식부(120)에서 생성된 음성 격자(128)를 보정할 수 있다. 즉, 제1 음소 인식부(120)로부터 생성된 음성 격자(128)로부터 음소열 군을 생성하고(S204), 생성된 음소열 군을 확률 값에 따라 정렬한 후 높은 확률 값을 가지는 음소열 군을 선택할 수 있다(S205).
다음으로 선택된 음소열 군을 변환하여 보정된 음소열 군을 생성하게 되는데(S206), 이 때에는 상술한 바와 같이, 도 6과 같은 규칙이 적용될 수 있다. 그리고, 보정된 음소열 군으로부터 보정된 음성 격자(135)를 생성할 수 있다(S207). 언어 모델 보정부(130)에서 보정된 음성 격자(135)를 생성하여 이를 제2 음소 인식부(140)에서 음소 인식에 사용함으로써 음성 인식을 수행하는 시간을 줄일 수 있다.
마지막으로, 제2 음소 인식부(140)에서는 특징 벡터(112)를 제2 음향 모델(142), 즉 트라이폰 기반의 음향 모델과 보정된 음성 격자(135) 기반의 언어 모델을 이용하여 패턴 매칭시켜 음소를 인식할 수 있다(S208). 언어 모델 보정부(130)에서 보정된 음성 격자(135)를 이용하여 음소 인식을 수행함으로써 음성 인식을 수행하는 시간을 줄일 수 있고, 트라이폰 기반의 음향 모델을 사용함으로써 인식률을 높일 수 있다.
본 발명의 일실시예에 따른 음성 인식 장치(100) 및 방법은 지능형 로봇 시스템뿐만 아니라 음성 인터페이스를 사용한 모든 분야에 적용이 가능하다. 이는 휴대용 기기나 가전기기에 적용하여 음성을 이용하여 명령하고 작동하도록 수행할 수 있으며 등록된 발화자의 음성을 통하여 발화자를 식별함으로써 등록된 사용자 이외의 사람에 의한 기기의 사용을 제한하게 되어 기기의 개인화를 추구할 수 있게 된다. 또한 사람과 기계 사이에 자연스러운 대화를 위한 대용량 음성 인식에서 문제가 되고 있는 OOV(out-of-vocabulary)를 무제한 음성 인식을 통해 효율적으로 처리할 수 있어 기기와 사람간의 좀 더 자연스러운 상호 작용을 돕는데 이용될 수 있다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 본 발명의 일실시예에 따른 음성 인식 장치의 구성을 나타내는 블록도이다.
도 2는 도 1의 음성 인식 장치에서 제1 음소 인식부가 음성 신호의 특징 벡터로부터 음성 격자를 생성하는 과정을 나타낸 도면이다.
도 3은 음소 단위의 bigram 기반의 언어 모델을 나타내는 도면이다.
도 4는 제1 음소 인식부에서 제1 음소열 군을 생성한 후 이에 해당하는 음성 격자를 생성한 상태를 나타내는 예시도이다.
도 5는 도 1의 음성 인식 장치에서 언어 모델 보정부를 나타낸 블록도이다.
도 6은 도 1의 음성 인식 장치에서 제2 음소 인식부가 입력된 음성 신호의 특징 벡터로부터 N-Best 음소열을 생성하는 음소 인식 과정을 나타낸 도면이다.
도 7은 종래 기술 A, 종래 기술 B, 및 본 발명의 일실시예에 따른 음성 인식 장치를 이용하여 입력 음성 신호를 인식한 경우, 각각의 단어 인식 에 소요된 시간을 비교한 그래프이다.
도 8은 종래 기술 A, 종래 기술 B, 및 본 발명의 일실시예에 따른 음성 인식 장치를 이용하여 입력 음성 신호를 인식한 경우, 각각의 단어 오인식률을 비교한 그래프이다.
도 9는 본 발명의 일실시예에 따른 음성 인식 방법을 나타낸 순서도이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 음성 인식 장치
110: 특징 벡터 추출부
120: 제1 음소 인식부
130: 언어 모델 보정부
140: 제2 음소 인식부

Claims (24)

  1. 입력된 음성 신호의 특징 벡터로부터 음성 격자(Phonetic Lattice)를 생성하는 제1 음소 인식부;
    상기 음성 격자를 음소 규칙을 이용하여 보정하는 언어 모델 보정부; 및
    상기 보정된 음성 격자를 이용하여 상기 특징 벡터로부터 음성을 인식하는 제2 음소 인식부를 포함하는 음성 인식 장치.
  2. 제 1항에 있어서,
    상기 입력된 음성 신호를 단위 프레임으로 분할하여 상기 분할된 프레임 영역에 대응되는 상기 특징 벡터를 추출하는 특징 벡터 추출부를 더 포함하는 음성 인식 장치.
  3. 제 2항에 있어서,
    상기 특징 벡터 추출부는,
    멜-주파수 켑스트럼 계수(Mel-Frequency Cepstrum Coefficients) 특징 추출 방식을 이용하여 상기 특징 벡터를 추출하는 음성 인식 장치.
  4. 제 1항에 있어서,
    상기 제1 음소 인식부는,
    상기 특징 벡터를 제1 음향 모델과 언어 모델을 이용하여 패턴 매칭시켜 음소를 인식하여 제1 음소열 군을 생성하고, 상기 제1 음소열 군으로부터 상기 음성 격자를 생성하는 음성 인식 장치.
  5. 제 4항에 있어서,
    상기 제1 음향 모델은 모노폰(Monophone) 기반의 음향 모델인 음성 인식 장치.
  6. 제 4항에 있어서,
    상기 언어 모델은 상기 입력된 음성 신호를 등록하고자 할 때에는 음소 단위의 bigram 기반의 언어 모델인 음성 인식 장치.
  7. 제 4항에 있어서,
    상기 언어 모델은 상기 입력된 음성 신호를 인식하고자 할 때에는 단어 단위의 unigram 기반의 언어 모델인 음성 인식 장치.
  8. 제 4항에 있어서,
    상기 제1 음소열 군은 비터비 알고리즘(Viterbi Algorithm)을 이용하여 생성되는 음성 인식 장치.
  9. 제 1항에 있어서,
    상기 언어 모델 보정부는,
    상기 음성 격자로부터 음소열 군을 생성하는 음소열 생성부;
    상기 생성된 음소열 군을 확률 값에 따라 정렬한 후 높은 확률 값을 가지는 음소열 군을 선택하는 음소열 선택부;
    상기 선택된 음소열 군을 상기 음소 규칙을 이용하여 변환하여 보정된 음소열 군을 생성하는 음소열 보정부; 및
    상기 보정된 음소열 군으로부터 상기 보정된 음성 격자를 생성하는 음성 격자 생성부를 포함하는 음성 인식 장치.
  10. 제 1항 또는 제 9항에 있어서,
    상기 음소 규칙은 음성학 또는 음운론의 지식을 기반으로 하는 음성 인식 장치.
  11. 제 1항에 있어서,
    상기 제2 음소 인식부는,
    상기 특징 벡터를 제2 음향 모델과 상기 보정된 음성 격자를 이용하여 패턴 매칭시켜 음소를 인식하는 음성 인식 장치.
  12. 제 11항에 있어서,
    상기 제2 음향 모델은 트라이폰(Triphone) 기반의 음향 모델인 음성 인식 장치.
  13. 입력된 음성 신호의 특징 벡터로부터 음성 격자를 생성하는 단계;
    상기 음성 격자를 음소 규칙을 이용하여 보정하는 단계; 및
    상기 보정된 음성 격자를 이용하여 상기 특징 벡터로부터 음성을 인식하는 단계를 포함하는 음성 인식 방법.
  14. 제 13항에 있어서,
    상기 입력된 음성 신호를 단위 프레임으로 분할하여 상기 분할된 프레임 영역에 대응되는 상기 특징 벡터를 추출하는 단계를 더 포함하는 음성 인식 방법.
  15. 제 14항에 있어서,
    상기 특징 벡터를 추출하는 단계는,
    멜-주파수 켑스트럼 계수 특징 추출 방식을 이용하여 상기 특징 벡터를 추출하는 음성 인식 방법.
  16. 제 13항에 있어서,
    상기 음성 격자를 생성하는 단계는,
    상기 특징 벡터를 제1 음향 모델과 언어 모델을 이용하여 패턴 매칭시켜 음 소를 인식하여 제1 음소열 군을 생성하는 단계; 및
    상기 제1 음소열 군으로부터 상기 음성 격자를 생성하는 단계를 포함하는 음성 인식 방법.
  17. 제 16항에 있어서,
    상기 제1 음향 모델은 모노폰 기반의 음향 모델인 음성 인식 방법.
  18. 제 16항에 있어서,
    상기 언어 모델은 상기 입력된 음성 신호를 등록하고자 할 때에는 음소 단위의 bigram 기반의 언어 모델인 음성 인식 방법.
  19. 제 16항에 있어서,
    상기 언어 모델은 상기 입력된 음성 신호를 인식하고자 할 때에는 단어 단위의 unigram 기반의 언어 모델인 음성 인식 방법.
  20. 제 16항에 있어서,
    상기 제1 음소열 군은 비터비 알고리즘을 이용하여 생성되는 음성 인식 방법.
  21. 제 13항에 있어서,
    상기 음성 격자를 보정하는 단계는,
    상기 음성 격자로부터 음소열 군을 생성하는 단계;
    상기 생성된 음소열 군을 확률 값에 따라 정렬한 후 높은 확률 값을 가지는 음소열 군을 선택하는 단계;
    상기 선택된 음소열 군을 상기 음소 규칙을 이용하여 변환하여 보정된 음소열 군을 생성하는 단계; 및
    상기 보정된 음소열 군으로부터 상기 보정된 음성 격자를 생성하는 단계를 포함하는 음성 인식 방법.
  22. 제 13항 또는 제 21항에 있어서,
    상기 음소 규칙은 음성학 또는 음운론의 지식을 기반으로 하는 음성 인식 방법.
  23. 제 13항에 있어서,
    상기 특징 벡터로부터 음성을 인식하는 단계는,
    상기 특징 벡터를 제2 음향 모델과 상기 보정된 음성 격자를 이용하여 패턴 매칭시켜 음소를 인식하는 음성 인식 방법.
  24. 제 23항에 있어서,
    상기 제2 음향 모델은 트라이폰(Triphone) 기반의 음향 모델인 음성 인식 방 법.
KR1020070100995A 2007-10-08 2007-10-08 음성 인식 방법 및 그 장치 KR101398639B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070100995A KR101398639B1 (ko) 2007-10-08 2007-10-08 음성 인식 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070100995A KR101398639B1 (ko) 2007-10-08 2007-10-08 음성 인식 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20090035944A KR20090035944A (ko) 2009-04-13
KR101398639B1 true KR101398639B1 (ko) 2014-05-28

Family

ID=40761067

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070100995A KR101398639B1 (ko) 2007-10-08 2007-10-08 음성 인식 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR101398639B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101134450B1 (ko) * 2009-06-25 2012-04-09 한국전자통신연구원 음성인식 방법
KR101677530B1 (ko) * 2010-04-27 2016-11-21 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
KR102033929B1 (ko) 2017-06-28 2019-10-18 포항공과대학교 산학협력단 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치
CN111538893B (zh) * 2020-04-29 2021-01-05 四川大学 一种从非结构化数据中提取网络安全新词的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195082A (ja) 2000-01-11 2001-07-19 Fujitsu Ltd 音声認識装置
KR20050033248A (ko) * 2003-10-06 2005-04-12 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
KR100717385B1 (ko) 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195082A (ja) 2000-01-11 2001-07-19 Fujitsu Ltd 音声認識装置
KR20050033248A (ko) * 2003-10-06 2005-04-12 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
KR100717385B1 (ko) 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템

Also Published As

Publication number Publication date
KR20090035944A (ko) 2009-04-13

Similar Documents

Publication Publication Date Title
Hain et al. New features in the CU-HTK system for transcription of conversational telephone speech
US8666745B2 (en) Speech recognition system with huge vocabulary
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US8050925B2 (en) Recognizing the numeric language in natural spoken dialogue
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
EP1301922A1 (en) System and method for voice recognition with a plurality of voice recognition engines
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
KR101398639B1 (ko) 음성 인식 방법 및 그 장치
Park et al. Conformer-based on-device streaming speech recognition with KD compression and two-pass architecture
Billa et al. Recent experiments in large vocabulary conversational speech recognition
Réveil et al. An improved two-stage mixed language model approach for handling out-of-vocabulary words in large vocabulary continuous speech recognition
US20020095282A1 (en) Method for online adaptation of pronunciation dictionaries
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
Fu et al. A survey on Chinese speech recognition
Vancha et al. Word-level speech dataset creation for sourashtra and recognition system using kaldi
Rebai et al. Linto platform: A smart open voice assistant for business environments
Magimai-Doss et al. Joint decoding for phoneme-grapheme continuous speech recognition
Ogata et al. Unsupervised acoustic model adaptation based on phoneme error minimization
Ramasubramanian et al. Acoustic modeling by phoneme templates and modified one-pass DP decoding for continuous speech recognition
Glass et al. Acoustic segmentation and phonetic classification in the SUMMIT system
JPH0981177A (ja) 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
Li et al. Large list recognition using voice search framework
KR19980013825A (ko) 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170418

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180423

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190422

Year of fee payment: 6