KR100577990B1 - 화자종속/독립음성인식장치 - Google Patents

화자종속/독립음성인식장치 Download PDF

Info

Publication number
KR100577990B1
KR100577990B1 KR1019970081825A KR19970081825A KR100577990B1 KR 100577990 B1 KR100577990 B1 KR 100577990B1 KR 1019970081825 A KR1019970081825 A KR 1019970081825A KR 19970081825 A KR19970081825 A KR 19970081825A KR 100577990 B1 KR100577990 B1 KR 100577990B1
Authority
KR
South Korea
Prior art keywords
model
independent
dependent
similarity information
speaker
Prior art date
Application number
KR1019970081825A
Other languages
English (en)
Other versions
KR19990061558A (ko
Inventor
김락용
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1019970081825A priority Critical patent/KR100577990B1/ko
Publication of KR19990061558A publication Critical patent/KR19990061558A/ko
Application granted granted Critical
Publication of KR100577990B1 publication Critical patent/KR100577990B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 화자 종속 단어와 화자 독립 단어를 동시에 인식할 수 있는 화자 종속/독립 음성 인식 장치에 관한 것이다.
이 화자 종속/독립 음성 음성 인식 장치는 음성신호로부터 음성구간을 검출하는 음성구간 검출수단과; 상기 음성구간 검출수단으로부터의 음성신호에서 특징벡터를 추출하는 특징벡터 추출수단과; 상기 특징벡터 추출수단으로부터의 특징벡터를 코드북 이용하여 양자화하는 벡터 양자화수단과; 상기 양자화수단의 출력신호를 입력받아 종속모델 파라미터를 추정하는 파라미터 추정수단과; 상기 파라미터 추정수단으로부터의 종속모델을 저장하는 제1 저장수단과; 다수 화자의 음성데이터로부터 만들어진 독립모델을 저장하는 제2 저장수단과; 상기 제1 저장수단의 종속모델과 제2 저장수단의 독립모델 각각을 전처리수단의 출력신호와 패턴 정합하여 종속모델 유사도 정보와 독립모델 유사도 정보를 각각 생성하는 패턴 정합수단과;화자의 선택에 따라 상기 벡터 약자화수단을 상기 파라미터 추정수단과 패턴 정합수단 중 어느 하나에 접속시키는 선택 스위치 수단과; 상기 종속모델 유사도 정보와 독립모델 유사도 정보를 비교하여 해당모드를 결정하는 결정 로직부와, 상기 결정 로직부에서 결정된 모드에 따라 선택적으로 동작하여 해당 모드의 유사도 정보를 이용하여 결정된 인식결과를 출력하는 거절부를 포함하여 상기 패턴 정합수단으로부터의 종속모델 유사도 정보와 독립모델 유사도 정보를 이용하여 상기 입력음성이 해당하는 모드를 판단하고 그 해당 모드에서 결정된 인식결과를 출력하는 후처리 수단을 구비한다.

Description

화자 종속/독립 음성 인식 장치{Apparatus of Talker Dependence/Independence Speech Recognition}
본 발명은 음성 인식 시스템에 관한 것으로, 특히 화자 종속 단어와 화자 독립 단어를 동시에 인식할 수 있는 화자 종속/독립 음성 인식 장치에 관한 것이다.
통상, 음성인식 방법에는 화자에 따라 화자종속 음성인식 방법과 화자독립 음성인식 방법으로 분류된다. 여기서, 화자종속 음성인식 방법은 특정인 한사람만을 위한 것으로 사용자의 입장에서는 종속 기준모델을 등록하기 위하여 학습과정이 필요하다. 반면에, 화자독립 음성인식 방법은 불특정 다수인을 위한 것으로 다수 인이 학습에 참여하여 얻은 일반적인 독립 기준모델을 이용하여 음성을 인식하는 방법으로써, 이 독립 기준모델은 생산공장에서 제품화되어 공급되므로 사용자의 입장에서는 학습의 과정이 불필요하다.
일반적인 음성인식 장치는 상술한 두가지의 음성인식 방법을 제공하기 위하여 화자종속 인식기와 화자독립 인식기를 구비하고 있다. 종래의 음성인식 장치는 우선적으로 종속 기준모델을 등록하여 종속 단어의 인식과 독립 단어의 인식을 대비한다. 따라서, 종래의 음성 인식 장치는 처음 사용자가 무조건 종속 기준모델을 등록해야 하므로 번거로울 뿐만 아니라 경우에 따라 화자종속 인식기와 화자독립 인식기를 제어해야 하므로 인식을 위한 제어가 복잡하다는 문제점이 있다. 이하, 첨부도면을 참조하여 상술한 문제점을 상세히 살펴보기로 한다.
도 1은 종래의 음성인식 장치 중 화자종속 음성인식기의 구성을 도시한 블록도로써, 도 1의 화자종속 음성인식기는 입력되는 음성신호에서 특징벡터를 추출하여 양자화하는 전처리부(10)와, 전처리부(10)의 출력신호를 밤 웰츠(Baum-Welch) 추정부(14)와 패턴 정합부(22)로 절환하는 선택 스위치(12)와, 선택 스위치(12)에 접속되어 HMM 파라미터를 추정하는 밤 웰츠 추정부(14)와, 밤 웰츠 추정부(14)의 HMM 파라미터를 기준패턴으로 저장하는 저장부(16)와, 선택 스위치(12)를 경유한 입력신호와 저장부(16)의 기준패턴을 정합하는 패턴 정합부(18)와, 패턴 정합부(18)에 접속되어 인식결과를 출력하는 인식판단부(20)를 구비한다.
도 1의 화자종속 음성인식기에서 전처리부(10)는 음성구간 검출부(2), 특징 추출부(4) 및 벡터 양자화기(6)를 구성으로 한다. 전처리부(10)에서 음성구간 검 출부(2)는 입력된 음성신호로부터 음성구간을 검출하여 출력한다. 특징 추출부(4)는 음성구간 검출부(2)의 출력신호에서 특징벡터를 추출하여 출력한다. 벡터 양자화기(6)는 코드북(8)을 참조하여 특징 추출부(4)로부터의 특징벡터를 양자화하여 이산신호로 출력한다. 다시 말하여, 벡터 양자화기(6)는 특징 추출부(4)로부터의 특징벡터들을 코드북(8)의 N 개의 코드벡터와 비교하여 가장 근접한 코드 벡터값으로 양자화하여 출력한다. 코드북(8)은 N개의 다차원 특징 벡터들이 집단화(Clustering) 방법으로 구성된다. 선택 스위치(12)는 사용자의 선택에 따라 전처리부(10)를 밤 웰츠 추정부(14) 또는 패턴 정합부(18)에 접속시킨다. 상세히 하면, 선택스위치(12)는 사용자가 자신의 음성을 등록시키고자 하는 경우 전처리부(10)를 밤 웰츠 추정부(14)에 접속시킨다. 또한, 선택스위치(12)는 사용자의 음성을 인식하고자 하는 경우 전처리부(10)를 패턴 정합부(18)로 접속시킨다. 밤 웰츠 추정부(14)는 등록시 벡터 양자화기(6)로부터 선택스위치(12)를 경유하여 입력된 이산신호에서 은닉 마르코프 모델(Hidden Markov Model; 이하, HMM이라 한다) 파라미터를 추정한다. 이때, 밤 웰츠 추정부(14)는 사용자가 2∼3번 반복 발음한 신호를 입력받아 일반적인 HMM 파라미터를 추출한다. 저장부(16)에는 밤 웰츠 추정부(12)의 HMM 파라미터가 기준패턴으로 저장된다. 패턴 정합부(22)는 인식시 벡터 양자화기(6)로부터 선택 스위치(12)를 경유하여 입력된 이산신호와 저장부(16)의 기준패턴들을 정합하여 출력하고, 인식 판단부(20)는 유사도가 가장 높은 기준모델을 인식결과로 출력한다.
그리고, 음성인식 장치는 상기와 같은 전치리부와 독립모델을 기준으로 인식을 수행하는 인식기를 구성으로 하는 화자독립 인식기를 구비한다.
그런데, 상술한 음성 인식 장치는 독립 단어의 인식과 동시에 종속 단어의 인식을 대비하기 위하여 우선적으로 종속 기준모델을 등록하여야 한다. 예컨데, 현재 이동통신망에서 사용되는 음성 인식 장치는 중요 메뉴 명령을 미리 화자 종속 상태로 등록해서 화자종속 단어와 화자독립 단어가 동시에 인식될 경우를 대비한다. 이에 따라, 종래의 음성인식 장치는 처음 사용자가 무조건 종속 기준모델을 등록해야 하는 문제점을 갖고 있다.
또한, 종래의 음성 인식 장치에서 화자종속 인식기와 화자독립 인식기는 마이컴 등과 같은 제어수단에 의하여 동작이 제어되므로 인식을 위한 제어가 복잡한 문제점을 갖고 있다.
따라서, 본 발명의 목적은 화자종속 단어와 화자독립 단어를 동시에 인식하여 인식기에서 해당 모드 판단함으로써, 인식기의 구조를 간단히 할 수 있는 화자 종속/독립 음성인식 장치를 제공하는 것이다.
본 발명의 다른 목적은 동일한 코드북을 사용하여 화자 종속 및 독립 인식을 수행함으로써, 메모리의 용량을 줄일 수 있는 화자 종속/독립 음성인식 장치를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명에 따른 화자 종속/독립 음성 인식 장치는 음성신호로부터 음성구간을 검출하는 음성구간 검출수단과; 상기 음성구간 검출수단으로부터의 음성신호에서 특징벡터를 추출하는 특징벡터 추출수단과; 상기 특징벡터 추출수단으로부터의 특징벡터를 코드북 이용하여 양자화하는 벡터 양자화 수단과; 상기 양자화수단의 출력신호를 입력받아 종속모델 파라미터를 추정하는 파라미터 추정수단과; 상기 파라미터 추정수단으로부터의 종속모델을 저장하는 제1 저장수단과; 다수 화자의 음성데이터로부터 만들어진 독립모델을 저장하는 제2 저장수단과; 상기 제1 저장수단의 종속모델과 제2 저장수단의 독립모델 각각을 전처리수단의 출력신호와 패턴 정합하여 종속모델 유사도 정보와 독립모델 유사도 정보를 각각 생성하는 패턴 정합수단과; 화자의 선택에 따라 상기 벡터 약자화수단을 상기 파라미터 추정수단과 패턴 정합수단 중 어느 하나에 접속시키는 선택 스위치수단과; 상기 종속모델 유사도 정보와 독립모델 유사도 정보를 비교하여 해당모드를 결정하는 결정 로직부와, 상기 결정 로직부에서 결정된 모드에 따라 선택적으로 동작하여 해당 모드의 유사도 정보를 이용하여 결정된 인식결과를 출력하는 거절부를 포함하여 상기 패턴 정합수단으로부터의 종속모델 유사도 정보와 독립모델 유사도 정보를 이용하여 상기 입력음성이 해당하는 모드를 판단하고 그 해당 모드에서 결정된 인식결과를 출력하는 후처리 수단을 구비한다.
상기 선택 스위치 수단은 화자가 음성을 등록시키고자 하는 경우 상기 전처 리수단을 상기 파라미터 추정수단에 접속시킨다.
상기 선택 스위치 수단은 화자의 음성을 인식하고자 하는 경우 상기 전처리수단을 상기 패턴 정합수단에 접속시킨다.
상기 거절부는 상기 종속모델 유사도 정보를 이용하여 인식결과를 결정하는 종속모델 거절부와, 상기 독립모델 유사도 정보를 이용하여 인식결과를 결정하는 독립모델 거절부를 구비한다.
상기 결정 로직부에서 상기 입력 음성신호가 종속모델에 유사하다고 결정되는 경우 상기 종속모델 거절부에서 종속모델 유사도 정보 중 가장 높은 인식 확률값과 종속모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 종속모델의 확률값이 큰 경우 그 종속모델을 인식결과로 출력하고, 상기 필러모델의 확률값이 큰 경우 인식결과의 출력을 차단한다.
상기 종속모델 거절부의 인식결과 출력이 차단되는 경우 상기 독립모델 거절부에서 상기 독립모델 유사도 정보 중 가장 높은 인식 확률값과 독립모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 독립모델의 확률값이 큰 경우 그 독립모델을 인식결과로 출력하고, 상기 필러모델의 확률값이 큰 경우 인식 불가능메시지를 출력한다.
상기 결정 로직부에서 상기 입력 음성신호가 독립모델에 유사하다고 결정되는 경우 상기 독립모델 거절부에서 독립모델 유사도 정보 중 가장 높은 인식 확률값과 독립모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 독립모델의 확률값이 큰 경우 그 독립모델을 인식결과로 출력하고, 상기 필러모델의 확률값이 큰 경우 인식결과의 출력을 차단한다.
상기 독립모델 거절부의 인식결과 출력이 차단되는 경우 상기 종속모델 거절수단에서 상기 종속모델 유사도 정보 중 가장 높은 인식 확률값과 종속모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 종속모델의 확률값이 큰 경우 그 종속모델을 인식결과로 출력하고, 상기 필러모델의 확률값이 큰 경우 인식 불가능 메시지를 출력한다.
상기 목적 외에 본 발명의 다른 목적 및 이점들은 첨부 도면을 참조한 본 발명의 바람직한 실시예에 대한 설명을 통하여 명백하게 드러나게 될 것이다.
이하, 본 발명의 바람직한 실시예를 도 2 및 도 3을 참조하여 상세하게 설명하기로 한다.
도 2은 본 발명에 따른 화자 종속/독립 음성인식 장치의 구성을 도시한 블록도로써, 도 2의 화자 종속/독립 음성인식 장치는 입력되는 음성신호에서 특징벡터를 추출하여 양자화하는 전처리부(10)와, 전처리부(10)의 출력신호를 밤 웰츠(Baum-Welch) 추정부(14)와 패턴 정합부(24)로 절환하는 선택 스위치(12)와, 선택 스위치(12)에 접속되어 HMM 파라미터를 추정하는 밤 웰츠 추정부(14)와, 밤 웰츠 추정부(14)의 HMM 파라미터를 기준패턴으로 저장하는 종속모델 저장부(16)와, 다수 화자의 음성데이터로부터 만들어진 독립모델을 저장하는 독립모델 저장부(22)와, 선택 스위치(12)를 경유한 입력신호를 종속모델 저장부(16)와 독립모델 저장부(18)의 종속모델과 독립모델과 각각 정합하는 패턴 정합부(24)와, 패턴 정합부(24)에 접속되어 해당 모드 결정 및 거절을 수행하여 인식결과를 출력하는 후처리부(26)를 구비한다.
도 2의 화자 종속/독립 음성인식 장치에서 전처리부(10)는 음성구간 검출부(2), 특징 추출부(4) 및 벡터 양자화기(6)를 구성으로 한다. 전처리부(10)에서 음성구간 검출부(2)는 입력된 음성신호로부터 음성구간을 검출하여 출력한다. 특징 추출부(4)는 음성구간 검출부(2)의 출력신호에서 특징벡터를 추출하여 출력한다. 벡터 양자화기(6)는 코드북(8)을 참조하여 특징 추출부(4)로부터의 특징벡터를 양자화하여 이산신호로 출력한다. 다시 말하여, 벡터 양자화기(6)는 특징 추출부(4)로부터의 특징벡터들을 코드북(8)의 N 개의 코드벡터와 비교하여 가장 근접한 코드 벡터값으로 양자화하여 출력한다. 코드북(8)은 N개의 다차원 특징 벡터들이 집단화(Clustering) 방법으로 구성된다. 선택 스위치(12)는 사용자의 선택에 따라 전처리부(10)를 밤 웰츠 추정부(14) 또는 패턴 정합부(18)에 접속시킨다. 상세히 하면, 선택스위치(12)는 사용자가 자신의 음성을 등록시키고자 하는 경우 전처리부(10)를 밤 웰츠 추정부(14)에 접속시킨다. 또한, 선택스위치(12)는 사용자의 음성을 인식하고자 하는 경우 전처리부(10)를 패턴 정합부(18)로 접속시킨다. 밤 웰츠 추정부(14)는 등록시 벡터 양자화기(6)로부터 선택스위치(12)를 경유하여 입력된 이산신호에서 HMM 파라미터를 추정한다. 이때, 밤 웰츠 추정부(14)는 사용자가 2∼3번 반복 발음한 신호를 입력받아 일반적인 HMM 파라미터를 추출한다. 종속모델 저장부(16)에는 밤 웰츠 추정부(12)의 HMM 파라미터가 종속모델로 저장된다.
독립모델 저장부(22)에는 다수 화자의 음성데이터로부터 만들어진 독립모델이 저장되어 있다.
패턴 정합부(24)는 인식시 벡터 양자화기(6)로부터 선택 스위치(12)를 경유한 이산신호를 입력으로 하여 비터비(Viterbi) 검색을 한다. 이때, 기준모델로 사용되는 것은 종속모델 저장부(16)의 종속모델과 독립모델 저장부(22)의 독립모델이다. 패턴 정합부(24)는 비터비 검색을 하여 입력신호와 종속모델 간의 유사도 정보(이하, 종속모델 학습정보라 한다)와 입력신호와 독립모델 간의 유사도 정보(이하, 독립모델 학습정보라 한다) 각각을 출력한다. 이때, 각 유사도는 대수가 취해진 확률값으로 표시된다.
후처리부(26)는 패턴 정합부(24)로부터 출력되는 종속모델 학습정보와 독립모델 학습정보를 이용하여 입력음성이 종속모델에 유사한지 독립모델에 유사한지를 판단하고 이에 따라 결정된 인식결과를 출력한다. 이를 위하여, 후처리부(26)는 결정 로직부(28)와 거절부(30)를 구비하고, 거절부(30)는 종속 거절부(32)와 독립거절부(34)를 구성으로 한다. 후처리부(26)의 결정 로직부(28)는 패턴 정합부(24)로부터의 종속모델 학습정보와 독립모델 학습정보를 이용하여 입력음성이 종속모델에 유사한지 독립모델에 유사한지를 판단하여 출력한다. 상세히 하면, 통상수십 내지 수백명의 화자로부터 취득한 동일한 단어의 음성신호로부터 만들어진 독립모델은 2∼3번 반복 발음으로 학습된 종속모델에 비하여 해당 음성신호에 대한 비터비 검색 후 산출되는 확률값이 높다는 특성을 갖는다. 따라서, 결정 로직부(28)는 상술한 특성을 입력음성이 종속단어인지 독립단어인지 여부를 결정하여 거절부(30)의 해당 모드로 출력한다. 거절부(30)의 종속 거절부(32)와 독립 거절부(34)는 결정 로직부(28)의 출력에 따라 선택적으로 동작한다.
상세히 하면, 결정 로직부(28)에서 입력음성을 독립단어로 결정한 경우 독립 거절부(34)는 독립모델 학습정보 중 가장 높은 확률값과 이 독립모델에 대응되는 필러(Filler) 모델의 확률값 중 가장 높은 값을 비교하여 독립모델의 확률값이 큰 경우 그 독립모델을 인식결과로 출력한다. 반면에, 필러 모델의 확률 값이 큰 경우 인식결과의 출력을 차단한다. 이 경우 종속 거절부(32)는 결정 로직부(28)로부터 종속모델 학습정보 중 가장 높은 값을 이 종속 모델에 대응되는 필러 모델의 확률값 중 가장 높은 값을 비교하여 종속모델의 확률값이 큰 경우 그 종속모델을 인식결과로 출력한다. 반면에 필러 모델의 확률값이 큰 경우 인식결과의 출력을 차단하고 인식 불가능(Out-of-vocabulary)이라는 메시지를 출력한다.
한편, 결정 로직부(28)에서 입력 음성을 종속단어로 결정한 경우 종속 거절부(32)부터 상술한 바와 같은 방법으로 동작하여 인식대상 단어인지 인식 불가능 단어인지를 결정하여 출력한다.
이와 같이, 상술한 화자 종속/독립 음성 인식 장치는 종래와 같이 종속 모드로 중요 메뉴를 학습할 필요가 없을 뿐만 아니라, 종속 및 독립 모드를 인식기에서 자동으로 인식하여 판단함으로 구조를 간단히 할 수 있다.
이상 설명한 바와 같이, 본 발명에 따른 화자 종속/독립 음성 인식 장치에 의하면 화자종속 단어와 화자독립 단어를 같은 인식부를 이용하여 동시에 인식하고 인식부에서 해당 모드를 판단함으로써 인식기의 구조를 간단히 할 수 있다. 또한,본 발명의 화자 종속/독립 음성인식 장치는 동일한 코드북을 이용하여 화자 종속 및 독립 인식을 수행함으로써 메모리의 용량을 줄일 수 있다.
한편, 상술한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의하여 정하여져야만 한다.
도 1은 종래의 음성인식 장치 중 화자종속 음성인식기의 구성을 도시한 블록도.
도 2는 본 발명에 따른 화자 종속/독립 음성인식 장치의 구성을 도시한 블록도.
도 3은 도 2의 음성인식 장치에서 후처리부의 구성을 상세히 도시한 블록도.
<도면의 주요부분에 대한 부호의 간단한 설명>
2 : 음성구간 검출부 4 : 특징 추출부
6 : 벡터 양자화기 8 : 코드북
10 : 전처리부 12 : 선택 스위치
14 : 밤웰츠(Baum-Welch) 추정부 16 : 종속모델 저장부
18, 24 : 패턴 정합부 20 : 인식 판단부
22 : 독립모델 저장부 26 : 후처리부
28 : 결정 로직부 30 : 거절부
32 : 종속 거절부 34 : 독립 거절부

Claims (8)

  1. 음성신호로부터 음성구간을 검출하는 음성구간 검출수단과;
    상기 음성구간 검출수단으로부터의 음성신호에서 특징벡터를 추출하는 특징벡터 추출수단과;
    상기 특징벡터 추출수단으로부터의 특징벡터를 코드북 이용하여 양자화하는 벡터 양자화수단과;
    상기 양자화수단의 출력신호를 입력받아 종속모델 파라미터를 추정하는 파라미터 추정수단과;
    상기 파라미터 추정수단으로부터의 종속모델을 저장하는 제1 저장수단과;
    다수 화자의 음성데이터로부터 만들어진 독립모델을 저장하는 제2 저장수단과;
    상기 제1 저장수단의 종속모델과 제2 저장수단의 독립모델 각각을 전처리수단의 출력신호와 패턴 정합하여 종속모델 유사도 정보와 독립모델 유사도 정보를 각각 생성하는 패턴 정합수단과;
    화자의 선택에 따라 상기 벡터 약자화수단을 상기 파라미터 추정수단과 패턴 정합수단 중 어느 하나에 접속시키는 선택 스위치 수단과;
    상기 종속모델 유사도 정보와 독립모델 유사도 정보를 비교하여 해당모드를 결정하는 결정 로직부와, 상기 결정 로직부에서 결정된 모드에 따라 선택적으로 동작하여 해당 모드의 유사도 정보를 이용하여 결정된 인식결과를 출력하는 거절부를 포함하여 상기 패턴 정합수단으로부터의 종속모델 유사도 정보와 독립모델 유사도 정보를 이용하여 상기 입력음성이 해당하는 모드를 판단하고 그 해당 모드에서 결정된 인식결과를 출력하는 후처리 수단을 구비하는 것을 특징으로 하는 화자 종속/독립 음성 인식 장치.
  2. 제 1 항에 있어서
    상기 선택 스위치 수단은 화자가 음성을 등록시키고자 하는 경우 상기 전처리수단을 상기 파라미터 추정수단에 접속시키는 것을 특징으로 하는 화자 종속/독립 음성 인식 장치.
  3. 제 1 항에 있어서,
    상기 선택 스위치 수단은 화자의 음성을 인식하고자 하는 경우 상기 전처리수단을 상기 패턴 정합수단에 접속시키는 것을 특징으로 하는 화자 종속/독립 음성인식 장치.
  4. 제 1 항에 있어서,
    상기 거절부는
    상기 종속모델 유사도 정보를 이용하여 인식결과를 결정하는 종속모델 거절 부와,
    상기 독립모델 유사도 정보를 이용하여 인식결과를 결정하는 독립모델 거절 부를 구비하는 것을 특징으로 하는 화자 종속/독립 음성 인식 장치.
  5. 제 4 항에 있어서,
    상기 결정 로직부에서 상기 입력 음성신호가 종속모델에 유사하다고 결정되는 경우 상기 종속모델 거절부에서 종속모델 유사도 정보 중 가장 높은 인식 확률값과 종속모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 종속모델의 확률값이 큰 경우 그 종속모델을 인식결과로 출력하고,
    상기 필러모델의 확률값이 큰 경우 인식결과의 출력을 차단하는 것을 특징으로 하는 화자 종속/독립 음성 인식 장치.
  6. 제 5 항에 있어서,
    상기 종속모델 거절부의 인식결과 출력이 차단되는 경우 상기 독립모델 거절부에서 상기 독립모델 유사도 정보 중 가장 높은 인식 확률값과 독립모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 독립모델의 확률값이 큰 경우 그 독립모델을 인식결과로 출력하고,
    상기 필러모델의 확률값이 큰 경우 인식 불가능 메시지를 출력하는 것을 특징으로 하는 화자 종속/독립 음성 인식 장치.
  7. 제 1 항에 있어서,
    상기 결정 로직부에서 상기 입력 음성신호가 독립모델에 유사하다고 결정되는 경우 상기 독립모델 거절부에서 독립모델 유사도 정보 중 가장 높은 인식 확률값과 독립모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 독립모델의 확률값이 큰 경우 그 독립모델을 인식결과로 출력하고,
    상기 필러모델의 확률값이 큰 경우 인식결과의 출력을 차단하는 것을 특징으로 하는 화자 종속/독립 음성 인식 장치.
  8. 제 7 항에 있어서,
    상기 독립모델 거절부의 인식결과 출력이 차단되는 경우 상기 종속모델 거절수단에서 상기 종속모델 유사도 정보 중 가장 높은 인식 확률값과 종속모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 종속모델의 확률값이 큰 경우 그 종속모델을 인식결과로 출력하고,
    상기 필러모델의 확률값이 큰 경우 인식 불가능 메시지를 출력하는 것을 특징으로 하는 화자 종속/독립 음성 인식 장치.
KR1019970081825A 1997-12-31 1997-12-31 화자종속/독립음성인식장치 KR100577990B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970081825A KR100577990B1 (ko) 1997-12-31 1997-12-31 화자종속/독립음성인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970081825A KR100577990B1 (ko) 1997-12-31 1997-12-31 화자종속/독립음성인식장치

Publications (2)

Publication Number Publication Date
KR19990061558A KR19990061558A (ko) 1999-07-26
KR100577990B1 true KR100577990B1 (ko) 2006-08-30

Family

ID=37600993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970081825A KR100577990B1 (ko) 1997-12-31 1997-12-31 화자종속/독립음성인식장치

Country Status (1)

Country Link
KR (1) KR100577990B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100331689B1 (ko) * 2000-06-24 2002-04-09 송문섭 음성인식 시스템의 화자적응 훈련방법
KR100423495B1 (ko) * 2001-06-21 2004-03-18 삼성전자주식회사 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법
KR100485864B1 (ko) * 2001-12-28 2005-04-28 최중인 벨소리 겸용 음향바코드를 이용한 인증시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091947A (en) * 1987-06-04 1992-02-25 Ricoh Company, Ltd. Speech recognition method and apparatus
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
JPH06175678A (ja) * 1992-07-30 1994-06-24 Nec Corp 音声認識装置
KR19990052548A (ko) * 1997-12-22 1999-07-15 정선종 사용자의 선택에 의한 이동 단말기의 음성다이얼링 방법.

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091947A (en) * 1987-06-04 1992-02-25 Ricoh Company, Ltd. Speech recognition method and apparatus
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
JPH06175678A (ja) * 1992-07-30 1994-06-24 Nec Corp 音声認識装置
KR19990052548A (ko) * 1997-12-22 1999-07-15 정선종 사용자의 선택에 의한 이동 단말기의 음성다이얼링 방법.

Also Published As

Publication number Publication date
KR19990061558A (ko) 1999-07-26

Similar Documents

Publication Publication Date Title
US4618984A (en) Adaptive automatic discrete utterance recognition
US7769588B2 (en) Spoken man-machine interface with speaker identification
US5857169A (en) Method and system for pattern recognition based on tree organized probability densities
US6823307B1 (en) Language model based on the speech recognition history
US20050049870A1 (en) Open vocabulary speech recognition
US5506933A (en) Speech recognition using continuous density hidden markov models and the orthogonalizing karhunen-loeve transformation
EP0921519A2 (en) Technique for adaptation of hidden Markov Models for speech recognition
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
EP2048656A1 (en) Speaker recognition
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
US5995926A (en) Technique for effectively recognizing sequence of digits in voice dialing
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
EP1074019B1 (en) Adaptation of a speech recognizer for dialectal and linguistic domain variations
EP1024476A1 (en) Speech recognizing device and method, navigation device, portable telephone, and information processor
KR100577990B1 (ko) 화자종속/독립음성인식장치
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
US5828998A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
EP0177854B1 (en) Keyword recognition system using template-concatenation model
KR20160122564A (ko) 음성 인식 장치 및 그 방법
KR20020045960A (ko) 음성인식에서 핵심어 검출 성능 개선 방법
WO2004012184A1 (en) Spoken man-machine interface with speaker identification
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
EP1205907B1 (en) Phonetic context adaptation for improved speech recognition
KR100382473B1 (ko) 음성 인식 방법
KR100395222B1 (ko) 음성사서함서비스(브이엠에스)를 위한 음성인식시스템

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee