KR101529918B1 - 다중 스레드를 이용한 음성 인식 장치 및 그 방법 - Google Patents

다중 스레드를 이용한 음성 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR101529918B1
KR101529918B1 KR1020080089453A KR20080089453A KR101529918B1 KR 101529918 B1 KR101529918 B1 KR 101529918B1 KR 1020080089453 A KR1020080089453 A KR 1020080089453A KR 20080089453 A KR20080089453 A KR 20080089453A KR 101529918 B1 KR101529918 B1 KR 101529918B1
Authority
KR
South Korea
Prior art keywords
thread
speech recognition
reliability
result
speaker
Prior art date
Application number
KR1020080089453A
Other languages
English (en)
Other versions
KR20100030483A (ko
Inventor
정두경
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020080089453A priority Critical patent/KR101529918B1/ko
Publication of KR20100030483A publication Critical patent/KR20100030483A/ko
Application granted granted Critical
Publication of KR101529918B1 publication Critical patent/KR101529918B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 의한 다중 스레드를 이용한 음성 인식 장치 및 그 방법은, 입력된 음성 신호로부터 특징 벡터를 추출하는 제1 단계; 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행하는 제2 단계; 상기 복수의 스레드들 중 상기 음성 인식에 대한 응답 시간이 빠른 스레드의 음성 인식 결과를 출력하는 제3 단계를 포함하여 이루어짐으로써, 복수의 스레드를 통해 음성 인식을 수행하여 응답 시간이 빠른 스레드의 결과를 이용할 수 있도록 구성한다.
다중 스레드, 음성 인식, 화자 인식, 응답 시간

Description

다중 스레드를 이용한 음성 인식 장치 및 그 방법{SPEECH RECOGNITION APPARATUS USING THE MULTI-THREAD AND METHMOD THEREOF}
본 발명은 다중 스레드를 이용한 음성 인식 장치 및 그 방법에 관한 것이다.
일반적으로, 음성 인식은 화자로부터 입력된 일반 명령어에 대한 인식 또는 자연어에 대한 인식을 포함한다.
또한, 상기 일반 명령어에 대한 인식 시, 상기 일반 명령어에 대한 인식 응답 시간은 상기 자연어에 대한 인식 응답 시간보다 짧다.
본 발명의 목적은, 서로 다른 음향 모델을 이용하는 다중 스레드를 이용하여 음성 인식을 수행하는 음성 인식 장치 및 그 방법을 제공하는 데 있다.
본 발명의 다른 목적은, 일반 명령어와 자연어 인식에 있어서, 서로 다른 음향 모델을 이용하는 다중 스레드를 이용하여 음성 인식을 처리하여, 일반 명령어를 인식하는 경우 자연어 인식에 비해 응답 시간을 줄이는 다중 스레드를 이용한 음성 인식 장치 및 그 방법을 제공하는 데 있다.
상기 목적들을 달성하기 위한 본 발명에 따른 다중 스레드를 이용한 음성 인식 방법은, 입력된 음성 신호로부터 특징 벡터를 추출하는 제1 단계; 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행하는 제2 단계; 상기 복수의 스레드들 중 상기 음성 인식에 대한 응답 시간이 빠른 스레드의 음성 인식 결과를 출력하는 제3 단계를 포함하여 이루어진다.
상기 목적들을 달성하기 위한 본 발명에 따른 다중 스레드를 이용한 음성 인식 방법은, 입력된 음성 신호로부터 특징 벡터를 추출하는 제1 단계; 상기 추출된 특징 벡터를 근거로 화자 인식을 수행하는 제2 단계; 상기 화자 인식 수행 후, 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행하는 제3 단계; 상기 복수의 스레드들 중 상기 음성 인식에 대한 응답 시간이 빠른 스레드의 음성 인식 결과를 출력하는 제4 단계를 포함하여 이루어진다.
상기 목적들을 달성하기 위한 본 발명에 따른 다중 스레드를 이용한 음성 인식 장치는, 입력된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부; 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드를 통해 음성 인식을 수행하는 음성 인식 서버를 포함하여 이루어진다.
상기 목적들을 달성하기 위한 본 발명에 따른 다중 스레드를 이용한 음성 인식 장치는, 입력된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부; 상기 추출된 특징 벡터를 근거로 화자 인식을 수행하는 화자 인식 서버; 상기 화자 인식이 정상 수행된 후, 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드를 통해 음성 인식을 수행하는 음성 인식 서버를 포함하여 이루어진다.
본 발명의 실시예에 따른 다중 스레드를 이용한 음성 인식 장치 및 그 방법은, 일반 명령어(Command & Control)와 자연어 인식(Flexible Speech Recognition, 또는 자유 발화)이 가능한 경우에 있어서, 서로 다른 음향 모델을 이용하는 다중 스레드를 이용하여 음성 인식을 처리하여, 인식 결과가 빠르게 나온 스레드의 결과를 이용하도록 함으로써, 응답 시간을 줄일 수 있는 효과가 있다.
또한, 본 발명의 실시예에 따른 다중 스레드를 이용한 음성 인식 장치 및 그 방법은, 서로 다른 음향 모델을 이용하는 다중 스레드를 이용하여 인식률이 좋은 스레드의 결과를 이용하도록 함으로써, 신뢰성 있는 인식 결과를 제공할 수 있는 효과가 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 제1 실시예에 따른 다중 스레드를 이용한 음성 인식 장치를 나타낸 블록도로서, 이에 도시된 바와 같이, 음성 인식 장치(100)는, 입력부(110), 특징 벡터 추출부(120), 음성 인식 서버(130), 응용 프로그램부(140) 및, 출력부(150)를 포함하여 이루어진다.
상기 입력부(110)는, 임의의 화자로부터 발성된 음성 신호를 입력받는다.
또한, 상기 입력부(110)는, 필터(filter)와 같은 모듈 등을 추가로 구비하여 상기 입력된 음성 신호에 포함된 잡음 등을 제거하도록 구성할 수도 있다.
상기 특징 벡터 추출부(120)는, 상기 입력부(110)를 통해 입력된 음성 신호로부터 특징 벡터를 추출한다. 여기서, 상기 특징 벡터의 추출 기술들로는, 선형예측계수(LPC : Linear Predictive Coefficient), 켑스트럼(Cepstrum), MFCC(Mel Frequency Cepstral Coefficients), LSF(Line Spectral Frequencies), 주파수 대역별 에너지(Filter Bank Energy) 등이 있다.
상기 음성 인식 서버(130)는, 음성 인식부(131) 및, 음향 모델 데이터베이스(132)를 포함하여 이루어진다.
상기 음성 인식부(131)는, 다중 스레드(131-1, ... , 131-N)를 포함한다. 상 기 다중 스레드 각각(131-1, ... , 131-N)은, 상기 음향 모델 데이터베이스(132)에 기저장된 각각의 음향 모델을 이용하여 상기 특징 벡터 추출부(120)에서 추출된 상기 특징 벡터에 대한 디코딩(Decoding)을 수행한다. 이때, 상기 디코딩 수행 결과에 따른 결과는, 기저장된 유한 세트(finite-set) 중에서, 유사도 등의 비교 결과에 의해, 그 중 유사도가 가장 높은 첫 번째 결과를 의미한다.
또한, 상기 음성 인식부(131)는, 상기 각각의 음향 모델을 이용하여 디코딩을 수행한 결과, 응답 시간이 빠른 스레드에 대해 신뢰도(Confidence Score)를 평가하고, 상기 신뢰도의 평가 결과에 따라 해당 스레드의 결과를 음성 인식의 결과로 채택할지 여부를 결정한다.
또한, 상기 음성 인식부(131)는, 상기 다수의 스레드 중 어느 하나의 스레드에서, 음향 모델을 이용하여 상기 추출된 특징 벡터에 대한 디코딩을 수행하는 경우, 상기 어느 하나의 스레드에 대해 상기 신뢰도를 평가하고, 상기 신뢰도의 평가 결과에 따라 해당 스레드의 결과를 음성 인식의 결과로 채택할지 여부를 결정하도록 구성할 수도 있다. 이때, 상기 음향 모델을 이용하는 경우, 그에 따른 응답 속도(음성의 끝 지점을 검출한 시점으로부터 음성 인식 결과가 나타나기까지의 시간 또는, End of utterance Time-out)는 약 300ms 정도이다.
또한, 상기 음성 인식부(131)는, 상기 다수의 스레드 중 또 다른 어느 하나의 스레드에서, 통계적 언어 모델을 이용하여 상기 추출된 특징 벡터에 대한 디코딩을 수행하는 경우, 상기 디코딩 수행 결과에 대해 의미 분석(Semantic Analysis)을 수행하고, 상기 의미 분석 수행 후, 상기 또 다른 어느 하나의 스레드에 대해 상기 신뢰도를 평가하고, 상기 신뢰도의 평가 결과에 따라 해당 스레드의 결과를 음성 인식의 결과로 채택할지 여부를 결정하도록 구성할 수도 있다. 이때, 상기 통계적 언어 모델을 이용하는 경우, 그에 따른 응답 속도는 약 1300ms 정도이다.
또한, 상기 음성 인식부(131)는, 상기 어느 하나의 스레드의 신뢰도와 상기 또 다른 어느 하나의 스레드의 신뢰도 모두가 기설정된 임계값보다 작거나 같은 경우에는, 상기 어느 하나의 스레드의 신뢰도와 상기 또 다른 어느 하나의 스레드의 신뢰도 중, 더 높은 신뢰도를 가지는 해당 스레드의 결과를 음성 인식의 결과로 채택할 수도 있다.
상기 음향 모델 데이터베이스(132)는, 음향 모델(Acoustic Model), 통계적 언어 모델(SLM : Statistical Language Model) 등을 포함한다.
상기 응용 프로그램부(140)는, 상기 음성 인식 서버(130)의 음성 인식의 결과에 따라 상기 응용 프로그램부(140)에 포함된 해당 응용 프로그램을 동작시키게 된다.
상기 출력부(150)는, 상기 음성 인식 서버(130)의 음성 인식의 결과를 출력한다.
이와 같이, 일반 명령어 및 자연어 인식이 모두 가능한 경우에 있어서, 서로 다른 음향 모델을 이용하는 다수의 스레드를 구비하여 음성 인식을 수행함으로써, 음성 인식에 따른 응답 시간이 빠른 스레드의 결과를 이용함으로써, 화자에게 빠른 음성 인식 결과를 제공할 수 있다.
또한, 서로 다른 음향 모델을 이용하는 다수의 스레드를 구비하여, 각 스레 드의 신뢰도에 따른 음성 인식 결과를 제공함으로써, 화자에게 신뢰성 있는 음성 인식 결과를 제공할 수 있다.
또한, 일반 명령어 및 자연어 인식이 모두 가능한 경우에 있어서, 서로 다른 음향 모델을 이용하는 다수의 스레드를 구비하여 음성 인식을 수행함으로써, 일반 명령어에 대해 자연어 인식과 동일한 응답 시간을 필요로 하지 않음으로써, 음성 인식 장치에 대한 효율적인 운영을 제공할 수 있다.
도 2는 본 발명의 제2 실시예에 따른 다중 스레드를 이용한 음성 인식 장치를 나타낸 블록도로서, 이에 도시된 바와 같이, 음성 인식 장치(100)는, 입력부(110), 특징 벡터 추출부(120), 음성 인식 서버(130), 응용 프로그램부(140), 출력부(150) 및, 화자 인식 서버(160)를 포함하여 이루어진다.
상기 입력부(110), 특징 벡터 추출부(120), 음성 인식 서버(130), 응용 프로그램부(140) 및, 출력부(150)의 기본적인 구성은 상기 제1 실시예에 기재된 내용과 동일하며, 이에 대한 설명은 생략한다.
상기 화자 인식 서버(160)는, 상기 특징 벡터 추출부(120)에서 추출된 특징 벡터를 근거로 화자 인식을 수행한다.
또한, 상기 화자 인식 서버(160)는, 화자 인식부(161), 화자 모델 데이터베이스(162) 및, 화자 모델 적응 서버(163)를 포함하여 이루어진다.
상기 화자 인식부(161)는, 상기 특징 벡터 추출부(120)에서 추출된 특징 벡터를 근거로 상기 추출된 특징 벡터와 상기 화자 모델 데이터베이스(162)에 기저장된 하나 이상의 화자 모델 간의 확률 값을 계산하고, 상기 계산된 확률 값을 근거 로 상기 화자 모델 데이터베이스(162)에 기등록된 화자인지 아닌지 여부를 판단하는 화자 식별(Speaker Identification)이나, 올바른 사용자의 접근인지를 판단하는 화자 검증(Speaker Verification)을 수행한다.
즉, 상기 화자 모델 데이터베이스(162)에 기저장된 다수의 화자 모델들에 대한 최우추정법(Maximum Likelihood Estimation)을 수행한 결과, 가장 높은 확률 값을 갖는 화자 모델을 상기 음성을 발성한 화자로 선택하게 된다. 또한, 상기 수행 결과 가장 높은 확률 값이 기설정된 임계값보다 작거나 같은 경우에는 상기 화자 모델 데이터베이스(162)에 기등록된 화자들 중에서는 상기 음성을 발성한 화자가 없는 것으로 판단하여, 상기 음성을 발성한 화자에 대해서는 화자 식별 결과 기등록된 화자가 아닌 것으로 판단하게 된다. 일 예로, 상기 추출된 특징 벡터와 상기 화자 모델 데이터베이스(162)에 기저장된 다수의 특징 벡터들과의 유사도를 각각 판별하고, 그 유사도가 기설정된 임계값 큰 경우에는, 상기 추출된 특징 벡터에 해당하는 화자의 화자 모델이 기등록된 것으로 판단하고, 상기 유사도가 기설정된 임계값보다 작거나 같은 경우에는, 상기 추출된 특징 벡터에 해당하는 화자의 화자 모델이 등록되지 않은 것으로 판단하게 된다.
또한, 화자 검증의 경우에는, 로그 우도비(LLR : Log-Likelihood Ratio) 방법을 이용하여 올바른 화자 인지 여부를 판별하게 된다.
또한, 상기 화자 인식부(161)는, 상기 판단 결과, 상기 기등록된 화자인 경우, 상기 화자 모델 적응 서버(163)를 이용하여 상기 추출된 특징 벡터를 상기 화자 모델 데이터베이스(162)에 기저장된 상기 추출된 특징 벡터에 대응하는 화자 모 델에 적응시킨다.
또한, 상기 화자 인식부(161)는, 상기 판단 결과, 기등록된 화자가 아닌 경우, 상기 추출된 특징 벡터를 근거로 새로운 화자 모델을 생성하게 된다.
이때, 상기 화자 인식부(161)는, GMM(Gaussian Mixture Model), HMM(Hidden Markov Model), 신경망(Neural Network) 등을 이용하여 상기 화자 모델을 생성하게 된다.
또한, 상기 화자 인식부(161)는, 상기 추출된 특징 벡터를 근거로 EM(Expectation Maximazation) 알고리즘을 이용하여 화자 모델인 GMM을 생성할 수도 있다.
또한, 상기 화자 인식부(161)는, 상기 추출된 특징 벡터를 근거로 상기 EM 알고리즘을 이용하여 UBM(Universal Background Model)을 생성하고, 상기 생성된 UBM에 대해 상기 화자 모델 적응 서버(163)에 기저장된 적응 알고리즘(Adaptation Algorithm)을 수행하여 상기 발성한 화자에 적응된 화자 모델 즉, GMM을 생성할 수 있다. 이때, 상기 화자 모델 적응 서버(163)에 기저장된 적응 알고리즘은, MAP(Maximum A Posteriori), MLLR(Maximum Likelihood Linear Regression) 또는, 아이겐보이스(Eigenvoice) 방법 등을 포함할 수 있다.
상기 화자 모델 데이터베이스(162)는, 기등록된 하나 이상의 화자 모델을 저장한다.
또한, 상기 화자 모델 데이터베이스(162)는, 상기 화자 인식부(161)에 의해 새롭게 생성된 화자 모델을 저장하도록 구성된다.
상기 화자 모델 적응 서버(163)는, 상기 기술된 바와 같이 MAP, MLLR 또는, 아이겐보이스 방법 등과 같은 적응 알고리즘을 저장하고, 상기 화자 인식부(161)의 제어에 의해 상기 추출된 특징 벡터를 화자 모델에 적응시킨다.
또한, 상기 화자 모델 적응 서버(163)는, 상기 화자 인식부(161)의 제어에 의해 상기 추출된 특징 벡터로부터 생성된 UBM에 대해서 상기 화자 모델 적응 서버(163)에 기저장된 적응 알고리즘을 수행하여 GMM을 생성할 수 있다.
또한, 상기 화자 인식 서버(160)는, 상기 화자 인식 수행 결과를 상기 출력부(150)에 출력하거나, 상기 음성 인식 서버(130)에 전달 또는 출력한다.
상기 음성 인식 서버(130)는, 상기 화자 인식 서버(160)에서 출력된 결과에 따라, 상기 음성을 발성한 화자에 대한 음성 인식을 수행하게 된다. 즉, 상기 화자 인식 서버(160)에서 정상적으로 화자를 인식(화자 검증 또는 화자 식별)한 후, 해당 화자에 대한 음성 인식을 수행하게 된다.
또한, 상기 음성 인식 서버(130) 내에는, 상기 기재한 바와 같이 다중 스레드(131-1, ... , 131-N)가 포함되며, 상기 다중 스레드 각각(131-1, ... , 131-N)은, 상기 음향 모델 데이터베이스(132)에 기저장된 각각의 음향 모델을 이용하여 상기 특징 벡터 추출부(120)에서 추출된 상기 특징 벡터에 대한 디코딩(또는, 음성 인식)을 수행한다.
또한, 상기 음성 인식부(131)는, 상기 각각의 음향 모델을 이용하여 디코딩을 수행한 결과에 따라 신뢰도를 평가하여 해당 스레드의 결과를 음성 인식의 결과로 채택할지 여부를 결정하게 된다.
이와 같이, 화자 인식 및 음성 인식을 동시에 수행함으로써, 화자에게 신뢰성 있는 화자 인식 및 빠른 음성 인식 결과를 제공할 수 있다.
이하에서는, 본 발명에 따른 다중 스레드를 이용한 음성 인식 방법을 도 1 및 도 2를 참조하여 상세히 설명한다.
도 3은 본 발명의 제1 실시예에 따른 다중 스레드를 이용한 음성 인식 방법을 나타낸 흐름도이다.
먼저, 입력부(110)를 통해 입력된 음성 신호로부터 특징 벡터를 추출한다(S10).
이후, 상기 추출된 특징 벡터에 대해 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행한다. 이때, 상기 서로 다른 음향 모델들은, 음향 모델 또는 통계적 언어 모델 등 일 수 있다(S20).
이후, 상기 음성 인식 수행에 따라, 상기 복수의 스레드들 중에서 음성 인식에 대한 응답 시간이 가장 빠른 제1 스레드의 음성 인식 결과를 출력한다.
이때, 상기 제1 스레드의 음성 인식 결과에 대해, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 큰 경우에는, 상기 제1 스레드의 음성 인식 결과를 출력하고, 상기 복수의 스레드들 중에서 상기 제1 스레드를 제외한 나머지 모든 스레드들의 동작을 강제 종료시킨다.
또한, 상기 제1 스레드의 음성 인식 결과에 대해, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 작거나 같은 경우에는, 상기 음성 인식 수행에 따라 응답 시간이 상기 제1 스레드 다음 순서인 제2 스레드에 대해 상기 제2 스레드의 신뢰도 가 상기 기설정된 임계값보다 큰지 판단하여 상기 제2 스레드의 출력 여부를 결정할 수도 있다.
즉, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 작거나 같고, 상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우에는, 상기 제2 스레드의 음성 인식 결과를 출력한다. 또한, 상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우에는, 상기 제1 및 제2 스레드에 대한 신뢰도가 낮은 것으로 판단하여, 화자에게 음성 신호를 재입력해줄 것을 요청하고 상기 화자로부터 재입력된 음성 신호에 대해 상기 단계들을 재수행하도록 하거나 또는, 상기 제1 스레드의 신뢰도와 상기 제2 스레드의 신뢰도를 비교하여, 그 2개의 스레드의 신뢰도 중 더 높은 신뢰도를 가지는 해당 스레드의 음성 인식 결과를 출력하도록 할 수도 있다.
또한, 음성 인식에 대한 응답 시간이 빠른 스레드 순으로 해당 스레드의 신뢰도를 상기 기설정된 임계값과 비교하고, 상기 비교 결과 해당 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우에는 해당 스레드의 음성 인식 결과를 출력하고, 해당 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우에는 응답 시간이 빠른 다음 스레드에 대해 상기 기설정된 임계값과의 비교를 통해 상기 응답 시간이 빠른 다음 스레드의 음성 인식 결과의 출력 여부를 결정하게 된다.
이후, 상기 출력된 해당 스레드의 음성 인식 결과에 따라 해당 응용 프로그램을 동작시킬 수도 있다(S30).
도 4는 본 발명의 제2 실시예에 따른 다중 스레드를 이용한 음성 인식 방법 을 나타낸 흐름도이다.
먼저, 입력부(110)를 통해 입력된 음성 신호로부터 특징 벡터를 추출한다(S110).
이후, 상기 추출된 특징 벡터에 대해 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행한다.
즉, 상기 복수의 스레드들(131-1, ... ,131-N)이 제1 스레드(131-1) 및 제2 스레드(131-2)를 포함하는 경우, 상기 제1 스레드(131-1)는 음향 모델을 이용하여 음성 인식(또는, 디코딩)을 수행하고, 상기 제2 스레드(131-2)는 통계적 언어 모델을 이용하여 음성 인식을 수행한다(S120).
이후, 상기 제1 스레드(131-1) 및 제2 스레드(131-2)의 음성 인식 수행에 있어서, 상기 음향 모델을 이용하는 상기 제1 스레드(131-1)의 인식 결과가 상기 제2 스레드(131-2)의 인식 결과보다 빠른지 비교한다(S130).
상기 비교 결과, 상기 제1 스레드(131-1)의 인식 결과가 상기 제2 스레드(131-2)의 인식 결과보다 빠른 경우, 일 예로, 일반 명령어 인식인 경우, 상기 제1 스레드(131-1)의 음성 인식 결과에 대한 신뢰도를 평가한다. 여기서, 상기 신뢰도 평가는, 상기 제1 스레드(131-1)의 신뢰도가 기설정된 임계값보다 큰지를 비교하는 것이며, 상기 비교 결과에 따라 해당 스레드의 결과를 이용하거나 이용하지 않도록 구성할 수 있다(S140).
상기 단계(S140)에서의 신뢰도 비교 결과, 상기 제1 스레드(131-1)의 신뢰도가 상기 기설정된 임계값보다 큰 경우에는, 상기 제1 스레드(131-1)의 음성 인식 결과를 출력하고, 상기 제2 스레드(131-2)의 동작을 강제 종료시킨다. 여기서, 상기 제2 스레드(131-2)의 동작 강제 종료는, 상기 제1 스레드(131-1)의 음성 인식 결과가 충분히 신뢰할 수 있는 정도이므로, 상기 제1 스레드(131-1)의 음성 인식 결과를 출력함에 따라, 상기 제2 스레드(131-2)의 음성 인식 결과가 추가로 필요하지 않기 때문이다(S150).
이후, 상기 단계(S130)에서의 인식 결과에 대한 비교 결과, 상기 제1 스레드(131-1)의 인식 결과가 상기 제2 스레드(131-2)의 인식 결과보다 빠르지 않은 경우, 일 예로, 자연어 인식인 경우, 상기 제2 스레드(131-2)의 동작이 완료되어 상기 제2 스레드(131-2)의 음성 인식 결과가 나올 때까지 잠시 대기하게 된다.
또한, 상기 단계(S140)에서의 신뢰도 비교 결과, 상기 제1 스레드(131-1)의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우에는, 상기 제2 스레드(131-2)의 음성 인식 결과가 나올 때까지 잠시 대기하게 된다(S160).
이후, 상기 제2 스레드(131-2)의 음성 인식 결과에 대한 신뢰도를 평가한다. 여기서, 상기 신뢰도 평가는, 상기 제2 스레드(131-2)의 신뢰도가 상기 기설정된 임계값보다 큰지를 비교하는 것이며, 상기 비교 결과에 따라 해당 스레드의 결과를 이용하거나 이용하지 않도록 구성할 수 있다.
또한, 상기 통계적 언어 모델을 이용하여 자연어 인식을 수행하는 상기 제2 스레드의 음성 인식 결과에 대해서는, 의미 분석(Semantic Analysis)을 수행한 후, 상기 신뢰도를 평가하도록 구성한다(S170).
상기 단계(S170)에서의 신뢰도 비교 결과, 상기 제2 스레드(131-2)의 신뢰도 가 상기 기설정된 임계값보다 큰 경우에는, 상기 제2 스레드(131-2)의 음성 인식 결과를 출력한다(S180).
상기 단계(S170)에서의 신뢰도 비교 결과, 상기 제2 스레드(131-2)의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우에는, 화자에게 음성 신호를 재입력해줄 것을 요청하여 상기 화자로부터 재입력된 음성 신호에 대해 상기 단계들을 재수행하도록 하거나 또는, 상기 제1 스레드의 신뢰도와 상기 제2 스레드의 신뢰도를 비교하여, 상기 2개의 스레드의 신뢰도 중 더 높은 신뢰도를 가지는 해당 스레드의 음성 인식 결과를 출력하도록 할 수도 있다.
즉, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보다 큰지를 비교하고, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보다 큰 경우에는, 상기 제1 스레드(131-1)의 음성 인식 결과를 출력하고, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보도 작거나 같은 경우에는, 상기 제2 스레드(131-2)의 음성 인식 결과를 출력한다(S190).
이와 같이, 일반 명령어 및 자연어 인식이 모두 가능한 경우에 있어서, 서로 다른 음향 모델을 이용하는 다수의 스레드를 구비하여 음성 인식을 수행하는 도중, 음성 인식에 따른 응답 시간이 빠른 스레드의 결과를 이용하면서 상기 복수의 스레드들 중 상기 음성 인식의 결과를 출력하는 스레드를 제외한 나머지 동작 중인 스레드들의 동작을 강제 종료시킴으로써, 상기 나머지 스레드들의 부하를 줄일 수 있다.
도 5는 본 발명의 제3 실시예에 따른 다중 스레드를 이용한 음성 인식 방법 을 나타낸 흐름도이다.
먼저, 입력부(110)를 통해 입력된 음성 신호로부터 특징 벡터를 추출한다(S210).
이후, 상기 추출된 특징 벡터를 근거로 화자 인식(화자 식별 또는/및 화자 검증) 과정을 수행한다. 이때, 상기 음성 신호를 발성한 화자가 화자 모델 데이터베이스(162)에 기등록된 화자가 아닌 경우에는 해당 화자에 대한 화자 모델을 생성하여 상기 해당 화자에 대해 상기 화자 모델 데이터베이스(162)에 등록시키는 과정을 추가로 수행한다. 또한, 상기 추출된 특징 벡터를 상기 화자 모델 데이터베이스(162)에 저장된 상기 추출된 특징 벡터에 대응하는 화자 모델에 적응시킨다(S220).
이후, 상기 화자 모델에 적응된 특징 벡터에 대해 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행한다.
이와 같이, 상기 화자 모델에 적응된 특징 벡터에 대해 음성 인식을 수행하는 이후의 과정들(S230 내지 S300)은, 상기 제2 실시예에 기재된 과정들(S120 내지 S190)에 각각 대응되며, 상기 각 대응되는 내용은 동일하며, 이에 대한 설명은 생략한다(S230~S300).
본 발명의 다중 스레드를 이용한 음성 인식 장치 및 그 방법에 의하면, 일반 명령어와 자연어 인식이 동시에 존재하는 경우, 각각 서로 다른 화자 모델을 사용하는 복수의 스레드를 이용하여 음성 인식을 수행하고, 음성 인식의 처리 결과가 빠른 스레드의 결과를 이용함으로써, 서로 다른 성격의 음성 인식으로 인해 생기는 응답 시간의 지연을 방지할 수 있고, 사용자의 편의성을 제공할 수 있음으로, 그 산업상 이용가능성이 크다고 하겠다.
도 1은 본 발명의 제1 실시예에 따른 다중 스레드를 이용한 음성 인식 장치를 나타낸 블록도이다.
도 2는 본 발명의 제2 실시예에 따른 다중 스레드를 이용한 음성 인식 장치를 나타낸 블록도
도 3은 본 발명의 제1 실시예에 따른 다중 스레드를 이용한 음성 인식 방법을 나타낸 흐름도이다.
도 4는 본 발명의 제2 실시예에 따른 다중 스레드를 이용한 음성 인식 방법을 나타낸 흐름도이다.
도 5는 본 발명의 제3 실시예에 따른 다중 스레드를 이용한 음성 인식 방법을 나타낸 흐름도이다.
***도면의 주요 부분에 대한 부호의 설명***
110: 입력부 120: 특징 벡터 추출부
130: 음성 인식 서버 131: 음성 인식부
132: 음향 모델 데이터베이스 140: 응용 프로그램부
150: 출력부 160: 화자 인식 서버
161: 화자 인식부 162: 화자 모델 데이터베이스
163: 화자 모델 적응 서버

Claims (35)

  1. 입력된 음성 신호로부터 특징 벡터를 추출하는 제1 단계;
    서로 다른 음향 모델 각각을 이용하는 복수의 스레드를 통해 상기 추출된 특징 벡터에 대한 음성 인식을 수행하는 제2 단계; 및
    상기 복수의 스레드 중 상기 음성 인식에 대한 응답 시간이 빠른 스레드의 음성 인식 결과를 출력하는 제3 단계를 포함하고,
    상기 복수의 스레드는,
    일반 명령어에 대한 음성 인식을 수행하는 제1 스레드 및 자연어에 대한 음성 인식을 수행하는 제2 스레드를 포함하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  2. 제1항에 있어서, 상기 서로 다른 음향 모델은,
    음향 모델(Acoustic Model)과 통계적 언어 모델(Statistical Language Model)인 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서, 상기 제1 스레드는,
    음향 모델을 이용하여 상기 일반 명령어에 대한 음성 인식을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  7. 제1항에 있어서, 상기 제2 스레드는,
    통계적 언어 모델을 이용하여 상기 자연어 인식에 대한 음성 인식을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  8. 제1항에 있어서, 상기 제3 단계는,
    상기 제1 스레드의 응답 시간이 상기 제2 스레드의 응답 시간보다 빠른 경우, 상기 제1 스레드의 신뢰도를 기설정된 임계값과 비교하는 제1 과정;
    상기 비교 결과, 상기 제1 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우, 상기 제1 스레드의 음성 인식 결과를 출력하고, 상기 제2 스레드의 음성 인식 과정을 중지시키는 제2 과정을 포함하여 이루어진 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  9. 제8항에 있어서,
    상기 비교 결과, 상기 제1 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우, 상기 제2 스레드의 신뢰도를 상기 기설정된 임계값과 비교하는 제3 과정을 포함하여 이루어진 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  10. 제9항에 있어서,
    상기 제2 스레드의 음성 인식 결과에 대해 의미 분석(Semantic Analysis)을 수행한 후, 상기 제2 스레드의 신뢰도와 상기 기설정된 임계값을 비교하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  11. 제9항에 있어서,
    상기 제3 과정에서의 비교 결과, 상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우, 상기 제2 스레드의 음성 인식 결과를 출력하는 제4 과정;
    상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우, 상기 제1 스레드의 신뢰도와 상기 제2 스레드의 신뢰도를 비교하는 제5 과정;
    상기 제5 과정에서의 비교 결과, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보다 큰 경우, 상기 제1 스레드의 음성 인식 결과를 출력하는 제6 과정;
    상기 제5 과정에서의 비교 결과, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보다 작거나 같은 경우, 상기 제2 스레드의 음성 인식 결과를 출력하는 제7 과정을 포함하여 이루어진 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  12. 제1항에 있어서,
    상기 출력된 음성 인식 결과에 따라 응용 프로그램을 동작시키는 단계를 더 포함하여 이루어진 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  13. 입력된 음성 신호로부터 특징 벡터를 추출하는 제1 단계;
    상기 추출된 특징 벡터를 근거로 화자 인식을 수행하는 제2 단계;
    상기 화자 인식 수행 후, 서로 다른 음향 모델 각각을 이용하는 복수의 스레드를 통해 상기 추출된 특징 벡터에 대한 음성 인식을 수행하는 제3 단계; 및
    상기 복수의 스레드 중 상기 음성 인식에 대한 응답 시간이 빠른 스레드의 음성 인식 결과를 출력하는 제4 단계를 포함하고,
    상기 복수의 스레드는,
    일반 명령어에 대한 음성 인식을 수행하는 제1 스레드 및 자연어에 대한 음성 인식을 수행하는 제2 스레드를 포함하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  14. 제13항에 있어서, 상기 제2 단계는,
    상기 추출된 특징 벡터를 이용하여 화자 식별을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  15. 제13항에 있어서, 상기 제2 단계는,
    상기 추출된 특징 벡터를 이용하여 화자 검증을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  16. 제13항에 있어서, 상기 제2 단계는,
    상기 화자 인식 수행 결과, 기등록된 화자가 아닌 경우, 상기 추출된 특징 벡터를 근거로 새로운 화자 모델을 생성하는 과정;
    상기 생성된 화자 모델을 이용하여 화자 인식을 수행하는 과정을 포함하여 이루어진 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  17. 제13항에 있어서,
    상기 제1 스레드는 음향 모델을 이용하여 상기 일반 명령어에 대한 음성 인식을 수행하고,
    상기 제2 스레드는 통계적 언어 모델을 이용하여 상기 자연어에 대한 음성 인식을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  18. 제17항에 있어서, 상기 제4 단계는,
    상기 제1 스레드의 응답 시간이 상기 제2 스레드의 응답 시간보다 빠른 경우, 상기 제1 스레드의 신뢰도를 기설정된 임계값과 비교하는 제1 과정;
    상기 비교 결과, 상기 제1 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우, 상기 제1 스레드의 음성 인식 결과를 출력하고, 상기 제2 스레드의 음성 인식 과정을 중지시키는 제2 과정을 포함하여 이루어진 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  19. 제18항에 있어서,
    상기 비교 결과, 상기 제1 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우, 상기 제2 스레드의 신뢰도를 상기 기설정된 임계값과 비교하는 제3 과정을 포함하여 이루어진 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  20. 제19항에 있어서,
    상기 제2 스레드의 음성 인식 결과에 대해 의미 분석(Semantic Analysis)을 수행한 후, 상기 제2 스레드의 신뢰도와 상기 기설정된 임계값을 비교하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  21. 제19항에 있어서,
    상기 제3 과정에서의 비교 결과, 상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우, 상기 제2 스레드의 음성 인식 결과를 출력하는 제4 과정;
    상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우, 상기 제1 스레드의 신뢰도와 상기 제2 스레드의 신뢰도를 비교하는 제5 과정;
    상기 제5 과정에서의 비교 결과, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보다 큰 경우, 상기 제1 스레드의 음성 인식 결과를 출력하는 제6 과정;
    상기 제5 과정에서의 비교 결과, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보다 작거나 같은 경우, 상기 제2 스레드의 음성 인식 결과를 출력하는 제7 과정을 포함하여 이루어진 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 방법.
  22. 입력된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부; 및
    서로 다른 음향 모델을 포함하고, 상기 서로 다른 음향 모델 각각을 이용하여 상기 추출된 특징 벡터에 대한 음성 인식을 수행하는 복수의 스레드를 포함하는 음성 인식 서버를 포함하고,
    상기 복수의 스레드는,
    일반 명령어에 대한 음성 인식을 수행하는 제1 스레드 및 자연어에 대한 음성 인식을 수행하는 제2 스레드를 포함하여 구성된 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  23. 제22항에 있어서,
    상기 제1 스레드는 음향 모델을 이용하여 상기 일반 명령어에 대한 음성 인식을 수행하고,
    상기 제2 스레드는 통계적 언어 모델을 이용하여 상기 자연어에 대한 음성 인식을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  24. 삭제
  25. 삭제
  26. 제23항에 있어서, 상기 음성 인식 서버는,
    상기 제1 스레드의 응답 시간이 상기 제2 스레드의 응답 시간보다 빠르고, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 큰 경우, 상기 제1 스레드의 음성 인식 결과를 출력하고 상기 제2 스레드의 동작을 중지시키는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  27. 제23항에 있어서, 상기 음성 인식 서버는,
    상기 제1 스레드의 응답 시간이 상기 제2 스레드의 응답 시간보다 빠르고, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 작거나 같은 경우, 상기 제2 스레드의 음성 인식 결과에 대해 의미 분석을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  28. 제27항에 있어서, 상기 음성 인식 서버는,
    상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우, 상기 제2 스레드의 음성 인식 결과를 출력하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  29. 제27항에 있어서, 상기 음성 인식 서버는,
    상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우, 상기 제1 스레드의 신뢰도와 상기 제2 스레드의 신뢰도를 비교하고, 상기 비교 결과 신뢰도가 높은 해당 스레드의 음성 인식 결과를 출력하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  30. 입력된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부;
    상기 추출된 특징 벡터를 근거로 화자 인식을 수행하는 화자 인식 서버; 및
    서로 다른 음향 모델을 포함하고, 상기 화자 인식이 정상 수행된 후 상기 서로 다른 음향 모델 각각을 이용하여 상기 추출된 특징 벡터에 대한 음성 인식을 수행하는 복수의 스레드를 포함하는 음성 인식 서버를 포함하고,
    상기 복수의 스레드는,
    일반 명령어에 대한 음성 인식을 수행하는 제1 스레드 및 자연어에 대한 음성 인식을 수행하는 제2 스레드를 포함하여 구성된 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  31. 제30항에 있어서,
    상기 제1 스레드는 음향 모델을 이용하여 상기 일반 명령어에 대한 음성 인식을 수행하고,
    상기 제2 스레드는 통계적 언어 모델을 이용하여 상기 자연어에 대한 음성 인식을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  32. 제31항에 있어서, 상기 음성 인식 서버는,
    상기 제1 스레드의 응답 시간이 상기 제2 스레드의 응답 시간보다 빠르고, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 큰 경우, 상기 제1 스레드의 음 성 인식 결과를 출력하고 상기 제2 스레드의 동작을 중지시키는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  33. 제31항에 있어서, 상기 음성 인식 서버는,
    상기 제1 스레드의 응답 시간이 상기 제2 스레드의 응답 시간보다 빠르고, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 작거나 같은 경우, 상기 제2 스레드의 음성 인식 결과에 대해 의미 분석을 수행하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  34. 제33항에 있어서, 상기 음성 인식 서버는,
    상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우, 상기 제2 스레드의 음성 인식 결과를 출력하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
  35. 제33항에 있어서, 상기 음성 인식 서버는,
    상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우, 상기 제1 스레드의 신뢰도와 상기 제2 스레드의 신뢰도를 비교하고, 상기 비교 결과 신뢰도가 높은 해당 스레드의 음성 인식 결과를 출력하는 것을 특징으로 하는 다중 스레드를 이용한 음성 인식 장치.
KR1020080089453A 2008-09-10 2008-09-10 다중 스레드를 이용한 음성 인식 장치 및 그 방법 KR101529918B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080089453A KR101529918B1 (ko) 2008-09-10 2008-09-10 다중 스레드를 이용한 음성 인식 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080089453A KR101529918B1 (ko) 2008-09-10 2008-09-10 다중 스레드를 이용한 음성 인식 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100030483A KR20100030483A (ko) 2010-03-18
KR101529918B1 true KR101529918B1 (ko) 2015-06-18

Family

ID=42180430

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080089453A KR101529918B1 (ko) 2008-09-10 2008-09-10 다중 스레드를 이용한 음성 인식 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101529918B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102246900B1 (ko) 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
WO2019208858A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 음성 인식 방법 및 이를 위한 장치
CN111145751A (zh) * 2019-12-31 2020-05-12 百度在线网络技术(北京)有限公司 音频信号处理方法、装置以及电子设备
CN111145752B (zh) * 2020-01-03 2022-08-02 百度在线网络技术(北京)有限公司 智能音频装置、方法、电子设备及计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214880A (ja) * 1999-01-20 2000-08-04 Sony Internatl Europ Gmbh 音声認識方法及び音声認識装置
JP2002328696A (ja) * 2001-04-26 2002-11-15 Canon Inc 音声認識装置および音声認識装置における処理条件設定方法
KR100766061B1 (ko) * 2005-12-09 2007-10-11 한국전자통신연구원 화자적응 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214880A (ja) * 1999-01-20 2000-08-04 Sony Internatl Europ Gmbh 音声認識方法及び音声認識装置
JP2002328696A (ja) * 2001-04-26 2002-11-15 Canon Inc 音声認識装置および音声認識装置における処理条件設定方法
KR100766061B1 (ko) * 2005-12-09 2007-10-11 한국전자통신연구원 화자적응 방법 및 장치

Also Published As

Publication number Publication date
KR20100030483A (ko) 2010-03-18

Similar Documents

Publication Publication Date Title
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP3078279B2 (ja) ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US20090119103A1 (en) Speaker recognition system
US9799350B2 (en) Apparatus and method for verifying utterance in speech recognition system
KR20100027865A (ko) 화자 및 음성 인식 장치 및 그 방법
KR20000067829A (ko) 반통제된 화자 적응
KR20060097895A (ko) 사용자 적응형 음성 인식 방법 및 장치
US9280979B2 (en) Online maximum-likelihood mean and variance normalization for speech recognition
US20160267924A1 (en) Speech detection device, speech detection method, and medium
US20080004876A1 (en) Non-enrolled continuous dictation
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
KR101151571B1 (ko) 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법
WO2014018004A1 (en) Feature normalization inputs to front end processing for automatic speech recognition
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR101529918B1 (ko) 다중 스레드를 이용한 음성 인식 장치 및 그 방법
CN109065026B (zh) 一种录音控制方法及装置
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
KR102429656B1 (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
JP2996019B2 (ja) 音声認識装置
CN113327596B (zh) 语音识别模型的训练方法、语音识别方法和装置
US8768695B2 (en) Channel normalization using recognition feedback

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180514

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190514

Year of fee payment: 5