KR20000025827A - 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법 - Google Patents

음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법 Download PDF

Info

Publication number
KR20000025827A
KR20000025827A KR1019980043061A KR19980043061A KR20000025827A KR 20000025827 A KR20000025827 A KR 20000025827A KR 1019980043061 A KR1019980043061 A KR 1019980043061A KR 19980043061 A KR19980043061 A KR 19980043061A KR 20000025827 A KR20000025827 A KR 20000025827A
Authority
KR
South Korea
Prior art keywords
phoneme
context
model
dependent
phonemes
Prior art date
Application number
KR1019980043061A
Other languages
English (en)
Other versions
KR100298177B1 (ko
Inventor
구명완
김우성
Original Assignee
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사 filed Critical 이계철
Priority to KR1019980043061A priority Critical patent/KR100298177B1/ko
Publication of KR20000025827A publication Critical patent/KR20000025827A/ko
Application granted granted Critical
Publication of KR100298177B1 publication Critical patent/KR100298177B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 반음소모델 구축방법 및 그를 이용한 발화 검증방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 음성인식시스템에서 CD 음소를 사용하여 훈련용과 테스트용으로 구분하고, 이로부터 CI 음소로 구성된 유사음소 집합으로 각 CD 음소에 대해 훈련을 통해 인식거절 기능을 수행하기 위해 사용되는 발화검증을 위한 반음소모델을 구축하기 위한 반음소모델 구축방법 및 그를 이용한 발화 검증방법을 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 음성데이터에서 음성인식에 필요한 특징을 추출하여 CD 음소단위로 분할하고 같은 음소별로 모아 분류하여 분류된 음소를 훈련용 CD와 테스트용 CD 음소로 구분하는 제 1 단계; 훈련용 CD 음소를 CI 음소단위로 수집하여 훈련을 통해 CI 음소모델을 구축하는 제 2 단계; 및 테스트용 CD 음소와 CI 음소모델을 기준으로 음소인식 테스트를 실행하여 유사음소 집합을 구하고, 각 문맥종속 음소에 대해 유사음소 집합으로 훈련을 통해 반음소모델을 구축하는 제 3 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 음성인식시스템 등에 이용됨.

Description

음성인식시스템에서의 반음소모델 구축방법 및 그를 이용한 발화 검증방법
본 발명은 음성인식시스템에서 인식거절 기능을 수행하기 위해 사용되는 발화검증을 위한 반음소모델을 문맥독립(CI : Context-Independent) 음소와 문맥종속(CD : Context-Dependent) 음소로 혼합하여 구축하므로써, 훈련데이터 및 훈련시간을 줄이고 시스템의 성능을 향상시킬 수 있도록 한 반음소모델 구축방법 및 그를 이용한 발화 검증방법에 관한 것이다.
음성인식시스템은 미리 정해놓은 특정 인식대상 단어만이 입력될 것이라는 가정하에 음성인식 기능을 수행하므로, 사용자가 실수로 또는 고의로 인식대상 단어외의 말을 해 버리면 인식대상 단어중의 하나로 인식결과를 보여주기 때문에 엉뚱한 말로 인식해 버리는 문제점을 지니고 있다.
따라서, 음성인식시스템에서 인식대상 단어이외의 단어가 입력되었을 때 이를 인식하지 않고 거절하는 기능이 요구되어 왔다. 즉, 음성인식시스템에서는 인식대상 단어외의 말이 입력되었을때, 이를 다른 단어로 오인식하지 않고 입력이 잘못되었음을 알려주는 기능이 요구된다. 이를 음성인식 거절기능이라고 한다.
본 발명은 음성인식 거절기능을 수행하는 방법중 발화 검증 방식에 관련된 반음소모델의 구축에 관한 것이다.
발화 검증 방식이란, 음성인식된 어떤 결과에 대해 그 인식 결과를 받아들일 것인지(Accept), 거절할 것인지(Reject)를 어떤 신뢰도(Confidence Score 또는 Confidence Measure)값을 사용하여 결정하는 방식이다. 여기서, 신뢰도는 음성인식 결과에 대해서 그 결과가 얼마나 믿을 만한 것인가를 나타내는 척도로서, 신뢰도값이 높으면 인식 결과를 신뢰할 수 있는 것으로 인식결과를 받아들여야 하고, 반대로 낮으면 결과를 신뢰하기가 어렵다는 의미로 인식결과를 거절하여야 한다.
일반적으로, 널리 알려진 음성인식 방법으로 은닉 마르코프 모델(HMM : Hidden Markov Model)을 사용하는 방법이 있다. 여기서, 음성인식 과정으로 비터비(Viterbi) 탐색을 실시하는데, 이는 인식대상 후보 단어들에 대한 미리 훈련하여 구축한 HMM과 현재 입력된 음성의 특징들과의 차이를 비교하여 가장 유사한 후보단어를 결정하는 과정이다.
상기의 신뢰도는 비터비 탐색 결과 수치와는 의미가 다르다. 즉, 비터비 탐색 결과 수치는 어떤 단어나 음소에 대한 단순한 유사도를 나타낸 것인 반면에, 신뢰도는 인식된 결과인 음소나 단어에 대해 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값을 의미한다.
신뢰도를 결정하기 위해서는 음소(Phone) 모델과 반음소(Anti-phone) 모델이 필요하다.
음소모델은 어떤 음성에서 실제로 발화된 음소들을 추출하여 추출된 음소들을 훈련시켜 생성된 HMM이다. 이러한 음소모델은 일반적인 HMM에 근거한 음성인식시스템에서 사용되는 모델이다.
한편, 반음소모델은 실제 발화된 음소와 아주 유사한 음소들(이를 유사음소집합(Cohort Set)이라 함)을 사용하여 훈련된 HMM을 말한다.
이와 같이, 음성인식시스템에서는 사용하는 모든 음소들에 대해서 각기 음소모델과 반음소모델이 존재한다.
예를들어 설명하면, ""라는 음소에 대해서는 "" 음소모델이 있고, ""에 대한 반음소모델이 존재하게 되는 것이다.
예를들면, "" 음소의 모델은 음성 데이터베이스에서 ""라는 음소만을 추출하여 HMM의 훈련 방식대로 훈련을 시켜서 만들어지게 된다. 그리고, ""에 대한 반음소모델을 구축하기 위해서는 ""에 대한 유사음소집합을 구해야 한다. 이는 음소인식 결과를 보면 구할 수 있는데, 음소인식 과정을 수행하여 "" 이외의 다른 어떤 음소들이 ""로 오인식되었는지를 보고 이를 모아서 ""에 대한 유사음소 집합을 결정할 수 있다. 즉, ",," 등의 음소들이 주로 ""로 오인식 되었다면 이들을 유사음소집합이라 할 수 있고, 이들을 모아서 HMM 훈련과정을 거치면 "" 음소에 대한 반음소모델이 생성된다.
이와 같은 방식으로 모든 음소에 대하여 음소모델과 반음소모델이 생성되었다면, 입력된 음성에 대한 신뢰도는 다음과 같이 계산된다.
우선 음소모델을 탐색하여 가장 유사한 음소를 하나 찾아낸다.
그리고, 찾아낸 음소에 대한 반음소모델에 대한 유사도를 계산해 낸다.
최종적인 신뢰도는 음소모델에 대한 유사도와 반음소모델에 대한 유사도의 차이를 구하고, 이에 소정의 특정함수를 적용시켜 신뢰도값의 범위를 조절하여 구할 수 있다.
종래에는, 반음소모델을 문맥독립(CI) 음소만을 사용하였다. 여기서, 문맥독립음소는 각 음소마다 전후의 음소를 고려하지 않은 단순한 음소 그 자체를 의미하고, 반면에 문맥종속(CD) 음소는 같은 음소라 하더라도 전후의 음소에 따라 발음에 영향을 받는 현상을 고려하여 더 세분한 음소를 말한다.
일반적으로, 한국어 음성인식시스템의 경우에 CI 음소는 약 40-60개 정도, 그리고 CD 음소로는 메모리 및 인식시간을 고려해서 약 300개 정도를 사용한다. 보통의 음성인식시스템에서는 CD 음소를 사용하여 훈련 및 테스트를 하게 되지만, 발화검증에 사용되는 반음소모델의 경우에는 CI 음소 단위의 모델을 주로 사용한다. 이는 CD 음소단위의 반음소모델을 사용할 경우에, 음소갯수가 너무 많아서 요구되는 훈련 데이터와 훈련 시간이 많다는 단점이 있기 때문이다.
종래에도 발화검증을 이용하여 음성인식 거절을 수행하는 방법이 있었다.
이러한 발화검증을 이용하여 음성인식 거절 기능을 수행하는 종래의 방법에서도 발화검증을 위해 역시 신뢰도값을 구하게 되는데, 이러한 신뢰도를 구하기 위해서는 음소들에 대한 HMM과 반음소들에 대한 HMM이 요구된다. 즉, 음소에 대한 HMM과 반음소에 대한 HMM과의 차이를 비교하여 그 값을 신뢰도로 사용한다.
그러나, 종래에는 반음소의 HMM을 구축함에 있어서 CI 음소만을 사용하는 방법만이 존재하였다.
그리고, 종래에는 음소인식과정에서 음소 HMM은 CD 음소를 사용하고 반음소 HMM은 CI 음소를 사용하였기 때문에, 성능이 저하되는 단점이 있었다. 또한, 종래에는 반음소모델을 CD 음소를 사용하여 구축하려면, CD 음소의 개수가 많기 때문에 훈련에 요구되는 데이터량이 많고 부족한 데이터로 훈련을 하여야 하기 때문에, 시스템의 성능이 떨어지는 문제점이 있었다.
상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 음성인식시스템에서 문맥종속(CD) 음소를 사용하여 훈련용과 테스트용으로 구분하고, 이로부터 생성되는 문맥독립(CI) 음소로 구성된 유사음소 집합으로 각 CD 음소에 대해 훈련을 통해 인식거절 기능을 수행하기 위해 사용되는 발화검증을 위한 반음소모델을 구축하므로써, 훈련데이터 및 훈련시간을 줄이고 시스템의 성능을 향상시키기 위한 반음소모델 구축방법 및 그를 이용한 발화 검증방법을 제공하는데 있다.
도 1 은 본 발명이 적용되는 음성인식시스템의 구성 예시도.
도 2 는 본 발명에 따른 반음소모델 구축방법에 대한 일실시예 흐름도.
도 3 은 본 발명에 따른 반음소모델 구축과정을 이용한 발화 검증방법에 대한 일실시예 흐름도.
*도면의 주요 부분에 대한 부호의 설명
11; 끝점검출기 12 : 특징추출기
13 : 비터비탐색기 14 : 발음사전
15 : CD 음소모델 데이터베이스 16 : 발화검증기
17 : CD 반음소모델 데이터베이스
상기 목적을 달성하기 위한 본 발명은, 음성인식시스템에 적용되는 발화검증을 위한 반음소모델 구축 방법에 있어서, 외부로부터 입력되는 음성데이터에서 음성인식에 필요한 특징을 추출하여 문맥종속(CD) 음소단위로 분할하고 같은 음소별로 모아 분류하여 분류된 음소를 훈련용 문맥종속 음소와 테스트용 문맥종속 음소로 구분하는 제 1 단계; 상기 훈련용 문맥종속 음소를 문맥독립(CI) 음소단위로 수집하여 훈련을 통해 문맥독립 음소모델을 구축하는 제 2 단계; 및 상기 테스트용 문맥종속 음소와 상기 문맥독립 음소모델을 기준으로 음소인식 테스트를 실행하여 유사음소 집합을 구하고, 각 문맥종속 음소에 대해 유사음소 집합으로 훈련을 통해 반음소모델을 구축하는 제 3 단계를 포함한다.
또한, 상기 목적을 달성하기 위한 본 발명은, 음성인식시스템에 적용되는 발화 검증방법에 있어서, 음성이 입력되면 음성의 끝점을 검출하여 음성이 존재하는 부분만 추출하고, 추출된 음성 부분에서 음성인식에 필요한 특징을 추출하는 제 1 단계; 추출된 음성데이터에 대해 발음사전과 문맥종속 음소모델을 참조하여 비터비 탐색을 통해 음성인식을 수행하는 제 2 단계; 및 음성인식된 음성데이터에 대해 문맥종속 반음소모델과 문맥종속 음소모델을 참조하여 구한 신뢰도를 바탕으로 발화검증을 수행하는 제 3 단계를 포함한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명이 적용되는 음성인식시스템의 구성 예시도이다.
본 발명이 적용되는 음성인식시스템의 구성 및 동작은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명한 생략하기로 한다. 다만, 입력된 음성에 대해 음성인식 거절 기능을 수행하는 과정에 대해 보다 자세히 살펴보고자 한다.
먼저, 음성이 입력되면, 끝점검출기(11)에서 음성의 앞두에 있는 묵음 구간을 제외한 음성구간을 찾는다. 이후에, 특징추출기(12)에서 앞에서 찾은 음성 구간의 음성신호로부터 음성의 특징을 추출한다.
다음으로, 비터비 탐색기(13)에서 CD 음소모델 데이터베이스(15)로 구성된 발음사전(14)에 등록된 단어들에 대해 음성 특징값을 이용하여 유사도(Likelihood)가 가장 유사한 단어들을 선정한다.
이어서, 발화검증기(16)가 비터비 탐색기(13)에서 선정된 단어를 이용하여 음소단위로 특징구간을 분할한 후에, 반음소모델을 이용하여 음소단위의 유사 신뢰도(Likelihood Ratio Confidence Score)를 구한다. 이러한 음소단위 유사 신뢰도(δ(CMp))를 구하는 식을 수학식으로 표현하면 (수학식 1)과 같다.
여기서, α, β는 상수(α=1, β=0)이다. 또한, LLR은 에서 P(Oea)는 반음소모델에 의한 유사도(Likelihood) 값이고, P(Oec)는 음소모델에 의한 유사도값이다.
단어단위의 발화검증을 살펴보면, 단어단위 유사 신뢰도(δ(CMw))를 구하는 식을 수학식으로 표현하면 (수학식 2)와 같다.
여기서, N은 단어에 있는 음소 개수이다. 이때, logδ(CMw)가 소정의 임계값을 상승하면 받아들이고(Accept), 그 이하이면 단어를 거절한다(Reject).
마지막으로, 단어가 거절되면 다음 후보 단어에 대해 상기한 바와 같이 발화검증기(16)에서 발화 검증 과정을 수행한다.
한편, 문장을 인식할 경우에도 상기의 발화 검증 과정은 동일하게 적용되어 문법만 추가되며, 문장단위의 검증이 된다.
도 2 는 본 발명에 따른 발화검증을 위한 반음소모델 구축방법에 대한 일실시예 흐름도이다.
본 발명에 따른 발화검증을 위한 반음소모델 구축 방법은, 기존의 CI 음소만을 사용하여 반음소모델을 구축하는 방법과는 달리, CI 음소와 CD 음소를 결합하여 사용하고, 이로부터 CD 음소단위의 반음소모델을 구축하므로써, CI 음소단위의 반음소모델을 사용하는 경우와 CD 음소만을 이용해 CD 음소단위의 반음소모델을 구축하는 경우의 단점들을 보완하여 적은 훈련 데이터로도 효율적인 CD 반음소모델을 구축할 수 있다.
CI 음소와 CD 음소를 결합하여 CD 음소단위의 반음소모델을 효율적으로 구축하기 위해서, 본 발명은 우선 CD 음소단위로 음소를 수집한 후에, 이를 훈련용과 테스트용으로 구분한다. 여기서, CD 음소는 CI 음소를 주변 환경에 따라서 더 세분한 것이므로, 이들은 CI 음소단위로 모을 수 있다.
따라서, 훈련용 데이터를 다시 CI 음소단위로 모은 후에, HMM 훈련과정을 거치면 CI 음소단위의 HMM이 생성된다. 이후에, CI HMM을 음소인식기의 기준패턴으로 사용하고, CD 음소를 입력으로 하여 음소인식 테스트하면 각 CD 음소에 대해서 어떤 CI 음소들로 오인식되는지를 알 수 있다. 그리고, 이 결과가 바로 CI 음소들로 구성되는 CD 음소에 대한 유사음소 집합이 된다.
이러한 유사음소 집합은 CD 음소단위로 생성되지만 그 구성 요소가 CI 음소들이기 때문에 CD 음소처럼 많은 양의 훈련 데이터를 요구하지 않게 된다.
마지막으로, 이러한 유사음소 집합에 의거하여 HMM 훈련을 시키게 되면 CD 음소에 대해서 반음소모델이 생성된다.
따라서, 이 방법을 사용하여 반음소모델을 구축할 경우에, 본 발명은 CD 음소를 CI 음소에 의해 훈련시키기 때문에 적은 훈련데이터로 더 좋은 성능을 보이게 되고, 또한 CI 음소단위의 반음소모델을 구축할 때보다 더 좋은 성능을 보이게 된다.
상기한 바와 같은 본 발명에 따른 발화검증을 위한 반음소모델을 구축하는 방법을 구체적으로 살펴보면 다음과 같다.
도 2에 도시된 바와 같이, 본 발명에 따른 발화검증을 위한 반음소모델 구축방법은, 먼저 입력되는 음성데이터에서 음성인식에 필요한 특징을 추출한다(201).
이후, 특징 추출된 음성데이터를 CD 음소단위로 음소 분할하고 같은 음소별로 모아서 분류한 후에(202), 분류된 음소를 훈련용과 테스트용으로 구분한다(203).
다음으로, 훈련용 CD 음소에 대해서 CI 음소별로 모아서 CI 음소단위의 음소 집합을 수집한 후에(204), 수집된 훈련용 데이터로 HMM 훈련과정을 거쳐서 CI 음소에 대한 HMM을 구축한다(206).
이어서, CD 음소단위로 모아진 테스트용 데이터를 입력으로 사용하고 CI 음소에 대한 HMM을 기준 패턴으로 사용하여 음소인식 테스트를 실행하여(207) 각 CD 음소에 대해서 어떤 CI 음소들로 오인식되는지를 알려주는 유사음소 집합을 구한다(208). 즉, 음소인식 테스트시에, 입력이 CD 음소이고 기준패턴이 CI 음소였기 때문에, CD 음소에 대한 CI 음소로 구성되는 유사음소 집합을 구할 수 있다.
마지막으로, 각 CD 음소에 대해서 유사음소 집합으로 HMM 훈련을 거쳐 반음소에 대한 HMM을 구축한다(209).
도 3 은 본 발명에 따른 반음소모델 구축과정을 이용한 발화 검증방법에 대한 일실시예 흐름도이다.
도 3에 도시된 바와, CI 음소와 CD 음소를 결합하여 CD 음소단위의 반음소모델을 구축하는 과정(도 2 참조)을 이용한 본 발명에 따른 발화 검증방법은, 먼저 음성이 입력되면 끝점검출기(11)에서 음성의 끝점을 검출하여 음성이 존재하는 부분만 추출한다(301).
이후, 특징추출기(12)가 추출된 음성 부분에서 음성인식에 필요한 특징을 추출한 후에(302), 추출된 음성데이터에 대해 비터비 탐색기(13)에서 발음사전(14)과 CD 음소모델(15)을 참조하여 비터비 탐색과정을 거쳐 음성인식을 수행한다(303).
다음으로, 음성인식된 음성데이터에 대해 발화검증기(16)에서 CD 반음소모델(17)과 CD 음소모델(15)을 참조하여 신뢰도를 구하고, 이로부터 발화검증을 수행한다(304). 이때, 구한 신뢰도 값이 소정의 임계치와 비교하여(305), 신뢰도 값이 임계치보다 크면 인식된 결과를 받아들이고(306), 신뢰도 값이 임계치보다 크지 않으면 인식된 결과를 거절한다(307).
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기한 바와 같은 본 발명은, CI 음소와 CD 음소를 혼합적으로 사용하여 반음소모델을 구축하므로써, 보다 정확하게 반음소를 모델링할 수 있고, CD를 CI에 의해 훈련시키기 때문에 적은 양의 훈련데이터로도 효율적인 CD 반음소모델을 구축할 수 있어, 기존의 CI 음소단위의 반음소모델을 사용하거나 CD 음소만을 이용하여 CD 음소단위의 반음소모델을 구축하는 경우에 비해 시스템의 발화검증 기능을 향상시킬 수 있는 효과가 있다.

Claims (7)

  1. 음성인식시스템에 적용되는 발화검증을 위한 반음소모델 구축 방법에 있어서,
    외부로부터 입력되는 음성데이터에서 음성인식에 필요한 특징을 추출하여 문맥종속(CD) 음소단위로 분할하고 같은 음소별로 모아 분류하여 분류된 음소를 훈련용 문맥종속 음소와 테스트용 문맥종속 음소로 구분하는 제 1 단계;
    상기 훈련용 문맥종속 음소를 문맥독립(CI) 음소단위로 수집하여 훈련을 통해 문맥독립 음소모델을 구축하는 제 2 단계; 및
    상기 테스트용 문맥종속 음소와 상기 문맥독립 음소모델을 기준으로 음소인식 테스트를 실행하여 유사음소 집합을 구하고, 각 문맥종속 음소에 대해 유사음소 집합으로 훈련을 통해 반음소모델을 구축하는 제 3 단계
    를 포함하여 이루어진 반음소모델 구축 방법.
  2. 제 1 항에 있어서,
    상기 제 2 단계는,
    상기 훈련용 문맥독립 음소에 대해서 문맥독립 음소별로 모아서 문맥독립 음소단위의 음소 집합을 수집하는 제 4 단계; 및
    수집된 훈련용 데이터로 은닉 마르코프 모델(HMM) 훈련을 통해 문맥독립 음소에 대한 은닉 마르코프 모델을 구축하는 제 5 단계
    를 포함하여 이루어진 반음소모델 구축 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 제 3 단계는,
    상기 문맥종속 음소단위로 모아진 테스트용 데이터를 입력으로 하고 상기 문맥독립 음소에 대한 상기 은닉 마르코프 모델(HMM)을 기준 패턴으로 사용하여 음소인식 테스트를 실행하므로써, 각 문맥종속 음소에 대해서 어떤 문맥독립 음소들로 오인식되는지를 알려주는 유사음소 집합을 구하는 제 6 단계; 및
    각 CD 음소에 대해서 유사음소 집합으로 은닉 마르코프 모델 훈련을 통해 반음소에 대한 은닉 마르코프 모델을 구축하는 제 7 단계
    를 포함하여 이루어진 반음소모델 구축방법.
  4. 음성인식시스템에 적용되는 발화 검증방법에 있어서,
    음성이 입력되면 음성의 끝점을 검출하여 음성이 존재하는 부분만 추출하고, 추출된 음성 부분에서 음성인식에 필요한 특징을 추출하는 제 1 단계;
    추출된 음성데이터에 대해 발음사전과 문맥종속 음소모델을 참조하여 비터비 탐색을 통해 음성인식을 수행하는 제 2 단계; 및
    음성인식된 음성데이터에 대해 문맥종속 반음소모델과 문맥종속 음소모델을 참조하여 구한 신뢰도를 바탕으로 발화검증을 수행하는 제 3 단계
    를 포함하여 이루어진 발화 검증방법.
  5. 제 4 항에 있어서,
    상기 문맥종속 반음소모델을 구축하는 과정은,
    외부로부터 입력되는 음성데이터에서 음성인식에 필요한 특징을 추출하여 문맥종속(CD) 음소단위로 분할하고 같은 음소별로 모아 분류하여 분류된 음소를 훈련용 문맥종속 음소와 테스트용 문맥종속 음소로 구분하는 제 4 단계;
    상기 훈련용 문맥종속 음소를 문맥독립(CI) 음소단위로 수집하여 훈련을 통해 문맥독립 음소모델을 구축하는 제 5 단계; 및
    상기 테스트용 문맥종속 음소와 상기 문맥독립 음소모델을 기준으로 음소인식 테스트를 실행하여 유사음소 집합을 구하고, 각 문맥종속 음소에 대해 유사음소 집합으로 훈련을 통해 반음소모델을 구축하는 제 6 단계
    을 포함하여 이루어진 발화 검증방법.
  6. 프로세서를 구비한 반음소모델 구축장치에,
    외부로부터 입력되는 음성데이터에서 음성인식에 필요한 특징을 추출하여 문맥종속(CD) 음소단위로 분할하고 같은 음소별로 모아 분류하여 분류된 음소를 훈련용 문맥종속 음소와 테스트용 문맥종속 음소로 구분하는 기능;
    상기 훈련용 문맥종속 음소를 문맥독립(CI) 음소단위로 수집하여 훈련을 통해 문맥독립 음소모델을 구축하는 기능; 및
    상기 테스트용 문맥종속 음소와 상기 문맥독립 음소모델을 기준으로 음소인식 테스트를 실행하여 유사음소 집합을 구하고, 각 문맥종속 음소에 대해 유사음소 집합으로 훈련을 통해 반음소모델을 구축하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  7. 프로세서를 구비한 발화 검증장치에,
    음성이 입력되면 음성의 끝점을 검출하여 음성이 존재하는 부분만 추출하고, 추출된 음성 부분에서 음성인식에 필요한 특징을 추출하는 제1 기능;
    추출된 음성데이터에 대해 발음사전과 문맥종속 음소모델을 참조하여 비터비 탐색을 통해 음성인식을 수행하는 제2 기능; 및
    음성인식된 음성데이터에 대해 문맥종속 반음소모델과 문맥종속 음소모델을 참조하여 구한 신뢰도를 바탕으로 발화검증을 수행하는 제3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019980043061A 1998-10-14 1998-10-14 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법 KR100298177B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980043061A KR100298177B1 (ko) 1998-10-14 1998-10-14 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980043061A KR100298177B1 (ko) 1998-10-14 1998-10-14 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법

Publications (2)

Publication Number Publication Date
KR20000025827A true KR20000025827A (ko) 2000-05-06
KR100298177B1 KR100298177B1 (ko) 2001-08-07

Family

ID=19554089

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980043061A KR100298177B1 (ko) 1998-10-14 1998-10-14 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법

Country Status (1)

Country Link
KR (1) KR100298177B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004072953A1 (en) * 2003-02-12 2004-08-26 Speechsoundnet Co., Ltd. Method for reducing computational quantity amount utterrance verification using anti-phoneme model
KR100557650B1 (ko) * 2002-09-25 2006-03-10 주식회사 케이티 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
KR100755483B1 (ko) * 2005-12-08 2007-09-05 한국전자통신연구원 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법
US7529665B2 (en) 2004-12-21 2009-05-05 Electronics And Telecommunications Research Institute Two stage utterance verification device and method thereof in speech recognition system
US8374869B2 (en) 2008-12-22 2013-02-12 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word N-best recognition result

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100557650B1 (ko) * 2002-09-25 2006-03-10 주식회사 케이티 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
WO2004072953A1 (en) * 2003-02-12 2004-08-26 Speechsoundnet Co., Ltd. Method for reducing computational quantity amount utterrance verification using anti-phoneme model
US7529665B2 (en) 2004-12-21 2009-05-05 Electronics And Telecommunications Research Institute Two stage utterance verification device and method thereof in speech recognition system
KR100755483B1 (ko) * 2005-12-08 2007-09-05 한국전자통신연구원 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법
US8374869B2 (en) 2008-12-22 2013-02-12 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word N-best recognition result

Also Published As

Publication number Publication date
KR100298177B1 (ko) 2001-08-07

Similar Documents

Publication Publication Date Title
KR100612839B1 (ko) 도메인 기반 대화 음성인식방법 및 장치
Kamppari et al. Word and phone level acoustic confidence scoring
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US9984677B2 (en) Bettering scores of spoken phrase spotting
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US6618702B1 (en) Method of and device for phone-based speaker recognition
US5218668A (en) Keyword recognition system and method using template concantenation model
EP0834862A2 (en) Method of key-phrase detection and verification for flexible speech understanding
KR20060070603A (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
KR20140079092A (ko) 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치
Gandhe et al. Using web text to improve keyword spotting in speech
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
JP3004023B2 (ja) 音声認識装置
Lecouteux et al. Combined low level and high level features for out-of-vocabulary word detection
KR100298177B1 (ko) 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법
Mengusoglu et al. Use of acoustic prior information for confidence measure in ASR applications.
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
KR20020045960A (ko) 음성인식에서 핵심어 검출 성능 개선 방법
CN112997247A (zh) 利用大数据的最佳语言模型生成方法及用于其的装置
KR100981540B1 (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
KR100366703B1 (ko) 인간 반응형 음성인식장치
JP2005173008A (ja) 音声解析処理およびそれを用いた音声処理装置および媒体
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
Sigmund Search for keywords and vocal elements in audio recordings

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130430

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20140508

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20150507

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20160503

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20170504

Year of fee payment: 17

LAPS Lapse due to unpaid annual fee