KR100717385B1 - 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 - Google Patents

인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 Download PDF

Info

Publication number
KR100717385B1
KR100717385B1 KR1020060012528A KR20060012528A KR100717385B1 KR 100717385 B1 KR100717385 B1 KR 100717385B1 KR 1020060012528 A KR1020060012528 A KR 1020060012528A KR 20060012528 A KR20060012528 A KR 20060012528A KR 100717385 B1 KR100717385 B1 KR 100717385B1
Authority
KR
South Korea
Prior art keywords
recognition
phoneme
vocabulary
distance
phoneme string
Prior art date
Application number
KR1020060012528A
Other languages
English (en)
Inventor
정상배
김남훈
한익상
최인정
장길진
정재훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060012528A priority Critical patent/KR100717385B1/ko
Priority to US11/495,562 priority patent/US8990086B2/en
Application granted granted Critical
Publication of KR100717385B1 publication Critical patent/KR100717385B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Artificial Intelligence (AREA)

Abstract

입력 음성 신호로부터 검출한 음소열에 매칭되는 최적한 개수의 인식 후보를 추출하고, 추출된 인식 후보간의 사전적 거리(Lexical Distance) 추정에 따른 음성 신호에 대한 등록 어휘 여부를 정확하게 수행할 수 있는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 개시한다. 인식 신뢰도 측정 방법은, 입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 단계와, 추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 단계와, 추출된 인식 후보간의 사전적 거리(lexical distance)를 추정하는 단계 및 상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 단계를 포함한다.
음성 인식, 신뢰도, 인식 후보, 사전적 거리, 음소열

Description

인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템{RECOGNITION CONFIDENCE MEASURING BY LEXICAL DISTANCE BETWEEN CANDIDATES}
도 1은 종래의 신뢰도 측정 기법에서 인식 후보를 추출하는 일례를 예시한 도면이다.
도 2는 본 발명의 일실시예에 따른 인식 신뢰도 측정 시스템을 나타내는 구성도이다.
도 3은 음소열 추출부에 의해 입력 음성 신호에서 특징 벡터를 검출하는 방법의 일례를 도시하는 도면이다.
도 4 및 도 5는 음소 혼동 행렬을 추정하는 일례를 설명하기 위한 흐름도이다.
도 6은 본 발명의 다른 실시예에 따른 인식 신뢰도 측정 방법을 도시한 흐름도이다.
도 7은 본 발명에 따른 인식 신뢰도 측정 방법의 일례를 계략적으로 도시한 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
200 : 인식 신뢰도 측정 시스템
210 : 음소열 추출부
220 : 인식 후보 추출부
230 : 거리 추정부
240 : 등록 여부 판단부
본 발명은 인식 후보간의 사전적 거리(Lexical Distance) 추정에 따른 음성 신호에 대한 등록 어휘 여부를 수행하는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템에 관한 것이다.
일반적으로 신뢰도 측정 기법에서, 음성 인식기에 대한 사용자의 편의성 향상을 위해서는 비등록 어휘의 거절과 관련한 오인식 거절이 중요하게 다루어져 오고 있다. 이러한 오인식 거절의 판단을 위해서는 입력된 음성 신호와 유사하다고 판단되는 소정 개의 인식 후보들을 추출하는 과정이 필연적으로 요구되고 있다.
도 1은 종래의 음성인식 기법에서 인식 후보를 추출하는 일례를 예시한 도면이다.
도 1에 도시한 바와 같이, 종래의 음성인식 기법은 입력된 음성 신호로부터 특징 정보를 검출하고, 검출된 특징 정보와 Acoustic knowledge를 이용하여 인식 후보를 추출한다. 즉, 종래의 음성인식 기법은 에서는 검출된 음성 신호로부터 추출된 특징벡터열을 어휘 트리(lexical tree)에 대입시키고, 어휘 탐색망에서 모든 어휘와의 음소 비교를 통해, 입력된 음성 신호와 근접하다고 판단되는 다량의 인식 후보를 추출하고 있다.
이러한 종래의 신뢰도 측정 기법은 탐색할 어휘 영역이 너무 넓어 불필요하게 하드웨어의 리소스를 소모시키는 문제점이 있다. 또한, 종래의 음성인식 기법 에서의 인식 후보 결정은 특징 벡터의 단위 시간 영역당 추출된 값을 이용하는 것으로, 음성의 인식 속도가 느려 대용량 임베디드형 고속 음성 인식에는 적합하지 않다.
만약, 기존의 어휘 트리 구조의 어휘 탐색망을 구성하지 않고, 발음열만을 이용하여 인식 후보를 추출할 수 있다면, 하드웨어의 리소스 소모를 최적화할 수 있을 것이다. 또한, 음성 신호의 발음열 기반으로 인식 후보를 검출한다면, 보다 고속의 음성 인식이 가능할 수 있을 것이다.
따라서, 음성의 발음열과 인식 대상 어휘의 발음열과의 유사도 계산을 통해, 최소 개수의 인식 후보만을 추출하여 사용자의 편의를 향상하고, 더불어 고속 음성 인식이 가능한 새로운 형태의 신뢰도 측정 모델의 등장이 절실하게 요구되고 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 입력 음성 신호의 특징 벡터로부터 검출한 음소열을 이용하여 음성 인식을 위한 인식 후보를 추출하는 하는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은, 음소 혼동 행렬을 이용하여 음성 신호의 음소열과 사전적 거리가 최적한 어휘의 음소열을 추출함으로써 최소의 인식 후보 개수를 제시하고 사용자의 편의성을 향상시키는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은, 인식 후보 간의 사전적 거리 추정을 이용하여 입력 음성 신호에 대한 등록 여부 및 오인식 거절을 보다 명확하게 수행하는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 제공하는 것을 목적으로 한다.
상기의 목적을 이루기 위한 본 발명에 따른 인식 신뢰도 측정 방법은, 입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 단계와, 추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 단계와, 추출된 인식 후보간의 사전적 거리(lexical distance)를 추정하는 단계, 및 상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 기술적 구성으로서 인식 신뢰도 측정 시스템은, 입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 음소열 추출부와, 추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 인식 후보 추출부와, 추출된 인식 후보간의 사전적 거리를 추정하는 거리 추정부, 및 상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 등록 여부 판단부를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여, 본 발명에 따른 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템에 대하여 설명한다.
도 2는 본 발명의 일실시예에 따른 인식 신뢰도 측정 시스템을 나타내는 구성도이다.
본 발명의 인식 신뢰도 측정 시스템(200)은 입력 음성 신호로부터 추출한 음소열을 이용하여 최적수의 인식 후보를 검색하고, 검색된 인식 후보간의 사전적 거리(Lexical Distance)의 추정을 통해 음성 신호를 등록 어휘 또는 비등록 어휘로 판단하는 역할을 한다. 이러한 과정을 통해 인식 신뢰도 측정 시스템(200)은 비등록 어휘로 판단된 음성 신호에 대한 오인식 거절을, 낮은 에러율로서 수행할 수 있고, 더불어 사용자에게 보여줄 인식 후보의 개수를 축소시켜 사용자의 편의를 향상시킬 수 있다.
본 발명의 인식 신뢰도 측정 시스템(200)은 음소열 추출부(210), 인식 후보 추출부(220), 거리 추정부(230), 및 등록 여부 판단부(240)를 포함할 수 있다.
음소열 추출부(210)는 입력 음성 신호의 특징 벡터로부터 음소열을 추출한다. 즉, 음소열 추출부(210)는 음성 신호에 대한 특징 정보를 포함하는 특징 벡터를 검출하고, 검출된 특징 벡터를 활용하여 상기 음성 신호를 구성하는 음소열을 추출하는 역할을 한다.
우선, 도 3을 참조하여, 음소열 추출부(210)가 입력 음성 신호로부터 특징 벡터를 검출하는 일례에 대해 설명한다.
도 3은 본 발명의 음소열 추출부에 의해 입력 음성 신호에서 특징 벡터를 검출하는 방법의 일례를 도시하는 도면이다.
도 3을 참조하면, 단계 S310에서 음소열 추출부(210)는 음성 신호에 대한 특징 벡터를 추출하기 위해, 입력되는 음성 신호를 소정의 프레임 단위로 구획한다.
단계 S320에서 음소열 추출부(210)는 음성 신호를 주파수 영역에서 분석하기 위해 상기 단계 S310에서 프레임 단위로 구획한 음성 신호 각각에 대해 FFT(Fast Fourier Transform)을 수행한다.
단계 S330에서 음소열 추출부(210)는 상기 FFT를 수행한 음성 신호에 대해 청각의 섬모 세포 신호 처리를 모방하여 주파수 영역 필터링을 수행한다.
단계 S340에서 음소열 추출부(210)는 상기 필터링된 음성 신호에 대한 동적 범위를 줄이기 위해 Log 압축, 각 밴드 내 신호들 사이의 상관성을 없애기 위해 DCT(Discrete Cosine Transform), 상기 각 밴드 내 신호들이 제로 평균(zero mean), 단위 분산(unit variance)이 되도록 평균 분산 정규화(Mean Variance Normalization)를 수행한다.
단계 S350에서 음소열 추출부(210)는 히스토그램(histogram)의 정규화를 통해 입력 음성 신호에 대한 특징 벡터를 검출한다. 즉, 단계 S350에서 음소열 추출부(210)는 음성 신호의 통계적 특성이 모델 벡터와 유사해지도록 하기 위해 히스토그램을 정규화한다. 예컨대, 음소열 추출부(210)는 상기 일련의 단계(S310 내지 S340)를 거친 음성 신호에 대해, 스태틱 히스토그램 정규화, 델타 히스토그램 정규화 및 액셀레이션 히스토그램 정규화를 수행하여 13차의 스태틱 계수, 13차의 델타 계수 및 13차의 액셀레이션 계수를 획득함으로써 입력 음성 신호에 대한 39차 cepstrum을 검출할 수 있다.
상기 검색된 39차 특징 벡터는 입력 음성 신호와 가장 유사한 음소열을 추출하는 데에 활용될 수 있다.
즉, 음소열 추출부(210)는 소정의 언어별 음소 결합법칙을 이용하여, 상기 검출된 특징 벡터로부터 각 언어에 따른 최적화된 음소열을 추출한다. 예컨대, 음소열 추출부(210)는 검출된 특징 벡터를 스칼라(scalar) 값으로 변경하여 39차 cepstrum 벡터열을 분석하여 알파벳 중 최적한 하나의 문자(예, /a/)로 인지할 수 있다. 또한, 한글의 초/중/종성의 결합법칙을 소정의 음소 문법기(phone grammar)에 저장해 놓은 환경에서, 음소열 추출부(210)는 한글이라는 언어적 특성을 고려하여 검출된 특징 벡터를 소정의 한글 음소로 인지할 수 있다. 이러한 과정을 통해, 음소열 추출부(210)는 한글의 경우, 45개 내외의 음소열을 추출할 수 있다.
음소열 추출의 다른 예로서, 음소열 추출부(210)는 음소 인식률이 비교적 높은 acoustic HMM(Hidden Markov Model)을 이용하여 음소열을 추출할 수도 있다. 상기 acoustic HMM은 음소를 모델링하는 기법으로, 소정의 음성인식 엔진으로 들어오는 음소와 음성인식 엔진내의 DB에 보유되는 음소를 결합하여 단어와 문장을 만드는 방식이다. 특히, 본 실시예에서의 acoustic HMM은 음소의 인식률을 높이기 위해 triphone을 사용하고 있으며, 또한 긴 모음에 대한 모델링의 경우 삽입(insertion)이 잘 발생하기 때문에 페널티(penalty)를 부여하여 모델링에 대한 보정이 가능하도록 한다.
즉, 음소열 추출부는 입력 음성 신호에서 검출한 특징 벡터를 이용하여, 소정길이의 음소열을 추출한다.
인식 후보 추출부(220)는 추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출한다. 즉, 인식 후보 추출부(220)는 사전에 단어집합에 등록되어 유지되는 복수 어휘의 음소열 중에서, 음성 신호의 음소열과 연관되는 음소열을 인식 후보로서 선별하는 역할을 한다. 상기 인식 후보의 추출에 있어서, 인식 후보 추출부(220)는 단어집합 내에 존재하는 어휘의 음소열 및, 음소인식 결과로 추출된 음성 신호의 음소열과의 유사도를 계산하고, 계산된 유사도에 기초하여 인식 후보를 추출한다.
상기 유사도 계산에 있어서, 인식 후보 추출부(220)는 단어집합 내에 존재하는 어휘의 음소열과 음소인식 결과로 추출된 음성 신호의 음소열의 길이가 상이하다는 조건하에서, 유사도를 비교할 음소의 쌍을 결정할 필요에 따라 동적 정합을 수행한다.
즉, 동적 정합은 음성 인식으로 추출된 음소열의 임의 음소에 대해 상기 유사도를 비교할 단어집합 내 어휘의 특정 음소를 결정하는 과정을 지칭할 수 있다. 예컨대, 음성 신호의 음소열이 「a0, a1, a2, a2', a3, a4」이고, 어휘의 음소열이 「a0, a0', a1, a2, a2', a3」일 경우, 인식 후보 추출부(220)는 음성 신호의 음소열 중 3번째 음소인 「a2」에 대한 동적 정합을 통해, 동일하게 3번째 음소인 「a1」이나 형태가 일치하는 「a2」를 비교할 음소의 쌍으로 결정할 수 있다. 즉, 인식 후보 추출부(220)는 상기 「a2」에 대한 동적 조합을 수행하여 (a2, a1) 및 (a2, a2)를 정합쌍(matching pair)으로 결정할 수 있다.
이후, 인식 후보 추출부(220)는 결정된 정합쌍을 음소 혼동 행렬(phone confusion matrix)에 대입시켜, 어휘의 음소열과 음성 신호의 음소열 간의 유사도를 계산한다. 여기서, 음소 혼동 행렬은 정합쌍으로 포함되는 음소간의 일치 정도에 따라 거리(distance)를 수치로 설정하는 것으로, 예컨대 음소간의 일치 정도 높을수록 상기 거리가 비례하여 작아지도록 설정할 수 있다.
인식 후보 추출부(220)는 상기 음소 혼동 행렬에 의해, 음성 신호의 음소열과 소정 어휘의 음소열과의 거리에 관한 정보로 획득하며, 획득된 거리 정보를 통해 높은 유사도를 갖는(음성 신호와의 거리가 상대적으로 작은) 어휘의 음소열을 인식 후보로서 단어집합에서 추출할 수 있다.
도 4 및 도 5는 본 발명에 따른 음소 혼동 행렬을 추정하는 일례를 설명하기 위한 작업 흐름도이다.
상술한 바와 같이, 음소 혼동 행렬은 일치 정도에 따라 두 음소 간의 거리를 결정하기 위한 것이다. 음소 혼동 행렬은 예컨대 본 시스템을 구현하는 설계자 또는 본 발명의 인식 신뢰도 측정 시스템(200)에 의해 추정될 수 있으며, 본 실시예에서는 인식 신뢰도 측정 시스템(200)에 의해 음소 혼동 행렬이 추정되는 것을 예시하여 설명한다.
음소 혼동 행렬을 추정하는 일례로서, 도 4의 실시예에서는 음소 혼동 행렬로의 거리 설정에 있어서, 지속적인 업데이트 과정을 통해 음소간의 거리를 보다 정확히 하여 음소 혼동 행렬을 추정하는 것을 예시한다.
단계 S410에서 인식 신뢰도 측정 시스템(200)은 음소 대 음소(Phone-by-phone) 유사도에 초기치를 할당한다. 즉, 단계 S410에서 인식 신뢰도 측정 시스템(200)은 임의 두 음소 간의 거리에 대한 초기값을 부여한다.
단계 S420에서 인식 신뢰도 측정 시스템(200)은 훈련 DB에 대해서 음소 인식을 수행하여, 상기 초기치를 정확한 값으로 보정한다. 상기 초기치의 보정에 있어서, 인식 신뢰도 측정 시스템(200)은 후술하는 단계 S432 내지 S436을 반복 수행함에 따라 수렴되는 일정한 값을 이용하여 초기치를 보정할 수 있다.
즉, 인식 신뢰도 측정 시스템(200)은 단계 S432에서, 음소 인식의 결과와 상기 훈련 DB의 어휘에 해당하는 음소열과의 동적 정합을 시행한다.
또한, 인식 신뢰도 측정 시스템(200)은 단계 S434에서, 역추적(back tracking)으로 최적의 정합쌍(matching pair)을 추정함으로써 비교 대상이 되는 음소를 각각 음소열 중에서 결정한다.
단계 S436에서 인식 신뢰도 측정 시스템(200)은 상기 음소 대 음소의 정합 횟수 추정 및 유사도를 갱신한다. 즉, 단계 S436에서 인식 신뢰도 측정 시스템(200)은 정합쌍에 대한 유사도를 복수 회 산출하고, 산출되는 유사도의 수치가 일정한 값으로 수렴되는 것을 확인한다. 이후, 인식 신뢰도 측정 시스템(200)은 상기 수렴된 일정한 값을 이용하여 최초 설정한 초기치에 대한 갱신처리를 수행함으로써 본 발명의 음소 혼동 행렬로의 거리 설정을 추정할 수 있다.
음소 혼동 행렬을 추정하는 다른 일례로서, 도 5의 실시예에서는 HMM을 이용하여 음소간의 거리를 설정하고 음소 혼동 행렬을 추정하는 것을 예시한다.
단계 S510에서 인식 신뢰도 측정 시스템(200)은 훈련 DB를 이용하여 음소별 연속 HMM(Continuous HMM) 또는 준연속 HMM(Semi-Continuous HMM)를 추정한다.
이후, 인식 신뢰도 측정 시스템(200)은 단계 S520에서 상기 추정된 HMM 속성에 따라 음소 대 음소(Phone-by-phone) 거리를 추정한다. 즉, 단계 S520에서 인식 신뢰도 측정 시스템(200)은 상기 음소 대 음소 거리 추정에 있어서, 추정된 HMM가 연속 HMM인지 또는 준연속 HMM인지를 식별하고 식별된 HMM의 속성에 따라 상이하게 도출되는 결과 정보를 이용하여 음소 대 음소 거리를 추정할 수 있다.
만약, 상기 단계 S510에서 식별된 HMM의 속성이 연속 HMM일 경우, 인식 신뢰도 측정 시스템(200)은 Bhattacharya distance를 음소 대 음소의 거리로 사용하여, 음소 혼동 행렬로의 거리(유사도)를 설정할 수 있다(S522).
반면, 상기 단계 S510에서 식별된 HMM의 속성이 준연속 HMM일 경우, 인식 신뢰도 측정 시스템(200)은 단계 S524에서와 같이, 정보 손실량을 예측하고 이를 활용하여 음소 혼동 행렬로의 거리(유사도)를 설정할 수 있다.
인식 후보 추출부(220)는 상술의 방법으로 추정된 음소 혼동 행렬을 통해 음성 신호의 음소열과 일정 수준의 유사도를 갖는 어휘의 음소열을 인식 후보로서 복수 개 추출할 수 있다. 예컨대, 음성 신호 '삼성'에 대해 음소열 'ㅅ, ㅏ, ㅁ, ㅅ, ㅓ, ㅇ'이 추출되는 경우, 인식 후보 추출부(220)는 단어집합 중에서 상기 추출된 음소열과 높은 유사도를 갖는 어휘 '삼성', '삼송', '상성' 등의 음소열들을 인식 후보로서 단어집합에서 추출할 수 있다.
특히, 본 발명의 인식 후보 추출부(220)는 인식 후보의 추출에 있어서, 상 기 거리에 소정의 가중치를 부여하여 보다 정확한 유사도의 계산이 이루어지도록 할 수 있다. 음성 인식시, 어휘간의 변별도가 모든 음소(음소열의 음소)에서 균일하다 할 수 없고, 이러한 판단하에서 인식 후보 추출부(220)는 음소별 상이한 변별도를 상기 유사도의 계산에 반영되도록 하기 위해 소정 크기의 가중치를 부가한다.
즉, 인식 후보 추출부(220)는 훈련 DB를 음성 인식기의 입력으로 하여 후보간의 음소 대 음소의 정합쌍을 추정한 후, 정합되는 음소별로 가중치를 기 설정된 거리에 곱하여 상기 정합쌍의 거리를 다시 계산할 수 있다. 예컨대, 인식 후보 추출부(220)는 자음보다 모음에 더 많은 정보가 있다고 판단하고, 상기 모음의 정합쌍과 관련하여 설정된 거리에 가중치를 부가할 수 있다. 이에 따라, 상기 모음의 정합쌍과 관련하여 설정된 거리가, 상기 자음의 정합쌍과 관련하여 설정된 거리보다 정보로서 가치가 높게 평가되도록 할 수 있다.
또한, 인식 후보 추출부(220)는 같은 모음이더라도 변별도에 차이가 있다는 판단하에서, 모음에 따라 부가되는 가중치를 상이하게 할 수도 있다. 예컨대, 이중모음이 단모음 보다 높은 변별도가 있다고 판단할 수 있으며, 인식 후보 추출부(220)는 상기 이중 모음의 정합쌍과 관련하여 설정된 거리에 부과되는 가중치가, 상기 단모음의 정합쌍과 관련하여 설정된 거리에 부과되는 가중치가 보다 높게 되도록 설정할 수 있다.
이하, 수학식 1을 참조하여, Steepest descent rule을 이용한 최적 가중치(weight)의 추정에 대해 설명한다.
Figure 112006009604481-pat00001
상기 수학식 1의 cost function을 최대화 한 이후, 각 음소별 또는 음속 대 음소에 대해서 가중치를 정의하였다면, 수학식 2와 같다.
Figure 112006009604481-pat00002
상기 수학식 2는 time n에서 k-th 가중치에 대한 update rule로 정의할 수 있다.
수학식 1 및 수학식 2에서, 초기 가중치는 균일하게 1로 설정할 수 있다.
또한, cost function J는 Equal-error-rate와 연관성이 큰 함수이므로 그 값이 충분히 수렴하였을 때의 가중치를 최적한 값으로 사용할 수 있다.
거리 추정부(230)는 추출된 인식 후보간의 사전적 거리(Lexical distance)를 추정한다. 즉, 거리 추정부(230)는 인식 후보로 추출된 어휘의 음소열 중에서 복수 개의 음소열(인식 후보쌍)에 대한 동적 정합을 수행하여 인식 후보쌍에 대한 스코어를 연산한다. 또한, 거리 추정부(230)는 상기 인식 후보쌍에 대해 연산된 스코어를 이용하여 사전적 거리를 추정하는 역할을 한다.
여기서 거리 추정부(230)의 상기 동적 정합은 인식 후보 추출부(220)에서 수행한 동적 정합과 유사하거나 동일한 방식으로 수행될 수 있다. 단, 거리 추정부(230)의 동적 정합에서는 음성 인식으로 검출된 음성 신호의 음소열은 사용하지 않고, 인식 후보로 추출된 어휘의 음소열 만을 이용하여 인식 후보 간의 거리(distance)를 추정한다. 즉, 거리 추정부(230)는 음소 혼동 행렬을 이용하여 인식 후보쌍에 대한 스코어를 연산한다.
등록 여부 판단부(240)는 거리 추정부(230)에서 추정한 상기 사전적 거리에 기초하여 등록 어휘 여부를 결정한다. 즉, 등록 여부 판단부(240)는 연산된 스코어가 설정된 수치를 만족하는 경우, 상기 입력 음성 신호를 등록 어휘로 판단한다. 이때, 등록 여부 판단부(240)는 상기 등록 어휘로 판단되는 인식 후보쌍만을 제시함으로써 음성 인식 과정에서의 사용자 편의성을 크게 향상시킬 수 있다.
반면, 연산된 스코어가 설정된 수치를 만족하지 않는 경우, 등록 여부 판단부(240)는 상기 입력 음성 신호를 비등록 어휘로 판단한다. 상기 판단 과정에서 등록 여부 판단부(240)는 상기 비등록 어휘를 판단하는 입력 음성 신호에 대해 오인식 거절을 수행한다.
따라서 본 발명의 인식 신뢰도 측정 시스템(200)에 따르면, 검출되는 인식 후보의 개수를 적게 제시할 수 있으며, 또한 오인식 거절을 명확하게 수행되도록 함으로써 사용자의 편의성을 재고시킬 수 있다.
또한, 음성 신호 등록 여부 판단에 있어서, 등록 여부 판단부(240)는 인식 후보쌍에 대해 산출된 스코어에 소정의 가중치를 부가하여 보다 정확한 인식 후보간의 거리 추정이 가능하도록 할 수 있다.
등록 여부 판단부(240)의 동적 정합에 따라 최적한 음소 정합쌍(phone matching pair)이 검출되는 경우, 인식 후보쌍에 대한 스코어는 수학식 3과 같이 산출될 수 있다.
Figure 112006009604481-pat00003
상술한 바와 같이, 인식 후보쌍에 대한 최초 스코어 xi는 음소 혼동 행렬(PCM)을 이용하여 산출될 수 있다.
이후, 등록 여부 판단부(240)는 산출된 스코어에 가중치를 적용하여 수학식 4와 같은 보정된 스코어를 산출할 수 있다.
Figure 112006009604481-pat00004
수학식 4에서 W는 정합된 음소 사이의 최적한 가중치 값(weight value)으로 정의할 수 있다.
따라서, 본 발명에 따르면, 스코어의 보정을 통해 인식 후보간에 사전적 거리를 정확하게 추정하고 이를 통해 음성 신호에 대한 등록 여부를 보다 명확하게 판단하는 환경을 마련할 수 있다.
이하, 본 발명의 실시예에 따른 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 시스템의 작업 흐름을 상세히 설명한다.
도 6은 본 발명의 일실시예에 따른 인식 신뢰도 측정 방법을 구체적으로 도시한 작업 흐름도이다.
본 발명의 인식 신뢰도 측정 방법은 상술한 인식 신뢰도 측정 시스템에 의해 수행될 수 있다.
우선, 인식 신뢰도 측정 시스템(200)은 음성 신호의 특징을 추출한다(S610). 본 단계(S610)는 입력된 음성 신호에 대한 특징 벡터를 검출하는 과정이다. 단계 S610에서의 인식 신뢰도 측정 시스템(200)은 FFT(Fast Fourier Transform) 등을 이용하여 입력 음성 신호의 특징 정보를 포함하는 39차의 cepstrum을 검출할 수 있다.
또한, 인식 신뢰도 측정 시스템(200)은 추출된 음성 신호의 특징을 이용하여 음소열을 추출한다(S620). 본 단계(S620)는 입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 과정(Phonetic decoding)으로, 예컨대 특징 벡터를 스칼라 값으로 바뀌어 음성의 발음과 연관되는 음소를 특정함으로써 음소열을 추출할 수 있다. 단계 S620에서 인식 신뢰도 측정 시스템(200)은 음소 문법기(phone grammar)에 의한 소정의 언어별 음소 결합법칙, HMM(Hidden Markov Model), acoustic knowledge 등을 이용하여 각 언어에 따른 최적화된 음소열을 추출할 수 있다.
다음으로 인식 신뢰도 측정 시스템(200)은 추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출한다(S630). 본 단계(S630)는 추출된 음성 신호의 음소열과 어휘의 음소열 간의 유사도를 계산하고, 상기 계산된 유사도에 기초하여 단어집합에서 어휘의 음소열을 추출하는 과정(Lexical decoding)이다. 상기 유사도 계산에 있어서, 인식 신뢰도 측정 시스템(200)은 음성 신호의 음소열과 어휘의 음소열에 대한 동적 정합을 수행하여 매칭할 음소의 쌍(정합쌍)을 결정하며, 결정된 음소의 쌍(정합쌍)을 음소 혼동 행렬에 대입시켜 음성 신호의 음소열과 어휘의 음소열 간의 거리를 추정함으로써 상기 유사도를 계산할 수 있다.
또한, 인식 신뢰도 측정 시스템(200)은 추출된 인식 후보간의 사전적 거리(Lexical distance)를 추정한다(S640). 본 단계(S640)는 추출된 인식 후보 중에서 인식 후보쌍을 선별하고, 선별된 인식 후보쌍에 대한 동적 정합을 수행하는 과정이 다. 예컨대, 인식 후보로 추출된 어휘의 음소열 중에서 음성 신호와 유사도가 가장 높은 최상위 음소열 및 차상위 음소열을 선별하고, 선별된 두 음소열에 대한 동적 정합을 통해 비교할 음소 정합쌍(phone matching pair)을 결정한다. 이후, 인식 신뢰도 측정 시스템(200)은 결정된 음소 정합쌍을 음소 혼동 행렬에 대입시켜 두 인식 후보에 대한 스코어를 연산하고, 연산된 스코어를 이용하여 인식 후보간의 사전적 거리를 추정한다.
계속해서, 인식 신뢰도 측정 시스템(200)은 상기 연산된 스코어에 대해 소정의 가중치를 반영하여 스코어를 보정한다(S650). 본 단계(S650)는 인식 후보간의 거리를 보다 정확하게 계산하기 위해 이전에 계산된 스코어를 보정하는 과정으로, 예컨대 음소간의 변별도를 고려하여 수학식 4와 같은 가중치(Phone matching weight)를 음소 마다 곱하여 스코어를 다시 계산할 수 있다.
또한, 인식 신뢰도 측정 시스템(200)은 사전적 거리에 기초하여 등록 어휘 여부를 결정한다(S660). 본 단계(S660)는 연산된 스코어를 이용하여 음성 신호의 등록 여부(예, 단어집합(dictionary)에 음성 신호와 관련된 어휘가 등록되어 있는지에 대한 여부)를 판단하는 과정이다.
즉, 단계 S660에서의 인식 신뢰도 측정 시스템(200)은 상기 연산된 스코어가 설정된 수치를 만족하는 경우(S660의 Yes 방향), 입력 음성 신호를 등록 어휘로 판단하고, 반면 상기 연산된 스코어가 설정된 수치를 만족하지 않는 경우(S660의 No 방향), 상기 입력 음성 신호를 비등록 어휘로 판단한다. 이를 통해, 인식 신뢰도 측정 시스템(200)은 비등록 어휘로 판단되는 음성 신호에 대해 오인식 거절을 명확하기 수행할 수 있는 환경을 마련한다.
따라서, 본 발명에 의하면, 입력 음성 신호에 대해 추출된 음소열과 음소 혼동 행렬을 이용한 어휘를 검색할 수 있고, 인식 후보 간의 사전적 거리 추정을 통해 오인식 거절을 명확하게 수행하며, 더불어 사용자에게 보여줄 인식 후보의 개수를 축소시키는 효과를 얻을 수 있다.
도 7은 본 발명에 따른 인식 신뢰도 측정 방법의 일례를 계략적으로 도시한 도면이다.
우선, 인식 신뢰도 측정 시스템(200)은 입력 음성 신호로부터 특징 벡터를 추출하고, 추출된 특징 벡터 및 acoustic knowledge를 참조하여 phonetic decoder에서 음성 신호의 음소열을 추출한다. 도 7에서는 입력 음성 신호의 특징 벡터로부터 소정의 알파벳을 추출하는 것을 예시한다.
이후, 인식 신뢰도 측정 시스템(200)은 추출된 음소열과 매칭되는 어휘의 음소열을 단어집합(dictionary)에서 검색하여 인식 후보로서 추출한다. 이러한 인식 후보의 추출은 Lexical decoder에서 음성 신호의 음소열 및 어휘의 음소열간의 유사도 비교를 통해 이루어질 수 있다. 상기 유사도 비교는 동적 정합을 통해 결정된 정합쌍(음성 신호의 소정 음소 및 어휘의 소정 음소간의 쌍)에 대한 사전적 거리를 추정하는 음소 혼동 행렬을 이용하여 수행될 수 있다. 인식 신뢰도 측정 시스템(200)은 음성 신호의 음소열과 소정 수준의 유사도를 갖는 어휘의 음소열을 인식 후보로 추출한다.
또한, 인식 신뢰도 측정 시스템(200)은 추출된 인식 후보 중에서 선별된 두 인식 후보에 대한 동적 정합을 통해 음소 정합쌍을 결정한다. 즉, 인식 신뢰도 측정 시스템(200)은 유사도가 최상위인 인식 후보 및 차상위인 인식 후보를 선별하고, 두 인식 후보의 음소들을 최적하게 매칭시키는 동적 정합을 수행한다.
또한, 인식 신뢰도 측정 시스템(200)은 상기 동적 정합으로 결정된 음소 정합쌍을 음소 혼동 행렬에 대입시켜, 인식 후보 간의 사전적 거리(Lexical distance)에 관한 스코어를 연산하고, 연산된 스코어가 설정된 수치를 만족하는지 여부에 따라 상기 입력 음성 신호를 등록 어휘(IV: In-Vocabulary) 또는 비등록 어휘(OOV: Out-Of-Vocabulary)로 판단한다.
이에 따라, 본 발명은 입력 음성 신호와 관련하여 추출된 인식 후보의 개수를 감소시켜 제시할 수 있고, 더불어 제시된 인식 후보 간의 사전적 거리의 추정을 통해 비등록 어휘에 대한 오인식 거절을 명확하게 수행할 수 있다.
본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명 령, 로컬 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
이상의 설명에서 알 수 있는 바와 같이, 본 발명에 따르면, 입력 음성 신호의 특징 벡터로부터 검출한 음소열을 이용하여 음성 인식을 위한 인식 후보를 추출하는 하는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 제공할 수 있다.
또한 본 발명에 따르면, 음소 혼동 행렬을 이용하여 음성 신호의 음소열과 사전적 거리가 최적한 어휘의 음소열을 추출함으로써 최소의 인식 후보 개수를 제시하고 사용자의 편의성을 향상시키는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 제공할 수 있다.
또한, 본 발명에 따르면, 인식 후보 간의 사전적 거리 추정을 이용하여 입력 음성 신호에 대한 등록 여부 및 오인식 거절을 보다 명확하게 수행하는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 제공할 수 있다.
10,000 단어급 음성 인식에서 등록어휘/비등록어휘의 분류오류를 평가하였 을 때, 종래 acoustic difference score의 방식 EER(Equal-Error-Rate) 30.6%, 종래 monophone filler network 기반 방식 EER 28.5%인 것에 비해, 본 발명의 인식 신뢰도 측정 방식에 의해서는 26.7%라는 비교적 낮은 EER을 가지고 음성 인식을 수행할 수 있다.
이러한 본 발명의 인식 신뢰도 측정 방식은 최신의 음소열 기반 대용량 음성 인식, 기존의 음성 인식 방식 중에서 인식 대상 어휘의 음소열을 인지하고 있을 시, 등에서 유연하게 적용할 수 있다. 또한, 본 발명의 인식 신뢰도 측정 방식은 특정 언어에 한정하지 않고 다양한 언어 인식에도 활용할 수 있다.
또한, 본 발명의 인식 신뢰도 측정 방식은 음성 인식에만 한정하지 않고, 인명, 지명, 숫자음, POI(point of interest) 등 모든 음성 인식에 적용할 수 있다.
더불어, 본 발명의 인식 신뢰도 측정 방식은 Lexical decoding 전에 인식 후보간의 거리를 고속으로 추정함으로써, 종래 Lexical decoding 후에 acoustic model에 의한 상세 검색을 수행하는 것보다 인식 후보를 대폭 감소시키고 리소스 소모를 현저히 줄일 수 있다.

Claims (21)

  1. 인식 신뢰도 측정 방법에 있어서,
    입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 단계;
    추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 단계;
    추출된 인식 후보간의 사전적 거리(lexical distance)를 추정하는 단계; 및
    상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 단계
    를 포함하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  2. 제1항에 있어서,
    입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 상기 단계는,
    소정의 언어별 음소 결합법칙 및 HMM(Hidden Markov Model)을 이용하여 각 언어에 따른 최적화된 음소열을 추출하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  3. 제1항에 있어서,
    추출된 음소열과 소정의 단어집합에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 상기 단계는,
    상기 추출된 음소열과 상기 어휘의 음소열 간의 유사도를 계산하는 단계; 및
    상기 계산된 유사도에 기초하여 상기 인식 후보를 추출하는 단계
    를 포함하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  4. 제3항에 있어서,
    상기 추출된 음소열과 상기 어휘의 음소열 간의 유사도를 계산하는 상기 단계는,
    소정의 방법으로 추정된 음소 혼동 행렬(phone confusion matrix)을 이용하여 상기 유사도를 계산하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  5. 제4항에 있어서,
    상기 음소 혼동 행렬을 추정하는 소정의 방법은,
    음소 대 음소(Phone-by-phone) 유사도에 초기치를 할당하는 단계; 및
    훈련 DB에 대해서 음소 인식을 수행하는 단계
    를 수행하는 방법인 것을 특징으로 하는 인식 신뢰도 측정 방법.
  6. 제5항에 있어서,
    훈련 DB에 대해서 음소 인식을 수행하는 상기 단계는,
    음소 인식의 결과와 상기 훈련 DB의 어휘에 해당하는 음소열과 동적 정합을 시행하는 단계;
    역추적(back tracking)으로 최적의 정합쌍(matching pair)을 추정하는 단계; 및
    상기 음소 대 음소의 정합 횟수 추정 및 상기 유사도를 갱신하는 단계
    를 포함하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  7. 제4항에 있어서,
    상기 음소 혼동 행렬을 추정하는 소정의 방법은,
    훈련 DB를 이용하여 음소별 연속 HMM(Continuous HMM) 또는 준연속 HMM(Semi-Continuous HMM)를 추정하는 단계; 및
    음소 대 음소(Phone-by-phone) 거리를 추정하는 단계
    를 수행하는 방법인 것을 특징으로 하는 인식 신뢰도 측정 방법.
  8. 제7항에 있어서,
    음소 대 음소(Phone-by-phone) 거리를 추정하는 상기 단계는,
    연속 HMM일 경우, Bhattacharya distance를 사용하는 단계; 및
    준연속 HMM일 경우, 정보 손실량을 추정하는 단계
    를 포함하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  9. 제1항에 있어서,
    추출된 인식 후보간의 사전적 거리를 추정하는 상기 단계는,
    상기 추출된 인식 후보 중에서 인식 후보쌍을 선별하는 단계;
    선별된 인식 후보쌍에 대한 동적 정합을 수행하는 단계;
    상기 동적 정합을 수행한 상기 인식 후보쌍에 대한 스코어를 연산하는 단계; 및
    상기 연산된 스코어를 이용하여 상기 사전적 거리를 추정하는 단계
    를 포함하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  10. 제9항에 있어서,
    상기 동적 정합을 수행한 상기 인식 후보쌍에 대한 스코어를 연산하는 상기 단계는,
    소정의 음소 혼동 행렬을 이용하여 상기 스코어를 연산하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  11. 제9항에 있어서,
    상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 상기 단계는,
    상기 연산된 스코어가 설정된 수치를 만족하는 경우, 상기 입력 음성 신호를 등록 어휘로 판단하는 단계; 및
    상기 연산된 스코어가 설정된 수치를 만족하지 않는 경우, 상기 입력 음성 신호를 비등록 어휘로 판단하는 단계
    를 포함하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  12. 제9항에 있어서,
    상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 상기 단계는,
    상기 연산된 스코어에 대해 소정의 가중치를 반영하여 상기 스코어를 보정하는 단계
    를 더 포함하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  13. 제11항 또는 제12항에 있어서,
    상기 입력 음성 신호를 비등록 어휘로 판단하는 상기 단계는,
    상기 입력 음성 신호에 대해 오인식 거절을 수행하는 단계
    를 포함하는 것을 특징으로 하는 인식 신뢰도 측정 방법.
  14. 제1항 내지 12항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  15. 인식 신뢰도 측정 시스템에 있어서,
    입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 음소열 추출부;
    추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 인식 후보 추출부;
    추출된 인식 후보간의 사전적 거리(lexical distance)를 추정하는 거리 추 정부; 및
    상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 등록 여부 판단부
    를 포함하는 것을 특징으로 하는 인식 신뢰도 측정 시스템.
  16. 제15항에 있어서,
    상기 음소열 추출부는 소정의 언어별 음소 결합법칙 및 HMM(Hidden Markov Model)을 이용하여 각 언어에 따른 최적화된 음소열을 추출하는 것을 특징으로 하는 인식 신뢰도 측정 시스템.
  17. 제15항에 있어서,
    상기 인식 후보 추출부는 상기 추출된 음소열과 상기 어휘의 음소열 간의 유사도를 계산하고, 상기 계산된 유사도에 기초하여 상기 인식 후보를 추출하는 것을 특징으로 하는 인식 신뢰도 측정 시스템.
  18. 제15항에 있어서,
    상기 거리 추정부는 상기 추출된 인식 후보 중에서 선별된 인식 후보쌍에 대한 동적 정합을 수행하여 상기 인식 후보쌍에 대한 스코어를 연산하고, 상기 연산된 스코어를 이용하여 상기 사전적 거리를 추정하는 것을 특징으로 하는 인식 신뢰도 측정 시스템.
  19. 제18항에 있어서,
    상기 등록 여부 판단부는 상기 연산된 스코어가 설정된 수치를 만족하는 경우, 상기 입력 음성 신호를 등록 어휘로 판단하고, 상기 연산된 스코어가 설정된 수치를 만족하지 않는 경우, 상기 입력 음성 신호를 비등록 어휘로 판단하는 것을 특징으로 하는 인식 신뢰도 측정 시스템.
  20. 제18항에 있어서,
    상기 등록 여부 판단부는 상기 연산된 스코어에 대해 소정의 가중치를 반영하여 상기 스코어를 보정하는 것을 특징으로 하는 인식 신뢰도 측정 시스템.
  21. 제18항에 있어서,
    상기 등록 여부 판단부는 상기 비등록 어휘를 판단하는 상기 입력 음성 신호에 대해 오인식 거절을 수행하는 것을 특징으로 하는 인식 신뢰도 측정 시스템.
KR1020060012528A 2006-02-09 2006-02-09 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 KR100717385B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060012528A KR100717385B1 (ko) 2006-02-09 2006-02-09 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US11/495,562 US8990086B2 (en) 2006-02-09 2006-07-31 Recognition confidence measuring by lexical distance between candidates

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060012528A KR100717385B1 (ko) 2006-02-09 2006-02-09 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템

Publications (1)

Publication Number Publication Date
KR100717385B1 true KR100717385B1 (ko) 2007-05-11

Family

ID=38270508

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060012528A KR100717385B1 (ko) 2006-02-09 2006-02-09 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템

Country Status (2)

Country Link
US (1) US8990086B2 (ko)
KR (1) KR100717385B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101217524B1 (ko) 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
KR101398639B1 (ko) 2007-10-08 2014-05-28 삼성전자주식회사 음성 인식 방법 및 그 장치
US10061388B2 (en) 2014-08-18 2018-08-28 Samsung Electronics Co., Ltd. Method and apparatus for processing user input
KR20190023169A (ko) * 2017-08-28 2019-03-08 에스케이텔레콤 주식회사 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154600A1 (en) * 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
US8428950B2 (en) * 2007-02-06 2013-04-23 Nec Corporation Recognizer weight learning apparatus, speech recognition apparatus, and system
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US20090171663A1 (en) * 2008-01-02 2009-07-02 International Business Machines Corporation Reducing a size of a compiled speech recognition grammar
US9002286B2 (en) * 2009-03-30 2015-04-07 Massachusetts Institute Of Technology Method and system for identification and mitigation of errors in non-line-of-sight distance estimation
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
CN103632665A (zh) * 2012-08-29 2014-03-12 联想(北京)有限公司 一种语音识别方法及电子设备
CN103077714B (zh) 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
US11282512B2 (en) * 2018-10-27 2022-03-22 Qualcomm Incorporated Automatic grammar augmentation for robust voice command recognition
US10990351B2 (en) * 2019-02-13 2021-04-27 GICSOFT, Inc. Voice-based grading assistant

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04305699A (ja) * 1991-04-03 1992-10-28 Matsushita Electric Ind Co Ltd 音声認識方法および装置
JPH0854892A (ja) * 1994-08-16 1996-02-27 Meidensha Corp 音声認識方法
KR19980020011A (ko) * 1996-09-05 1998-06-25 양승택 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법
KR19990062566A (ko) * 1997-12-16 1999-07-26 포만 제프리 엘 음성 인식 신뢰도 레벨 디스플레이
KR20010026288A (ko) * 1999-09-04 2001-04-06 윤장진 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법
KR20010044675A (ko) * 2001-03-15 2001-06-05 백종관 음절 단위로 음성인식을 수행하는 방법 및 그 장치

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
US6073095A (en) * 1997-10-15 2000-06-06 International Business Machines Corporation Fast vocabulary independent method and apparatus for spotting words in speech
US6205428B1 (en) * 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6275801B1 (en) * 1998-11-03 2001-08-14 International Business Machines Corporation Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
JP2000221990A (ja) * 1999-01-28 2000-08-11 Ricoh Co Ltd 音声認識装置
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
DE10022586A1 (de) * 2000-05-09 2001-11-22 Siemens Ag Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
US7035802B1 (en) * 2000-07-31 2006-04-25 Matsushita Electric Industrial Co., Ltd. Recognition system using lexical trees
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
CN1215457C (zh) * 2001-02-01 2005-08-17 松下电器产业株式会社 语句识别装置和方法
JP2002358095A (ja) * 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
US6996527B2 (en) * 2001-07-26 2006-02-07 Matsushita Electric Industrial Co., Ltd. Linear discriminant based sound class similarities with unit value normalization
US7031918B2 (en) * 2002-03-20 2006-04-18 Microsoft Corporation Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US7197456B2 (en) * 2002-04-30 2007-03-27 Nokia Corporation On-line parametric histogram normalization for noise robust speech recognition
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
EP1414023B1 (en) * 2002-10-14 2006-02-01 Sony Deutschland GmbH Method for recognizing speech
KR100668297B1 (ko) * 2002-12-31 2007-01-12 삼성전자주식회사 음성인식방법 및 장치
AU2003900584A0 (en) * 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
DE10306022B3 (de) * 2003-02-13 2004-02-19 Siemens Ag Dreistufige Einzelworterkennung
US20040210443A1 (en) * 2003-04-17 2004-10-21 Roland Kuhn Interactive mechanism for retrieving information from audio and multimedia files containing speech
US7725319B2 (en) * 2003-07-07 2010-05-25 Dialogic Corporation Phoneme lattice construction and its application to speech recognition and keyword spotting
GB2404040A (en) * 2003-07-16 2005-01-19 Canon Kk Lattice matching
JP3819896B2 (ja) 2003-11-14 2006-09-13 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
US8019602B2 (en) 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US7529668B2 (en) * 2004-08-03 2009-05-05 Sony Corporation System and method for implementing a refined dictionary for speech recognition
WO2006097975A1 (ja) * 2005-03-11 2006-09-21 Gifu Service Co., Ltd. 音声認識プログラム
US20070033044A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated System and method for creating generalized tied-mixture hidden Markov models for automatic speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04305699A (ja) * 1991-04-03 1992-10-28 Matsushita Electric Ind Co Ltd 音声認識方法および装置
JPH0854892A (ja) * 1994-08-16 1996-02-27 Meidensha Corp 音声認識方法
KR19980020011A (ko) * 1996-09-05 1998-06-25 양승택 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법
KR19990062566A (ko) * 1997-12-16 1999-07-26 포만 제프리 엘 음성 인식 신뢰도 레벨 디스플레이
KR20010026288A (ko) * 1999-09-04 2001-04-06 윤장진 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법
KR20010044675A (ko) * 2001-03-15 2001-06-05 백종관 음절 단위로 음성인식을 수행하는 방법 및 그 장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101398639B1 (ko) 2007-10-08 2014-05-28 삼성전자주식회사 음성 인식 방법 및 그 장치
KR101217524B1 (ko) 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US10061388B2 (en) 2014-08-18 2018-08-28 Samsung Electronics Co., Ltd. Method and apparatus for processing user input
KR20190023169A (ko) * 2017-08-28 2019-03-08 에스케이텔레콤 주식회사 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법
KR102067973B1 (ko) * 2017-08-28 2020-02-11 에스케이텔레콤 주식회사 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법

Also Published As

Publication number Publication date
US20070185713A1 (en) 2007-08-09
US8990086B2 (en) 2015-03-24

Similar Documents

Publication Publication Date Title
KR100717385B1 (ko) 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
CN109036391B (zh) 语音识别方法、装置及***
Schuster et al. Japanese and korean voice search
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
US8868431B2 (en) Recognition dictionary creation device and voice recognition device
US6934683B2 (en) Disambiguation language model
US20020156627A1 (en) Speech recognition apparatus and computer system therefor, speech recognition method and program and recording medium therefor
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
KR20050082249A (ko) 도메인 기반 대화 음성인식방법 및 장치
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US20090112595A1 (en) Discriminative training of multi-state barge-in models for speech processing
US20100010813A1 (en) Voice recognition apparatus, voice recognition method and recording medium
US20070038453A1 (en) Speech recognition system
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP5546565B2 (ja) 単語追加装置、単語追加方法、およびプログラム
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
Huang et al. Task-independent call-routing
Rani et al. Error analysis to improve the speech recognition accuracy on Telugu language

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140429

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150429

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160428

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170427

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee