KR101195742B1

KR101195742B1 - 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법

Info

Publication number: KR101195742B1
Application number: KR1020100032089A
Authority: KR
Inventors: 김영준
Original assignee: 에스케이플래닛 주식회사
Priority date: 2010-04-08
Filing date: 2010-04-08
Publication date: 2012-11-01
Also published as: KR20110112890A

Abstract

본 발명은 각 키워드별로 필러 모델을 별도로 구현하여 키워드 검출 능력을 향상시킬 수 있도록 하는 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법에 관한 것이다.
이를 위해, 본 발명은 음성 신호에서 추출된 특징 벡터를 저장된 키워드와 비교하여 키워드에 가까운 정도인 유사도(Likelihood)를 산출하여 출력하는 적어도 하나 이상의 키워드 모델과, 상기 각각의 키워드 모델별로 각 키워드의 음향적 특성에 따라 구현되어, 상기 특징 벡터에 대한 유사도를 산출하여 출력하는 필러 모델과, 각 키워드 모델로부터 인가받은 유사도와 각 키워드 모델에 대응 구현되어 있는 펄러 모델로부터 인가받은 유사도를 비교하여 키워드를 검출하는 유사도 비교부를 포함하여 이루어지는 것이 바람직하다.
이에 따라, 본 발명은 각 키워드의 음향적 특성에 따라 키워드별로 필러 모델을 구현함으로써, 키워드 검출 성능을 향상시킬 수 있게 된다.

Description

키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법{KEYWORD SPOTTING SYSTEM HAVING FILLER MODEL BY KEYWORD MODEL AND METHOD FOR MAKING FILLER MODEL BY KEYWORD MODEL}

본 발명은 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법에 관한 것으로서, 특히 각 키워드별로 필러 모델을 별도로 구현하여 키워드 검출 능력을 향상시킬 수 있도록 하는 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법에 관한 것이다.

일반적으로 키워드 검출(KEYWORD SPOTTING)이란 음성 인식의 한 분야로서 컴퓨터가 사람의 음성을 입력받아 이 음성에 미리 정해진 특정 단어 또는 복수 개의 단어들 중 어느 것이 포함되어 있는 지의 여부를 찾아내고 이 단어를 식별해 내는 작업을 의미한다.

이러한 키워드 검출 시스템은 키워드 이외의 일반적인 음성을 모델링한 필러 모델(Filler Model)의 스코어와 찾기를 원하는 단어인 키워드의 음성을 모델링한 키워드 모델(Keyword Model)의 스코어 비교를 통해 키워드를 검출하게 된다.

이때 키워드 검출 성능에 큰 영향을 미치는 요소는 필러 모델이 얼마나 키워드 이외의 단어를 잘 걸러주는가에 달려있다.

그러나, 종래에는 도 1에 도시하는 바와 같이 모든 키워드가 동일한 필러 모델을 사용해서 키워드를 검출하므로, 키워드 이외의 단어를 걸러내는 데 어려움이 발생하게 되는 문제점이 있다.

즉, 각 키워드의 음향적 특성은 서로 다르기 때문에, 종래와 같이 모든 키워드가 동일한 필러 모델을 사용하게 되면, 키워드와 유사한 발성의 음성이 입력되었을 때, 입력된 음성이 키워드가 아님에도 불구하고 키워드로 검출되는 문제점이 있다. 예를 들어, '가방'이라는 단어가 키워드로 등록되어 있을 때 이와 유사한 발성의 '가발'이라는 음성이 입력되는 경우, '가발'이라는 음성이 '가방'이라는 키워드로 검출되는 문제점이 있다.

그리고, 서로 유사한 발성을 갖는 음성이 키워드로 등록된 경우에는 입력받은 음성을 잘못된 키워드로 검출될 수도 있게 되는 문제점이 있다. 예를 들어, 키워드로 '담배'와 '담비'라는 단어가 등록되어 있을 때, '담배'라는 음성이 '담비'로 오검출될 수도 있게 되는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위해 안출된 것으로서, 각 키워드별로 각 키워드의 음향적 특성에 따라 필러 모델을 별도로 구현하여 키워드 검출 능력을 향상시킬 수 있도록 하는 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법을 제공함에 그 목적이 있다.

전술한 목적을 달성하기 위한 본 발명의 제1관점에 따른 키워드별 필러 모델을 구비하는 키워드 검출 시스템은, 음성 신호에서 추출된 특징 벡터를 저장된 키워드와 비교하여 키워드에 가까운 정도인 유사도(Likelihood)를 산출하여 출력하는 적어도 하나 이상의 키워드 모델과; 상기 각각의 키워드 모델별로 각 키워드의 음향적 특성에 따라 구현되어, 상기 특징 벡터에 대한 유사도를 산출하여 출력하는 필러 모델과; 각 키워드 모델로부터 인가받은 유사도와 각 키워드 모델에 대응 구현되어 있는 펄러 모델로부터 인가받은 유사도를 비교하여 키워드를 검출하는 유사도 비교부를 포함하여 이루어지는 것이 바람직하다.

나아가, 상기 각각의 키워드 모델별로 구현되는 필러 모델은, 대응되는 키워드와 음향적 거리 차이 값이 가장 큰 음향 모델로 구현되는 것이 바람직하다.

한편, 본 발명의 제2관점에 따른 키워드별 필러 모델 구현 방법은, 필러 모델 구현 장치에서 각 키워드의 음향적 분석을 통해 키워드 간의 음향적 거리를 측정하는 키워드간 음향 거리 측정 과정과; 각 키워드별로 각각의 키워드와 음향적 거리가 가장 먼 음향 모델을 이용하여 필러 모델을 구현하되, 상기 키워드간 음향 거리 측정 과정을 통해 측정된 키워드간 음향 거리를 반영하여 각 키워드에 대한 필러 모델을 구현하는 필러 모델 구현 과정을 포함하여 이루어지는 것이 바람직하다.

그리고, 상기 필러 모델 구현 과정을 통해 각 키워드 모델별로 필러 모델이 구현되면, 각 키워드 모델별로, 키워드 이외의 단어에 대한 키워드 모델의 유사도와 상기 키워드 모델에 대응 구현된 필러 모델의 유사도를 비교하여 두 유사도 값의 차인 임계값을 각 키워드별로 측정하는 과정과; 상기 측정된 임계값이 기준치 이하인 키워드 모델에 대해서는, 키워드 이외의 단어에 대한 키워드 모델과 필러 모델의 유사도 값이 기설정된 값 이상으로 차이가 나도록 상기 키워드 모델에 대한 필러 모델을 재구현하는 과정을 더 포함하여 이루어지는 것이 바람직하다.

본 발명의 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법에 따르면, 각 키워드의 음향적 특성에 따라 키워드별로 필러 모델을 구현함으로써, 키워드 검출 성능을 향상시킬 수 있게 된다.

도 1은 종래 기술에 따라 키워드를 검출하는 방식을 설명하기 위한 도면.
도 2는 본 발명의 일 실시예에 따른 키워드별 필러 모델을 구비하는 키워드 검출 시스템의 구성을 개략적으로 보인 도면.
도 3은 본 발명에 적용되는 키워드 모델을 예시적으로 보인 도면.
도 4는 본 발명에 따라 각각의 키워드 모델별로 구현되는 필러 모델을 예시적으로 보인 도면.
도 5는 본 발명의 일 실시예에 따른 키워드별 필러 모델 구현 방법을 설명하기 위한 처리도.

이하에서는 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 따른 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법에 대해서 상세하게 설명한다.

도 2는 본 발명의 일 실시예에 따른 키워드별 필러 모델을 구비하는 키워드 검출 시스템의 구성을 개략적으로 보인 도이다.

도 2에서, 음성 수신부(10)는 일반적으로 마이크로폰(microphone)으로 구현되어, 수신한 음성 신호를 전기 에너지로 변환하고, 전기 에너지로 변환된 음성 신호를 특징 벡터 추출부(20)로 전달한다.

특징 벡터 추출부(20)는 음성 수신부(10)로부터 전달받은 음성 신호의 주파수 특성을 프레임별로 계산하여 음성 신호에 포함된 특징 벡터를 추출하고, 추출된 특징 벡터를 각각의 키워드 모델(30)과 각 키워드 모델(30)에 대응 구현되어 있는 필러 모델(40)로 전달한다.

각각의 키워드 모델(30)은 특징 벡터 추출부(20)로부터 전달받은 특징 벡터를 저장된 키워드와 비교하여 키워드에 가까운 정도인 유사도(Likelihood)를 산출하여 출력한다.

전술한, 키워드 모델(30)은 키워드의 음소를 하나하나 분리하여 사용하거나, 도 3에 도시하는 바와 같이, 키워드(예를 들어, '담배') 전체를 하나의 HMM(Hidden Markov Model)으로 모델링하여 생성할 수 있다.

한편, 필러 모델(40)은 각각의 키워드 모델(30)별로 각 키워드의 음향적 특성에 따라 별도로 구현되며, 각 필러 모델(40)은 특징 벡터 추출부(20)로부터 전달받은 특징 벡터를 저장되어 있는 음소와 비교하여 유사도를 산출하여 출력한다.

전술한, 필러 모델(40)은 언어에 사용되는 모든 음소들에 대한 통계 정보를 도 4에 도시하는 바와 같이, 하나 또는 여러 개의 상태(state)로 모은 것으로, 각 음향 정보(예를 들어, 버스 소리, 문 여닫는 소리, 발소리, 거리소음, 실내음 등)에 대한 통계 값도 추가될 수 있다.

키워드 검출 시스템은 입력 음성에 대한 키워드 모델(30)의 유사도와 필러 모델(40)의 유사도 비교를 통해 키워드를 검출하는 데, 키워드 이외의 음성 입력에 대해서는 필러 모델(40)의 유사도가 키워드 모델(30)의 유사도보다 커야 하고, 키워드 음성 입력에 대해서는 키워드 모델(30)의 유사도가 필러 모델(40)의 유사도보다 커야 한다.

전술한 바와 같이, 키워드 이외의 음성 입력에 대해서는 필러 모델(40)의 유사도가 키워드 모델(30)의 유사도보다 크게 하고, 키워드 음성 입력에 대해서는 키워드 모델(30)의 유사도가 필러 모델(40)의 유사도보다 크게 하여 키워드 검출 시스템의 키워드 검출 성능을 높이기 위해서는, 각각의 키워드 모델(30)별로 필러 모델(40)을 구현할 때, 각 키워드 모델(30)과 음향적 거리가 가장 큰 음향 모델을 필러 모델(40)로 구현하는 것이 바람직하다.

한편, 유사도 비교부(50)는 각 키워드 모델(30)로부터 인가받은 유사도와 각 키워드 모델에 대응 구현되어 있는 필러 모델(40)로부터 인가받은 유사도를 비교하여 키워드를 검출한다.

전술한, 유사도 비교부(50)는 입력 음성에 대한 각 키워드 모델(30)의 유사도와 각 키워드 모델(30)에 대응 구현되어 있는 필러 모델(40)의 유사도를 비교하여, 특정 필러 모델(40)의 유사도가 키워드 모델(30)의 유사도보다 크면 해당 입력 음성을 키워드가 아닌 음성으로 인식하고, 특정 키워드 모델(30)의 유사도가 필러 모델(40)의 유사도보다 크면 해당 입력 음성을 키워드로 인식한다.

도 5는 본 발명의 일 실시예에 따른 키워드별 필러 모델 구현 방법을 설명하기 위한 처리도이다.

우선, 각 키워드별로 필러 모델을 구현하고자 하는 필러 모델 구현 장치는 각 키워드의 음향적 분석을 통해 키워드 간의 음향적 거리를 측정한다(S10).

상기한 과정 S10에서 키워드 간의 음향적 거리를 측정하는 이유는, 각 키워드별로 필러 모델을 구현할 때, 키워드간 음향 거리를 반영하여 필러 모델을 구현할 수 있도록 하기 위함이다. 이에 대한 자세한 설명은 아래에서 설명하기로 한다.

상기한 과정 S10을 통해 키워드 간의 음향적 거리를 측정한 후에는 각 키워드별로 각각의 키워드와 음향적 거리가 가장 먼 음향 모델을 이용하여 필러 모델을 구현하되, 상기한 과정 S10을 통해 측정된 키워드간 음향 거리를 반영하여 각 키워드에 대한 필러 모델을 구현한다(S12).

상기한 과정 S10에서 키워드 간의 음향적 거리를 측정한 결과 키워드 간의 음향적 거리가 가까운 경우 즉, 키워드 간의 음향적 특징이 유사한 경우에는 음향적 특징이 유사한 키워드끼리 오인식될 가능성이 있다.

예를 들어, 키워드로 '담배'와 '담비'라는 단어가 등록되어 있다고 가정했을 때, 키워드 '담배'와 '담비'는 마지막 음소('ㅐ'와 'ㅣ')만 서로 다를 뿐 앞의 4음소(ㄷ, ㅏ, ㅁ, ㅂ)는 모두 동일하다. 이에 따라, 키워드 '담배'와 '담비'의 음향적 거리는 매우 가깝다.

전술한 바와 같이, 키워드 '담배'와 '담비'는 키워드 간의 음향적 거리가 가까워서, '담배'가 '담비'로 또는 '담비'가 '담배'로 오인식될 수 있다. 이에 따라, 키워드가 오인식되는 것을 방지하기 위하여, 키워드 간의 음향적 거리가 가까운 키워드에 대해서는 필러 모델을 구현할 때, '담배'에 대한 키워드 모델의 필러 모델과 키워드 '담비'에 대한 키워드 모델의 필러 모델이 서로 차이가 날 수 있도록 구현한다. 즉, '담배'라는 음성이 입력되었을 때, '담배'에 대한 키워드 모델의 유사도와 '담배' 키워드 모델에 대응 구현되는 필러 모델의 유사도 비교 값이, '담비'에 대한 키워드 모델의 유사도와 '담비' 키워드 모델에 대응 구현되어 있는 필러 모델의 유사도 비교 값보다 크고, '담비'라는 음성이 입력되었을 때, '담비'에 대한 키워드 모델의 유사도와 '담비' 키워드 모델에 대응 구현되는 필러 모델의 유사도 비교 값이, '담배'에 대한 키워드 모델의 유사도와 '담배' 키워드 모델에 대응 구현되어 있는 필러 모델의 유사도 비교 값보다 크도록 필러 모델을 구현하여 음향적 거리가 가까운 키워드끼리 오인식되는 것을 방지한다.

상기한 과정 S12를 통해 각 키워드 모델별로 필러 모델을 구현한 후에는, 각 키워드 모델별로, 키워드 이외의 단어에 대한 키워드 모델의 유사도와 해당 키워드 모델에 대응 구현된 필러 모델의 유사도를 비교하여 두 유사도 값의 차인 임계값을 각 키워드별로 측정한다(S14).

상기한 과정 S14를 통해 각 키워드별로 임계값을 측정한 결과, 측정된 임계값이 기준치 이하인 키워드 모델에 대해서는, 키워드 이외의 단어에 대한 키워드 모델과 필러 모델의 유사도 값이 기설정된 값 이상으로 차이가 나도록 해당 키워드 모델에 대한 필러 모델을 재구현하고(S16, S18), 상기한 과정 S14로 진행하여 필러 모델이 재구현된 키워드 모델에 대해 키워드 이외의 단어에 대한 키워드 모델의 유사도와 필러 모델의 유사도를 비교하여 두 유사도 값의 차인 임계값을 측정한다.

본 발명의 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법은 전술한 실시예에 국한되지 않고 본 발명의 기술 사상이 허용하는 범위 내에서 다양하게 변형하여 실시할 수 있다.

본 발명의 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법은, 키워드 검출 기반의 음성 인식 시스템을 사용하는 모든 분야에서 활용될 수 있다.

10. 음성 수신부, 20. 특징 벡터 추출부,
30. 키워드 모델, 40. 필러 모델,
50. 유사도 비교부

Claims

음성 신호에서 추출된 특징 벡터를 저장된 키워드와 비교하여 키워드에 가까운 정도인 유사도(Likelihood)를 산출하여 출력하는 적어도 하나 이상의 키워드 모델과;
상기 각각의 키워드 모델별로 대응되는 각 키워드와 음향적 거리 차이 값이 가장 큰 음향 모델로 구현되어, 상기 특징 벡터에 대한 유사도를 산출하여 출력하는 필러 모델과;
각 키워드 모델로부터 인가받은 유사도와 각 키워드 모델에 대응 구현되어 있는 펄러 모델로부터 인가받은 유사도를 비교하여 키워드를 검출하는 유사도 비교부를 포함하여 이루어지는 키워드별 필러 모델을 구비하는 키워드 검출 시스템.
제 1항에 있어서, 상기 유사도 비교부는
상기 각 키워드 모델별로 상기 키워드 이외의 단어에 대한 키워드 모델의 유사도와, 상기 키워드 모델에 대응 구현된 필러 모델의 유사도를 비교하여 두 유사도 값의 차인 임계값을 각 키워드별로 측정하고, 상기 측정된 임계값이 기준치 이하인 키워드 모델에 대응되는 키워드를 검출하는 것을 특징으로 하는 키워드별 필러 모델을 구비하는 키워드 검출 시스템.
필러 모델 구현 장치에서 각 키워드의 음향적 분석을 통해 키워드 간의 음향적 거리를 측정하는 키워드간 음향 거리 측정 과정과;
각 키워드별로 각각의 키워드와 음향적 거리가 가장 먼 음향 모델을 이용하여 필러 모델을 구현하되, 상기 키워드간 음향 거리 측정 과정을 통해 측정된 키워드간 음향 거리를 반영하여 각 키워드에 대한 필러 모델을 구현하는 필러 모델 구현 과정을 포함하여 이루어지는 키워드별 필러 모델 구현 방법.
제 3항에 있어서, 상기 필러 모델 구현 과정을 통해 각 키워드 모델별로 필러 모델이 구현되면, 각 키워드 모델별로, 키워드 이외의 단어에 대한 키워드 모델의 유사도와 상기 키워드 모델에 대응 구현된 필러 모델의 유사도를 비교하여 두 유사도 값의 차인 임계값을 각 키워드별로 측정하는 과정과;
상기 측정된 임계값이 기준치 이하인 키워드 모델에 대해서는, 키워드 이외의 단어에 대한 키워드 모델과 필러 모델의 유사도 값이 기설정된 값 이상으로 차이가 나도록 상기 키워드 모델에 대한 필러 모델을 재구현하는 과정을 더 포함하여 이루어지는 것을 특징으로 하는 키워드별 필러 모델 구현 방법.