KR20170035602A

KR20170035602A - 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체

Info

Publication number: KR20170035602A
Application number: KR1020150134696A
Authority: KR
Inventors: 정치상
Original assignee: 삼성전자주식회사
Priority date: 2015-09-23
Filing date: 2015-09-23
Publication date: 2017-03-31
Also published as: CN107924687A; US10553219B2; US20170084278A1; CN107924687B; KR102420450B1; WO2017052082A1

Abstract

본 발명은 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체에 관한 것으로서, 본 발명의 실시예에 따른 음성인식장치는, 음성 인식에 사용하는 기설정된 임계치를 저장하는 저장부, 발화 음성에 대한 음성 신호를 수신하는 음성 수신부, 및 수신한 음성 신호에서 음성인식 시작어를 인식하고, 인식한 음성인식 시작어의 인식 결과인 유사도 점수가 저장한 기설정된 임계치 이상이면 음성 신호에 대한 음성 인식을 수행하는 음성인식처리부를 포함하며, 음성인식처리부는 음성인식 시작어의 인식 결과에 기초하여 기설정된 임계치를 변경할 수 있다.

Description

음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체{Voice Recognition Apparatus, Voice Recognition Method of User Device and Computer Readable Recording Medium}

본 발명은 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체에 관한 것으로서, 더 상세하게는 가령 음성인식이 가능한 사용자 장치에서, 음성인식이 사용자 장치를 실제 사용하는 환경에 따라 적응적으로 이루어지는 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체에 관련된다.

트리거 인식기는 고정된 단어를 이용해 음성인식기를 활성화시키는 역할을 수행하는 고립단어 음성인식기의 일종이다. 사용자는 트리거 인식을 통해 음성인식장치에 음성인식을 활성화하겠다는 의사를 전달한다. 다시 말해, 트리거 인식기는 버튼이나 다른 입력장치가 아닌 음성을 통해 음성인식기를 활성화하는 역할을 한다. 따라서, 트리거 인식기는 항상 마이크에 입력된 소리(sound)를 입력으로 받아들이고 음성이라고 간주된 입력에 대해 그것이 트리거 단어인지 아닌지를 판별하여 음성인식기의 활성화 여부를 결정한다. 이때, 트리거 인식기는 유사도의 임계값을 이용해 입력 발화가 트리거 단어인지 아닌지를 결정한다. 이러한 임계값은 트리거 인식기의 오인식으로 인한 오동작을 방지하기 위해 중요한 역할을 한다. 그리고 이러한 트리거 인식기는 미리 정의된 단어에 대해 훈련을 통해 고정된 임계값을 이용해 인식 결과를 판단한다.

그런데, 실사용 상황에서 트리거 인식기가 처한 환경은 다양하게 변화하기 때문에, 기존의 고정된 임계값을 사용하게 되면 트리거 인식기는 변화하는 사용자와 사용 환경에 의해 트리거 오인식이 유발되어 인식률이 저하되는 문제가 있다.

본 발명의 실시예는 가령 음성인식이 가능한 사용자 장치에서, 음성인식이 사용자 장치를 실제 사용하는 환경에 따라 적응적으로 이루어지는 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체를 제공함에 그 목적이 있다.

본 발명의 실시예에 따른 음성인식장치는, 음성 인식에 사용하는 기설정된 임계치를 저장하는 저장부, 발화 음성에 대한 음성 신호를 수신하는 음성 수신부, 및 상기 수신한 음성 신호에서 음성인식 시작어를 인식하고, 상기 인식한 음성인식 시작어의 인식 결과인 유사도 점수가 상기 저장한 기설정된 임계치 이상이면 상기 음성 신호에 대한 음성 인식을 수행하는 음성인식처리부를 포함하며, 상기 음성인식처리부는, 상기 음성인식 시작어의 인식 결과에 기초하여 상기 기설정된 임계치를 변경한다.

상기 음성인식처리부는, 상기 음성인식 시작어를 인식하여 생성한 텍스트 기반의 인식 결과에 연계된 유사도 점수에 비교되는 기설정된 임계치를 변경할 수 있다.

상기 음성인식처리부는, 상기 음성 신호에 대한 텍스트 기반의 인식 결과가 기설정된 수 이상 검출되면, 상기 기설정된 임계치를 변경할 수 있다.

상기 음성인식처리부는, 상기 기설정된 임계치를 이용해 음성 인식을 수행한 결과, 오인식률이 증가하면 상기 기설정된 임계치를 변경할 수 있다.

상기 음성인식장치는, 상기 변경한 기설정된 임계치에 근거하여 음성 인식을 수행한 결과 인식에 성공하면, 상기 성공한 인식 결과를 사용자의 화자 모델로서 저장하고, 인식에 실패하면 상기 사용자가 속한 환경에 대한 배경 모델로서 저장하는 저장부를 더 포함하며, 상기 음성인식처리부는, 임의의 조건이 충족되면, 상기 화자 모델의 인식 결과 및 상기 배경 모델의 인식 결과를 근거로 상기 변경한 기설정된 임계치를 재변경할 수 있다.

상기 음성인식처리부는, 상기 변경한 기설정된 임계치에 근거하여 음성 인식을 수행한 결과 오인식률이 증가하면, 상기 변경한 기설정된 임계치를 재변경할 수 있다.

상기 음성인식장치는, 상기 음성인식 시작어를 인식하는 고립단어 음성인식기를 포함할 수 있다.

또한, 본 발명의 실시예에 따른 음성인식방법은, 음성 인식에 사용하는 기설정된 임계치를 저장하는 단계, 발화 음성에 대한 음성 신호를 수신하는 단계, 상기 수신한 음성 신호에서 음성인식 시작어를 인식하고, 상기 인식한 음성인식 시작어의 인식 결과인 유사도 점수가 상기 저장한 기설정된 임계치 이상이면 상기 음성 신호에 대한 음성 인식을 수행하는 단계, 및 상기 음성인식 시작어의 인식 결과에 기초하여 상기 기설정된 임계치를 변경하는 단계를 포함한다.

상기 기설정된 임계치를 변경하는 단계는, 상기 음성인식 시작어를 인식하여 생성한 텍스트 기반의 인식 결과에 연계된 유사도 점수에 비교되는 기설정된 임계치를 변경할 수 있다.

상기 기설정된 임계치를 변경하는 단계는, 상기 음성 신호에 대한 텍스트 기반의 인식 결과가 기설정된 수 이상 검출되면, 상기 기설정된 임계치를 변경할 수 있다.

상기 기설정된 임계치를 변경하는 단계는, 상기 기설정된 임계치를 이용해 음성 인식을 수행한 결과, 오인식률이 증가하면 상기 기설정된 임계치를 변경할 수 있다.

상기 음성인식방법은 상기 변경한 기설정된 임계치에 근거하여 음성 인식을 수행한 결과 인식에 성공하면, 상기 성공한 인식 결과를 사용자의 화자 모델로서 저장하고, 인식에 실패하면 상기 사용자가 속한 환경에 대한 배경 모델로서 저장하는 단계, 및 임의의 조건이 충족되면, 상기 화자 모델의 인식 결과 및 상기 배경 모델의 인식 결과를 근거로 상기 변경한 기설정된 임계치를 재변경하는 단계를 더 포함할 수 있다.

상기 변경한 기설정된 임계치를 재변경하는 단계는, 상기 변경한 기설정된 임계치에 근거하여 음성 인식을 수행한 결과 오인식률이 증가하면, 상기 변경한 기설정된 임계치를 재변경할 수 있다.

상기 음성인식방법은, 사용자 장치에 탑재되어 상기 음성인식 시작어를 인식하는 고립단어 음성인식기에서 수행될 수 있다.

한편, 본 발명의 실시예에 따른 컴퓨터 판독가능 기록매체는, 음성인식방법을 실행시키기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록매체에 있어서, 상기 음성인식방법은, 음성 인식에 사용하는 기설정된 임계치를 저장하는 단계, 발화 음성에 대한 음성 신호를 수신하는 단계, 상기 수신한 음성 신호에서 음성인식 시작어를 인식하고, 상기 인식한 음성인식 시작어의 인식 결과인 유사도 점수가 상기 저장한 기설정된 임계치 이상이면 상기 음성 신호에 대한 음성 인식을 수행하는 단계, 및 상기 음성인식 시작어의 인식 결과에 기초하여 상기 기설정된 임계치를 변경하는 단계를 실행한다.

도 1은 본 발명의 제1 실시예에 따른 음성인식장치를 나타내는 도면,
도 2는 본 발명의 제2 실시예에 따른 음성 시스템을 나타내는 도면,
도 3은 도 1의 음성인식장치 또는 도 2의 사용자 장치의 세부 구조를 예시하여 나타낸 블록다이어그램,
도 4는 도 1의 음성인식장치 또는 도 2의 사용자 장치의 세부 구조를 예시하여 나타낸 블록다이어그램,
도 5는 도 1의 음성인식장치 또는 도 2의 사용자 장치의 또 다른 세부 구조를 나타내는 블록다이어그램,
도 6은 도 5에 도시된 제어부의 구조를 예시하여 나타낸 도면,
도 7은 도 1의 음성인식장치 또는 도 2의 사용자 장치의 또 다른 세부 구조를 예시하여 나타낸 도면,
도 8은 도 2에 도시된 음성인식장치의 구조를 나타내는 블록다이어그램,
도 9는 도 2에 도시된 음성인식장치의 다른 구조를 예시하여 나타낸 블록다이어그램,
도 10은 본 발명의 제1 실시예에 다른 음성인식과정을 나타내는 도면,
도 11은 본 발명의 다른 실시예에 따른 음성인식과정을 나타내는 도면,
도 12는 본 발명의 실시예에 따른 음성인식과정을 나타내는 흐름도,
도 13은 본 발명의 다른 실시예에 따른 음성인식과정을 나타내는 흐름도, 그리고
도 14는 본 발명의 또 다른 실시예에 따른 음성인식과정을 나타내는 흐름도이다.

이하, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명한다.

도 1은 본 발명의 제1 실시예에 따른 음성인식장치를 나타내는 도면이다.

도 1에 도시된 바와 같이, 본 발명의 제1 실시예에 따른 음성인식장치(100)는 외부의 사용자 음성을 인식하는 음성인식기를 포함한다.

본 발명의 실시예에 따른 음성인식장치(100)는 TV, 휴대폰, 랩탑 컴퓨터, 데스크탑 컴퓨터, 태블릿 PC, PDP, MP3와 같은 영상표시장치를 포함하며, 냉장고, 세탁기, 오디오기기 및 BD 플레이어(Blu-ray player) 등의 미디어 플레이어, 셋탑박스와 같은 가전기기를 포함한다. 또한, 음성인식장치(100)는 도어락(door lock) 시스템이나 자동차와 같은 전자장치 등을 더 포함할 수 있다.

음성인식장치(100)는 외부의 사용자로부터 사용자 음성을 수신한다. 이를 위하여 음성인식장치(100)는 내부에 탑재된 마이크로폰을 통해 사용자 음성을 수신할 수 있지만, 잭(jack) 또는 USB 형태의 커넥터에 연결된 집음 장치로부터 수신된 음성을 수신하여 음성인식 동작을 수행할 수 있다. 여기서, 집음 장치는 마이크로폰을 의미하지만, 마이크로폰이 스탠드 얼론 형태로 동작하는 개별 장치를 의미한다.

음성인식장치(100)는 내부에 임베디드 즉 탑재된 음성인식기를 이용하여, 수신된 사용자 음성에 대한 음성인식 동작을 수행한다. 여기서, 음성인식기는 고정발화엔진을 포함하며, 고정발화엔진이란 고정된 단어를 인식하는 고립단어 음성인식기를 의미한다. 사용자는 음성인식장치(100)에 음성인식을 활성화하겠다는 의사를 전달하게 되는데, 이를 위하여 음성인식장치(100)는 고립단어 음성인식기의 일종인 트리거 인식기를 포함할 수 있다.

예를 들어, 사용자는 도 1에서와 같이 음성인식장치(100)를 향해 음성인식 시작어로서 "Hi"라고 발화할 수 있다. 좀 더 구체적으로, 사용자가 음성인식장치(100)인 TV를 향해 "Hi TV"라고 발화하였다면, 음성인식장치(100)는 수신된 사용자 음성에서 'Hi'라는 단어만을 인식하기 위한 동작을 수행할 수 있다.

이를 위하여, 음성인식장치(100)는 수신된 음성의 오디오 데이터를 분석하여 텍스트 기반, 가령 발음기호 형태의 인식 결과를 생성하고, 생성한 인식 결과를 기설정된 인식 결과 즉 'Hi'라는 발음 기호와 비교하여 인식 여부를 결정한다. 이때, 음성인식장치(100)는 생성한 인식 결과를 기설정된 인식 결과와 비교하여 인식 여부를 결정할 때, 유사도 점수를 산출하고, 산출한 유사도 점수가 임계치를 초과할 때, 인식에 성공한 것으로 판단할 수 있다.

이러한 유사도 점수의 임계치는 음성인식장치(100)의 출고시에 결정되는 것이 일반적이다. 다시 말해, 음성인식장치(100)는 출고 전 가령 실험 환경에서 'Hi'라고 다양하게 발음되는 무수히 많은 실험 데이터를 활용하여 유사도 점수 즉 임계치를 결정하게 된다. 이와 같이 결정된 임계치는 예를 들어, 소프트웨어적으로 레지스트리(registry)에 저장되거나, 하드웨어적으로 메모리에 저장될 수 있으며, 나아가 임계치 값(또는 정보)은 룩업 테이블(LUT) 형태로 저장될 수도 있다. 따라서, 임계치 값이 어떠한 방식으로 저장되느냐에 특별히 한정하지는 않을 것이다.

그러나, 실험 환경에서 사용하는 실험 데이터는 음성인식장치(100)가 놓이는 실제 사용 환경에서는 오인식을 발생하는 경우가 발생할 수 있다. 예를 들어, 사용자가 'Hi'라고 발음하더라도 사용자의 성대 구조 등의 차이에 따라 인식 결과에 차이가 있는 것으로 인식되어 오인식으로 판단될 수 있고, 또 주변 환경의 잡음이 'Hi'와 같은 음성으로 인식되는 경우도 발생할 수 있다. 다시 말해, 주변을 지나는 자동차의 경적 소리가 'Hi'라는 음성의 음성 신호 즉 오디오 데이터와 유사하게 인식되어 음성인식장치(100)가 오동작하는 경우가 발생할 수 있다.

본 발명의 실시예에 따른 음성인식장치(100)는 이와 같은 다양한 변수를 고려하여 기설정된 인식 결과를 적응적으로 변경한다. 다시 말해, 음성인식장치(100)로서 출고된 TV가 어떤 사용자의 집에 설치되었다고 가정하자. 그리고, 사용자는 TV에 사용자 명령을 제공하여, 사용자의 집에 적응적인 음성인식동작이 이루어지도록 요청할 수 있다. 물론 이러한 과정은 TV 화면에 표시되는 UI 화면을 통하거나, 리모컨의 특정 버튼을 선택함으로써 이루어질 수 있다.

그러면, 음성인식장치(100)는 수 시간 또는 수 기간동안 TV가 설치된 가정에서 수집되는 신호 즉 소리에서 사용자 명령에 부합한 음성 신호를 검출한다. 그리고, 검출한 음성 신호 즉 오디오 데이터를 분석하여 화자 특성의 인식 결과를 얻는다. 만약 이러한 인식 결과가 수회에 걸쳐 수집되면, 음성인식장치(100)는 이를 근거로, 기설정된 인식 결과 더 정확하게는 유사도 점수의 임계치를 조정(혹은 변경)한다. 여기서, "인식 결과"라 함은 기설정된 텍스트 기반의 텍스트 정보와 유사도 점수에 대한 임계값을 포함할 수 있다. 본 발명의 실시예에 따른 음성인식장치(100)는 유사도 점수의 임계치를 조정하는 것이 바람직하다.

그리고, 조정된 임계치는 이후의 음성 인식 동작에 사용된다. 가령 음성 인식에 성공하면, 음성인식장치(100)는 성공한 음성 인식 결과를 화자 특성이 반영된 모델로서 해당 결과를 저장한다. 예를 들어, 기설정된 텍스트 기반의 인식 결과가 이진 8비트 정보 "10101010"으로 표현된다고 가정하자. 그러면, 화자의 특성이 반영된 인식 결과는 "10101011"이 될 수 있다. 이를 임의의 사용자에 대한 화자 모델로서 저장할 수 있다. 이와 같은 화자 모델을 기반으로, 유사도 점수를 조정한 후, 음성 인식을 수행한 결과, 인식에 실패하면 실패한 인식 결과는 배경 모델로 판단하여 해당 인식 결과를 저장할 수 있다.

예를 들어, 초기에 유사도 점수를 조정한 상태에서 음성인식을 수행하는 과정에서, 사용자 환경이 변경됨으로 인해 유사도 점수를 재조정해야 하는 상황이 발행할 수 있다. 이는 조정된 유사도 점수의 임계치에 의해 인식률이 저하되는 상태가 발생하게 될 때 적절한 시점에서 이루어질 수 있다. 다시 말해, 음성인식장치(100)는 인식 상태를 실시간으로 모니터링하거나 주기적으로 점검하여 음성 인식의 인식률이 전반적으로 저하되는 현상이 장시간 지속된다고 판단되면, 유사도 점수의 임계치를 재조정(혹은 재변경)할 수 있다.

이때, 음성인식장치(100)는 수집되는 사용자의 음성에 대한 인식 결과를 화자 모델 및 배경 모델로서 별도로 저장한 후, 유사도 점수의 임계치를 재조정할 때 참조할 수 있다. 다시 말해, 본 발명의 실시예에서는 기설정된 인식 결과에서 텍스트 정보는 고정된다. 다만, 화자 모델 및 배경 모델로서 저장된 인식 결과 즉 텍스트 정보는 유사도 점수의 임계치를 재조정하는 데에 참조된다고 볼 수 있다.

상기와 같은 방식으로 음성인식장치(100)는 사용자 및 사용자가 처한 주변 환경, 더 정확하게는 사용자의 음성 특성 및 음성 특성 이외의 잡음 환경에 대하여 적응적으로 동작함으로써 실사용 환경에서 발생하는 오인식을 방지할 수 있다.

도 2는 본 발명의 제2 실시예에 따른 음성 시스템을 나타내는 도면이다.

도 2에 도시된 바와 같이, 본 발명의 제2 실시예에 따른 음성 시스템(190)은 사용자 장치(200), 통신망(210) 및 음성인식장치(220)의 일부 또는 전부를 포함한다.

여기서, 일부 또는 전부를 포함한다는 것은 통신망(210)이 생략되어 시스템(190)이 구성될 수 있는 것 등을 의미하는 것으로서, 가령 사용자 장치(200)인 TV와 음성인식장치(220)인 서버 가령 컴퓨터는 다이렉트(ex. P2P) 통신을 수행할 수 있으므로, 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.

사용자 장치(200)는 앞서 언급한 바와 같이, 영상표시장치, 가전기기 및 전자 장치 등을 포함할 수 있다. 또한, 사용자 장치(200)가 내부에 음성 인식기를 포함하지 않는 경우, 수신된 음성을 음성 신호 즉 오디오 데이터의 형태로 음성인식장치(220)로 전송하고, 그에 대한 인식 결과를 음성인식장치(220)로부터 수신할 수 있다. 또한, 사용자 장치(200)가 만약 음성 인식기를 포함하는 경우에는 수신한 음성의 오디오 데이터에 대한 인식 동작을 어디에서 수행할지를 결정할 수 있다. 예를 들어, 간단한 'Hi TV'와 같은 트리거 워드는 사용자 장치(200)에서 수행할 수 있지만, 'TV 꺼'나 'TV 켜'와 같은 명령어는 음성인식장치(220)로 전송할 수 있다. 이를 위하여, 사용자 장치(200)는 발화 시간을 점검할 수 있다. 뿐만 아니라, 사용자 장치(200)는 내부의 동작 상태, 가령 CPU가 동작하기에 부하(load)가 심하거나, 음성인식장치(220)로 전송하기에 통신망(210)의 상태가 불안정한 경우에도 음성인식 주체를 결정할 수 있다.

기타, 사용자 장치(200)와 관련한 자세한 내용은 앞서, 도 1의 음성인식장치(100)를 통해 충분히 설명하였으므로 더 이상의 설명은 생략하도록 한다.

통신망(210)은 유무선 통신망을 모두 포함한다. 여기서 유선망은 케이블망이나 공중 전화망(PSTN)과 같은 인터넷망을 포함하는 것이고, 무선 통신망은 CDMA, WCDMA, GSM, EPC(Evolved Packet Core), LTE(Long Term Evolution), 와이브로 망 등을 포함하는 의미이다. 물론 본 발명의 실시예에 따른 통신망(210)은 이에 한정되는 것이 아니며, 향후 구현될 차세대 이동통신 시스템의 접속망으로서 가령 클라우드 컴퓨팅 환경하의 클라우드 컴퓨팅망 등에 사용될 수 있다. 가령, 통신망(210)이 유선 통신망인 경우 통신망(210) 내의 액세스포인트는 전화국의 교환국 등에 접속할 수 있지만, 무선 통신망인 경우에는 통신사에서 운용하는 SGSN 또는 GGSN(Gateway GPRS Support Node)에 접속하여 데이터를 처리하거나, BTS(Base Station Transmission), NodeB, e-NodeB 등의 다양한 중계기에 접속하여 데이터를 처리할 수 있다.

통신망(210)은 액세스포인트를 포함할 수 있다. 액세스포인트는 건물 내에 많이 설치되는 펨토(femto) 또는 피코(pico) 기지국과 같은 소형 기지국을 포함한다. 여기서, 펨토 또는 피코 기지국은 소형 기지국의 분류상 사용자 장치(200)를 최대 몇 대까지 접속할 수 있느냐에 따라 구분된다. 물론 액세스포인트는 사용자 장치(200)와 지그비 및 와이파이(Wi-Fi) 등의 근거리 통신을 수행하기 위한 근거리 통신 모듈을 포함한다. 액세스포인트는 무선통신을 위하여 TCP/IP 혹은 RTSP(Real-Time Streaming Protocol)를 이용할 수 있다. 여기서, 근거리 통신은 와이파이 이외에 블루투스, 지그비, 적외선(IrDA), UHF(Ultra High Frequency) 및 VHF(Very High Frequency)와 같은 RF(Radio Frequency) 및 초광대역 통신(UWB) 등의 다양한 규격으로 수행될 수 있다. 이에 따라 액세스포인트는 데이터 패킷의 위치를 추출하고, 추출된 위치에 대한 최상의 통신 경로를 지정하며, 지정된 통신 경로를 따라 데이터 패킷을 다음 장치, 예컨대 사용자 장치(200)로 전달할 수 있다. 액세스포인트는 일반적인 네트워크 환경에서 여러 회선을 공유할 수 있으며, 예컨대 라우터(router), 리피터(repeater) 및 중계기 등이 포함될 수 있다.

음성인식장치(220)는 음성인식서버를 포함하며, 일종의 클라우드 서버로서 동작할 수 있다. 다시 말해, 음성인식장치(220)는 음성 인식과 관련한 모든(또는 일부의) HW 자원이나 SW 자원을 구비함으로써 최소한의 자원을 가진 사용자 장치(200)로부터 수신된 오디오 데이터에 대한 인식 결과를 생성하여 제공할 수 있다. 물론 본 발명의 실시예에 따른 음성인식장치(220)는 클라우드 서버에 한정되지는 않는다. 예를 들어, 통신망(210)이 생략 구성되어 사용자 장치(200)가 음성인식장치(220)와 다이렉트 통신을 수행하는 경우, 음성인식장치(220)는 외부 장치 즉 액세스포인트이거나 데스크탑 컴퓨터와 같은 주변 장치가 될 수도 있다. 또는 사용자 장치(200)에서 제공한 오디오 데이터에 대한 인식 결과만 제공해 줄 수 있다면 어떠한 형태의 장치이어도 무관하다. 이러한 점에서 음성인식장치(220)는 인식결과 제공장치가 될 수도 있을 것이다.

앞서 언급한 대로, 도 2의 음성인식장치(220)는 네트워크 기반의 장치로서, 서버에 해당될 수 있다. 따라서, 음성인식장치(220)는 사용자 장치(220)가 음성인식기, 가령 트리거 워드를 인식하는 트리거 인식기를 포함하지 않는 경우에는 이러한 트리거 워드의 인식 결과를 제공해 줄 수 있다. 이러한 트리거 워드의 인식 결과는 '실패(Fail)' 또는 '성공(Success)' 이면 충분하다. 가령 성공이면, 이진 정보 '1'을 전송해 줄 수 있고, 사용자 장치(220)는 이를 근거로 본격적인 음성인식동작을 수행할 수 있게 된다. 다시 말해, 트리거 인식기는 트리거 워드만을 인식하기 때문에, 사용자 장치(220)는 본격적인 음성 인식 동작을 수행하기 위하여 '*-Voice'와 같은 음성인식기를 실행시킬 수 있을 것이다.

도 3은 도 1의 음성인식장치 또는 도 2의 사용자 장치의 세부 구조를 예시하여 나타낸 블록다이어그램이다.

설명의 편의상 도 3을 도 1과 함께 참조하면, 본 발명의 실시예에 따른 음성인식장치(100)는 음성 수신부(300) 및 음성인식처리부(310)의 일부 또는 전부를 포함한다.

여기서, "일부 또는 전부를 포함한다"는 것은 음성 수신부(300)와 같은 일부 구성요소가 생략되어 장치가 구성되거나, 음성인식처리부(310)와 같은 다른 구성요소에 통합 구성될 수 있는 것 등을 의미하는 것으로서, 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.

음성 수신부(300)는 마이크로폰을 포함할 수 있다. 사용자의 음성을 즉 소리 에너지를 마이크로폰을 통해 음성 신호 즉 전기 에너지의 형태로 변환하여 음성인식처리부(310)에 제공할 수 있다. 또한, 음성 수신부(300)는 커넥터를 포함할 수도 있다. 이와 같이 커넥터로 구성되는 경우, 잭이나 USB 등의 커넥터에 연결된 개별 장치 형태의 집음 장치를 연결할 수 있다. 이의 경우, 음성 수신부(300)는 집음 장치로부터 음성 신호를 수신한다고 볼 수 있다.

음성인식처리부(310)는 음성인식장치(100)가 놓이는 실제 사용 환경에 대하여 적응적으로 동작하여 음성을 인식한다. 다시 말해, 사용자로부터 별도의 요청이 있거나, 음성인식장치(100)에서 기설정된 조건을 만족하는 경우 자동으로 동작하여 이러한 적응적 동작을 수행할 수 있다. 다시 언급해 보면, 음성인식처리부(310)는 실 환경에서 수집되는 사용자의 음성을 분석하여 기설정된 인식 결과의 유사도 점수에 대한 임계값을 변경한다. 이후, 변경된 임계값을 기준으로 인식 동작을 수행하여, 인식에 성공하면, 화자 모델로서, 텍스트 정보를 저장하고, 실패하면 사용자가 접한 주변 환경이라 판단하여 배경 모델로서 텍스트 정보를 저장한다. 여기서, 임계값은 레지스트리에 저장되거나, 메모리에 저장될 수 있다.

이와 같은 동작 중에, 인식률을 모니터링하거나 주기적으로 점검해 본 결과, 인식률이 계속해서 저하되는 문제가 발생한다면, 음성인식처리부(310)는 조정된 유사도 점수의 임계치에 문제가 있는 것으로 판단할 수 있다. 이에 따라 음성인식처리부(310)는 수신된 사용자 음성에 대한 화자 특성을 재분석하고, 재분석된 인식 결과를 별도로 저장한 화자 모델이나 배경 모델의 텍스트 정보를 종합적으로 고려하여 다시 임계치를 재조정할 수 있다.

이와 같은 방식으로 처리된 음성인식 결과는 음성인식처리부(310)에 저장될 수 있다. 그리고 저장된 음성인식 결과는 시스템 점검시에 이용될 수 있을 것이다.

도 4는 도 1의 음성인식장치 또는 도 2의 사용자 장치의 세부 구조를 예시하여 나타낸 블록다이어그램이다.

설명의 편의상 도 4를 도 1과 함께 참조하면, 본 발명의 다른 실시예에 따른 음성인식장치(100')는 음성 수신부(400), 음성인식처리부(410) 및 동작 수행부(420)의 일부 또는 전부를 포함하며, 여기서 "일부 또는 전부를 포함"한다는 것은 앞서의 의미와 동일하다.

도 4의 음성인식장치(100')를 도 3의 음성인식장치(100)와 비교해 볼 때, 도 4의 음성인식장치(100')는 동작 수행부(420)를 더 포함한다는 데에 차이가 있다.

다시 말해, 도 3의 음성인식처리부(310)는 인식 결과를 내부에 저장하는 등의 동작으로 완료한다면, 도 4의 음성인식처리부(410)는 인식 결과를 이용하여 구체적인 동작을 수행할 수 있다. 예를 들어, 음성인식처리부(410)는 트리거 워드에 대한 인식이 성공하면, 본격적인 음성인식 동작을 위하여, '*-Voice'와 같은 음성인식기를 실행시키고 이를 사용자에게 알리기 위해 화면에 UI 창을 표시해 줄 수 있다. 이러한 점에서 동작 수행부(420)는 디스플레이부를 포함할 수 있을 것이다.

또한, 동작 수행부(420)는 음성인식처리부(410)에서 처리된 음성 인식결과 즉 텍스트 기반의 인식결과를 이용하여 검색 동작을 수행할 수도 있다. 예를 들어, 사용자가 "오늘 날씨 어때?"라고 발화하거나, "*지성"이라는 스포츠 스타의 이름을 발화하면, 외부 검색 서버 등에 접속하여 검색 동작을 수행할 수 있다. 이러한 점에서 동작 수행부(420)는 제어부, 통신 인터페이스부 등을 포함할 수 있다.

이러한 점을 제외하면, 도 4의 음성 수신부(400) 및 음성인식처리부(410)는 도 3의 음성 수신부(300) 및 음성인식처리부(310)의 내용과 크게 다르지 않으므로 그 내용들로 대신하고자 한다.

도 5는 도 1의 음성인식장치 또는 도 2의 사용자 장치의 또 다른 세부 구조를 나타내는 블록다이어그램이다.

설명의 편의상 도 5를 도 1과 함께 참조하면, 본 발명의 또 다른 실시예에 따른 음성인식장치(100'')는 음성 수신부(500), 제어부(510), 음성인식실행부(520) 및 저장부(530)의 일부 또는 전부를 포함하며, 여기서 "일부 또는 전부를 포함"한다는 것은 앞서의 의미와 동일하다.

도 5의 음성인식장치(100'')를 도 3의 음성인식장치(100)와 비교해 보면, 도 5의 음성인식장치(100'')는 도 3 및 도 4의 음성인식처리부(310, 410)가 제어부(510)와 음성인식실행부(520)로 구분된다는 점에서 차이가 있다.

제어부(510)는 음성인식장치(100'') 내부의 구성요소들을 전반적으로 제어하는 역할을 담당한다. 예를 들어, 음성 수신부(500)를 통해 사용자의 음성에 대한 오디오 데이터가 수신되면, 이를 음성인식실행부(520)로 전달한다. 그리고, 음성인식실행부(520)로부터 인식 결과가 출력되면, 이를 저장부(530)에 저장하는 등의 동작을 수행할 수 있다.

음성인식실행부(520)는 음성 인식을 위한 음성 인식기를 포함할 수 있다. 본 발명의 실시예에 따른 음성인식실행부(520)는 트리거 인식기를 포함할 수 있는데, 이러한 트리거 인식기는 앞서 언급한 대로, 실사용 환경에 적응적으로 동작하는 것이 바람직하다. 실사용 환경에 적응적으로 동작한다는 것은, 앞서 충분히 설명하였으므로 더 이상의 설명은 생략하도록 한다.

음성인식실행부(520)는 본 발명의 실시예에 따라 제어부(510)의 제어 하에 동작할 수 있다. 다시 말해, 제어부(510)는 음성인식실행부(520)에 포함된 음성 인식엔진을 실행시켜 인식 동작을 수행하고, 음성인식실행부(520)로부터 인식 결과를 수신한다.

저장부(530)는 제어부(510)에서 처리되는 다양한 정보를 임시 저장할 수 있다. 예를 들어, 저장부(530)는 제어부(510)에 수신된 사용자의 오디오 데이터를 저장부(530)에 임시 저장한 후, 저장한 오디오 데이터를 불러내어 음성인식실행부(520)로 제공할 수 있다. 또한, 저장부(530)는 유사도 점수에 관련되는 임계값을 저장한 후, 비교 동작을 위해 저장된 임계값을 제어부(510)의 제어 하에 음성인식실행부(520)로 제공할 수 있다. 이러한 비교 동작은 제어부(510)에서 이루어지는 것도 얼마든지 가능하므로, 위의 내용에 특별히 한정하지는 않을 것이다. 또한, 저장부(530)에 저장된 임계값은 룩업 테이블 형태로 저장될 수 있을 것이다.

또한 저장부(530)는 음성인식실행부(520)에서 처리되는 화자 모델 정보 및 배경 모델 정보를 제어부(510)의 제어 하에 저장할 수 있다. 여기서, 화자 모델 정보 및 배경 모델 정보는 음성인식실행부(520)에서 처리된 인식 결과로서, 더 정확하게는 텍스트 기반의 정보에 해당될 수 있고, 화자 모델 정보는 인식에 성공한 정보이고, 배경 모델 정보는 인식에 실패한 정보에 해당된다. 이러한 정보는 앞서 언급한 대로, 인식 결과 중 유사도 점수의 임계값을 조정할 때 이용될 수 있다.

도 6은 도 5에 도시된 제어부의 구조를 예시하여 나타낸 도면이다.

도 6에 도시된 바와 같이, 도 5의 제어부(510)는 프로세서(600) 및 메모리(610)의 일부 또는 전부를 포함할 수 있다.

도 5의 제어부(510)는 도 6의 프로세서(600)만을 포함할 수 있지만, 메모리(610)를 더 포함할 수 있다. 다시 말해, 도 5의 제어부(510)는 음성인식실행부(520)를 제어하여 내부의 음성인식기를 실행시킨다. 반면, 메모리(610)를 더 포함하는 경우, 프로세서(600)는 음성인식장치(100'')의 초기 구동시, 도 5의 음성인식실행부(520)에 포함된 음성인식기를 메모리(610)에 로딩하여 저장한다. 그리고, 음식인식동작을 수행해야 하는 경우, 메모리(610)에 저장된 인식엔진을 실행시킨다. 그 결과, 인식 동작을 위한 데이터 처리가 그만큼 빨라지게 된다. 여기서, 메모리(610)는 램(RAM)을 포함할 수 있다. 이때, 가령 메모리(610)에 로딩된 인식엔진은 기설정된 임계값을 포함하거나, 메모리(610)의 지정된 영역에 임계값을 기저장할 수 있을 것이다.

도 7은 도 1의 음성인식장치 또는 도 2의 사용자 장치의 또 다른 세부 구조를 예시하여 나타낸 도면이다.

설명의 편의상 도 7을 도 2와 함께 참조하면, 본 발명의 또 다른 실시예에 따른 사용자 장치(200''')는 통신 인터페이스부(700), 음성 수신부(710), 제어부(720), 디스플레이부(730), 음성인식실행부(740) 및 저장부(750)의 일부 또는 전부를 포함할 수 있다.

도 7의 사용자 장치(200''')는 내부에 음성인식기를 포함하지만, 기설정된 조건을 만족하는 경우, 통신 인터페이스부(700)를 통해 도 2의 음성인식장치(220)로 사용자의 음성에 대한 오디오 데이터를 전송할 수 있다. 또한, 전송한 오디오 데이터에 대한 인식 결과를 통신 인터페이스부(700)를 통해 수신할 수 있다. 이때, 사용자 장치(200''')는 오디오 데이터를 전송할 때, 음성 수신부(710)로 수신된 음성 신호에 대하여 사용자 음성이라고 판단되는 구간만을 검출하여 전송할 수 있다.

예를 들어, 사용자 장치(200''')의 음성인식실행부(740)는 트리거 인식기를 포함할 수 있다. 트리거 인식기가 실행되어 사용자가 발화한 음성에 대한 인식이 성공하면, 제어부(720)는 본격적으로 음성인식동작을 수행하기 위해 저장부(750) 또는 음성인식실행부(740)에 저장된 '*-Voice'와 같은 음성인식기를 실행시키고, 음성인식기가 활성화되었다는 UI 창을 디스플레이부(730)에 표시할 수 있다.

다시 말해, 사용자 장치(200)가 TV라면, 사용자는 음성인식동작의 시작을 알리기 위해 "Hi TV"라고 발화하고, 사용자 장치(200)는 내부에 탑재되어 있는 트리거 인식기를 실행시켜 이를 인식한 후, 인식에 성공하면 '*-Voice'와 같은 음성인식기를 실행시킨다. 이후, 사용자가 "오늘 날씨 어때"라고 발화하면, '*-Voice'와 같은 음성인식기를 통해 이에 대한 텍스트 기반의 인식 결과를 취득하고, 취득한 텍스트 기반의 인식 결과를 근거로 검색 동작을 수행할 수 있을 것이다.

이러한 점을 제외하면, 도 7의 음성 수신부(710), 제어부(720), 디스플레이부(730), 음성인식실행부(740) 및 저장부(750)는 도 4 및 도 5에서 설명한 내용과 크게 다르지 않으므로 그 내용들로 대신하고자 한다.

도 8은 도 2에 도시된 음성인식장치의 구조를 나타내는 블록다이어그램이다.

도 8에 도시된 바와 같이, 본 발명의 실시예에 따른 도 2의 음성인식장치(220)는 통신 인터페이스부(800) 및 음성인식처리부(810)를 포함한다.

통신 인터페이스부(800)는 통신망(210)에 연결된 서버 기반의 음성인식기를 포함하므로, 도 2의 사용자 장치(200)로부터 사용자의 발화 음성에 대한 오디오 데이터를 수신한다. 그리고, 통신 인터페이스부(800)는 수신된 음성에 대한 인식 결과를 음성인식처리부(810)의 제어 하에 사용자 장치(200)로 전송한다.

음성인식처리부(810)는 다양한 유형의 음성 인식기를 포함할 수 있다. 물론 이러한 음성 인식기는 앞서 언급한 사용자 및 사용자의 주변 환경에 적응적으로 동작한다. 일례로, 음성인식처리부(810)는 트리거 워드를 인식하는 트리거 인식기와, 본격적인 음성 인식 동작에 관여하는 '*-Voice'와 같은 음성인식기를 포함할 수 있다. 통상적으로 서버 단의 음성인식기는 사용자 장치(200)의 음성인식기보다 성능이 우수하다는 이점을 갖는다. 또한, 사용자 장치(200)의 비용 등의 측면을 고려할 때, 통상의 음성인식기는 서버 단의 음성인식처리부(810)에 구비되는 것이 바람직하다. 다만, 본 발명의 실시예에서는 위의 내용에 특별히 한정하지는 않을 것이다.

이러한 점을 제외하면, 도 8에서의 음성인식처리부(810)는 도 3에서의 음성인식처리부(310)와 크게 다르지 않으므로 그 내용들로 대신하고자 한다.

도 9는 도 2에 도시된 음성인식장치의 다른 구조를 예시하여 나타낸 블록다이어그램이다.

도 9에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 음성인식장치(220')는 통신 인터페이스부(900), 제어부(910), 음성인식실행부(920) 및 저장부(930)의 일부 또는 전부를 포함하며, 여기서 "일부 또는 전부를 포함"한다는 것은 앞서의 의미와 동일하다.

도 8에서의 음성인식처리부(810)는 제어 기능을 수행하는 제어부(910)와, 음성인식동작을 수행하여 인식 결과를 출력하는 음성인식실행부(920)로 구분될 수 있다. 이러한 음성인식실행부(920)는 EEPROM 형태로 구성될 수 있으며, 내부에 포함된 음성인식기(혹은 엔진, 프로그램)는 외부에서 연결된 장치를 통해 갱신되는 것이 얼마든지 가능할 수 있을 것이다.

여기서, 제어부(910)는 도 6에서 언급한 바 있는 프로세서(600) 및 메모리(610)의 일부 또는 전부를 포함할 수 있다. 이와 관련해서는 앞서 도 5를 참조하여 충분히 설명하였으므로 더 이상의 설명은 생략한다.

도 9의 제어부(910) 및 음성인식실행부(920)와 관련해서도 앞서 도 5 및 도 6을 참조하여 충분히 설명하였으므로, 그 내용들로 대신하고자 한다.

도 10은 본 발명의 제1 실시예에 다른 음성인식과정을 나타내는 도면이다.

도 10은 도 2의 사용자 장치(200)가 음성인식기를 포함하지 않는 시나리오를 상정한 것으로서, 사용자 장치(200)는 실 환경에서의 사용자 음성을 취득한다(S1000). 여기서, "실 환경"이란 사용자 장치(200)를 사용하는 사용자들, 즉 가족 구성원들이나, 사용자 장치(200)가 처한 주변 환경을 포함하는 의미이다.

사용자 장치(200)는 내부에 탑재된 마이크로폰이나 외부에서 스탠드 얼론 형태로 연결되어 동작하는 집음 장치를 통해 취득된 사용자 음성에 대한 오디오 데이터를 서버 기반의 음성인식장치(220)로 전송한다(S1010). 본 발명의 실시예는 실 환경에 놓인 사용자 장치(200)의 사용자와 사용자의 주변 환경에 사용자 장치(200)가 적응적으로 동작하도록 하는 것이므로, 실제 이러한 과정은 수회에 걸쳐 이루어질 수 있다.

음성인식장치(220)는 사용자 장치(200)에서 전송된 음성의 인식 결과를 근거로, 기설정된 음성 인식 결과를 변경한다(S1020). 음성인식장치(220)는 가령 고정발화엔진의 음성인식기를 포함하는 경우, 유사도 점수의 임계치를 변경할 수 있다. 예를 들어, 기설정된 인식 결과에서 유사도 점수의 임계치가 94%였다면, 음성인식장치(220)는 전송된 음성의 인식 결과에 대한 유사도 점수가 94% 이상일 때 인식에 성공한 것으로 결정하고, 임계치 변경에 의해 93%로 하향 조정된 경우, 93% 이상일 때, 인식에 성공한 것으로 결정할 수 있다.

만약 이와 같이 화자 특성을 반영하여 임계치를 조정한 경우, 사용자 장치(200)가 놓인 주변 환경 즉 사용자 이외의 주변 잡음에 음성인식장치(220)가 오인식 동작함으로써 사용자 장치(200)가 오동작할 수 있다.

따라서, 음성인식장치(220)는 이와 같은 과정을 좀 더 정밀하게 판단하기 위하여, 사용자 재발화한 음성을 수신하여(S1030, S1040), 이에 대한 인식 결과를 변경된 인식 결과와 비교하여 오인식 여부를 판단하게 된다(S1050).

판단 결과, 인식에 성공하고, 인식률이 저하되지 않으면, 임계치가 적절히 보정된 것으로 판단하여, 음성인식장치(220)는 해당 인식 결과를 사용자 장치(200)로 전송하여 적절한 동작이 이루어지도록 할 수 있다. 예를 들어, 트리거 워드에 대한 인식이 성공하였다면, 사용자 장치(200)는 음성인식 동작을 본격적으로 수행하기 위한 다른 음성인식기를 동작시킬 수 있다.

이후, 음성인식장치(220)는 해당 인식 결과에 대한 정보를 화자 모델로서 저장할 수 있다. 그리고, 음성인식장치(220)는 인식에 성공한 화자 모델에 대한 정보를 갱신할 수 있다. 반면, 변경된 임계치를 근거로 인식에 실패한 인식 결과는 배경 즉 사용자 이외에 사용 환경에 대한 정보로 판단하여 화자 모델과 별도로 저장해 둔다.

이와 같이 저장한 화자 모델 정보 및 배경 모델 정보는, 변경된 음성 인식 결과를 근거로 음성 인식을 수행한 결과, 가령 기설정된 조건을 만족할 때, 임계치의 재조정을 위하여 참조될 수 있다. 여기서, "기설정된 조건"이란 인식률이 저하되는 경우를 포함한다. 실제로 사용자의 음성 구간에 해당되는 오디오 데이터는 화자 특성과 주변 환경에 대한 배경 특성을 포함할 것이다. 이때 배경 특성은 다양하게 변경될 수 있으므로, 오디오 데이터의 분석시 전혀 다른 화자 모델 정보가 생성될 수 있고, 이로 인해 오인식률이 증가할 수 있다. 이러한 문제를 개선하기 위하여 본 발명의 실시예에서는 임계치의 재조정 동작을 수행할 수 있을 것이다.

도 11은 본 발명의 다른 실시예에 따른 음성인식과정을 나타내는 도면이다.

도 11은 본 발명의 다른 실시예에 따른 사용자 장치(200)가 내부에 음성인식기를 탑재한 경우를 상정한 것으로서, 사용자 장치(200)는 내부의 음성인식기를 사용하여 음성인식 수행이 가능한지 판단한 후에(S1100, S1110), 음성인식장치(220)로 취득한 음성의 오디오 데이터를 전송한다(S1120).

예를 들어, 수신된 신호에서 음성 구간에 해당되는 부분을 검출하고, 검출된 부분의 발화 시간 길이가 트리거 워드와 같이 짧은 경우, 사용자 장치(200)는 트리거 워드로 판단하여 사용자 장치(200)에서 처리할 수 있을 것이다.

이러한 점을 제외하면, 도 11의 S1130 내지 S1170 단계는 도 10의 S1020 내지 S1070 단계와 크게 다르지 않으므로 그 내용들로 대신하고자 한다.

도 12는 본 발명의 실시예에 따른 음성인식과정을 나타내는 흐름도이다.

설명의 편의상 도 12를 도 1과 함께 참조하면, 본 발명의 실시예에 따른 음성인식장치(100)는 사용자가 발화한 음성을 수신한다(S1200).

여기서, 음성은 사용자의 목소리를 의미하는 것이다. 따라서, 좀 더 정확히 말해, 음성인식장치(100)는 가령 마이크로폰을 통해 사용자 목소리 이외에 잡음이 포함된 신호(또는 소리)를 수신할 수 있고, 수신한 신호에서 사용자의 목소리에 해당되는 음성 구간을 검출할 수 있을 것이다.

음성인식장치(100)는 가령 사용자의 요청에 따라 본 발명의 실시예에 명명하는 '실환경 적응 모드'라는 것을 실행할 수 있다. 이는 메뉴 화면을 통해 이루어질 수 있고, 리모컨에 구비된 별도의 버튼을 통해 이루어질 수도 있을 것이다.

이와 같은 사용자 요청이 있으면, 음성인식장치(100)는 음성 인식 결과를 근거로 하여 기설정된 인식 결과를 변경한다(S1210). 더 정확하게는 인식 결과에서 유사도 점수의 임계치를 변경한다고 볼 수 있다.

그리고, 사용자가 이후에 음성 명령어를 재발화하게 되면, 음성인식장치(100)는 재발화된 음성의 인식 결과가 변경된 임계치 이상인지를 판단하여 오인식 여부를 판단할 수 있다(S1220).

만약 인식이 성공하였으면, 성공 결과에 근거하여 '*-Voice'와 같은 다른 음성인식기를 가동시킬 수 있다. 이의 과정에서 음성인식장치(100)는 해당 텍스트 인식 결과를 화자 모델 정보로서 별도로 저장할 수 있고, 실패하는 경우에는 해당 텍스트 인식 결과를 배경 모델 정보로서 별도로 저장할 수 있다.

저장된 화자 모델 정보 및 배경 모델 정보는 이후 유사도 점수의 임계치를 재조정해야 하는 상황이 발생하게 될 때, 참조될 수 있을 것이다.

도 13은 본 발명의 다른 실시예에 따른 음성인식과정을 나타내는 흐름도이다.

설명의 편의상, 도 13을 도 1과 함께 참조하면, 본 발명의 실시예에 따른 음성인식장치(100)는 입력된 신호에서 사용자의 음성을 검출한다(S1301).

이후, 사용자로부터 소위 '실환경 적응 모드'에 의한 실행 요청이 없으면, 음성인식장치(100)는 기설정된 인식결과에 따라 인식동작을 수행한다(S1303 ~ S1317).

만약 사용자가 S1303 단계에서, 음성인식장치(100)를 실환경에 적응시키기 위한 요청을 하게 되면, 음성인식장치(100)는 수신된 사용자의 음성에 대한 화자 특성을 추출한다(S1305). 다시 말해, 기설정된 인식 결과의 텍스트 기반 정보가 8비트 정보로서 '10101010'이었다면, 화자 특성의 텍스트 기반 정보는 '10101011'일 수 있다.

이와 같은 화자 특성 정보를 근거로 음성인식장치(100)는 유사도 값을 연산할 수 있다. 다시 말해, 추출된 화자 특성 정보가 기설정된 텍스트 기반의 인식 결과에 얼마나 유사한지를 계산하는 것이다. 그리고, 연산된 유사도 값의 임계치를 기설정된 인식 결과에 적응시킨다(S1307). 즉 인식 결과에 반영하여 유사도 점수의 임계치를 변경하게 된다.

이후 사용자의 재발화가 있으면, 음성인식장치(100)는 변경된 임계치를 적용하여 S1301 내지 S1317 단계를 계속해서 수행할 수 있다.

이의 과정에서, 음성인식장치(100)는 S1315 단계에서, 인식에 성공하면 성공한 텍스트 기반의 인식 결과를 화자 모델로서 저장한 후(S1319, S1321), 주기적으로 갱신하게 된다. 반면 S1315 단계에서, 인식에 실패하게 되면, 실패한 텍스트 기반의 인식 결과는 배경 모델로서 저장해 둔다(S1323, S1321).

그리고, 인식 동작을 수행하는 과정에서 인식률이 저하되는 등의 기설정된 조건을 만족하는 이벤트가 발생하게 되면(S1313), 음성인식장치(100)는 수신된 음성 신호를 분석하여 화자 특성을 다시 분석하게 되고(S1305), 이의 과정에서 별도로 저장해 둔, 화자 모델 정보 및 배경 모델 정보를 참조하여 유사도 점수의 임계치를 다시 연산하여, 변경된 임계치를 재조정하게 된다(S1307, S1311).

상기와 같은 방식에 따라 음성인식장치(100)는 실환경에 적응적으로 동작함으로써 의도하지 않은 오인식을 사전에 방지할 수 있게 되는 것이다.

도 14는 본 발명의 또 다른 실시예에 따른 음성인식과정을 나타내는 흐름도이다.

설명의 편의상 도 14를 도 1과 함께 참조하면, 본 발명의 실시예에 따른 음성인식장치(100)는 사용자의 발화 음성에 대한 음성 신호를 수신한다(S1400).

그리고, 음성인식장치(100)는 수신한 음성 신호에서 음성인식 시작어를 인식하고, 시작어의 인식 결과가 기설정된 임계치 이상이면 음성 신호에 대한 음성 인식을 수행한다(S1410). 여기서, 기설정된 임계치는 유사도 점수의 임계치를 의미할 수 있다.

또한 음성인식장치(100)는 시작어의 인식 결과에 기초하여 기설정된 임계치를 조정할 수 있다(S1420). 예를 들어, 음성인식장치(100)를 실환경에 적응적으로 동작시키고자하는 사용자 명령이 있는 경우, 음성인식장치(100)는 명령 이후에 수신되는 시작어의 인식 결과에 기초해 기설정된 임계치를 조정할 수 있을 것이다.

한편, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 비일시적 저장매체(non-transitory computer readable media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시 예를 구현할 수 있다.

여기서 비일시적 판독 가능 기록매체란, 레지스터, 캐시(cache), 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라, 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로, 상술한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리 카드, ROM 등과 같은 비일시적 판독가능 기록매체에 저장되어 제공될 수 있다.

이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

100, 220: 음성인식장치 200: 사용자 장치
210: 통신망 300, 400, 500, 710: 음성 수신부
310, 410, 810: 음성인식처리부 420: 동작 수행부
510, 720, 910: 제어부 520, 740, 920: 음성인식실행부
530, 750, 930: 저장부 600: 프로세서
610: 메모리 700, 800, 900: 통신 인터페이스부
730: 디스플레이부

Claims

음성 인식에 사용하는 기설정된 임계치를 저장하는 저장부;
발화 음성에 대한 음성 신호를 수신하는 음성 수신부; 및
상기 수신한 음성 신호에서 음성인식 시작어를 인식하고, 상기 인식한 음성인식 시작어의 인식 결과인 유사도 점수가 상기 저장한 기설정된 임계치 이상이면 상기 음성 신호에 대한 음성 인식을 수행하는 음성인식처리부;를 포함하며,
상기 음성인식처리부는,
상기 음성인식 시작어의 인식 결과에 기초하여 상기 기설정된 임계치를 변경하는 음성인식장치.
제1항에 있어서,
상기 음성인식처리부는, 상기 음성인식 시작어를 인식하여 생성한 텍스트 기반의 인식 결과에 연계된 유사도 점수에 비교되는 기설정된 임계치를 변경하는 것을 특징으로 하는 음성인식장치.
제2항에 있어서,
상기 음성인식처리부는, 상기 음성 신호에 대한 텍스트 기반의 인식 결과가 기설정된 수 이상 검출되면, 상기 기설정된 임계치를 변경하는 것을 특징으로 하는 음성인식장치.
제1항에 있어서,
상기 음성인식처리부는, 상기 기설정된 임계치를 이용해 음성 인식을 수행한 결과, 오인식률이 증가하면 상기 기설정된 임계치를 변경하는 것을 특징으로 하는 음성인식장치.
제1항에 있어서,
상기 변경한 기설정된 임계치에 근거하여 음성 인식을 수행한 결과 인식에 성공하면, 상기 성공한 인식 결과를 사용자의 화자 모델로서 저장하고, 인식에 실패하면 상기 사용자가 속한 환경에 대한 배경 모델로서 저장하는 저장부;를 더 포함하며,
상기 음성인식처리부는, 임의의 조건이 충족되면, 상기 화자 모델의 인식 결과 및 상기 배경 모델의 인식 결과를 근거로 상기 변경한 기설정된 임계치를 재변경하는 것을 특징으로 하는 음성인식장치.
제5항에 있어서,
상기 음성인식처리부는, 상기 변경한 기설정된 임계치에 근거하여 음성 인식을 수행한 결과 오인식률이 증가하면, 상기 변경한 기설정된 임계치를 재변경하는 것을 특징으로 하는 음성인식장치.
제1항에 있어서,
상기 음성인식장치는, 상기 음성인식 시작어를 인식하는 고립단어 음성인식기를 포함하는 것을 특징으로 하는 음성인식장치.
음성 인식에 사용하는 기설정된 임계치를 저장하는 단계;
발화 음성에 대한 음성 신호를 수신하는 단계;
상기 수신한 음성 신호에서 음성인식 시작어를 인식하고, 상기 인식한 음성인식 시작어의 인식 결과인 유사도 점수가 상기 저장한 기설정된 임계치 이상이면 상기 음성 신호에 대한 음성 인식을 수행하는 단계; 및
상기 음성인식 시작어의 인식 결과에 기초하여 상기 기설정된 임계치를 변경하는 단계;를
포함하는 음성인식방법.
제8항에 있어서,
상기 기설정된 임계치를 변경하는 단계는,
상기 음성인식 시작어를 인식하여 생성한 텍스트 기반의 인식 결과에 연계된 유사도 점수에 비교되는 기설정된 임계치를 변경하는 것을 특징으로 하는 음성인식방법.
제9항에 있어서,
상기 기설정된 임계치를 변경하는 단계는,
상기 음성 신호에 대한 텍스트 기반의 인식 결과가 기설정된 수 이상 검출되면, 상기 기설정된 임계치를 변경하는 것을 특징으로 하는 음성인식방법.
제8항에 있어서,
상기 기설정된 임계치를 변경하는 단계는,
상기 기설정된 임계치를 이용해 음성 인식을 수행한 결과, 오인식률이 증가하면 상기 기설정된 임계치를 변경하는 것을 특징으로 하는 음성인식방법.
제8항에 있어서,
상기 변경한 기설정된 임계치에 근거하여 음성 인식을 수행한 결과 인식에 성공하면, 상기 성공한 인식 결과를 사용자의 화자 모델로서 저장하고, 인식에 실패하면 상기 사용자가 속한 환경에 대한 배경 모델로서 저장하는 단계; 및
임의의 조건이 충족되면, 상기 화자 모델의 인식 결과 및 상기 배경 모델의 인식 결과를 근거로 상기 변경한 기설정된 임계치를 재변경하는 단계;를
더 포함하는 것을 특징으로 하는 음성인식방법.
제12항에 있어서,
상기 변경한 기설정된 임계치를 재변경하는 단계는,
상기 변경한 기설정된 임계치에 근거하여 음성 인식을 수행한 결과 오인식률이 증가하면, 상기 변경한 기설정된 임계치를 재변경하는 것을 특징으로 하는 음성인식방법.
제8항에 있어서,
상기 음성인식방법은, 사용자 장치에 탑재되어 상기 음성인식 시작어를 인식하는 고립단어 음성인식기에서 수행되는 것을 특징으로 하는 음성인식방법.
음성인식방법을 실행시키기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록매체에 있어서,
상기 음성인식방법은,
음성 인식에 사용하는 기설정된 임계치를 저장하는 단계;
발화 음성에 대한 음성 신호를 수신하는 단계;
상기 수신한 음성 신호에서 음성인식 시작어를 인식하고, 상기 인식한 음성인식 시작어의 인식 결과인 유사도 점수가 상기 저장한 기설정된 임계치 이상이면 상기 음성 신호에 대한 음성 인식을 수행하는 단계; 및
상기 음성인식 시작어의 인식 결과에 기초하여 상기 기설정된 임계치를 변경하는 단계;를
실행하는 컴퓨터 판독가능 기록매체.