KR20160023424A

KR20160023424A - 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법

Info

Publication number: KR20160023424A
Application number: KR1020140109822A
Authority: KR
Inventors: 방규섭
Original assignee: 현대자동차주식회사; 기아자동차주식회사
Priority date: 2014-08-22
Filing date: 2014-08-22
Publication date: 2016-03-03
Also published as: KR101614756B1; CN105355202A; US20160057261A1; CN105355202B; US9756161B2

Abstract

인식 대상 문맥을 모델링하여 생성된 문맥 모델;과 음향 모델 및 문맥 모델에 기초하여 입력된 음성 신호에 대응되는 후보군을 생성하고, 발화 길이에 대응하는 음절 길이를 가진 후보에 높은 신뢰도 가중치를 적용하는 음성 인식부;를 포함하는 음성 인식 장치를 제공한다.

Description

음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법{APPARATUS OF VOICE RECOGNITION, VEHICLE AND HAVING THE SAME, METHOD OF CONTROLLING THE VEHICLE}

음성 인식 장치, 음성 인식 장치 포함하는 차량, 및 음성 인식 장치 포함하는 차량의 제어 방법을 제공한다.

일반적으로 운전자가 차량을 운전하는 도중 휴대폰으로 전화를 하려면 먼저 손으로 휴대폰을 들고 다이얼을 누른 뒤, 다시 휴대폰을 귀에 대고 상대방과 통화를 해야 하는 등 간단하지만 몇 단계의 절차를 거치지 않으면 안 된다.

차량이 멈추어 있으면 몰라도, 운전 도중이라면 두 손을 모두 핸들에서 떼지는 않는다고 하더라도 어쩔 수 없이 한 손은 휴대폰을 들고 있어야 한다.

이렇다 보니 운전자의 시야가 좁아지고, 주변 보행자들을 제대로 보지 못할 뿐 아니라, 자동차가 좌우로 흔들리는 현상이 발생하며, 브레이크 페달을 밟는 반응속도도 느려져 교통사고가 늘어날 수밖에 없다.

이러한 문제점을 감소시키기 위하여 핸즈프리 장치 또는 블루투스 장치가 상용화 되었다. 핸즈프리 장치 또는 블루투스 장치는 운전자와의 통화를 위해 운전자의 음성을 수집하여 음성 인식을 수행하고 음성 인식된 음성을 휴대폰으로 전송하며 휴대폰에서 통화 상대자의 음성이 전달되면 전달된 통화 상대자의 음성을 스피커를 통해 출력한다. 그러나, 여전히 걸려온 전화를 받거나 전화를 걸기 위해서는 휴대폰을 손으로 조작하여야 하는 문제점이 있었다.

이에 음성으로 전화를 받거나 음성으로 특정 전화 번호로 전화를 걸 수 있도록 차량에 음성 인식 기술이 차량에 적용되었다.

화자의 발화 길이에 따라 신뢰도 가중치를 적용하는 음성 인식 장치, 그를 포함하는 차량, 및 차량 제어 방법을 제공하는 것을 그 목적으로 한다.

일 양상에 따른 음성 인식 장치는 인식 대상 문맥을 모델링하여 생성된 문맥 모델;과 음향 모델 및 문맥 모델에 기초하여 입력된 음성 신호에 대응되는 후보군을 생성하고, 발화 길이에 대응하는 음절 길이를 가진 후보에 높은 신뢰도 가중치를 적용하는 음성 인식부;를 포함한다.

또한, 음성 인식 장치는 신뢰도에 따라 정렬된 후보군을 표시하는 디스플레이부;를 더 포함할 수 있다.

또한, 음성 인식 장치는 인식 대상 문맥을 음절 길이에 따라 분류하여, 음절 길이 별로 문맥 모델을 생성하는 문맥 생성부;를 더 포함할 수 있다.

이때. 음성 인식부는, 음절 길이 별로 생성된 문맥 모델 각각에서 후보군을 생성하고, 발화 길이에 대응하는 음절 길이에 따라 각 후보군에 가중치를 적용할 수 있다.

또한, 음성 인식부는, 발화 길이가 임계치 이하이면 미리 설정된 기준 이하의 음절에 대응되는 후보에 높은 신뢰도 가중치를 적용할 수 있다.

일 양상에 따른 차량은 전화번호부의 각 명칭을 모델링하여 생성된 문맥 모델;과 음향 모델 및 문맥 모델에 기초하여 입력된 음성 신호에 대응되는 전화번호 후보군을 생성하고, 발화 길이에 따라 결정된 신뢰도 가중치를 전화번호 후보 각각에 적용하는 음성 인식부;를 포함한다.

이때, 차량은 신뢰도에 따라 정렬된 전화번호 후보군을 표시하는 디스플레이부;를 더 포함할 수 있다.

또한, 음성 인식부는, 전화번호 후보군 중 발화 길이에 상응하는 음절의 전화번호 후보가 높은 신뢰도를 가지도록 신뢰도 가중치를 적용할 수 있다.

음성 인식부는, 발화 길이가 임계치보다 작으면 전화번호 후보군 중 단음절의 전화번호 후보가 높은 신뢰도를 가지도록 신뢰도 가중치를 적용할 수 있다.

음성 인식부는, 발화 길이가 임계치보다 크면 전화번호 후보군 중 단음절의 전화번호 후보가 낮은 신뢰도를 가지도록 신뢰도 가중치를 적용할 수 있다.

한편, 차량은 명칭의 음절 길이에 따라 전화번호부를 분류하여, 음절 길이 별로 문맥 모델을 생성하는 모델 생성부;를 더 포함할 수 있다.

이때, 모델 생성부는, 명칭을 성과 이름으로 분리하여 분리 문맥 모델을 생성할 수 있다.

또한, 모델 생성부는, 명칭을 음소로 변환하여 음성 격자 형태로 명칭을 모델링할 수 있다.

또한, 음성 인식부는, 문맥 모델 각각에서 음성 신호에 대응되는 전화번호 후보군을 생성하고, 발화 길이에 대응하는 음절 길이에 대응하는 전화번호 후보군에 높은 가중치를 적용할 수 있다.

또한, 음성 인식부는, 음향 모델에 기초하여 음성 신호의 음소열을 인식하고, 문맥 모델에서 인식된 음소열에 대응되는 전화번호 후보를 검색하여 전화번호 후보군을 생성할 수 있다.

또한, 차량은 음성 신호에서 발화가 시작된 시점과 발화가 종료한 시점을 검출하여 발화 길이를 산출하는 발화 길이 측정부;를 포함할 수 있다.

일 실시예에 따른 차량 제어 방법은 전화번호부의 각 명칭을 모델링하여 생성된 문맥 모델에서 입력된 음성 신호에 대응되는 전화번호 후보군을 생성하는 후보군 생성 단계;와 사용자의 발화 길이에 따라 신뢰도 가중치를 결정하는 가중치 결정 단계;와 전화번호 후보 음절 길이에 따라 신뢰도 가중치를 적용하는 가중치 적용 단계;를 포함한다.

이때, 가중치 결정 단계는, 발화가 시작되는 시점과 발화가 종료되는 시점의 차이에 기초하여 발화의 길이를 측정하는 단계;를 포함할 수 있다.

또한, 가중치 결정 단계는, 발화 길이에 대응되는 음절 길이의 전화번호 후보의 신뢰도가 높아지도록 신뢰도 가중치를 결정하는 단계;를 포함할 수 있다.

또한, 가중치 결정 단계는, 발화 길이가 임계치 이하이면 단음절의 전화번호 후보의 신뢰도가 증가하도록 신뢰도 가중치를 결정하는 단계;를 포함할 수 있다.

또한, 가중치 결정 단계는, 발화 길이가 임계치 이상이면 단음절의 전화번호 후보의 신뢰도가 낮아지도록 신뢰도 가중치를 결정하는 단계;를 포함할 수 있다.

또한, 후보군 생성 단계는, 음성 신호에서 특징 벡터를 검출하는 단계;와 특징 벡터에 따라 음향 모델에서 음성 신호의 음소열을 인식하는 단계;를 포함할 수 있다.

또한, 후보군 생성 단계는, 음소열과의 신뢰도에 기초하여 전화번호 후보군을 생성하는 단계;를 포함할 수 있다.

또한, 후보군 후보군은, 음소열과 미리 설정된 기준 이상의 신뢰도를 가질 수 있다.

또한, 가중치 적용 단계는, 전화번호 후보군을 신뢰도에 따라 정렬하는 단계;와 신뢰도에 따라 정렬된 전화번호 후보군을 표시하는 단계;를 포함할 수 있다.

한편, 차량 제어 방법은 사용자의 발화에 따라 음성 신호를 입력 받는 단계;와 입력된 음선 신호의 전처리를 수행하는 단계;를 포함할 수 있다.

또한, 각 명칭의 길이에 따라 전화번호부의 분류하고, 각 명칭의 길이 별로 문맥 모델을 생성하는 모델 생성 단계;를 더 포함할 수 있다.

이때, 모델 생성 단계는, 각 명칭을 음소열로 변환하는 단계;와 변환된 음소열에 기초하여 음성 격자를 생성하는 단계;를 포함할 수 있다.

일 양상에 따른 차량은 명칭의 길이에 따라 전화번호부가 분류되어 생성된 복수 개의 문맥 모델;과 복수 개의 문맥 모델 각각에서 입력된 음성 신호에 대응되는 후보군을 생성하는 후보군 탐색부;와 사용자의 발화 길이에 대응되는 문맥 모델에서 생성되는 문맥 후보권이 높은 신뢰도를 가지도록 신뢰도 가중치를 후보군 각각에 적용하는 가중치 적용부;와 신뢰도 가중치가 적용된 후보군을 신뢰도에 따라 정렬하여 표시하는 디스플레이부;를 포함할 수 있다.

상술한 일 양상에 따른 화자의 발화 길이에 따라 신뢰도 가중치를 적용하는 음성 인식 장치, 그를 포함하는 차량, 및 차량 제어 방법을 제공함으로써, 음성 인식율을 향상시킬 수 있다.

특히, 단음절과 같이 소정 길이 이하의 음성의 인식도를 증가시킬 수 있다.

도 1은 일 실시예에 따른 음성 인식 장치를 설명하기 위한 제어 블록도이다.
도 2은 일 실시예에 따른 음성 인식 장치의 음성 인식부의 제어 블록도이다.
도 3은 모델 생성부를 더 포함한 일 실시예에 따른 음성 인식 장치를 설명하기 위한 제어 블록도이다.
도 4은 일 실시예에 따른 차량의 외관을 개략적으로 도시한 사시도이다
도 5는 일 실시예에 따른 차량의 내부를 개략적으로 도시한 도면이다.
도 6은 일 실시예에 따른 음성 인식 장치가 마련된 차량의 제어 블록도이다.
도 7은 일 실시예에 따른 차량의 VAD 장치의 동작에 설명하기 위한 순서도이다.
도 8은 사용자 단말의 인증을 위한 화면을 도시한 화면 예시도이다.
도 9는 일 실시예에 따른 음성 인식 장치를 이용한 전화 통화 연결을 설명하기 위한 순서도이다.
도 10는 전화번호부 문맥 모델의 생성 일례를 상세히 설명하기 위한 순서도이다.
도 11은 전화번호부의 분류에 대하여 설명하기 위한 도면이다.
도 12은 음성 인식 안내 화면을 도시한 화면 예시도이다.
도 13은 전화번호 후보군 생성의 일례를 상세히 설명하기 위한 순서도이다.
도 14는 신뢰도 가중치 적용의 일례를 상세히 설명하기 위한 순서도이다.
도 15는 신뢰도 가중치의 일례를 도시한 도면이다.
도 16은 음성 인식 결과 화면을 도시한 화면 예시도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부", "모듈", "유닛" 등의 용어는 적어도 하나의 기능 또는 동작을 처리하는 단위를 의미하며, 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소, 또는 소프트웨어와 하드웨어의 결합으로 구현될 수 있다. 그렇지만 "부", "모듈", "유닛" 등의 용어가 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부", "모듈", "유닛" 등은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 ""부", "모듈", "유닛" 등의 용어는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

"제1", "제2" 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되지는 않는다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는" 이라는 용어는 복수의 관련된 항목들의 조합 또는 복수의 관련된 항목들 중의 어느 하나의 항목을 포함한다.

음성을 인식하기 위한 단위로 사용되는 것은 단위(Word), 음절(Syllable), 반음절(Demisyllable), 음소(Phoneme or phone), 다이폰(Diphone) 등 다양할 수 있다. 다만, 이하 설명의 편의를 위하여 음소 단위로 음성을 인식하는 것으로 설명한다.

도 1은 일 실시예에 따른 음성 인식 장치를 설명하기 위한 제어 블록도이다.

도 1에 도시된 바와 같이, 일 실시예에 따른 음성 인식 장치(100)는 음성 수신부(110), 전처리부(120), 음성 인식부(130), 결과부(140)를 포함한다.

음성 수신부(110)는 사용자의 음성을 수신하고 수신한 음성에 대응되는 음성 신호를 출력한다. 이때, 음성 수신부(110)는 마이크와 같은 음성 입력 수단 및 음성 입력 수단을 증폭하기 위한 앰프 등을 포함할 수 있다.

전처리부(120)는 음성 인식을 위하여 음성 신호를 전처리한다. 구체적으로, 전처리부(120)는 사용자가 음성으로부터 인식 대상이 되는 구간을 검색할 수 있다. 예를 들어, 전처리부(120)는 가우시안 모델링(Gaussian modeling)에 기반하여 입력된 음성에서 소정의 인식 대상이 되는 구간을 검색할 수 있다.

또한, 전처리부(120)는 인식 대상 구간의 음성 신호에서 잡음 성분을 제거할 수 있다. 예를 들어, 전처리부(120)는 미리 설정된 고정 필터에 음성 신호를 통과시켜 음성 신호의 잡음을 제거하거나, 주위 환경의 잡음 변화에 따라 결정된 가변 필터에 음성 신호를 통과시켜 음성 신호의 잡음을 제거할 수 있다.

음성 인식부(130)는 음향 모델(140) 및 문맥 모델(150)에 기초하여 음성을 인식한다.

여기서, 음향 모델(140)은 각 음소의 특징 벡터를 모델링한 것으로, 입력된 음성 신호가 어느 음소에 대응하는지 판단하는데 이용된다. 즉, 음향 모델(140)은 각 음소에 대응되는 특징 벡터를 모델링하고 있다.

예를 들어, 음향 모델(140)은 은닉 마르코프 네트워크(hidden Markov model, HMM) 방법에 따라 음향적으로 유사한 특징을 가지는 음성 구간을 표현하는 복수 개의 상태들과 이들 상태들 간의 천이 확률로 구성될 수 있다. 뿐만 아니라, 음향 모델(140)은 DTW(Dynamic Time Warping)과 같이 시간적 배열관계에 따라 구성되거나, 인공신경망 등으로 구현될 수 있다.

문맥 모델(150)은 음성 인식 대상을 모델링한 것으로, 음성 인식 대상이 되는 적어도 하나의 문맥 정보를 모델링하여 생성된다. 문맥 모델(150)에 의하여 인식 공간은 한정될 수 있다. 이와 같이 인식 공간을 한정시킴으로써 탐색 공간을 줄여서 인식 시간 및 계산량을 줄일 수 있으며, 음성 인식의 정확도를 높일 수 있다.

여기서, 문맥 정보는 음성 인식 대상이 되는 적어도 하나 이상의 단어열을 의미한다. 예를 들어, 문맥 모델(150)은 음성 인식 대상이 되는 적어도 하나 이상의 단어열의 음소를 순서대로 연결한 음성 격자 형태로 모델링될 수 있다. 이를 위해, 문맥 정보에 포함된 단어열은 텍스트 음소 (text-to-phoneme, T2P) 변환 또는 서기소음소(grapheme-to-phoneme, G2P) 변환에 따라 음소로 변환될 수 있다. 문맥 정보는 음성 인식 장치(100)의 용도에 따라 질 수 있다. 예를 들어, 문맥 정보는 각종 제어 명령을 위한 단어, 전화번호부 검색을 위한 명칭들, 멀티미디어 검색을 위한 명칭들 중 적어도 하나일 수 있다.

또한, 음성 인식부(130)는 사용자의 발화 길이를 측정하고 발화 길이에 기초하여 후보군에 가중치를 적용하여 사용자의 음성을 인식할 수 있다. 이하, 도 2를 참조하여 음성 인식부(130)의 동작에 대하여 구체적으로 설명한다.

도 2은 일 실시예에 따른 음성 인식 장치의 음성 인식부의 제어 블록도이다.

도 2에 도시된 바와 같이, 음성 인식부(130)는 특징 추출부(131), 후보군 탐색부(132), 발화 길이 측정부(133), 가중치 적용부(134), 결과부(135)를 포함할 수 있다.

특징 추출부(131)는 음성 신호에서 신호적 특징을 추출한다. 음성은 동일한 언어라 할지라도 발음하는 사용자의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음 될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징 검출이 필요하다.

이에 특징 추출부(131)는 음성 신호에서 불필요하게 중복되는 음성 신호를 없애고 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 특징 벡터를 추출한다.

예를 들어, 특징 추출부(131)는 선형예측계수(Linear Predictive Coefficient), 켑스트럼(Cepstrum), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등의 방법을 이용하여 전처리된 음성 신호로부터 특징 벡터를 추출할 수 있다.

후보군 탐색부(132)는 음향 모델(140) 및 문맥 모델(150)에 기초하여 음성 신호에 대응하는 후보군을 생성한다.

구체적으로, 후보군 탐색부(132)는 특징 추출부(131)에서 추출된 특징 벡터에 따라 음향 모델(140)에서 입력된 음성 신호에 대응되는 음소열을 인식한다. 상술한 바와 같이 음향 모델(140)은 각 음소에 대응되는 특징 벡터 또는 특징 벡터들의 집합으로 모델링된 바, 특징 추출부(131)에서 추출된 특징 벡터와 음향 모델(140)을 비교하여 입력된 음성 신호에 대응되는 음소열을 인식할 수 있다.

그리고, 후보군 탐색부(132)는 음소열에 기초하여 문맥 모델(150)을 탐색하여 후보군을 생성할 수 있다. 구체적으로, 문맥 모델(150)과 음소열을 비교하여 신뢰도가 높은 후보를 검색하여 후보군을 생성할 수 있다.

문맥 모델(150)은 상술한 봐와 같이 음성 격자로 모델링된다. 그러므로, 입력된 음성 신호에 대응되는 음소열과 문맥 모델(150)의 음성 격자를 패턴 매칭시켜 각 인식 대상 문맥의 음성 격자와 음소열을 신뢰도를 산출한다.

즉, 음성 격자가 음소열과 유사할 수록 높은 신뢰도가 나타다고, 음성 격자가 음소열과 비유사할수록 낮은 신뢰도가 나타난다.

더 구체적으로, 후보군 탐색부(132)는 N-best 탐색을 수행하여 후보군을 생성할 수 있다. 구체적으로, 문맥 모델(150)에서 가장 신뢰도인 높은 N개의 후보를 선출하여 후보군을 생성할 수 있다. 예를 들어, 후보군 탐색부(132)는 신뢰도가 가장 높은 후보 5개를 선정하여 후보군을 생성할 수 있다.

발화 길이 측정부(133)는 사용자의 발화 길이를 측정한다. 구체적으로, 발화 길이 측정부(133)는 발화 시작 시점(Begin of Speech, BoS)과 발화 종료 시점(End of Speech,EoS)를 검출하고, 발화 종료 시점과 발화 시작 시점의 차이를 산출하여 사용자의 발화 길이를 산출할 수 있다.

가중치 적용부(134)는 발화 길이 측정부(133)에서 측정된 발화 길이 기초하여 후보군에 적용할 신뢰도 가중치를 결정할 수 있다. 구체적으로, 후보군에 포함된 후보 중 발화 길이에 대응되는 음절 길이에 해당하는 후보의 신뢰도가 높아지도록 가중치를 결정할 수 있다.

사용자의 발화 길이는 음절 길이와 비례함이 일반적이다. 예를 들어, 단음절의 발화 길이는 3음절의 발화 길이보다 짧은 것이 일반적이다. 그러므로, 사용자의 발화 길이를 측정하고 측정된 발화 길이에 대응될 확률이 높은 음절 길이의 후보에 높은 신뢰도 가중치를 적용하여 음성 인식 성공률을 향상시킬 수 있다.

또한, 이와 같이 발화 길이에 따라 신뢰도 가중치를 적용함으로써, 음절 길이가 비교적 짧은 단음절의 인식 성능을 향상 시킬 수 있다.

이때, 신뢰도 가중치는 미리 설정된 것일 수 있다. 이와 같이 미리 설정된 신뢰도 가중치는 음절 길이에 따른 사용자의 발화 길이를 대한 통계학적 정보를 이용하여 설정된 것일 수도 있으나, 음성 인식 장치(100)의 사용자의 실제 발화 길이에 기초하여 설정된 것일 수도 있다.

예를 들어, 음성 인식 장치는 사용자의 언어 인식을 통해 제공하는 N-best결과에서 사용자가 선택하는 후보의 음절 길이와 실제 사용자의 발화 길이의 관계로부터 신뢰도 가중치를 결정할 수도 있다.

결과부(135)는 신뢰도 가중치가 적용된 후보군을 다시 정렬하고, 정렬된 후보군을 출력한다. 이때, 결과부(135)는 가장 높은 신뢰도를 가진 하나의 문맥 후보만을 출력하거나, 후보군 탐색부(132)에서 생성된 후보 N보다 작은 개수의 후보만을 출력할 수도 있다.

도 3은 모델 생성부를 더 포함한 일 실시예에 따른 음성 인식 장치를 설명하기 위한 제어 블록도이다.

도 3을 참조하면, 음성 인식 장치(100)는 모델 생성부(160)를 더 포함할 수 있다. 모델 생성부(160)는 소정의 문맥 정보를 모델링하여 문맥 모델(150)을 생성한다. 여기서, 문맥 정보는 사용자의 음성 인식이 대상이 되는 적어도 하나 이상의 단어열을 포함할 수 있다.

예를 들어, 문맥 정보는 사용자의 다양한 제어 명령, 전화번호부의 각 전화번호에 대응되는 명칭, 음악 또는 동영상 등과 같은 적어도 하나의 멀티미디어의 명칭 등과 같이 사용자의 음성에 의한 제어를 위해 필요한 정보일 수 있다.

모델 생성부(160)는 문맥 정보를 음소로 변형하고, 변형된 음소를 순서대로 연결하여 음성 격자 형태로 문맥 정보를 모델링할 수 있다. 이와 같이 모델링된 문맥 정보는 상술한 바와 같이 음향 모델(140)의 의하여 인식된 음소열와 패턴 매칭되어 검색될 수 있다.

또한, 모델 생성부(160)는 다양한 방식에 따라 음소를 변형할 수 있다. 예를 들어, 모델 생성부(160)는 텍스트 음소 (Text-To-Phoneme, T2P) 변환 또는 서기소음소(Grapheme-To-Phoneme, G2P) 변환에 따라 문맥 정보에 포함된 단어열들은 음소로 변환할 수 있다.

또한, 모델 생성부(160)는 문맥 정보를 단어열의 길이에 따라 분류하고 각 단어열의 길이 별로 문맥 모델(150)을 생성할 수 있다.

일 실시예로, 도 3에 도시된 바와 같이 모델 생성부(160)는 하나의 문맥 정보로부터 3개의 문맥 모델(151 내지 153)을 생성할 수 있다. 이때, 제1 문맥 모델(151)에는 임계 길이보다 긴 단어열이 저장되고, 제2 문맥 모델(152)에는 임계 길이보다 짧은 단어열이 저장될 수 있다.

또한, 모델 생성부(160)는 하나의 단어열을 더 작은 단어열로 분리하여 제3 문맥 모델(153)을 생성할 수 있다. 예를 들어, 2개의 단어로 구성된 단어열에서 각 단어를 서로 분리하고, 분리된 단어 중 적어도 하나의 단어를 모델링하여 제3 문맥 모델(153)을 생성할 수 있다.

한편, 모델 생성부(160)가 문맥 정보를 단어열의 길이에 따라 분류하여 저장하는 것으로 설명하였으나, 이에 한정되는 것이 아니다.

예를 들어, 모델 생성부(160)는 각 단어열의 음절 길이에 따라 문맥 정보를 분류할 수도 있다. 이에 대해서는 아래에서 더 상세히 설명한다.

상술한 음성 인식 장치(100)는 각종 전자 장치에 마련되어 사용자의 음성에 따라 각 전자 장치가 구동될 수 있도록 할 수 있다. 구체적으로, 음성 인식 장치(100)는 스마트폰, PMP(Portable Media Player), PDA(Personal Digital Assistant), 또는 타블렛 PC(Tablet PC) 등과 같이 휴대가 용이한 전자 장치에 적용될 수 있을 뿐만 아니라, 차량(200)과 같은 장치에도 적용될 수 있다.

이하 도 4 내지 17을 참조하여 일 실시예에 따른 음성 인식 장치(100)가 마련된 차량에 대하여 상세히 설명한다.

도 4은 일 실시예에 따른 차량의 외관을 개략적으로 도시한 사시도이고, 도 5는 일 실시예에 따른 차량의 내부를 개략적으로 도시한 도면이다.

도 4 및 도 5를 참조하면, 차량(200)은 차량(200)의 외관을 형성하는 차체, 차량(200)을 이동시키는 차륜(21, 22)을 포함한다.

차체는 후드(11), 프런트 휀더(12), 루프 패널(13), 도어(14), 트렁크 리드(15), 쿼터 패널(16) 등을 포함한다.

또한, 차체의 외부에는 차체의 전방 측에 설치되어 차량(200) 전방의 시야를 제공하는 프런트 윈도(17), 도어(14)에 설치되어 차량(200) 후방 및 측면의 시야를 제공하는 사이드 윈도(18) 및 차체의 후방 측에 설치되어 차량(200) 후방의 시야를 제공하는 리어 윈도(19)가 마련될 수 있다.

차륜(21, 22)은 차량(200)의 전방에 마련되는 전륜(21), 차량(200)의 후방에 마련되는 후륜(22)을 포함하며, 전방 차륜(21)의 회전에 의하여 차체가 전방 또는 후방으로 이동할 수 있다.

차체의 내부에는 탑승자가 앉는 시트(DS, PS), 차량(200) 방향을 조작하는 스티어링 휠(30), 차량(200)의 동작을 제어하고 차량(200)의 운행 정보를 표시하는 각종 계기가 마련되는 대시 보드(40), 대시 보드(30) 하단에 마련되는 기억 박스(50)가 마련된다.

시트(DS, PS)는 운전자가 앉는 운전석(DS), 동승자가 앉는 조수석(PS), 차량(200) 내 후방에 위치하는 뒷좌석(미도시)을 포함할 수 있다.

스티어링 휠(30)은 운전자에 의해 파지되는 림(31) 및 림(31)과 조향을 위한 회전축 상에 위치한 차량(200)의 조향 장치의 허브를 연결하는 스포크(32)를 포함할 수 있다. 운전자는 림(31)을 조작하여 스포크(32)를 회전시켜 차륜의 진행 방향을 변경시킴으로써 차량(200)의 주행 방향을 조절할 수 있다.

또한, 스티어링 휠(30)에는 제1 입력부(211)가 더 마련될 수 있다. 이와 같은 제1 입력부(211)를 통해 운전자는 제어 명령을 입력할 수 있다. 이때, 제1 입력부(211)는 스크롤 휠, 버튼, 노브, 터치스크린, 터치 패드, 레버, 트랙볼, 동작 센서 또는 음성 인식 센서 등으로 구현될 수 있다.

대시 보드(40)는 차량(200)의 주행 속도, 엔진 회전수 또는 연료 잔량 등을 표시하는 계기판(41), 오디오 기기, 공기 조화기 또는 히터를 조정하기 위한 조작부, 송풍구, 시거잭 등이 설치된 센터페시아(42), 차량(200) 내부로 공기를 유입시키기 위한 송풍구(43)를 포함할 수 있다.

센터페시아(42) 하단에는 기어 장치가 내장되는 기어 박스(50)가 마련될 수 있다. 기어 박스(50)에는 기어 변경을 위한 기어봉(51)이 돌출될 수 있다.

또한, 기어 박스(50)에는 운전자가 차량(200)의 각종 기능을 조작하기 위한 다양한 명령을 입력할 수 있는 제2 입력부(212)가 마련될 수 있다. 제2 입력부(212)는 노브, 물리 버튼, 조이스틱, 레버, 트랙볼, 조작휠, 동작 센서, 물체 감지 센서 및 터치 센서 중 적어도 하나를 포함할 수 있다. 이외에도 제2 입력부(212)는 통상의 지식을 가진 자가 고려할 수 있는 다양한 입력 수단을 포함할 수 있다.

운전석 측 상단에는 마이크(111)(111)가 마련될 수 있다. 이때, 마이크(111)(111)는 음성을 수신하고 수신된 음성을 전기적 신호로 출력하는 장치로 치환 또는 변경될 수 있다.

또한, 마이크는 음성 수신부(110)(도 1의 110)로 동작할 수 있으며, 전화 통화 시에 운전자의 음성을 수집하는 것에 사용될 수 있다.

한편, 마이크(111)의 위치가 이에 한정되는 것이 아니다. 예를 들어, 마이크(111)는 스티어링 휠(30) 등과 같이 운전자의 음성을 수집하기 용이한 위치에 마련될 수 있다.

도 6은 일 실시예에 따른 음성 인식 장치가 마련된 차량의 제어 블록도이다.

도 6에 도시된 바와 같이, 일 실시예에 따른 차량(200)은 음성 인식 장치(100)를 포함한다. 또한, 일 실시예에 따른 차량(200)은 차량(200)은 입력부(210), 디스플레이부(220), 사운드부(230), 저장부(240), VAD(Vioce Activated dialing) 장치, 차량(200)을 전반적으로 제어하는 제어부(250)를 포함할 수 있다.

음성 인식 장치(100)는 운전자의 음성을 인식하고, 인식된 음성을 제어부(250)로 전달하여, 운전자가 음성으로 차량(200)의 다양한 기능을 제어할 수 있도록 한다.

즉, 운전자는 음성 인식 장치(100)를 이용하여 차량(200)의 다양한 기능, 예컨대, 네비게이션 장치, 오비오 장치, VAD(Vioce Activated dialing) 장치 등을 제어할 수 있다.

다만, 설명의 편의를 위하여 음성 인식 장치(100)를 이용한 VAD(Vioce Activated dialing) 장치의 동작에 대하여 상세히 설명하나, 일 실시예에 따른 음성 인식 장치(100)는 차량(200)의 각종 장치를 제어하는 것에 이용될 수 있음을 이해하여야 한다.

입력부(210)는 운전자로부터 차량(200)의 각종 기능을 제어하기 위한 명령을 입력 받을 수 있다. 운전자는 입력부(210)를 통해 음성 인식 장치(100)의 온/오프를 제어하거나, VAD 장치(250)를 이용하여 특정 전화번호로 전화를 걸거나, 걸려온 전화를 받을 수 있다. 예를 들어, 입력부(210)는 도 5에 도시된 제1 입력부(211), 제2 입력부(212) 또는 디스플레이부(220)의 터치 패널 등일 수 있다.

디스플레이부(220)는 차량(200)과 관련된 다양한 정보 또는 차량(200) 제어 화면을 제공할 수 있다. 디스플레이부(220)는 도 5에 도시된 바와 같이 센터페시아(42)의 중앙에 마련되어 운전자에게 다양한 정보를 제공할 수 있다.

디스플레이부(220)는 액정 디스플레이(Liquid Crystal Display: LCD) 패널, 발광 다이오드(Light Emitting Diode: LED) 패널, 또는 유기 발광 다이오드(Organic Light Emitting Diode: OLED) 패널 등으로 구현될 수 있다. 아울러, 디스플레이부(220)는 터치 패널이 마련되어 사용자의 터치 입력을 수신할 수도 있다.

사운드부(230)는 차량(200)과 관련된 다양한 정보를 소리로 출력한다. 예를 들어, 사운드부(230)는 음성 인식 결과를 출력하거나, 전화 통화 시에 통화 상대자의 음성을 출력한다.

또한 사운드부(230)는 사용자 단말(UT)이기 등에서 전송된 음악 등을 출력하는 것도 가능하다. 이러한 사운드부(230)는 스피커로 구현될 수 있으며, 차량(200)의 내부 전방 및 후방에 위치 가능하다.

저장부(240)는 차량(200)의 각종 기능의 구동에 필요한 데이터를 저장한다. 예를 들어, 저장부(240)는 도 1에 도시된 음성 인식 장치(100)의 음향 모델(140) 또는 문맥 모델(150) 등을 저장하거나, 사용자 단말(UT)로부터 수신한 전화번호부를 수신할 수 있다.

저장부(240)는 자기 디스크(magnetic disc), 반도체 디스크(solid state disk) 등의 비휘발성 메모리뿐만 아니라 가전기기(10)의 동작을 제어하는 과정에서 생성되는 임시 데이터를 임시적으로 저장하는 D-램, S-램 등의 휘발성 메모리가 채용될 수 있다.

VAD 장치(250)는 차량(200) 내부의 장치를 제어하여 운전자가 사용자 단말(UT)의 거치 또는 조작 없이 전화통화할 수 있도록 한다. 이를 위해, VAD 장치(250)는 사용자 단말(UT)과 연결될 수 있으며, 음성 인식 장치(100)에서 인식된 음성에 따라 전화 걸기 또는 전화 받기 가능하다.

VAD 장치(250)와 사용자 단말(UT)은 무선 통신 프로토콜로 연결될 수 있다. 예를 들어, VAD 장치(250)는 블루투스(bluetooth), 블루투스 저 에너지(bluetooth low energy), 적외선 통신(IrDA, infrared data association), 지그비(Zigbee), 와이파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi direct), UWB(Ultra Wideband), 또는 근접장 통신(NFC, near field communication) 등과 같은 근거리 통신 프로토콜을 이용하여 사용자 단말(UT)과 연결될 수 있다. 이하. VAD의 동작에 대하여 상세히 설명한다.

도 7은 일 실시예에 따른 차량의 VAD 장치의 동작에 설명하기 위한 순서도이다. 도 8은 사용자 단말(UT)의 인증을 위한 화면을 도시한 화면 예시도이다.

도 7에 도시된 바와 같이, VAD 장치(250)는 사용자 단말(UT)의 접근 요청을 모니터링한다(S501). VAD 장치(250)와 사용자 단말(UT)의 접속 방법은 그 제한이 없으나, 상술한 바와 같이 VAD 장치(250)와 사용자 단말(UT)은 근거리 통신 프로토콜을 이용하여 연결될 수 있다.

사용자 단말(UT)의 접근 요청이 있으면(S501의 예), VAD 장치(250)는 사용자 단말(UT)을 인증한다(S503). 이때, 인증 방법은 그 제한이 없다. 예를 들어, VAD 장치(250)는 디스플레이부(220)를 통해 소정의 인증 코드를 표시하고, 표시된 인증 코드가 사용자 단말(UT)을 통해 다시 VAD 장치(250)로 수신되는 경우 사용자 단말(UT)의 접근을 정상적인 것으로 인증할 수 있다.

이를 위해, 제어부(250)는 VAD 장치(250)의 요청에 따라 도 8에 도시된 것과 같이 인증 코드가 포함된 인증 화면이 표시되도록 제어할 수 있다. 한편, 접근을 요청한 사용자 단말(UT)이 이미 인증을 받은 사용자 단말(UT)인 경우 단말 인증 단계는 생략될 수도 있다.

VAD 장치(250)는 전화번호부가 저장되어 있는 판단한다(S505). 구체적으로, VAD 장치(250)는 접속된 사용자 단말(UT)에 저장된 전화번호부의 저장 여부를 판단한다.

전화번호부가 저장되어 있지 않은 경우(S505의 아니오), VAD 장치(250)는 사용자 단말(UT)로부터 전화번호부를 수신하고(S507), 수신한 전화번호부를 저장 한다(S509). 이때, 수신한 전화번호부는 VAD 장치(250)에 저장될 수도 있으나, 저장부(240)에 저장될 수도 있다.

한편, 전화번호부가 저장되어 있는 경우(S505의 예), VAD 장치(250)는 통화 연결 대기한다(S511).

이와 같이 VAD 장치(250)가 사용자 단말(UT)과 연결되면 운전자는 차량(200) 내부에 마련된 사운드부(230) 또는 음성 수신부(110)를 통해 전화통화를 할 수 있다.

제어부(250)는 차량(200)을 전반적으로 제어할 수 있다. 구체적으로, 제어부(250)는 음성 인증 장치 및 VAD 장치(250)를 제어할 수 있다.

예를 들어, 제어부(250)는 VAD 장치(250)를 통해 사용자 단말(UT)의 전화 수신을 검출되면, 사운드부(230)를 통해 전화의 수신을 알리거나, 음성 인증 장치의 음성 인식 결과에 대응되는 전화번호부를 검색하여 검색된 결과를 디스플레이부(220)에 제공하여 운전자가 특정 전화번호로 전화를 발신할 수 있도록 할 수 있다.

이때, 제어부(250)는 하나 또는 복수 개의 프로세서에 해당할 수 있다. 이때, 프로세서는 다수의 논리 게이트들의 어레이로 구현될 수도 있고, 범용적인 마이크로 프로세서와 이 마이크로 프로세서에서 실행될 수 있는 프로그램이 저장된 메모리의 조합으로 구현될 수 있다. 또한, 다른 형태의 하드웨어로 구현될 수 있음을 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.

이하, 도 9 내지 도 17를 참조하여, 음성 인식을 이용한 전화 통화 연결에 대하여 상세히 설명한다.

도 9는 일 실시예에 따른 음성 인식 장치를 이용한 전화 통화 연결을 설명하기 위한 순서도이다.

도 9에 도시된 바와 같이, 음성 인식 장치(100)는 전화번호부 문맥 모델(150)을 생성한다(S610). 상술한 바와 같이 일 실시예에 따른 음성 인식 장치(100)는 음성 인식 대상을 모델링한 문맥 모델(150)에 기초하여 음성 인식을 수행한다.

그러므로, 음성 인식 장치(100)는 전화번호부에 기초하여 전화번호부 문맥 모델(150)을 생성할 수 있다. 이하, 전화번호부 문맥 모델(150) 생성에 대하여 상세히 설명한다.

도 10는 전화번호부 문맥 모델의 생성 일례를 상세히 설명하기 위한 순서도이고, 도 11은 전화번호부의 분류에 대하여 설명하기 위한 도면이다.

도 10 내지 11을 참조하면, 음성 인식 장치(100)는 명칭의 길이에 따라 전화번호부의 전화번호를 분류한다(S611). 이때, 명칭의 길이는 명칭을 구성하는 단어의 수, 또는 명칭의 음절 중 적어도 하나일 수 있다.

도 11에 도시된 바와 같이, 전화번호부는 명칭과 그 명칭과 맵핑된 전화번호를 복수 개 포함한다. 전화번호부의 각 명칭의 길이는 다양할 수 있다. 예를 들어, "David Willson" 또는 "James Smith"등과 성과 이름으로 이루어지거나, "John", "Johson"등과 같이 성 또는 이름 중 하나로 이루어질 수 있다. 또한, 명칭은 "Mom", "Home"과 같은 짧은 별칭일 수도 있다.

음성 인식 장치(100)는 발화 길이에 영향을 주는 명칭의 길이에 따라 전화번호부를 분류한다.

일 실시예로, 음성 인식 장치(100)는 명칭의 단어열의 수에 따라 전화번호부를 분류할 수 있다. 음성 인식 장치(100)는 2개 이상의 단어열로 이루어진 "David Willson" 또는 "James Smith" 등은 제1 문맥 모델(151)로 분류하고, "John", "Johson", "Mom", "Home" 등과 같이 하나의 단어로 이루어진 단어는 제2 문맥 모델(152)로 분류할 수 있다.

아울러, 음성 인식 장치(100)는 2개 이상의 단어열로 이루어진 명칭의 각 단어를 분리하여 제3 문맥 모델(153)을 구성할 수 있다. 즉, 하나의 명칭이 성과 이름으로 구성된 경우 성과 이름을 분리하여 제3 문맥 모델(153)을 생성할 수도 있다.

그리고, 음성 인식 장치(100)는 각 명칭을 음소열로 변환한다(S611). 구체적으로, 음성 인식 장치(100)는 텍스트 음소 (Text-To-Phoneme, T2P) 변환 또는 서기소음소(Grapheme-To-Phoneme, G2P) 변환 방법을 이용하여 각 명칭을 음소로 변환할 수 있다. 이때, 음소열은 각 명칭의 발음 기호의 집합일 수 있다.

그리고, 음성 인식 장치(100)는 변환된 음소열에 기초하여 음성 격자를 생성할 수 있다.

다른 일 실시예로, 음성 인식 장치(100)는 명칭의 음절 길이에 따라 전화번호부를 구성할 수 있다.

구체적으로, 음성 인식 장치(100)는 전화번호부의 각 명칭을 음소열로 먼저 변환하고, 각 음소열에서 자음의 수를 카운팅하여 각 음소열의 음절 길이를 먼저 산출하고, 음절 길이에 따라 음소열을 분류한 이후 음성 격자를 생성할 수 있다.

이와 같이, 발화 길이에 연관성이 높은 음절 길이에 따라 전화번호부를 분류함으로써, 신뢰도 가중치의 적용을 더 효율적으로 할 수 있다.

한편, 이미 문맥 모델(150)이 생성된 경우 문맥 모델(150)의 생성 단계는 생략될 수도 있다.

도 12은 음성 인식 안내 화면을 도시한 화면 예시도이다.

다시 도 9를 참조하면, 음성 인식 장치(100)는 음성 수신을 모니터링한다(S620). 음성 수신을 모니터링할 때, 도 12에 도시된 바와 같이 음성 인식이 가능함을 사용자에게 표시할 수 있다.

구체적으로, 디스플레이부(220)는 화면의 상단에는 홈 버튼(221), 뒤로 가기 버튼(222)이 표시될 수 있으며, 화면의 하단에는 각종 차량의 기능을 실행하기 위한 아이콘들이 표시된 아이콘 리스트(224)가 표시될 수 있다. 또한, 화면 중앙의 정보 표시 영역(223)에는 사용자에게 음성 기능이 가능함을 표시하기 위한 안내가 표시될 수 있다.

음성이 수신되면(S620의 예), 음성 인식 장치(100)는 음성 신호를 전처리한다(S630). 즉, 사용자가 음성으로부터 인식 대상이 되는 구간을 검색하거나, 인식 대상 구간의 음성 신호에서 잡음 성분을 제거할 수 있다.

음성 인식 장치(100)는 전화번호 후보군을 생성한다(S640). 이하, 도 13를 참조하여 전화번호 후보군 생성에 대하여 상세히 설명한다.

도 13은 전화번호 후보군 생성의 일례를 상세히 설명하기 위한 순서도이다. 도 13를 참조하면, 음성 인식 장치(100)는 입력된 음성 신호에서 특징 벡터를 추출한다(S641). 예를 들어, 선형예측계수(Linear Predictive Coefficient), 켑스트럼(Cepstrum), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등의 방법을 이용하여 특징 벡터를 추출할 수 있다.

음성 인식 장치(100)는 특징 벡터에 따라 음향 모델(140)에서 음소열 인식한다(S642). 구체적으로, 입력된 음선 신호에서 추출된 특징 벡터와 음향 모델(140)을 비교하여 입력된 음성 신호에 대응되는 음소열을 인식할 수 있다.

음성 인식 장치(100)는 제1 문맥 모델(151)에서 제1 후보군을 생성한다(S643). 입력된 음성 신호에 대응되는 음소열과 제1 문맥 모델(151)의 음성 격자를 패턴 매칭시켜 음소와 소정의 신뢰도를 가지는 제1 후보군을 생성한다. 여기서, 신뢰도는 음성 격자와 음소열의 유사도를 나타낸다.

이때, 제1 후보군의 수는 미리 설정된 것일 수 있다. 예를 들어, 가장 높은 신뢰도를 가지는 후보 N개만 검색하여 제1 후보군을 생성할 수 있다.

또한, 후보군은 미리 설정된 기준이상의 신뢰도를 가지는 후보로 이루어 질 수도 있다.

또한, 음성 인식 장치(100)는 제2 문맥 모델(152)에서 제2 후보군을 생성하고(S644), 제3 문맥 모델(153)에서 제3 후보군을 생성한다(S645).

한편, 도 13에서는 제1 내지 제3 후보군이 동시에 생성되는 것으로 설명하였으나, 음성 인식 장치(100)는 제1 내지 제3 문맥 모델(150)을 순차적으로 탐색하여 제1 내지 제3 후보군을 생성할 수 있다.

다시 도 9를 참조하면, 음성 인식 장치(100)는 발화 길이에 따라 결정된 신뢰도 가중치를 후보군에 적용한다(S650). 이하, 도 14를 참조하여, 신뢰도 가중치의 적용에 대하여 구체적으로 설명한다.

도 14는 신뢰도 가중치 적용의 일례를 상세히 설명하기 위한 순서도이다. 도 15는 신뢰도 가중치의 일례를 도시한 도면이다. 도 14를 참조하면, 음성 인식 장치(100)는 발화 길이를 측정한다(S651). 즉, 발화 시작 시점(Begin of Speech, BoS)과 발화 종료 시점(End of Speech,EoS)를 검출하고, 발화 종료 시점과 발화 시작 시점의 차이를 산출하여 사용자의 발화 길이를 산출할 수 있다.

그리고, 음성 인식 장치(100)는 발화 길이에 따라 각 후보군에 적용될 신뢰도 가중치를 결정한다(S652). 상술한 바와 같이 사용자의 발화 길이는 음절 길이와 비례함이 일반적이다. 그러므로, 음성 인식 장치(100)는 측정된 발화 길이에 대응되는 후보에 높은 신뢰도 가중치가 적용되도록 신뢰도 가중치를 결정할 수 있다.

한편, 제1 후보군 내지 제3 후보군은 명칭의 길이 별로 분류되어 생성된 것으로, 음성 인식 장치(100)는 각 후보군 별로 적용될 신뢰도 가중치를 동일하게 결정할 수도 있다.

예를 들어, 도 14에 도시된 바와 같이 발화 길이에 따라 각 후보군의 신뢰도 가중치를 결정할 수 있다. 구체적으로, 발화 길이가 500ms 이하인 경우 명칭의 길이가 긴 제1 후보군의 제1 가중치를 0.8으로 낮게 설정하고, 명칭의 길이가 비교적 짧은 제2 후보군의 제2, 3 가중치는 높은 설정할 수 있다.

또한, 발화 길이가 1200ms 이상인 경우 명칭의 길이가 긴 제1 후보군의 제1 가중치를 1.5로 높게 설정하고, 명칭의 길이가 짧은 제2 후보군의 제2 가중치는 0.9로 낮게 설정할 수 있다. 이와 같은 신뢰도 가중치는 빅 데이터 분석에 의하여 획득될 수도 있다.

음성 인식 장치(100)는 제1 내지 3 후보군에 각각 가중치를 적용한다(S653 내지 S655). 한편, 도 14에서는 제1 내지 제3 후보군이 동시에 가중치가 적용되는 것으로 도시되어 있으나, 음성 인식 장치(100)는 제1 내지 제3 후보군에 순차적으로 가중치를 적용할 수 있다.

다시 도 9를 참조하면, 음성 인식 장치(100)는 신뢰도에 따라 후보군을 정렬하여 표시한다(S656). 음성 인식 장치(100)는 상술한 바와 같이 신뢰도 가중치가 적용된 각 후보군을 병합하여 후보군을 생성하고, 병합된 후보군을 신뢰도에 따라 정렬할 수 있다.

그리고, 음성 인식 장치(100)는 병합된 후보군 중 신뢰도가 높은 후보를 디스플레이부(220)에 표시할 수 있다. 이때, 디스플레이부(220)에 표시되는 후보는 신뢰도가 미리 설정된 기준 이상은 후보일 수 있으나, 이에 한정되는 것이 아니다. 예를 들어, 도 16에 도시된 바와 같이 N-best 탐색 방식에 따라 가장 높은 신뢰도를 가지는 5개의 후보를 표시할 수 있다.

VAD 장치(250)는 사용자가 선택한 전화번호로 통화를 연결한다(S670). 즉, 사용자가 선택한 명칭에 대응되는 전화번호로 통화를 연결할 수 있다.

도 17은 일 실시예에 따라 화자의 발화 길이에 따라 신뢰도 가중치를 적용하여 전화번호를 검색할 때의 인식율을 증대를 설명하기 위한 것이다.

도 17은 전화번호가 1000개 포함된 전화번호부에서 평균 신호대잡음비(signal to noise ratio)가 11db인 환경에서 10명의 화자가 음성 인식을 수행한 결과를 도시한 것이다.

도 17에 도시된 바와 같이 발화 길이에 따라 가중치를 부여함으로써, 단음절 명칭의 인식도가 11% 이상 증가하고, 하나의 성명을 성과 이름으로 분할하여 생성된 분활 명칭의 인식도가 55.4% 증가한다.

본원 발명의 실시 예 들과 관련된 기술 분야에서 통상의 지식을 가진 자는 상기 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로, 개시된 방법들은 한정적인 관점이 아닌 설명적 관점에서 고려되어야 한다. 본 발명의 범위는 발명의 상세한 설명이 아닌 특허청구 범위에 나타나며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 음성 인식 장치 110: 음성 수신부
120: 전처리부 130: 음성 인식부
131: 특징 추출부 132: 후보군 탐색부
133: 발화 길이 측정부 134: 가중치 적용부
135: 결과부 140: 음향 모델
150: 문맥 모델 160: 모델 생성부
200: 차량 210: 입력부
220: 디스플레이부 230: 사운드부
240: 저장부 250: VAD 장치
260: 제어부

Claims

인식 대상 문맥을 모델링하여 생성된 문맥 모델; 및
음향 모델 및 상기 문맥 모델에 기초하여 입력된 음성 신호에 대응되는 후보군을 생성하고, 발화 길이에 대응하는 음절 길이진를 가 후보에 높은 신뢰도 가중치를 적용하는 음성 인식부;
를 포함하는 음성 인식 장치.
제1항에 있어서,
신뢰도에 따라 정렬된 상기 후보군을 표시하는 디스플레이부;를 더 포함하는 음성 인식 장치.
제1항에 있어서,
상기 음성 인식부는, 상기 발화 길이가 임계치 이하이면 미리 설정된 기준 이하의 음절에 대응되는 후보에 높은 신뢰도 가중치를 적용하는 음성 인식 장치.
제1항에 있어서,
상기 인식 대상 문맥을 음절 길이에 따라 분류하여, 음절 길이 별로 상기 문맥 모델을 생성하는 문맥 생성부;를 더 포함하는 음성 인식 장치.
제4항에 있어서,
상기 음성 인식부는, 상기 음절 길이 별로 생성된 문맥 모델 각각에서 후보군을 생성하고, 상기 발화 길이에 대응하는 음절 길이에 따라 각 후보군에 가중치를 적용하는 음성 인식 장치.
제1항에 있어서,
상기 인식 대상 문맥은 전화번호부인 음성 인식 장치.
전화번호부의 각 명칭을 모델링하여 생성된 문맥 모델; 및
음향 모델 및 상기 문맥 모델에 기초하여 입력된 음성 신호에 대응되는 전화번호 후보군을 생성하고, 발화 길이에 따라 결정된 신뢰도 가중치를 전화번호 후보 각각에 적용하는 음성 인식부;
를 포함하는 차량.
제7항에 있어서,
신뢰도에 따라 정렬된 상기 전화번호 후보군을 표시하는 디스플레이부;를 더 포함하는 차량.
제7항에 있어서,
상기 음성 인식부는, 상기 전화번호 후보군 중 상기 발화 길이에 상응하는 음절의 전화번호 후보가 높은 신뢰도를 가지도록 상기 신뢰도 가중치를 적용하는 차량.
제7항에 있어서,
상기 음성 인식부는, 상기 발화 길이가 임계치보다 작으면 상기 전화번호 후보군 중 단음절의 전화번호 후보가 높은 신뢰도를 가지도록 상기 신뢰도 가중치를 적용하는 차량.
제7항에 있어서,
상기 음성 인식부는, 상기 발화 길이가 임계치보다 크면 상기 전화번호 후보군 중 단음절의 전화번호 후보가 낮은 신뢰도를 가지도록 상기 신뢰도 가중치를 적용하는 차량.
제7항에 있어서,
명칭의 음절 길이에 따라 상기 전화번호부를 분류하여, 상기 음절 길이 별로 문맥 모델을 생성하는 모델 생성부;를 더 포함하는 차량.
제12항에 있어서,
상기 모델 생성부는, 상기 명칭을 성과 이름으로 분리하여 분리 문맥 모델을 생성하는 차량.
제12항에 있어서,
상기 모델 생성부는, 상기 명칭을 음소로 변환하여 음성 격자 형태로 상기 명칭을 모델링하는 차량.
제12항에 있어서,
상기 음성 인식부는, 상기 문맥 모델 각각에서 상기 음성 신호에 대응되는 전화번호 후보군을 생성하고, 상기 발화 길이에 대응하는 음절 길이에 대응하는 전화번호 후보군에 높은 가중치를 적용하는 차량.
제7항에 있어서,
상기 음성 인식부는, 상기 음향 모델에 기초하여 상기 음성 신호의 음소열을 인식하고, 상기 문맥 모델에서 상기 인식된 음소열에 대응되는 전화번호 후보를 검색하여 상기 전화번호 후보군을 생성하는 차량.
제7항에 있어서,
상기 음성 신호에서 발화가 시작된 시점과 발화가 종료한 시점을 검출하여 상기 발화 길이를 산출하는 발화 길이 측정부;를 더 포함하는 차량.
전화번호부의 각 명칭을 모델링하여 생성된 문맥 모델에서 입력된 음성 신호에 대응되는 전화번호 후보군을 생성하는 후보군 생성 단계;
사용자의 발화 길이에 따라 신뢰도 가중치를 결정하는 가중치 결정 단계; 및
전화번호 후보 음절 길이에 따라 상기 신뢰도 가중치를 적용하는 가중치 적용 단계;
를 포함하는 차량 제어 방법.
제18항에 있어서,
상기 가중치 결정 단계는, 발화가 시작되는 시점과 발화가 종료되는 시점의 차이에 기초하여 상기 발화의 길이를 측정하는 단계;를 포함하는 차량 제어 방법.
제18항에 있어서,
상기 가중치 결정 단계는, 상기 발화 길이에 대응되는 음절 길이의 전화번호 후보의 신뢰도가 높아지도록 상기 신뢰도 가중치를 결정하는 단계; 를 포함하는 차량 제어 방법.
제18항에 있어서,
상기 가중치 결정 단계는, 상기 발화 길이가 임계치 이하이면 단음절의 전화번호 후보의 신뢰도가 증가하도록 상기 신뢰도 가중치를 결정하는 단계;를 포함하는 차량 제어 방법.
제18항에 있어서,
상기 가중치 결정 단계는, 상기 발화 길이가 임계치 이상이면 단음절의 전화번호 후보의 신뢰도가 낮아지도록 상기 신뢰도 가중치를 결정하는 단계;를 포함하는 차량 제어 방법.
제18항에 있어서,
상기 후보군 생성 단계는, 상기 음성 신호에서 특징 벡터를 검출하는 단계; 및
상기 특징 벡터에 따라 음향 모델에서 상기 음성 신호의 음소열을 인식하는 단계;를 포함하는 차량 제어 방법.
제23항에 있어서,
상기 후보군 생성 단계는, 상기 음소열과의 신뢰도에 기초하여 상기 전화번호 후보군을 생성하는 단계;를 포함하는 차량 제어 방법.
제23항에 있어서,
상기 후보군 후보군은, 상기 음소열과 미리 설정된 기준 이상의 신뢰도를 가지는 것인 차량 제어 방법.
제18항에 있어서,
상기 가중치 적용 단계는, 상기 전화번호 후보군을 신뢰도에 따라 정렬하는 단계; 및
상기 신뢰도에 따라 정렬된 전화번호 후보군을 표시하는 단계;를 포함하는 차량 제어 방법.
제18항에 있어서,
사용자의 발화에 따라 음성 신호를 입력 받는 단계; 및
상기 입력된 음선 신호의 전처리를 수행하는 단계;
를 더 포함하는 차량 제어 방법.
제18항에 있어서,
각 명칭의 길이에 따라 상기 전화번호부의 분류하고, 각 명칭의 길이 별로 문맥 모델을 생성하는 모델 생성 단계;를 더 포함하는 차량 제어 방법.
제28항에 있어서,
상기 모델 생성 단계는, 상기 각 명칭을 음소열로 변환하는 단계; 및
상기 변환된 음소열에 기초하여 음성 격자를 생성하는 단계;를 포함하는 차량 제어 방법.
명칭의 길이에 따라 전화번호부가 분류되어 생성된 복수 개의 문맥 모델;
상기 복수 개의 문맥 모델 각각에서 입력된 음성 신호에 대응되는 후보군을 생성하는 후보군 탐색부;
사용자의 발화 길이에 대응되는 문맥 모델에서 생성되는 문맥 후보권이 높은 신뢰도를 가지도록 신뢰도 가중치를 상기 후보군 각각에 적용하는 가중치 적용부; 및
상기 신뢰도 가중치가 적용된 후보군을 신뢰도에 따라 정렬하여 표시하는 디스플레이부;
를 포함하는 차량.