KR100679042B1

KR100679042B1 - 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템

Info

Publication number: KR100679042B1
Application number: KR1020040086228A
Authority: KR
Inventors: 최인정; 김정수; 황광일
Original assignee: 삼성전자주식회사
Priority date: 2004-10-27
Filing date: 2004-10-27
Publication date: 2007-02-06
Also published as: US20060100871A1; KR20060037086A

Abstract

본 발명은 음성인식에 관한 것이다.

음성 인식 방법은 사용자가 자연스럽게 발화한 음성을 취득하여 특징을 추출하는 단계와, 상기 특징으로부터 상기 어휘를 구성하는 서브워드들 중에서 첫번째 서브워드의 후보들을 선정하여 디스플레이하는 단계와, 상기 후보들 중에서 사용자가 선택한 서브워드를 기준으로 다음 서브워드의 후보들을 선정하여 디스플레이하는 단계, 및 상기 다음 서브워드로부터 사용자가 어휘를 결정하였는지를 판단하여, 결정되지 않은 경우에 이전까지 선택된 서브워드열을 기준으로 그 다음 서브워드 후보들을 선정하여 디스플레이하는 단계를 포함한다.

음성 인식, 멀티 모드, 서브워드, 네비게이션 시스템

Description

음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템{Method and apparatus for speech recognition, and navigation system using for the same}

도 1은 종전의 음성 인식장치의 일예를 보여주는 도면이다.

도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템의 구성을 보여주는 블록도이다.

도 3은 본 발명의 일 실시예에 따른 멀티모드의 어휘 검색 장치의 구성을 보여주는 블록도이다.

도 4는 본 발명의 일 실시예에 따른 음성 인식과정을 보여주는 흐름도이다.

도 5는 본 발명의 일 실시예에 따른 디스플레이 화면을 보여주는 도면이다.

도 6은 본 발명의 일 실시예에 따른 음성 인식과정을 보여주는 도면이다.

도 7은 본 발명의 다른 실시예에 따른 디스플레이 화면을 보여주는 도면이다.

도 8 및 도 9는 어휘 검색을 위한 사전 구조를 보여주는 도면이다.

도 10은 서브워드 탐색을 위한 한정된 탐색법을 보여주는 도면이다.

도 11은 본 발명의 일 실시예에 따른 네비게이션 시스템의 구성을 보여주는 블록도이다.

본 발명은 음성인식에 관한 것으로서, 보다 상세하게는 멀티 모드의 인터페이스가 지원되는 음성인식에 관한 것이다.

편리한 생활을 추구하는 인간의 욕구는 다양한 분야의 기술발전을 불러온다. 음성인식 기술도 인간의 편의를 위해 연구되어왔다. 음성인식 기술은 다양한 분야에 적용되고 있다. 최근에 음성인식은 다양한 디지털 기기에 적용되기 시작했다. 예를 들면 휴대폰에 음성인식 기술을 적용하여 사용자가 말로 전화를 걸 수 있게 되었다.

한편 최근에는 텔레매틱스에 관한 기술이 급속히 발전하고 있다. 텔레매틱스는 차량·항공·선박 등 운송장비에 내장된 컴퓨터와 무선통신기술, 위성항법장치, 인터넷에서 문자신호와 음성신호를 바꾸는 기술 등에 의해 정보를 주고받을 수 있는 무선데이터 서비스를 말한다. 특히 자동차 텔레매틱스 서비스는 이동통신기술과 위치추적기술을 자동차에 접목하여 차량사고나 도난감지, 운전경로 안내, 교통 및 생활정보, 게임 등을 운전자에게 실시간으로 제공한다. 이 서비스는 자동차가 주행 중에 고장나면 무선통신으로 서비스센터에 고장사항을 전송하고, 운전석 앞의 컴퓨터 모니터를 통해 운전자가 이메일을 받아보거나 도로지도를 볼 수 있도록 한다.

텔레매틱스의 서비스 중에서 음성을 이용한 지도검색 서비스를 구현하기 위 해서는 제한된 리소스를 갖는 컴퓨터 또는 단말기로 수만에서 수십만 지명을 검색할 수 있어야 한다. 현재 사용되고 있는 휴대 단말기들은 리소스가 한정적이어서 한 단계(stage)에서 음성인식이 가능한 어휘의 수가 대략 1천 단어 정도로 매우 한정적이다. 따라서, 기존의 고정 또는 가변 탐색망(search network)에 기반하여 음성인식을 수행하는 방법은 수십만의 어휘를 처리하기에는 역부족이다. 이에 따라 인식 대상 어휘를 얼마나 효과적으로 제한하여 유효한 어휘집합을 구성하는 방법의 필요성이 대두되고 있다.

한편, 스펠링 발화 형태의 음성 입력 방법은 비교적 적은 리소스로도 음성인식이 가능한 특징을 갖는다. 미합중국특허 제6629071호와 제5995928호는 스펠링 발화 방식의 음성인식 기술을 개시하고 있다. 그러나 스펠링 발화 방식은 긴 어휘에 대해서는 사용이 불편할 뿐만 아니라 한국어와 같이 초성과 종성의 문자를 구별하기 곤란(예를 들면, 음성으로 "들어"와 "드러"의 구별이 어렵다)한 경우에는 스펠링 발화 방식은 적합하지 않을 수 있다.

따라서 자연스러운 어휘 발화 방식의 음성인식이 바람직한데, 미합중국특허 제6438523호와 제6694295호는 멀티 모드의(multi-modal) 인터페이스가 지원되는 자연스러운 어휘발화 방식을 개시하고 있다.

도 1은 미합중국특허 제6438523호(명칭: Processing handwritten and hand-drawn input and speech input)의 컴퓨터 시스템을 보여주고 있다.

컴퓨터 시스템은 모드 콘트롤러(102)와 모드 프로세싱 로직(104)과 인터페이스 콘트롤러(106)와 음성 인터페이스(108)와 펜 인터페이스(110)와 응용 프로그램 들(116)을 포함한다.

인터페이스 콘트롤러(106)는 음성 인터페이스(108)와 펜 인터페이스(110)를 제어하고, 펜 또는 음성 입력을 모드 콘트롤러(102)로 제공한다. 음성 인터페이스(108)는 마이크로폰(112)에 의해 생성된 전기적인 신호를 모드 프로세싱 로직(104)가 프로세싱할 수 있도록 디지털 스트림으로 코딩한다. 마찬가지로, 펜 인터페이스(110)는 펜(114)에 의해 생성된 수기 입력을 처리한다.

모드 콘트롤러(102)는 인터페이스 콘트롤러(106)로부터 수신된 입력에 따라 모드 프로세싱 로직(104)의 모드들을 활성화시켜 컴퓨터 시스템을 위한 운영 스테이트를 생성한다. 운영 스테이트는 인터페이스 콘트롤러(106)로 수신된 입력이 처리되고 응용 프로그램들(116)에게 전달되는 것을 관장한다. 응용 프로그램들(116)은 전자 문서들을 만들고, 편집하고, 보기 위한 프로그램들, 예를 들면 워드 프로세싱, 그래픽 디자인, 스프레드쉬트, 전자우편, 및 웹 프라우징 프로그램들을 포함한다.

도 1의 컴퓨터 시스템은 음성과 펜 입력을 동시에 사용함으로써 사용자가 편리하게 문서를 작성하거나 편집할 수 있도록 한다. 그러나 도 1의 컴퓨터 시스템은 문자인식을 위한 리소스를 추가로 필요하고, 펜과 음성 입력이 동시에 이루어질 때의 제어가 어렵다는 문제점을 갖는다.

한편, 미합중국 제6694295호에 개시된 발명은 키보드나 터치스크린으로 입력된 문자열을 인식하고, 그 문자열로 시작되는 어휘들만을 인식 대상 어휘로 하여 인식 성공률을 높인다. 그러나 이 방식 또한 이 방식은 특정한 키를 누르거나 키 보드를 사용하여야 하는 불편함이 있다. 또한, 이 방식에 따르더라도 음성인식 장치는 많은 어휘를 검색해야 하는 부담이 있다.

상술한 설명에서 알 수 있다시피, 대용량 어휘를 적은 리소스로 처리할 수 있는 새로운 음성인식 방식이 필요하다.

본 발명은 상술한 필요성에 따라 안출된 것으로서, 본 발명의 목적은 대용량 어휘검색에 적합한 멀티 모드의 인터페이스가 지원되는 음성인식 방법 및 장치를 제공하는 것이다.

본 발명의 다른 목적은 대용량 어휘검색에 적합한 멀티 모드의 인터페이스가 지원되는 음성인식장치를 이용한 텔레매틱스용 장치를 제공하는 것이다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 방법은 사용자가 자연스럽게 발화한 음성을 취득하여 특징을 추출하는 단계와, 상기 특징으로부터 상기 어휘를 구성하는 서브워드들 중에서 첫번째 서브워드의 후보들을 선정하여 디스플레이하는 단계와, 상기 후보들 중에서 사용자가 선택한 서브워드를 기준으로 다음 서브워드의 후보들을 선정하여 디스플레이하는 단계, 및 상기 다음 서브워드로부터 사용자가 어휘를 결정하였는지를 판단하여, 결정되지 않은 경우에 이전까지 선택된 서브워드열을 기준으로 그 다음 서브워드 후보들을 선정하여 디스플레이하는 단계를 포함한다.

상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 장치는 사용자가 자연스럽게 발화한 음성을 전기적인 음성 신호로 바꾸는 마이크로폰과, 상기 음성 신호에서 특징을 추출하는 특징추출 모듈과, 상기 특징으로부터 상기 어휘를 서브워드들로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하는 서브워드 디코더와, 상기 서브워드 후보들을 디스플레이하는 디스플레이 모듈과, 사용자가 상기 서브워드 후보들 중에서 어느 하나를 선택할 수 있도록 하는 입력 모듈, 및 상기 입력 모듈로부터 선택된 서브워드들을 기초로 어휘를 결정하는 결정부를 포함한다.

상기 목적을 달성하기 위하여 본 발명의 일 실시예에 따른 네비게이션 시스템은 디스플레이 장치와, 사용자가 자연스럽게 발음한 음성을 취득하여 상기 음성의 특징을 찾고 상기 음성에 해당하는 지명을 서브워드 단위로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하고, 사용자의 선택에 의해 결정된 서브워드 또는 서브워드열을 기반으로 지명을 인식하는 음성 인식 장치와, 각 지명에 따른 지도를 저장하는 맵 데이터베이스, 및 상기 인식된 지명을 받아 상기 맵 데이터베이스로부터 상기 인식된 지명의 지도를 받아 상기 디스플레이 장치로 전달하는 네비게이션 콘트롤러를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

음성 인식 시스템는 마이크로폰(210)과 모드 선택 모듈(220)과 멀티 모드의 어휘 검색 장치(230) 및 음성인식 어휘 검색 장치(240) 및 지식 소스(250)를 포함한다.

마이크로폰(210)은 사용자의 음성을 전기적인 음성 신호로 바꾸어준다. 모드 선택 모듈(220)은 사용자의 명령에 따라 멀티 모드의 어휘 검색 장치(230)나 음성인식 어휘 검색 장치(240) 중 어느 하나를 선택적으로 활성화시킨다. 예를 들어, 사용자가 멀티 모드의 어휘 검색 장치(230)가 음성 인식을 수행하도록 선택하면, 멀티 모드의 어휘 검색 장치(230)는 활성화되고 음성인식 어휘 검색 장치(240)는 비활성화된다. 마찬가지로 사용자가 음성인식 어휘 검색 장치(240)가 음성 인식을 수행하도록 선택하면, 음성인식 어휘 검색 장치(240)는 활성화되고 멀티 모드 의 어휘 검색 장치(230)는 비활성화된다. 또 다른 예로서, 사용자가 모드를 선택하는 것이 아니라 시스템이 주변 상황을 판단하여 모드를 선택할 수 있다. 자동차 텔레매틱스 서비스의 경우, 정차 중에는 멀티 모드의 어휘 검색 장치(230)가 활성화되고, 주행 중에는 음성인식 어휘 검색 장치(240)가 음성 인식을 수행하도록 선택될 수 있다.

멀티 모드의 어휘 검색 장치(230)는 특징추출 모듈(231)과 서브워드 디코더(233)와 결정 모듈(235)과 디스플레이 모듈(237) 및 입력 모듈(239)을 포함한다.

특징추출 모듈(231)은 입력되는 음성 신호의 특징(feature)을 추출한다. 특징추출이란 음성인식에 유용한 성분을 음성 신호로부터 뽑아내는 것을 말하며, 일반적으로 정보의 압축, 차원 감소 과정과 관련된다. 음성 신호의 특징은 서브워드 디코더에 전달된다. 특징추출을 위한 이상적인 방법은 현재 알려지지는 않았으나, 인간의 청각특성을 반영하는(perceptually meaningful) 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한 특징, 시간적인 변화를 잘 표현하는 특징의 추출 등이 특징추출분야에서 주로 연구되고 있다. 음성인식을 위하여 주로 사용되는 특징은 LPC(Linear Predictive Coding) cepstrum, PLP(Perceptual Linear Prediction) cepstrum, MFCC(Mel Frequency cepstral coefficient), 차분 cepstrum, 필터 뱅크 에너지, 차분 에너지 등이 사용된다.

멀티 모드의 어휘 검색 장치(230)는 음성 신호의 시작과 끝을 판단하는 음성 끝점 검출 모듈(front-end detecting module)(미 도시됨)을 포함할 수 있는데, 특징추출 모듈(231)은 음성 끝점 검출 모듈로부터 한 덩어리의 음성 신호를 입력받아 특징을 추출한다. 이러한 음성 끝점 검출 모듈은 자동으로 음성의 시작과 끝을 판단하도록 구현할 수도 있지만, 사용자가 특정한 버튼을 누르는 동안에만 음성 입력을 받아들이도록 구현할 수도 있다.

서브워드 디코더(233)는 현재까지 인식된 서브워드열(subword series)을 기반으로 다음에 인식대상이 되는 서브워드 후보들을 인식한다. 서브워드란 단어를 구성하는 문자 또는 문자열을 의미한다. 예를 들어, 한국어의 경우에 음절(syllable)은 서브워드에 해당할 수 있다. 즉, "서울역"이라는 단어에서 "서"와 "울" 및 "역"은 서브워드에 해당한다. 일본어의 경우에 히라가나 문자 또는 한자(두 음절 이상이 될 수 있음)를 서브워드라고 할 수 있다. 중국어의 경우에도 음절을 기반으로 하는 한자를 서브워드라고 할 수 있다.

결정 모듈(235)은 인식된 서브워드열을 기반으로 어휘를 결정(선정)한다. 어휘를 결정하는 방식은 입력 모듈(239)을 통해 사용자가 어휘를 결정할 수 있다. 입력 모듈(239)은 사용자가 서브워드열을 기반으로 어휘를 결정할 때 사용하는데, 키패드나 터치펜 등으로 구현할 수 있다. 디스플레이 모듈(237)은 서브워드열이나 결정된 어휘를 출력한다. 한편, 입력 모듈(239)을 터치 스크린으로 구현한 경우에 디스플레이 모듈(237)은 입력 모듈(239)의 기능을 일부 수행할 수 있다.

멀티 모드의 어휘 검색 장치(230)의 기능과 동작에 대해서는 도 3 이하에서 상세히 후술한다.

음성인식 어휘 검색 장치(240)는 특징추출 모듈(241)과 워드 디코더(243)와 응답 발생기(245)와 스피커(247)를 포함한다.

특징추출 모듈(241)은 멀티 모드의 어휘 검색 장치(230)의 특징추출 모듈(231)과 동일한 기능을 수행하며, 양자는 하나의 특징추출 모듈로 구현할 수도 있다.

워드 디코더(243)는 특징추출 모듈에서 음성 신호의 특징을 받아 워드를 인식한다. 응답 발생기(245)는 인식된 워드에 대한 응답을 생성하고, 생성된 응답은 스피커(247)를 통해 출력된다.

음성인식 어휘 검색 장치(240)가 텔레매틱스에 적용되어 지리검색에 사용되는 경우를 예시적으로 설명한다. 사용자가 서울역을 찾고자 할 때, 응답 발생기(245)는 "광역시 또는 도를 말씀해주십시오"라고 말한다. 사용자가 "서울특별시"라고 말하면, 워드 디코더(243)는 서울특별시를 인식하고, 그 결과를 응답 발생기(245)에 전달한다. 응답 발생기(245)는 "서울특별시가 맞습니까?"라고 질문한다. 사용자가 "예"라고 말하면, 워드 디코더(243)는 응답 발생기(245)에게 사용자가 "예"라고 말한 것을 알린다. 다음으로 응답 발생기(245)는 "어느 구입니까?"라고 질문한다. 사용자가 "용산구"라고 말하면, 응답 발생기(245)는 "용산구가 맞습니까?"라고 질문한다. 사용자가 "예"라고 말하면, 워드 디코더(243)는 응답 발생기(245)에게 사용자가 "예"라고 말한 것을 알린다. 그러면 응답 발생기(245)는 "찾고자 하는 지명을 말하세요"라고 질문한다. 사용자가 "서울역"이라고 말하면 워드 디코더(243)는 서울역이라는 지명을 인식한다. 음성인식 어휘 검색 장치(240)를 이용하여 사용자는 응답식으로 지명을 검색할 수 있다.

지식 소스(250)는 서브워드 디코더(233) 또는 워드 디코더(243)가 어휘를 인 식할 수 있도록 도와준다.

멀티 모드의 어휘 검색 장치는 마이크로폰(310)과 특징추출 모듈(320)과 서브워드 디코더(330)와 지식 소스(350)와 결정부(340)와 화자적응 모듈(360)과 디스플레이 모듈(370)과 입력 모듈(380)을 포함한다.

특징추출 모듈(320)은 마이크로폰으로부터 음성 신호를 입력받아 특징을 추출한다. 추출된 특징은 서브워드 디코더(330)로 전달된다.

서브워드 디코더(330)는 음성 신호의 특징을 받아 서브워드 단위로 음성 신호를 인식한다. 서브워드 단위로 어휘를 선정하는 기본원리에 대해서 설명하면 다음과 같다. 기본적으로 어휘는 서브워드들로 구성된다. 음성신호를 서브워드 단위로 검색하면 멀티 모드로 어휘를 검색을 통해 검색 대상이되는 어휘집합을 획기적으로 줄일 수 있다. 즉, 어떤 서브워드가 인식되면, 입력 모듈(380)을 통해 인식된 서브워드를 확인할 수 있고, 확인된 서브워드를 바탕으로 검색 대상이되는 어휘집합을 줄이게 된다. 예를 들면, "서울역"을 찾는 경우에 "서"가 인식된 경우에 "서"로 시작되는 어휘를 찾으면 되므로, 검색대상이 되는 어휘집합의 크기가 줄어든다. 마찬가지로 "서울"까지 인식된 경우에 검색대상이 되는 어휘집합은 훨씬 줄어들게 된다.

서브워드 단위로 어휘를 선정할 때 한 서브워드의 발음이 생략되거나 너무 다양한 발음이 발생되는 경우가 없는 것이 바람직하다. 또한 전체 서브워드의 개 수가 너무 과도하게 많게 되지 않는 것이 바람직하다. 동양권 언어들은 이러한 특징을 갖고 있어 서브워드 단위로 어휘를 선정하는 것이 유리하며, 특히 한국어의 경우에 전체 가능한 서브워드(음절)이 2000여개로 제한된다. 따라서, 특정 단계에서 인식대상이 되는 글자의 수는 많지 않게 된다.

본 발명의 실시예들은 서브워드 단위를 단계별로 인식하기 위하여 사용자의 음성 발성 방식을 제한하지 않는다. 즉, 사용자는 자연스러운 화법으로 말을 하면 본 실시예에 따라 음성인식이 가능하다.

결정부(340)은 태스크 콘트롤러(341)와 사용자 프로파일 데이터베이스(343) 액티브 서브워드 셀렉터(345) 및 단어 식별 모듈(347)을 포함한다. 태스크 콘트롤러(341)는 액티브 서브워드 셀렉터(345)와 단어 식별 모듈(347)과 디스플레이 모듈(370) 및 입력 모듈(380)을 관리한다.

액티브 서브워드 셀렉터(345)는 현재까지 인식된 서브워드 열을 기반으로 다음에 인식될 인식 대상 서브워드를 선정한다. 즉, "서울역"에서 "서"가 인식된 경우에 액티브 서브워드 셀렉터(345)는 "울"을 다음에 인식될 인식 대상으로 선정한다.

단어 식별 모듈(347)은 현재까지 인식된 서브워드 열과 매칭되는 어휘를 검색한다. 예를 들면, "서울"까지 인식된 경우에 단어 식별 모듈(347)은 "서울"로 시작되는 서울, 서울가양초등학교, 서울강남초등학교 등을 검색한다. 검색된 어휘들과 현재까지 인식된 서브워드열은 디스플레이 모듈(370)을 통해 디스플레이 된다. 한편, 사용자는 입력 모듈(380)을 통해 음성 인식 도중에 어휘를 선택할 수 있다. 예를 들면, 사용자는 "서울"까지 인식된 경우에 단어 식별 모듈(347)을 통해 제공된 어휘인 서울강남초등학교를 선택할 수 있다.

사용자 프로파일 데이터베이스(343)은 사용자가 검색했던 어휘를 저장한다. 특히, 음성 인식 장치가 텔레매틱스에 적용된 경우에 사용자는 특정 지명을 반복적으로 검색할 수 있고, 이 경우에 사용자 프로파일 데이터베이스를 통해 보다 쉽게 사용자의 음성으로부터 지명을 찾을 수 있다.

지식 소스(350)는 음향 모델(351)과 언어 모델(353) 및 엑티브 렉시콘(355)를 포함한다.

음향 모델(351)은 사용자 음성을 인식하는데 사용된다. 일반적으로 음성인식 분야에서 음향 모델은 은닉마코프모델(Hidden Markov Model; 이하, HMM이라 함)에 기반한다. 음성인식을 위한 음향 모델의 단위로는 음소(phoneme), 다이폰(diphone), 트라이폰(triphone), 퀸폰(quinphone), 음절(syllable), 단어(word) 등이 될 수 있다. 본 발명의 실시예에서는 서브워드를 단위로 음성인식이 수행된다. 한국어의 경우에 서브워드는 음절이 될 수 있고, 따라서 음절로 음향 모델을 결정할 수도 있다. 한편, 본 발명의 실시예는 자연스러운 발화에 의한 음성을 인식하는데 앞과 뒤의 음절에 의해 음절의 발음이 영향을 받는다. 따라서, 인접한 음절의 영향(coarticaulation)을 고려하여 다이폰, 트라이폰, 퀸폰 등을 사용할 수도 있다. 한편, 음향 모델(351)은 사용자에 따라 특화될 수 있는데 화자적응 모듈(360)을 통해 어떤 사용자에 대해 학습된 음향 모델을 갖을 수 있다.

언어모델(351)은 문법을 지원한다. 언어모델은 연속(Continuous) 음성인식 에서 주로 사용된다. 음성 인식기는 언어모델을 탐색과정에서 사용함으로써 인식기의 탐색 공간을 줄일 수 있으며, 언어모델은 문법에 맞는 문장에 대한 확률을 높여주는 역할을 하기 때문에 인식률을 향상시킨다. 문법의 종류에는 FSN(Finite State Network)나 CFG(Context-Free Grammar)와 같은 형식언어를 위한 문법들도 있고 n-gram과 같은 통계적인 문법이 있다. 이중 n-gram은 과거 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법을 말한다. 종류는 바이그램, 트라이그램, 4그램등이 있다. 일 실시예에 있어서, 음절에 따른 변이와 연음여부에 따라 달리 발음되는 음절을 다른 단어로 취급하고 각 단어들의 연결가능성에 대해서는 언어모델의 문법을 이용하여 인식률을 높인다. 예를 들면, "서울역을 찾아줘"라고 사용자가 연속적으로 발음할 때 "서울려글 차자줘"으로 발음될 수도 있고, "서울여글 차자줘"로 발음될 수도 있다.

액티브 렉시콘(353)은 인식 단위인 서브워드의 발음을 모델링 하기 위한 발음 모델을 의미한다. 발음모델은 표준 발음 사전으로 구한 대표 발음을 사용하여 한 서브워드당 하나의 발음을 갖는 단순한 모델부터, 허용발음/사투리/액센트를 고려하기 위하여 인식 어휘 사전에 여러 개의 표제어를 사용하는 다중발음모델, 각 발음의 확률을 고려하는 통계적 발음모델, 음소 기반의 사전식(Lexical) 발음모델 등 다양하게 있을 수 있다. 본 발명의 실시예에서는 사전식 발음모델을 이용하여 음소 기반의 발음사전을 생성한 후, 이를 트라이폰 발음 사전으로 확장한다.

본 명세서에서 사용되는 "모듈"은 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 모듈들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들 과 모듈들로 더 분리될 수 있다. 게다가, 구성요소들 및 모듈들은 통신 시스템 내의 하나 또는 그 이상의 컴퓨터들을 실행시키도록 구현될 수도 있다.

이하에서는 다중 모드의 음성 인식과정에 대해 설명한다.

먼저 사용자가 자연스럽게 발화한 음성을 취득한다(S402). 일 실시예에 있어서, 음성 취득은 사용자가 발화한 음성의 시작점과 끝점을 검출하여 음성으로 판단되는 구간을 취득한다. 음성은 마이크로폰을 통해 전기적인 신호로 취득된다.

음성이 취득되면, 음성 신호로부터 음성의 특징을 추출한다(S404). 그리고 나서 첫번째 위치에 올 수 있는 액티브 렉시콘을 생성한다(S406). 첫번째 액티브 렉시콘이 생성되면 서브워드에 대한 인식 후보를 탐색하고(S408), 탐색된 인식 후보들을 디스플레이한다(S410). 그리고 나서 사용자가 원하는 서브워드가 있는지를 판단한다(S412). 사용자는 원하는 서브워드가 있으면 해당 서브워드를 선택하기 때문에, 사용자가 소정의 시간동안 서브워드를 선택하지 않거나 서브워드 없음을 선택하면 서브워드가 없는 것으로 판단한다.

사용자가 원하는 서브워드가 없다면 터치스크린 또는 키패드 입력 모드로 전환한다(S416). 사용자는 입력 모듈, 예를 들면 터치스크린 또는 키패드를 통해 서브워드를 입력할 수 있다.

서브워드가 결정되면 현재까지 선택된 서브워드열과 매칭되는 어휘 리스트를 검색하고, 검색된 어휘들을 디스플레이 한다(S414). 그리고 나서 인식 어휘가 선택되었는지를 판단한다(S418). 인식 어휘가 선택되면, 인식 어휘를 사용자 프로파일 데이터베이스에 추가하고(S420), 발화음성과 인식 결과를 이용하여 음향 모델의 화자적응을 수행한다(S422). 그리고 나서 인식된 어휘를 근거로 후속 동작을 수행한다(S424). 예를 들어, 음성 인식 장치가 텔레매틱스에 적용된 경우에 인식된 지역의 맵을 디스플레이할 수도 있고, 음성 인식 장치에 결합된 기기들을 제어할 수도 있다.

인식 어휘가 선택되지 않은 경우라면, 언어 모델에 의해 액티브 렉시콘을 재구성한다(S426). 그리고 나서 m값을 1 더한다(S428). m값은 서브워드가 몇번째인지를 나타내는 파라미터이다. 2번째 서브워드에 대해서도 S408이하의 단계를 수행한다.

디스플레이 화면은 현재까지 인식된 서브워드열을 디스플레이하는 부분 인식 결과창(510)과 서브워드 인식결과창(520)과 검색 어휘창(530)을 포함한다.

서브워드 인식결과창(520)은 현재 검색중인 서브워드가 될 수 있는 후보들을 디스플레이한다. 사용자는 터치펜(550)과 같은 입력수단으로 서브워드를 선택할 수 있다.

검색 어휘창(530)은 현재까지 인식된 서브워드열과 매칭되는 어휘들을 디스플레이한다. 사용자는 터치펜(550)과 같은 입력수단으로 음성인식 도중에 어휘를 선택할 수 있다.

문자 입력 수단(540)은 사용자가 원하는 서브워드가 없는 경우에 사용자가 서브워드를 입력하는데 사용된다. 이러한 문자 입력 수단(540)은 터치스크린으로 구현될 수도 있지만, 디스플레이 모듈과는 별도의 키패드로도 구현될 수 있다.

사용자가 "서울역을 찾아줘"라고 발음하면, 음성 인식 장치는 "서울역"이라는 지명을 찾는 것을 확인한다. 음성 인식 장치는 서브워드의 후보들을 디스플레이한다(610).

디스플레이된 서브워드의 후보들 중에서 사용자가 터치펜과 같은 입력수단을 통해 "서"를 선택하면 선택된 "서"를 디스플레이하고, 다음 서브워드의 후보들을 디스플레이한다(620). 이 때 "서"로 시작되는 어휘들을 디스플레이하여 사용자가 선택할 수 있도록 한다.

디스플레이된 서브워드의 후보들 중에서 사용자가 입력수단을 통해 "울"을 선택하면 선택된 "울"과 이전에 선택된 "서"를 포함하는 "서울"을 디스플레이하고, 다음 서브워드의 후보들을 디스플레이한다(630). 마찬가지로 "서울"로 시작되는 어휘들을 디스플레이하여 사용자가 선택할 수 있도록 한다.

디스플레이된 서브워드의 후보들 중에서 사용자가 입력수단을 통해 "역"을 선택하면 선택된 "역"과 이전에 선택된 "서울"을 포함하는 "서울역"을 디스플레이하고, 다음 서브워드의 후보들을 디스플레이한다(640). 마찬가지로 "서울역"으로 시작되는 어휘들을 디스플레이하여 사용자가 선택할 수 있도록 한다.

사용자는 "서울역"이 끝이라는 의미로 서브워드 인식 결과창에서 "(끝)"을 선택하면 "서울역"이 인식된다. 또한 사용자는 검색 어휘창에서 "서울역"을 선택하면 "서울역"이 인식된다.

도 5의 디스플레이 화면은 디스플레이 모듈이 충분한 크기의 화면을 제공할 때 가능하다. 그러나 그렇지 못한 경우에는 도 7의 실시예와 같이 구현할 수 있다. 즉, 디스플레이창(710)에는 현재까지 인식된 서브워드열과 현재 인식대상이 되는 어느 한 서브워드를 디스플레이한다. 현재 인식대상이 되는 서브워드들(720)은 한꺼번에 모두 디스플레이 되지는 못하지만, 방향버튼(730)을 위 또는 아래로 움직일 때 하나씩 디스플레이 될 수 있다.

도 5 및 도 7에 디스플레이되는 기준은 다음과 같다. 알파벳 순서로 인식후보들을 디스플레이한다. 만일 인식 후보들이 너무 많은 경우에는 도 5의 문자 입력 수단(540)을 통해 입력된 알파벳 또는 자소로 시작되는 인식 후보들만을 표시할 수 있다. 예를 들면, "서울역을 찾아줘"라는 사용자의 음성에서 "서"에 해당하는 서브워드의 후보들이 과다하게 많다면, 사용자는 "ㅅ"을 입력하고, 음성 인식 장치는 "ㅅ"으로 시작되는 서브워드의 후보들만을 표시할 수 있다.

한편, 인식 후보 중에 매칭되는 서브워드가 없는 경우에는 도 4에서 설명한 바와 같이 입력수단을 통해 문자를 입력받을 수 있다. 즉, 음성인식 방식에서 문자인식 방식으로 전환된다. 또 다른 방식으로는 현재 스테이지에서 얻어진 후보 결과들을 액티브 렉시콘을 제외하고 탐색을 재수행하여 새로운 후보를 디스플레이할 수도 있다.

검색 어휘 목록을 디스플레이하는 기준은 알파벳 순서를 기준으로 할 수도 있지만, 사용자 프로파일 데이터베이스에 등록됐는지 여부와 알파벳 순서롤 모두 고려할 수도 있고, 텔레매틱스에 적용된 경우라면 현재 지점에서부터 거리가 가까운 순서일 수도 있으며, 현재 지점으로부터 거리 순서와 차량의 진행방향을 모두 고려하여 표시할 수도 있다.

사전 구조는 어떤 시점까지 인식된 서브워드열과 매칭되는 어휘들의 검색이 가능하고, 그 시점에서 바로 다음 인식 대상이 되는 액티브 서브워드 렉시콘을 신속히 검색할 수 있도록 트리구조나 이와 유사한 구조를 갖는다.

도 8은 트리구조의 사전구조를 보여주고 있다. 루트 노드에서 첫번째 서브워드가 인식되면 첫번째 서브워드에서 분기되는 세개의 서브워드들이 후보가 된다. 두번째 인식단계에서 매칭가능한 어휘들은 점선으로 표시한 어휘들로 줄어든다. 두번째 서브워드가 인식되면 매칭가능한 어휘들은 더욱더 줄어든다.

도 9는 서브워드의 단계별로 인식가능한 어휘의 후보들을 보여주고 있다. 첫번째 서브워드가 선택되면, 두번째 서브워드 후보들이 제공된다. 두번째 서브워드가 선택되면 세번째 서브워드 후보들이 제공된다.

본 발명의 실시예들은 적은 메모리로 사용자가 자연스럽게 발화한 음성을 인식할 수 있다. 이는 한정된 탐색법(constrained search method)를 사용하기 때문이다. 즉, 매 단계에서 인식 대상이 되는 서브워의 수가 제한적이고, 매 단계에서 액티브 서브워드 렉시콘을 바꿔주기 때문에 탐색 네트워크에 필요한 메모리 요구량이 적다. 또한, 사용자가 서브워드를 결정하기 때문에 크로스-서브워드 천이에 필요한 계산이나 메모리의 사용이 불필요하다.

도 10은 m+1 번째 스테이지에서 경로 탐색하는 경우를 보여주고 있다. m 번째 스테이지에서 사용자가 결정한 서브워드 인식결과를 이용하여 인식 엔진이 보유하고 있는 정보는 선택된 서버워드의 식별(identity)뿐만 아니라 그 서브워드의 엔딩 프레임의 범위와 각 엔딩 프레임에서의 축적된 스코어에 대한 정보를 갖고 있다. 위 정보와 함께 선택된 서브워드 뒤에 따라올 수 있는 액티브 서브워드 렉시콘들에 대해서만 탐색을 수행한다. 이와 같은 본 실시예들은 연속음성인식 방식을 멀티 스테이지 고립어 인식방식으로 바꾼것으로서 각 스테이지에서 탐색되는 음성 신호의 범위도 자동으로 결정되고 분할된다. 도 10에서 a_m은 m 번째 스테이지에서 인식된 서브워드의 엔딩 프레임들, 및 그들의 축적된 스코어들을 의미한다.

한편, 본 발명의 실시예들은 탐색의 가속화를 위하여 m번째 스테이지까지 부분 매칭되는 어휘 목록의 개수가 소정의 수, 예를 들면 200개 이하인 경우에는 서브워드 탐색을 워드탐색으로 전환한다. 즉, 검색된 어휘가 적은 경우라면 서브워드 탐색과정을 중단하고 검색된 200개 이하의 어휘만을 인식 대상어로 하여 탐색을 수행한다. 워드의 매칭 점수에 따라 순위를 매기고, 검색 어휘창에 워드들을 순위에 따라 디스플레이한다.

네비게이션 시스템은 음성인식 장치(1110)과 네비게이션 콘트롤러(1120)와 맵 데이터베이스(1130)와 디스플레이장치(1140) 및 음성합성장치(1150)를 포함한다.

음성인식 장치(1110)는 사용자가 자연스럽게 발음한 단어를 인식한다. 음성 인식 장치(1110)는 도 2의 서브워드 단위로 음성을 인식하는 멀티 모드의 어휘 검색 장치(230)로 구현될 수 있으며, 음성인식 어휘 검색장치(240)를 더 포함할 수도 있다.

네비게이션 콘트롤러(1120)는 음성인식 장치(1110)로부터 인식된 지명에 해당하는 지도를 맵 데이터베이스(1130)에서 불러오고 이를 디스플레이장치(1140)를 통해서 디스플레이한다. 한편, 운전중에는 멀티 모드의 음성인식이 곤란할 수도 있는데, 이 경우에는 음성합성장치(1150)를 통해 사용자와 응답방식으로 지명을 찾 을 수 있다.

이상에서 설명한 실시예들은 본 발명을 한정하는 것이 아니고, 예시적인 것으로 판단해야 한다. 예를 들면, 명세서에서는 음성인식 장치를 네비게이션 시스템에 적용되는 것을 예시하였으나, PDA나 휴대폰 그 밖의 장치들에도 적용될 수 있다. 그러므로 본 명세서에 개시된 실시예와 도면에 의해 본 발명은 한정되지 않으며 그 발명의 기술사상 범위내에서 당업자에 의해 다양한 변형이 이루어질 수 있음은 물론이다.

본 발명의 실시예들에 따르면 비교적 적은 메모리와 컴퓨팅 파워로 많은 자연스럽게 발화한 음성에 해당하는 어휘를 검색할 수 있다.

음성인식 장치는 텔레매틱스에도 적용될 수 있는데, 본 발명의 실시예에 따른 텔레매틱스는 적은 메모리 용량으로도 사용자의 자연스러운 발화에 따른 지명을 찾을 수 있다.

Claims

사용자가 발화한 음성으로부터 어휘를 인식하는 음성 인식 방법에 있어서,

상기 발화된 음성을 취득하여 특징을 추출하는 단계;

상기 특징으로부터 상기 어휘를 구성하는 서브워드들 중에서 첫번째 서브워드의 후보들을 선정하여 디스플레이하는 단계;

상기 후보들 중에서 사용자가 선택한 서브워드를 기준으로 다음 서브워드의 후보들을 선정하여 디스플레이하는 단계; 및

상기 다음 서브워드로부터 사용자가 어휘를 결정하였는지를 판단하여, 결정되지 않은 경우에 이전까지 선택된 서브워드열을 기준으로 그 다음 서브워드 후보들을 선정하여 디스플레이하는 단계를 포함하는, 사용자의 서브워드 선택을 기반으로 한 음성 인식 방법.
제1항에 있어서,

상기 서브워드는 상기 어휘를 구성하는 음절인 음성 인식 방법.
제1항에 있어서,

이전까지 선택된 서브워드 또는 서브워드열을 포함하는 어휘들을 디스플레이하는 단계를 더 포함하는 음성 인식 방법.
제1항에 있어서,

상기 사용자가 어휘를 결정한 경우에 상기 어휘를 사용자 프로파일 데이터베이스에 저장하는 단계를 더 포함하는 음성 인식 방법.
제1항에 있어서,

상기 사용자는 터치펜 또는 키패드를 이용하여 상기 서브워드를 선택하는 음성 인식 방법.
제1항에 있어서,

상기 사용자가 어휘를 결정한 경우에 음향 모델의 화자 적응 과정을 수행하는 단계를 더 포함하는 음성 인식 방법.
사용자가 발화한 음성으로부터 어휘를 인식하는 음성 인식 장치에 있어서,

상기 발화된 음성을 전기적인 음성 신호로 바꾸는 마이크로폰;

상기 음성 신호에서 특징을 추출하는 특징추출 모듈;

상기 특징으로부터 상기 어휘를 서브워드들로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하는 서브워드 디코더;

상기 서브워드 후보들을 디스플레이하는 디스플레이 모듈;

사용자가 상기 서브워드 후보들 중에서 어느 하나를 선택할 수 있도록 하는 입력 모듈; 및

상기 입력 모듈로부터 선택된 서브워드들을 기초로 어휘를 결정하는 결정부를 포함하는, 사용자의 서브워드 선택을 기반으로 한 음성인식 장치.
제7항에 있어서,

상기 서브워드는 상기 어휘를 구성하는 음절인 음성 인식 장치.
제7항에 있어서,

상기 디스플레이 모듈은 현재 검색중인 서브워드가 될 수 있는 후보들을 디스플레이하는 인식결과창과, 현재까지 인식된 서브워드열과 매칭되는 어휘들을 디스플레이하는 검색 어휘창을 포함하는 음성 인식 장치.
제7항에 있어서,

사용자가 사용자가 서브워드를 입력하기 위한 문자 입력 수단을 더 포함하는 음성 인식 장치.
제7항에 있어서,

상기 어휘가 결정되면 상기 결정된 어휘를 저장하기 위한 사용자 프로파일 데이터베이스를 더 포함하는 음성 인식 장치.
제7항에 있어서,

상기 입력 모듈은 터치펜과 터치스크린 또는 키패드 중 적어도 하나를 포함하는 음성 인식 장치.
제7항에 있어서,

상기 어휘가 결정되면 음향 모델의 화자 적응 과정을 수행하는 화자적응 모듈을 더 포함하는 음성 인식 장치.
디스플레이 장치;

사용자가 발화한 음성을 취득하여 상기 음성의 특징을 찾고 상기 음성에 해당하는 지명을 서브워드 단위로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하고, 사용자의 선택에 의해 결정된 서브워드 또는 서브워드열을 기반으로 지명을 인식하는 음성 인식 장치;

각 지명에 따른 지도를 저장하는 맵 데이터베이스; 및

상기 인식된 지명을 받아 상기 맵 데이터베이스로부터 상기 인식된 지명의 지도를 받아 상기 디스플레이 장치로 전달하는 네비게이션 콘트롤러를 포함하는, 사용자의 서브워드 선택을 기반으로 한 네비게이션 시스템.
제14항에 있어서,

상기 음성 인식 장치는 사용자의 음성을 전기적인 음성 신호로 바꾸는 마이 크로폰과, 상기 음성 신호에서 특징을 추출하는 특징추출 모듈과, 상기 특징으로부터 상기 지명을 서브워드들로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하는 서브워드 디코더와, 상기 서브워드 후보들을 디스플레이하는 디스플레이 모듈과, 사용자가 상기 서브워드 후보들 중에서 어느 하나를 선택할 수 있도록 하는 입력 모듈, 및 상기 입력 모듈로부터 선택된 서브워드들을 기초로 지명을 결정하는 결정부를 포함하는, 네비게이션 시스템.
제15항에 있어서,

상기 서브워드는 상기 지명을 구성하는 음절인, 네비게이션 시스템.
제1항 내지 제6항 중 어느 한 항의 방법을 컴퓨터로 실행하기 위한 프로그램을 기록한 매체.