KR100679042B1 - 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 - Google Patents

음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 Download PDF

Info

Publication number
KR100679042B1
KR100679042B1 KR1020040086228A KR20040086228A KR100679042B1 KR 100679042 B1 KR100679042 B1 KR 100679042B1 KR 1020040086228 A KR1020040086228 A KR 1020040086228A KR 20040086228 A KR20040086228 A KR 20040086228A KR 100679042 B1 KR100679042 B1 KR 100679042B1
Authority
KR
South Korea
Prior art keywords
subword
vocabulary
user
voice
candidates
Prior art date
Application number
KR1020040086228A
Other languages
English (en)
Other versions
KR20060037086A (ko
Inventor
최인정
김정수
황광일
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040086228A priority Critical patent/KR100679042B1/ko
Priority to US11/253,641 priority patent/US20060100871A1/en
Publication of KR20060037086A publication Critical patent/KR20060037086A/ko
Application granted granted Critical
Publication of KR100679042B1 publication Critical patent/KR100679042B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3629Guidance using speech or audio output, e.g. text-to-speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3664Details of the user input interface, e.g. buttons, knobs or sliders, including those provided on a touch screen; remote controllers; input using gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)

Abstract

본 발명은 음성인식에 관한 것이다.
음성 인식 방법은 사용자가 자연스럽게 발화한 음성을 취득하여 특징을 추출하는 단계와, 상기 특징으로부터 상기 어휘를 구성하는 서브워드들 중에서 첫번째 서브워드의 후보들을 선정하여 디스플레이하는 단계와, 상기 후보들 중에서 사용자가 선택한 서브워드를 기준으로 다음 서브워드의 후보들을 선정하여 디스플레이하는 단계, 및 상기 다음 서브워드로부터 사용자가 어휘를 결정하였는지를 판단하여, 결정되지 않은 경우에 이전까지 선택된 서브워드열을 기준으로 그 다음 서브워드 후보들을 선정하여 디스플레이하는 단계를 포함한다.
음성 인식, 멀티 모드, 서브워드, 네비게이션 시스템

Description

음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템{Method and apparatus for speech recognition, and navigation system using for the same}
도 1은 종전의 음성 인식장치의 일예를 보여주는 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템의 구성을 보여주는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 멀티모드의 어휘 검색 장치의 구성을 보여주는 블록도이다.
도 4는 본 발명의 일 실시예에 따른 음성 인식과정을 보여주는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 디스플레이 화면을 보여주는 도면이다.
도 6은 본 발명의 일 실시예에 따른 음성 인식과정을 보여주는 도면이다.
도 7은 본 발명의 다른 실시예에 따른 디스플레이 화면을 보여주는 도면이다.
도 8 및 도 9는 어휘 검색을 위한 사전 구조를 보여주는 도면이다.
도 10은 서브워드 탐색을 위한 한정된 탐색법을 보여주는 도면이다.
도 11은 본 발명의 일 실시예에 따른 네비게이션 시스템의 구성을 보여주는 블록도이다.
본 발명은 음성인식에 관한 것으로서, 보다 상세하게는 멀티 모드의 인터페이스가 지원되는 음성인식에 관한 것이다.
편리한 생활을 추구하는 인간의 욕구는 다양한 분야의 기술발전을 불러온다. 음성인식 기술도 인간의 편의를 위해 연구되어왔다. 음성인식 기술은 다양한 분야에 적용되고 있다. 최근에 음성인식은 다양한 디지털 기기에 적용되기 시작했다. 예를 들면 휴대폰에 음성인식 기술을 적용하여 사용자가 말로 전화를 걸 수 있게 되었다.
한편 최근에는 텔레매틱스에 관한 기술이 급속히 발전하고 있다. 텔레매틱스는 차량·항공·선박 등 운송장비에 내장된 컴퓨터와 무선통신기술, 위성항법장치, 인터넷에서 문자신호와 음성신호를 바꾸는 기술 등에 의해 정보를 주고받을 수 있는 무선데이터 서비스를 말한다. 특히 자동차 텔레매틱스 서비스는 이동통신기술과 위치추적기술을 자동차에 접목하여 차량사고나 도난감지, 운전경로 안내, 교통 및 생활정보, 게임 등을 운전자에게 실시간으로 제공한다. 이 서비스는 자동차가 주행 중에 고장나면 무선통신으로 서비스센터에 고장사항을 전송하고, 운전석 앞의 컴퓨터 모니터를 통해 운전자가 이메일을 받아보거나 도로지도를 볼 수 있도록 한다.
텔레매틱스의 서비스 중에서 음성을 이용한 지도검색 서비스를 구현하기 위 해서는 제한된 리소스를 갖는 컴퓨터 또는 단말기로 수만에서 수십만 지명을 검색할 수 있어야 한다. 현재 사용되고 있는 휴대 단말기들은 리소스가 한정적이어서 한 단계(stage)에서 음성인식이 가능한 어휘의 수가 대략 1천 단어 정도로 매우 한정적이다. 따라서, 기존의 고정 또는 가변 탐색망(search network)에 기반하여 음성인식을 수행하는 방법은 수십만의 어휘를 처리하기에는 역부족이다. 이에 따라 인식 대상 어휘를 얼마나 효과적으로 제한하여 유효한 어휘집합을 구성하는 방법의 필요성이 대두되고 있다.
한편, 스펠링 발화 형태의 음성 입력 방법은 비교적 적은 리소스로도 음성인식이 가능한 특징을 갖는다. 미합중국특허 제6629071호와 제5995928호는 스펠링 발화 방식의 음성인식 기술을 개시하고 있다. 그러나 스펠링 발화 방식은 긴 어휘에 대해서는 사용이 불편할 뿐만 아니라 한국어와 같이 초성과 종성의 문자를 구별하기 곤란(예를 들면, 음성으로 "들어"와 "드러"의 구별이 어렵다)한 경우에는 스펠링 발화 방식은 적합하지 않을 수 있다.
따라서 자연스러운 어휘 발화 방식의 음성인식이 바람직한데, 미합중국특허 제6438523호와 제6694295호는 멀티 모드의(multi-modal) 인터페이스가 지원되는 자연스러운 어휘발화 방식을 개시하고 있다.
도 1은 미합중국특허 제6438523호(명칭: Processing handwritten and hand-drawn input and speech input)의 컴퓨터 시스템을 보여주고 있다.
컴퓨터 시스템은 모드 콘트롤러(102)와 모드 프로세싱 로직(104)과 인터페이스 콘트롤러(106)와 음성 인터페이스(108)와 펜 인터페이스(110)와 응용 프로그램 들(116)을 포함한다.
인터페이스 콘트롤러(106)는 음성 인터페이스(108)와 펜 인터페이스(110)를 제어하고, 펜 또는 음성 입력을 모드 콘트롤러(102)로 제공한다. 음성 인터페이스(108)는 마이크로폰(112)에 의해 생성된 전기적인 신호를 모드 프로세싱 로직(104)가 프로세싱할 수 있도록 디지털 스트림으로 코딩한다. 마찬가지로, 펜 인터페이스(110)는 펜(114)에 의해 생성된 수기 입력을 처리한다.
모드 콘트롤러(102)는 인터페이스 콘트롤러(106)로부터 수신된 입력에 따라 모드 프로세싱 로직(104)의 모드들을 활성화시켜 컴퓨터 시스템을 위한 운영 스테이트를 생성한다. 운영 스테이트는 인터페이스 콘트롤러(106)로 수신된 입력이 처리되고 응용 프로그램들(116)에게 전달되는 것을 관장한다. 응용 프로그램들(116)은 전자 문서들을 만들고, 편집하고, 보기 위한 프로그램들, 예를 들면 워드 프로세싱, 그래픽 디자인, 스프레드쉬트, 전자우편, 및 웹 프라우징 프로그램들을 포함한다.
도 1의 컴퓨터 시스템은 음성과 펜 입력을 동시에 사용함으로써 사용자가 편리하게 문서를 작성하거나 편집할 수 있도록 한다. 그러나 도 1의 컴퓨터 시스템은 문자인식을 위한 리소스를 추가로 필요하고, 펜과 음성 입력이 동시에 이루어질 때의 제어가 어렵다는 문제점을 갖는다.
한편, 미합중국 제6694295호에 개시된 발명은 키보드나 터치스크린으로 입력된 문자열을 인식하고, 그 문자열로 시작되는 어휘들만을 인식 대상 어휘로 하여 인식 성공률을 높인다. 그러나 이 방식 또한 이 방식은 특정한 키를 누르거나 키 보드를 사용하여야 하는 불편함이 있다. 또한, 이 방식에 따르더라도 음성인식 장치는 많은 어휘를 검색해야 하는 부담이 있다.
상술한 설명에서 알 수 있다시피, 대용량 어휘를 적은 리소스로 처리할 수 있는 새로운 음성인식 방식이 필요하다.
본 발명은 상술한 필요성에 따라 안출된 것으로서, 본 발명의 목적은 대용량 어휘검색에 적합한 멀티 모드의 인터페이스가 지원되는 음성인식 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 대용량 어휘검색에 적합한 멀티 모드의 인터페이스가 지원되는 음성인식장치를 이용한 텔레매틱스용 장치를 제공하는 것이다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 방법은 사용자가 자연스럽게 발화한 음성을 취득하여 특징을 추출하는 단계와, 상기 특징으로부터 상기 어휘를 구성하는 서브워드들 중에서 첫번째 서브워드의 후보들을 선정하여 디스플레이하는 단계와, 상기 후보들 중에서 사용자가 선택한 서브워드를 기준으로 다음 서브워드의 후보들을 선정하여 디스플레이하는 단계, 및 상기 다음 서브워드로부터 사용자가 어휘를 결정하였는지를 판단하여, 결정되지 않은 경우에 이전까지 선택된 서브워드열을 기준으로 그 다음 서브워드 후보들을 선정하여 디스플레이하는 단계를 포함한다.
상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 장치는 사용자가 자연스럽게 발화한 음성을 전기적인 음성 신호로 바꾸는 마이크로폰과, 상기 음성 신호에서 특징을 추출하는 특징추출 모듈과, 상기 특징으로부터 상기 어휘를 서브워드들로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하는 서브워드 디코더와, 상기 서브워드 후보들을 디스플레이하는 디스플레이 모듈과, 사용자가 상기 서브워드 후보들 중에서 어느 하나를 선택할 수 있도록 하는 입력 모듈, 및 상기 입력 모듈로부터 선택된 서브워드들을 기초로 어휘를 결정하는 결정부를 포함한다.
상기 목적을 달성하기 위하여 본 발명의 일 실시예에 따른 네비게이션 시스템은 디스플레이 장치와, 사용자가 자연스럽게 발음한 음성을 취득하여 상기 음성의 특징을 찾고 상기 음성에 해당하는 지명을 서브워드 단위로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하고, 사용자의 선택에 의해 결정된 서브워드 또는 서브워드열을 기반으로 지명을 인식하는 음성 인식 장치와, 각 지명에 따른 지도를 저장하는 맵 데이터베이스, 및 상기 인식된 지명을 받아 상기 맵 데이터베이스로부터 상기 인식된 지명의 지도를 받아 상기 디스플레이 장치로 전달하는 네비게이션 콘트롤러를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템의 구성을 보여주는 블록도이다.
음성 인식 시스템는 마이크로폰(210)과 모드 선택 모듈(220)과 멀티 모드의 어휘 검색 장치(230) 및 음성인식 어휘 검색 장치(240) 및 지식 소스(250)를 포함한다.
마이크로폰(210)은 사용자의 음성을 전기적인 음성 신호로 바꾸어준다. 모드 선택 모듈(220)은 사용자의 명령에 따라 멀티 모드의 어휘 검색 장치(230)나 음성인식 어휘 검색 장치(240) 중 어느 하나를 선택적으로 활성화시킨다. 예를 들어, 사용자가 멀티 모드의 어휘 검색 장치(230)가 음성 인식을 수행하도록 선택하면, 멀티 모드의 어휘 검색 장치(230)는 활성화되고 음성인식 어휘 검색 장치(240)는 비활성화된다. 마찬가지로 사용자가 음성인식 어휘 검색 장치(240)가 음성 인식을 수행하도록 선택하면, 음성인식 어휘 검색 장치(240)는 활성화되고 멀티 모드 의 어휘 검색 장치(230)는 비활성화된다. 또 다른 예로서, 사용자가 모드를 선택하는 것이 아니라 시스템이 주변 상황을 판단하여 모드를 선택할 수 있다. 자동차 텔레매틱스 서비스의 경우, 정차 중에는 멀티 모드의 어휘 검색 장치(230)가 활성화되고, 주행 중에는 음성인식 어휘 검색 장치(240)가 음성 인식을 수행하도록 선택될 수 있다.
멀티 모드의 어휘 검색 장치(230)는 특징추출 모듈(231)과 서브워드 디코더(233)와 결정 모듈(235)과 디스플레이 모듈(237) 및 입력 모듈(239)을 포함한다.
특징추출 모듈(231)은 입력되는 음성 신호의 특징(feature)을 추출한다. 특징추출이란 음성인식에 유용한 성분을 음성 신호로부터 뽑아내는 것을 말하며, 일반적으로 정보의 압축, 차원 감소 과정과 관련된다. 음성 신호의 특징은 서브워드 디코더에 전달된다. 특징추출을 위한 이상적인 방법은 현재 알려지지는 않았으나, 인간의 청각특성을 반영하는(perceptually meaningful) 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한 특징, 시간적인 변화를 잘 표현하는 특징의 추출 등이 특징추출분야에서 주로 연구되고 있다. 음성인식을 위하여 주로 사용되는 특징은 LPC(Linear Predictive Coding) cepstrum, PLP(Perceptual Linear Prediction) cepstrum, MFCC(Mel Frequency cepstral coefficient), 차분 cepstrum, 필터 뱅크 에너지, 차분 에너지 등이 사용된다.
멀티 모드의 어휘 검색 장치(230)는 음성 신호의 시작과 끝을 판단하는 음성 끝점 검출 모듈(front-end detecting module)(미 도시됨)을 포함할 수 있는데, 특징추출 모듈(231)은 음성 끝점 검출 모듈로부터 한 덩어리의 음성 신호를 입력받아 특징을 추출한다. 이러한 음성 끝점 검출 모듈은 자동으로 음성의 시작과 끝을 판단하도록 구현할 수도 있지만, 사용자가 특정한 버튼을 누르는 동안에만 음성 입력을 받아들이도록 구현할 수도 있다.
서브워드 디코더(233)는 현재까지 인식된 서브워드열(subword series)을 기반으로 다음에 인식대상이 되는 서브워드 후보들을 인식한다. 서브워드란 단어를 구성하는 문자 또는 문자열을 의미한다. 예를 들어, 한국어의 경우에 음절(syllable)은 서브워드에 해당할 수 있다. 즉, "서울역"이라는 단어에서 "서"와 "울" 및 "역"은 서브워드에 해당한다. 일본어의 경우에 히라가나 문자 또는 한자(두 음절 이상이 될 수 있음)를 서브워드라고 할 수 있다. 중국어의 경우에도 음절을 기반으로 하는 한자를 서브워드라고 할 수 있다.
결정 모듈(235)은 인식된 서브워드열을 기반으로 어휘를 결정(선정)한다. 어휘를 결정하는 방식은 입력 모듈(239)을 통해 사용자가 어휘를 결정할 수 있다. 입력 모듈(239)은 사용자가 서브워드열을 기반으로 어휘를 결정할 때 사용하는데, 키패드나 터치펜 등으로 구현할 수 있다. 디스플레이 모듈(237)은 서브워드열이나 결정된 어휘를 출력한다. 한편, 입력 모듈(239)을 터치 스크린으로 구현한 경우에 디스플레이 모듈(237)은 입력 모듈(239)의 기능을 일부 수행할 수 있다.
멀티 모드의 어휘 검색 장치(230)의 기능과 동작에 대해서는 도 3 이하에서 상세히 후술한다.
음성인식 어휘 검색 장치(240)는 특징추출 모듈(241)과 워드 디코더(243)와 응답 발생기(245)와 스피커(247)를 포함한다.
특징추출 모듈(241)은 멀티 모드의 어휘 검색 장치(230)의 특징추출 모듈(231)과 동일한 기능을 수행하며, 양자는 하나의 특징추출 모듈로 구현할 수도 있다.
워드 디코더(243)는 특징추출 모듈에서 음성 신호의 특징을 받아 워드를 인식한다. 응답 발생기(245)는 인식된 워드에 대한 응답을 생성하고, 생성된 응답은 스피커(247)를 통해 출력된다.
음성인식 어휘 검색 장치(240)가 텔레매틱스에 적용되어 지리검색에 사용되는 경우를 예시적으로 설명한다. 사용자가 서울역을 찾고자 할 때, 응답 발생기(245)는 "광역시 또는 도를 말씀해주십시오"라고 말한다. 사용자가 "서울특별시"라고 말하면, 워드 디코더(243)는 서울특별시를 인식하고, 그 결과를 응답 발생기(245)에 전달한다. 응답 발생기(245)는 "서울특별시가 맞습니까?"라고 질문한다. 사용자가 "예"라고 말하면, 워드 디코더(243)는 응답 발생기(245)에게 사용자가 "예"라고 말한 것을 알린다. 다음으로 응답 발생기(245)는 "어느 구입니까?"라고 질문한다. 사용자가 "용산구"라고 말하면, 응답 발생기(245)는 "용산구가 맞습니까?"라고 질문한다. 사용자가 "예"라고 말하면, 워드 디코더(243)는 응답 발생기(245)에게 사용자가 "예"라고 말한 것을 알린다. 그러면 응답 발생기(245)는 "찾고자 하는 지명을 말하세요"라고 질문한다. 사용자가 "서울역"이라고 말하면 워드 디코더(243)는 서울역이라는 지명을 인식한다. 음성인식 어휘 검색 장치(240)를 이용하여 사용자는 응답식으로 지명을 검색할 수 있다.
지식 소스(250)는 서브워드 디코더(233) 또는 워드 디코더(243)가 어휘를 인 식할 수 있도록 도와준다.
도 3은 본 발명의 일 실시예에 따른 멀티모드의 어휘 검색 장치의 구성을 보여주는 블록도이다.
멀티 모드의 어휘 검색 장치는 마이크로폰(310)과 특징추출 모듈(320)과 서브워드 디코더(330)와 지식 소스(350)와 결정부(340)와 화자적응 모듈(360)과 디스플레이 모듈(370)과 입력 모듈(380)을 포함한다.
특징추출 모듈(320)은 마이크로폰으로부터 음성 신호를 입력받아 특징을 추출한다. 추출된 특징은 서브워드 디코더(330)로 전달된다.
서브워드 디코더(330)는 음성 신호의 특징을 받아 서브워드 단위로 음성 신호를 인식한다. 서브워드 단위로 어휘를 선정하는 기본원리에 대해서 설명하면 다음과 같다. 기본적으로 어휘는 서브워드들로 구성된다. 음성신호를 서브워드 단위로 검색하면 멀티 모드로 어휘를 검색을 통해 검색 대상이되는 어휘집합을 획기적으로 줄일 수 있다. 즉, 어떤 서브워드가 인식되면, 입력 모듈(380)을 통해 인식된 서브워드를 확인할 수 있고, 확인된 서브워드를 바탕으로 검색 대상이되는 어휘집합을 줄이게 된다. 예를 들면, "서울역"을 찾는 경우에 "서"가 인식된 경우에 "서"로 시작되는 어휘를 찾으면 되므로, 검색대상이 되는 어휘집합의 크기가 줄어든다. 마찬가지로 "서울"까지 인식된 경우에 검색대상이 되는 어휘집합은 훨씬 줄어들게 된다.
서브워드 단위로 어휘를 선정할 때 한 서브워드의 발음이 생략되거나 너무 다양한 발음이 발생되는 경우가 없는 것이 바람직하다. 또한 전체 서브워드의 개 수가 너무 과도하게 많게 되지 않는 것이 바람직하다. 동양권 언어들은 이러한 특징을 갖고 있어 서브워드 단위로 어휘를 선정하는 것이 유리하며, 특히 한국어의 경우에 전체 가능한 서브워드(음절)이 2000여개로 제한된다. 따라서, 특정 단계에서 인식대상이 되는 글자의 수는 많지 않게 된다.
본 발명의 실시예들은 서브워드 단위를 단계별로 인식하기 위하여 사용자의 음성 발성 방식을 제한하지 않는다. 즉, 사용자는 자연스러운 화법으로 말을 하면 본 실시예에 따라 음성인식이 가능하다.
결정부(340)은 태스크 콘트롤러(341)와 사용자 프로파일 데이터베이스(343) 액티브 서브워드 셀렉터(345) 및 단어 식별 모듈(347)을 포함한다. 태스크 콘트롤러(341)는 액티브 서브워드 셀렉터(345)와 단어 식별 모듈(347)과 디스플레이 모듈(370) 및 입력 모듈(380)을 관리한다.
액티브 서브워드 셀렉터(345)는 현재까지 인식된 서브워드 열을 기반으로 다음에 인식될 인식 대상 서브워드를 선정한다. 즉, "서울역"에서 "서"가 인식된 경우에 액티브 서브워드 셀렉터(345)는 "울"을 다음에 인식될 인식 대상으로 선정한다.
단어 식별 모듈(347)은 현재까지 인식된 서브워드 열과 매칭되는 어휘를 검색한다. 예를 들면, "서울"까지 인식된 경우에 단어 식별 모듈(347)은 "서울"로 시작되는 서울, 서울가양초등학교, 서울강남초등학교 등을 검색한다. 검색된 어휘들과 현재까지 인식된 서브워드열은 디스플레이 모듈(370)을 통해 디스플레이 된다. 한편, 사용자는 입력 모듈(380)을 통해 음성 인식 도중에 어휘를 선택할 수 있다. 예를 들면, 사용자는 "서울"까지 인식된 경우에 단어 식별 모듈(347)을 통해 제공된 어휘인 서울강남초등학교를 선택할 수 있다.
사용자 프로파일 데이터베이스(343)은 사용자가 검색했던 어휘를 저장한다. 특히, 음성 인식 장치가 텔레매틱스에 적용된 경우에 사용자는 특정 지명을 반복적으로 검색할 수 있고, 이 경우에 사용자 프로파일 데이터베이스를 통해 보다 쉽게 사용자의 음성으로부터 지명을 찾을 수 있다.
지식 소스(350)는 음향 모델(351)과 언어 모델(353) 및 엑티브 렉시콘(355)를 포함한다.
음향 모델(351)은 사용자 음성을 인식하는데 사용된다. 일반적으로 음성인식 분야에서 음향 모델은 은닉마코프모델(Hidden Markov Model; 이하, HMM이라 함)에 기반한다. 음성인식을 위한 음향 모델의 단위로는 음소(phoneme), 다이폰(diphone), 트라이폰(triphone), 퀸폰(quinphone), 음절(syllable), 단어(word) 등이 될 수 있다. 본 발명의 실시예에서는 서브워드를 단위로 음성인식이 수행된다. 한국어의 경우에 서브워드는 음절이 될 수 있고, 따라서 음절로 음향 모델을 결정할 수도 있다. 한편, 본 발명의 실시예는 자연스러운 발화에 의한 음성을 인식하는데 앞과 뒤의 음절에 의해 음절의 발음이 영향을 받는다. 따라서, 인접한 음절의 영향(coarticaulation)을 고려하여 다이폰, 트라이폰, 퀸폰 등을 사용할 수도 있다. 한편, 음향 모델(351)은 사용자에 따라 특화될 수 있는데 화자적응 모듈(360)을 통해 어떤 사용자에 대해 학습된 음향 모델을 갖을 수 있다.
언어모델(351)은 문법을 지원한다. 언어모델은 연속(Continuous) 음성인식 에서 주로 사용된다. 음성 인식기는 언어모델을 탐색과정에서 사용함으로써 인식기의 탐색 공간을 줄일 수 있으며, 언어모델은 문법에 맞는 문장에 대한 확률을 높여주는 역할을 하기 때문에 인식률을 향상시킨다. 문법의 종류에는 FSN(Finite State Network)나 CFG(Context-Free Grammar)와 같은 형식언어를 위한 문법들도 있고 n-gram과 같은 통계적인 문법이 있다. 이중 n-gram은 과거 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법을 말한다. 종류는 바이그램, 트라이그램, 4그램등이 있다. 일 실시예에 있어서, 음절에 따른 변이와 연음여부에 따라 달리 발음되는 음절을 다른 단어로 취급하고 각 단어들의 연결가능성에 대해서는 언어모델의 문법을 이용하여 인식률을 높인다. 예를 들면, "서울역을 찾아줘"라고 사용자가 연속적으로 발음할 때 "서울려글 차자줘"으로 발음될 수도 있고, "서울여글 차자줘"로 발음될 수도 있다.
액티브 렉시콘(353)은 인식 단위인 서브워드의 발음을 모델링 하기 위한 발음 모델을 의미한다. 발음모델은 표준 발음 사전으로 구한 대표 발음을 사용하여 한 서브워드당 하나의 발음을 갖는 단순한 모델부터, 허용발음/사투리/액센트를 고려하기 위하여 인식 어휘 사전에 여러 개의 표제어를 사용하는 다중발음모델, 각 발음의 확률을 고려하는 통계적 발음모델, 음소 기반의 사전식(Lexical) 발음모델 등 다양하게 있을 수 있다. 본 발명의 실시예에서는 사전식 발음모델을 이용하여 음소 기반의 발음사전을 생성한 후, 이를 트라이폰 발음 사전으로 확장한다.
본 명세서에서 사용되는 "모듈"은 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 모듈들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들 과 모듈들로 더 분리될 수 있다. 게다가, 구성요소들 및 모듈들은 통신 시스템 내의 하나 또는 그 이상의 컴퓨터들을 실행시키도록 구현될 수도 있다.
이하에서는 다중 모드의 음성 인식과정에 대해 설명한다.
도 4는 본 발명의 일 실시예에 따른 음성 인식과정을 보여주는 흐름도이다.
먼저 사용자가 자연스럽게 발화한 음성을 취득한다(S402). 일 실시예에 있어서, 음성 취득은 사용자가 발화한 음성의 시작점과 끝점을 검출하여 음성으로 판단되는 구간을 취득한다. 음성은 마이크로폰을 통해 전기적인 신호로 취득된다.
음성이 취득되면, 음성 신호로부터 음성의 특징을 추출한다(S404). 그리고 나서 첫번째 위치에 올 수 있는 액티브 렉시콘을 생성한다(S406). 첫번째 액티브 렉시콘이 생성되면 서브워드에 대한 인식 후보를 탐색하고(S408), 탐색된 인식 후보들을 디스플레이한다(S410). 그리고 나서 사용자가 원하는 서브워드가 있는지를 판단한다(S412). 사용자는 원하는 서브워드가 있으면 해당 서브워드를 선택하기 때문에, 사용자가 소정의 시간동안 서브워드를 선택하지 않거나 서브워드 없음을 선택하면 서브워드가 없는 것으로 판단한다.
사용자가 원하는 서브워드가 없다면 터치스크린 또는 키패드 입력 모드로 전환한다(S416). 사용자는 입력 모듈, 예를 들면 터치스크린 또는 키패드를 통해 서브워드를 입력할 수 있다.
서브워드가 결정되면 현재까지 선택된 서브워드열과 매칭되는 어휘 리스트를 검색하고, 검색된 어휘들을 디스플레이 한다(S414). 그리고 나서 인식 어휘가 선택되었는지를 판단한다(S418). 인식 어휘가 선택되면, 인식 어휘를 사용자 프로파일 데이터베이스에 추가하고(S420), 발화음성과 인식 결과를 이용하여 음향 모델의 화자적응을 수행한다(S422). 그리고 나서 인식된 어휘를 근거로 후속 동작을 수행한다(S424). 예를 들어, 음성 인식 장치가 텔레매틱스에 적용된 경우에 인식된 지역의 맵을 디스플레이할 수도 있고, 음성 인식 장치에 결합된 기기들을 제어할 수도 있다.
인식 어휘가 선택되지 않은 경우라면, 언어 모델에 의해 액티브 렉시콘을 재구성한다(S426). 그리고 나서 m값을 1 더한다(S428). m값은 서브워드가 몇번째인지를 나타내는 파라미터이다. 2번째 서브워드에 대해서도 S408이하의 단계를 수행한다.
도 5는 본 발명의 일 실시예에 따른 디스플레이 화면을 보여주는 도면이다.
디스플레이 화면은 현재까지 인식된 서브워드열을 디스플레이하는 부분 인식 결과창(510)과 서브워드 인식결과창(520)과 검색 어휘창(530)을 포함한다.
서브워드 인식결과창(520)은 현재 검색중인 서브워드가 될 수 있는 후보들을 디스플레이한다. 사용자는 터치펜(550)과 같은 입력수단으로 서브워드를 선택할 수 있다.
검색 어휘창(530)은 현재까지 인식된 서브워드열과 매칭되는 어휘들을 디스플레이한다. 사용자는 터치펜(550)과 같은 입력수단으로 음성인식 도중에 어휘를 선택할 수 있다.
문자 입력 수단(540)은 사용자가 원하는 서브워드가 없는 경우에 사용자가 서브워드를 입력하는데 사용된다. 이러한 문자 입력 수단(540)은 터치스크린으로 구현될 수도 있지만, 디스플레이 모듈과는 별도의 키패드로도 구현될 수 있다.
도 6은 본 발명의 일 실시예에 따른 음성 인식과정을 보여주는 도면이다.
사용자가 "서울역을 찾아줘"라고 발음하면, 음성 인식 장치는 "서울역"이라는 지명을 찾는 것을 확인한다. 음성 인식 장치는 서브워드의 후보들을 디스플레이한다(610).
디스플레이된 서브워드의 후보들 중에서 사용자가 터치펜과 같은 입력수단을 통해 "서"를 선택하면 선택된 "서"를 디스플레이하고, 다음 서브워드의 후보들을 디스플레이한다(620). 이 때 "서"로 시작되는 어휘들을 디스플레이하여 사용자가 선택할 수 있도록 한다.
디스플레이된 서브워드의 후보들 중에서 사용자가 입력수단을 통해 "울"을 선택하면 선택된 "울"과 이전에 선택된 "서"를 포함하는 "서울"을 디스플레이하고, 다음 서브워드의 후보들을 디스플레이한다(630). 마찬가지로 "서울"로 시작되는 어휘들을 디스플레이하여 사용자가 선택할 수 있도록 한다.
디스플레이된 서브워드의 후보들 중에서 사용자가 입력수단을 통해 "역"을 선택하면 선택된 "역"과 이전에 선택된 "서울"을 포함하는 "서울역"을 디스플레이하고, 다음 서브워드의 후보들을 디스플레이한다(640). 마찬가지로 "서울역"으로 시작되는 어휘들을 디스플레이하여 사용자가 선택할 수 있도록 한다.
사용자는 "서울역"이 끝이라는 의미로 서브워드 인식 결과창에서 "(끝)"을 선택하면 "서울역"이 인식된다. 또한 사용자는 검색 어휘창에서 "서울역"을 선택하면 "서울역"이 인식된다.
도 7은 본 발명의 다른 실시예에 따른 디스플레이 화면을 보여주는 도면이다.
도 5의 디스플레이 화면은 디스플레이 모듈이 충분한 크기의 화면을 제공할 때 가능하다. 그러나 그렇지 못한 경우에는 도 7의 실시예와 같이 구현할 수 있다. 즉, 디스플레이창(710)에는 현재까지 인식된 서브워드열과 현재 인식대상이 되는 어느 한 서브워드를 디스플레이한다. 현재 인식대상이 되는 서브워드들(720)은 한꺼번에 모두 디스플레이 되지는 못하지만, 방향버튼(730)을 위 또는 아래로 움직일 때 하나씩 디스플레이 될 수 있다.
도 5 및 도 7에 디스플레이되는 기준은 다음과 같다. 알파벳 순서로 인식후보들을 디스플레이한다. 만일 인식 후보들이 너무 많은 경우에는 도 5의 문자 입력 수단(540)을 통해 입력된 알파벳 또는 자소로 시작되는 인식 후보들만을 표시할 수 있다. 예를 들면, "서울역을 찾아줘"라는 사용자의 음성에서 "서"에 해당하는 서브워드의 후보들이 과다하게 많다면, 사용자는 "ㅅ"을 입력하고, 음성 인식 장치는 "ㅅ"으로 시작되는 서브워드의 후보들만을 표시할 수 있다.
한편, 인식 후보 중에 매칭되는 서브워드가 없는 경우에는 도 4에서 설명한 바와 같이 입력수단을 통해 문자를 입력받을 수 있다. 즉, 음성인식 방식에서 문자인식 방식으로 전환된다. 또 다른 방식으로는 현재 스테이지에서 얻어진 후보 결과들을 액티브 렉시콘을 제외하고 탐색을 재수행하여 새로운 후보를 디스플레이할 수도 있다.
검색 어휘 목록을 디스플레이하는 기준은 알파벳 순서를 기준으로 할 수도 있지만, 사용자 프로파일 데이터베이스에 등록됐는지 여부와 알파벳 순서롤 모두 고려할 수도 있고, 텔레매틱스에 적용된 경우라면 현재 지점에서부터 거리가 가까운 순서일 수도 있으며, 현재 지점으로부터 거리 순서와 차량의 진행방향을 모두 고려하여 표시할 수도 있다.
도 8 및 도 9는 어휘 검색을 위한 사전 구조를 보여주는 도면이다.
사전 구조는 어떤 시점까지 인식된 서브워드열과 매칭되는 어휘들의 검색이 가능하고, 그 시점에서 바로 다음 인식 대상이 되는 액티브 서브워드 렉시콘을 신속히 검색할 수 있도록 트리구조나 이와 유사한 구조를 갖는다.
도 8은 트리구조의 사전구조를 보여주고 있다. 루트 노드에서 첫번째 서브워드가 인식되면 첫번째 서브워드에서 분기되는 세개의 서브워드들이 후보가 된다. 두번째 인식단계에서 매칭가능한 어휘들은 점선으로 표시한 어휘들로 줄어든다. 두번째 서브워드가 인식되면 매칭가능한 어휘들은 더욱더 줄어든다.
도 9는 서브워드의 단계별로 인식가능한 어휘의 후보들을 보여주고 있다. 첫번째 서브워드가 선택되면, 두번째 서브워드 후보들이 제공된다. 두번째 서브워드가 선택되면 세번째 서브워드 후보들이 제공된다.
도 10은 서브워드 탐색을 위한 한정된 탐색법을 보여주는 도면이다.
본 발명의 실시예들은 적은 메모리로 사용자가 자연스럽게 발화한 음성을 인식할 수 있다. 이는 한정된 탐색법(constrained search method)를 사용하기 때문이다. 즉, 매 단계에서 인식 대상이 되는 서브워의 수가 제한적이고, 매 단계에서 액티브 서브워드 렉시콘을 바꿔주기 때문에 탐색 네트워크에 필요한 메모리 요구량이 적다. 또한, 사용자가 서브워드를 결정하기 때문에 크로스-서브워드 천이에 필요한 계산이나 메모리의 사용이 불필요하다.
도 10은 m+1 번째 스테이지에서 경로 탐색하는 경우를 보여주고 있다. m 번째 스테이지에서 사용자가 결정한 서브워드 인식결과를 이용하여 인식 엔진이 보유하고 있는 정보는 선택된 서버워드의 식별(identity)뿐만 아니라 그 서브워드의 엔딩 프레임의 범위와 각 엔딩 프레임에서의 축적된 스코어에 대한 정보를 갖고 있다. 위 정보와 함께 선택된 서브워드 뒤에 따라올 수 있는 액티브 서브워드 렉시콘들에 대해서만 탐색을 수행한다. 이와 같은 본 실시예들은 연속음성인식 방식을 멀티 스테이지 고립어 인식방식으로 바꾼것으로서 각 스테이지에서 탐색되는 음성 신호의 범위도 자동으로 결정되고 분할된다. 도 10에서 am은 m 번째 스테이지에서 인식된 서브워드의 엔딩 프레임들, 및 그들의 축적된 스코어들을 의미한다.
한편, 본 발명의 실시예들은 탐색의 가속화를 위하여 m번째 스테이지까지 부분 매칭되는 어휘 목록의 개수가 소정의 수, 예를 들면 200개 이하인 경우에는 서브워드 탐색을 워드탐색으로 전환한다. 즉, 검색된 어휘가 적은 경우라면 서브워드 탐색과정을 중단하고 검색된 200개 이하의 어휘만을 인식 대상어로 하여 탐색을 수행한다. 워드의 매칭 점수에 따라 순위를 매기고, 검색 어휘창에 워드들을 순위에 따라 디스플레이한다.
도 11은 본 발명의 일 실시예에 따른 네비게이션 시스템의 구성을 보여주는 블록도이다.
네비게이션 시스템은 음성인식 장치(1110)과 네비게이션 콘트롤러(1120)와 맵 데이터베이스(1130)와 디스플레이장치(1140) 및 음성합성장치(1150)를 포함한다.
음성인식 장치(1110)는 사용자가 자연스럽게 발음한 단어를 인식한다. 음성 인식 장치(1110)는 도 2의 서브워드 단위로 음성을 인식하는 멀티 모드의 어휘 검색 장치(230)로 구현될 수 있으며, 음성인식 어휘 검색장치(240)를 더 포함할 수도 있다.
네비게이션 콘트롤러(1120)는 음성인식 장치(1110)로부터 인식된 지명에 해당하는 지도를 맵 데이터베이스(1130)에서 불러오고 이를 디스플레이장치(1140)를 통해서 디스플레이한다. 한편, 운전중에는 멀티 모드의 음성인식이 곤란할 수도 있는데, 이 경우에는 음성합성장치(1150)를 통해 사용자와 응답방식으로 지명을 찾 을 수 있다.
이상에서 설명한 실시예들은 본 발명을 한정하는 것이 아니고, 예시적인 것으로 판단해야 한다. 예를 들면, 명세서에서는 음성인식 장치를 네비게이션 시스템에 적용되는 것을 예시하였으나, PDA나 휴대폰 그 밖의 장치들에도 적용될 수 있다. 그러므로 본 명세서에 개시된 실시예와 도면에 의해 본 발명은 한정되지 않으며 그 발명의 기술사상 범위내에서 당업자에 의해 다양한 변형이 이루어질 수 있음은 물론이다.
본 발명의 실시예들에 따르면 비교적 적은 메모리와 컴퓨팅 파워로 많은 자연스럽게 발화한 음성에 해당하는 어휘를 검색할 수 있다.
음성인식 장치는 텔레매틱스에도 적용될 수 있는데, 본 발명의 실시예에 따른 텔레매틱스는 적은 메모리 용량으로도 사용자의 자연스러운 발화에 따른 지명을 찾을 수 있다.

Claims (17)

  1. 사용자가 발화한 음성으로부터 어휘를 인식하는 음성 인식 방법에 있어서,
    상기 발화된 음성을 취득하여 특징을 추출하는 단계;
    상기 특징으로부터 상기 어휘를 구성하는 서브워드들 중에서 첫번째 서브워드의 후보들을 선정하여 디스플레이하는 단계;
    상기 후보들 중에서 사용자가 선택한 서브워드를 기준으로 다음 서브워드의 후보들을 선정하여 디스플레이하는 단계; 및
    상기 다음 서브워드로부터 사용자가 어휘를 결정하였는지를 판단하여, 결정되지 않은 경우에 이전까지 선택된 서브워드열을 기준으로 그 다음 서브워드 후보들을 선정하여 디스플레이하는 단계를 포함하는, 사용자의 서브워드 선택을 기반으로 한 음성 인식 방법.
  2. 제1항에 있어서,
    상기 서브워드는 상기 어휘를 구성하는 음절인 음성 인식 방법.
  3. 제1항에 있어서,
    이전까지 선택된 서브워드 또는 서브워드열을 포함하는 어휘들을 디스플레이하는 단계를 더 포함하는 음성 인식 방법.
  4. 제1항에 있어서,
    상기 사용자가 어휘를 결정한 경우에 상기 어휘를 사용자 프로파일 데이터베이스에 저장하는 단계를 더 포함하는 음성 인식 방법.
  5. 제1항에 있어서,
    상기 사용자는 터치펜 또는 키패드를 이용하여 상기 서브워드를 선택하는 음성 인식 방법.
  6. 제1항에 있어서,
    상기 사용자가 어휘를 결정한 경우에 음향 모델의 화자 적응 과정을 수행하는 단계를 더 포함하는 음성 인식 방법.
  7. 사용자가 발화한 음성으로부터 어휘를 인식하는 음성 인식 장치에 있어서,
    상기 발화된 음성을 전기적인 음성 신호로 바꾸는 마이크로폰;
    상기 음성 신호에서 특징을 추출하는 특징추출 모듈;
    상기 특징으로부터 상기 어휘를 서브워드들로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하는 서브워드 디코더;
    상기 서브워드 후보들을 디스플레이하는 디스플레이 모듈;
    사용자가 상기 서브워드 후보들 중에서 어느 하나를 선택할 수 있도록 하는 입력 모듈; 및
    상기 입력 모듈로부터 선택된 서브워드들을 기초로 어휘를 결정하는 결정부를 포함하는, 사용자의 서브워드 선택을 기반으로 한 음성인식 장치.
  8. 제7항에 있어서,
    상기 서브워드는 상기 어휘를 구성하는 음절인 음성 인식 장치.
  9. 제7항에 있어서,
    상기 디스플레이 모듈은 현재 검색중인 서브워드가 될 수 있는 후보들을 디스플레이하는 인식결과창과, 현재까지 인식된 서브워드열과 매칭되는 어휘들을 디스플레이하는 검색 어휘창을 포함하는 음성 인식 장치.
  10. 제7항에 있어서,
    사용자가 사용자가 서브워드를 입력하기 위한 문자 입력 수단을 더 포함하는 음성 인식 장치.
  11. 제7항에 있어서,
    상기 어휘가 결정되면 상기 결정된 어휘를 저장하기 위한 사용자 프로파일 데이터베이스를 더 포함하는 음성 인식 장치.
  12. 제7항에 있어서,
    상기 입력 모듈은 터치펜과 터치스크린 또는 키패드 중 적어도 하나를 포함하는 음성 인식 장치.
  13. 제7항에 있어서,
    상기 어휘가 결정되면 음향 모델의 화자 적응 과정을 수행하는 화자적응 모듈을 더 포함하는 음성 인식 장치.
  14. 디스플레이 장치;
    사용자가 발화한 음성을 취득하여 상기 음성의 특징을 찾고 상기 음성에 해당하는 지명을 서브워드 단위로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하고, 사용자의 선택에 의해 결정된 서브워드 또는 서브워드열을 기반으로 지명을 인식하는 음성 인식 장치;
    각 지명에 따른 지도를 저장하는 맵 데이터베이스; 및
    상기 인식된 지명을 받아 상기 맵 데이터베이스로부터 상기 인식된 지명의 지도를 받아 상기 디스플레이 장치로 전달하는 네비게이션 콘트롤러를 포함하는, 사용자의 서브워드 선택을 기반으로 한 네비게이션 시스템.
  15. 제14항에 있어서,
    상기 음성 인식 장치는 사용자의 음성을 전기적인 음성 신호로 바꾸는 마이 크로폰과, 상기 음성 신호에서 특징을 추출하는 특징추출 모듈과, 상기 특징으로부터 상기 지명을 서브워드들로 구분하여 각 서브워드 스테이지마다 서브워드 후보들을 선정하는 서브워드 디코더와, 상기 서브워드 후보들을 디스플레이하는 디스플레이 모듈과, 사용자가 상기 서브워드 후보들 중에서 어느 하나를 선택할 수 있도록 하는 입력 모듈, 및 상기 입력 모듈로부터 선택된 서브워드들을 기초로 지명을 결정하는 결정부를 포함하는, 네비게이션 시스템.
  16. 제15항에 있어서,
    상기 서브워드는 상기 지명을 구성하는 음절인, 네비게이션 시스템.
  17. 제1항 내지 제6항 중 어느 한 항의 방법을 컴퓨터로 실행하기 위한 프로그램을 기록한 매체.
KR1020040086228A 2004-10-27 2004-10-27 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 KR100679042B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040086228A KR100679042B1 (ko) 2004-10-27 2004-10-27 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US11/253,641 US20060100871A1 (en) 2004-10-27 2005-10-20 Speech recognition method, apparatus and navigation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040086228A KR100679042B1 (ko) 2004-10-27 2004-10-27 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템

Publications (2)

Publication Number Publication Date
KR20060037086A KR20060037086A (ko) 2006-05-03
KR100679042B1 true KR100679042B1 (ko) 2007-02-06

Family

ID=36317447

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040086228A KR100679042B1 (ko) 2004-10-27 2004-10-27 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템

Country Status (2)

Country Link
US (1) US20060100871A1 (ko)
KR (1) KR100679042B1 (ko)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016420A1 (en) * 2005-07-07 2007-01-18 International Business Machines Corporation Dictionary lookup for mobile devices using spelling recognition
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
US20070208564A1 (en) * 2006-03-06 2007-09-06 Available For Licensing Telephone based search system
US7761293B2 (en) * 2006-03-06 2010-07-20 Tran Bao Q Spoken mobile engine
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
US7873517B2 (en) * 2006-11-09 2011-01-18 Volkswagen Of America, Inc. Motor vehicle with a speech interface
KR100919227B1 (ko) * 2006-12-05 2009-09-28 한국전자통신연구원 네비게이션 시스템에 이용되는 음성 인식 방법 및 장치
ATE527652T1 (de) * 2006-12-21 2011-10-15 Harman Becker Automotive Sys Mehrstufige spracherkennung
KR101424255B1 (ko) * 2007-06-12 2014-07-31 엘지전자 주식회사 이동통신 단말기 및 이를 위한 문자입력방법
DE102008051757A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US20090248820A1 (en) * 2008-03-25 2009-10-01 Basir Otman A Interactive unified access and control of mobile devices
KR100998566B1 (ko) * 2008-08-11 2010-12-07 엘지전자 주식회사 음성인식을 이용한 언어 번역 방법 및 장치
WO2010073406A1 (ja) * 2008-12-26 2010-07-01 パイオニア株式会社 情報提供装置、通信端末、情報提供システム、情報提供方法、情報出力方法、情報提供プログラム、情報出力プログラムおよび記録媒体
US9123341B2 (en) * 2009-03-18 2015-09-01 Robert Bosch Gmbh System and method for multi-modal input synchronization and disambiguation
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
WO2012073275A1 (ja) 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
CN102063901A (zh) * 2010-12-02 2011-05-18 深圳市凯立德欣软件技术有限公司 位置服务设备的语音识别方法及位置服务设备
US8819555B2 (en) * 2011-04-07 2014-08-26 Sony Corporation User interface for audio video display device such as TV
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和***
US8947220B2 (en) * 2012-10-31 2015-02-03 GM Global Technology Operations LLC Speech recognition functionality in a vehicle through an extrinsic device
US20160004502A1 (en) * 2013-07-16 2016-01-07 Cloudcar, Inc. System and method for correcting speech input
CN103915092B (zh) * 2014-04-01 2019-01-25 百度在线网络技术(北京)有限公司 语音识别方法和装置
KR102128025B1 (ko) * 2014-04-30 2020-06-29 현대엠엔소프트 주식회사 음성인식 기반의 네비게이션 시스템 제어 방법
KR102128030B1 (ko) * 2014-04-30 2020-06-30 현대엠엔소프트 주식회사 내비게이션 장치 및 그 제어 방법
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
WO2017079341A2 (en) 2015-11-04 2017-05-11 Zoox, Inc. Automated extraction of semantic information to enhance incremental mapping modifications for robotic vehicles
US11283877B2 (en) 2015-11-04 2022-03-22 Zoox, Inc. Software application and logic to modify configuration of an autonomous vehicle
US9754490B2 (en) 2015-11-04 2017-09-05 Zoox, Inc. Software application to request and control an autonomous vehicle service
US10334050B2 (en) 2015-11-04 2019-06-25 Zoox, Inc. Software application and logic to modify configuration of an autonomous vehicle
US10401852B2 (en) 2015-11-04 2019-09-03 Zoox, Inc. Teleoperation system and method for trajectory modification of autonomous vehicles
US10248119B2 (en) * 2015-11-04 2019-04-02 Zoox, Inc. Interactive autonomous vehicle command controller
US9632502B1 (en) 2015-11-04 2017-04-25 Zoox, Inc. Machine-learning systems and techniques to optimize teleoperation and/or planner decisions
US9630619B1 (en) 2015-11-04 2017-04-25 Zoox, Inc. Robotic vehicle active safety systems and methods
US9606539B1 (en) 2015-11-04 2017-03-28 Zoox, Inc. Autonomous vehicle fleet service and system
KR20200026295A (ko) * 2017-07-10 2020-03-10 복스 프론테라, 인크. 음절 기반 자동 음성 인식
JP7275795B2 (ja) * 2019-04-15 2023-05-18 コニカミノルタ株式会社 操作受付装置、制御方法、画像形成システム、及び、プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930022267A (ko) * 1992-04-02 1993-11-23 드와이트 에이. 마샬 자동 음성 인식기
JPH07281695A (ja) * 1994-04-07 1995-10-27 Sanyo Electric Co Ltd 音声認識装置
JPH09259145A (ja) * 1996-03-27 1997-10-03 Sony Corp 検索方法および音声認識装置
JPH1021254A (ja) 1996-06-28 1998-01-23 Toshiba Corp 音声認識機能付き情報検索装置
KR20010071217A (ko) * 1998-05-07 2001-07-28 추후제출 수기 및 음성으로 자동차 부속 장치를 제어하는 장치 및방법
KR20010085219A (ko) * 1999-01-05 2001-09-07 요트.게.아. 롤페즈 서브단어 메모리를 포함하는 음성인식 장치
JP2002229590A (ja) 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
JP2003108186A (ja) 2001-09-28 2003-04-11 Mitsubishi Electric Corp 音声語句選択装置、音声語句選択方法および音声語句選択プログラム
KR20040051317A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를저장한 기록 매체

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2739945B2 (ja) * 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
WO1998022936A1 (en) * 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US5875429A (en) * 1997-05-20 1999-02-23 Applied Voice Recognition, Inc. Method and apparatus for editing documents through voice recognition
US6490561B1 (en) * 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
US5974413A (en) * 1997-07-03 1999-10-26 Activeword Systems, Inc. Semantic user interface
US6519561B1 (en) * 1997-11-03 2003-02-11 T-Netix, Inc. Model adaptation of neural tree networks and other fused models for speaker verification
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
FI981154A (fi) * 1998-05-25 1999-11-26 Nokia Mobile Phones Ltd Menetelmä ja laite puheen tunnistamiseksi
ATE374421T1 (de) * 1998-08-28 2007-10-15 Ibm Segmentierungsverfahren zur erweiterung des aktiven vokabulars von spracherkennern
US6260015B1 (en) * 1998-09-03 2001-07-10 International Business Machines Corp. Method and interface for correcting speech recognition errors for character languages
GB2343037B (en) * 1998-10-22 2002-12-31 Ibm Phonetic spell checker
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别***
GB2353887B (en) * 1999-09-04 2003-09-24 Ibm Speech recognition system
US7243069B2 (en) * 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
JP5093963B2 (ja) * 2000-09-08 2012-12-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 置換コマンドを有する音声認識方法
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command
US7013258B1 (en) * 2001-03-07 2006-03-14 Lenovo (Singapore) Pte. Ltd. System and method for accelerating Chinese text input
JP4056711B2 (ja) * 2001-03-19 2008-03-05 日産自動車株式会社 音声認識装置
JPWO2003088209A1 (ja) * 2002-04-12 2005-08-25 三菱電機株式会社 カーナビゲーションシステム並びにその音声認識装置
US7289956B2 (en) * 2003-05-27 2007-10-30 Microsoft Corporation System and method for user modeling to enhance named entity recognition
US8849034B2 (en) * 2004-12-09 2014-09-30 Hewlett-Packard Development Company, L.P. System, method, and apparatus for triggering recognition of a handwritten shape

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930022267A (ko) * 1992-04-02 1993-11-23 드와이트 에이. 마샬 자동 음성 인식기
JPH07281695A (ja) * 1994-04-07 1995-10-27 Sanyo Electric Co Ltd 音声認識装置
JPH09259145A (ja) * 1996-03-27 1997-10-03 Sony Corp 検索方法および音声認識装置
JPH1021254A (ja) 1996-06-28 1998-01-23 Toshiba Corp 音声認識機能付き情報検索装置
KR20010071217A (ko) * 1998-05-07 2001-07-28 추후제출 수기 및 음성으로 자동차 부속 장치를 제어하는 장치 및방법
KR20010085219A (ko) * 1999-01-05 2001-09-07 요트.게.아. 롤페즈 서브단어 메모리를 포함하는 음성인식 장치
JP2002229590A (ja) 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
JP2003108186A (ja) 2001-09-28 2003-04-11 Mitsubishi Electric Corp 音声語句選択装置、音声語句選択方法および音声語句選択プログラム
KR20040051317A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를저장한 기록 매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
1020010071217

Also Published As

Publication number Publication date
US20060100871A1 (en) 2006-05-11
KR20060037086A (ko) 2006-05-03

Similar Documents

Publication Publication Date Title
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US8380505B2 (en) System for recognizing speech for searching a database
KR100679044B1 (ko) 사용자 적응형 음성 인식 방법 및 장치
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
Zissman et al. Automatic language identification
JP4188989B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4468264B2 (ja) 多言語による名称の音声認識のための方法とシステム
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
EP1936606B1 (en) Multi-stage speech recognition
US20200184967A1 (en) Speech processing system
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2008064885A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
EP1933302A1 (en) Speech recognition method
JP2005338274A (ja) 音声対話装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP2003271183A (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
Pranjol et al. Bengali speech recognition: An overview
KR20060098673A (ko) 음성 인식 방법 및 장치
JP2005070330A (ja) 音声認識装置及びプログラム
JP2003345383A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2008076812A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
Kitaoka et al. Multimodal interface for organization name input based on combination of isolated word recognition and continuous base-word recognition.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121228

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131230

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141223

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151229

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee