KR0129856B1

KR0129856B1 - 음성명령에 의한 디지트 시퀀스르 입력하기 위한 방법

Info

Publication number: KR0129856B1
Application number: KR1019890701098A
Authority: KR
Inventors: 알란 거슨 아이라; 루이스 린즐레이 브레트
Original assignee: 빈센트 죠셉 로너; 모토로라 인코포레이티드
Priority date: 1987-10-19
Filing date: 1989-06-19
Publication date: 1998-04-11
Also published as: JPH03500693A; EP0389514A1; KR890702177A; US4870686A; WO1989004035A1; CA1312668C; EP0389514A4; DE3855164T2; EP0389514B1; ATE136146T1; JPH0782351B2; DE3855164D1; MX165502B

Abstract

내용 없음.

Description

[발명의 명칭]

음성명령에 의한 디지트 시퀀스르 입력하기 위한 방법

[도면의 간단한 설명]

신규로 되어지는 본 발명의 특징은 첨부된 청구 범위에 기재되어 있다. 그러나, 본 발명 그 자체는 그들에 대한 또한 목적 및 장점과 함께 첨부의 도면을 참조하여 취해질 때 이하의 설명을 참조함으로서 가장 잘 이해될 수 있다.

제1도는 본 발명에 따른 디지트 입력 방법을 사용하는 음성 통신 장치를 위한 음성 명령 제어 시스템의 블록 선도.

제2a및 2b도는 양호한 실시예의 디지트 입력 방법의 실행에 따른 제어 시스템에 의해 수행된 특정 시퀀스의 동작을 도시하는 플로우 차트.

[발명의 상세한 설명]

[발명의 배경]

1. 발명의 분야

본 발명은 일반적으로 음성 인식 제어 시스템(Speech Recognition Control Systems)에 관한 것이다. 특히, 본 발명은 차량 무선 전화의 응용에 직면하게 되는 바와 같은 노이지 환경(Noisy Environment)에서 사용하는데 특히 적합한 핸드-프리 음성 명령 자동 다이얼링 시스템(Hands-free Voice Command Dialing System)에 관한 것이다.

2. 종래 기술의 설명

전형적으로, 무선 및 무선 전화 시스템의 양쪽에 있어서, 사용자(user)는 시스템의 한쪽이 그 사용자의 귀에 가까이 대는 스피커를, 다른 한쪽이 그 사용자의 입에 가까이 유지되는 마이크로폰을 포함하는 핸드 세트(handset)에 의해 통신한다. 동작에 있어서, 사용자의 한쪽 손이 핸드 세트를 그의 적정한 방향으로 쥐고 있어, 사용자의 자유로운 손만이 차량을 운전하는 일을 달성하기 위해 남겨 둔다. 사용자에 대해 상당히 큰 자유도(A Greater Degree of Freedom)를 부여하기 위하여, 지상선 전화 시스템에는 스피커폰(Speaker Phones)이 일반적으로 사용되고 있다. 최근에, 자동차에 사용하기 위해서 차량용 스피커폰이 개발되었다. 예컨대, Eastmond 에 의한 미국 특허 공보 제 4,378,603 호 및 Vilmur 에 의한 미국 특허 공보 제 4,400,584 호는 양쪽다 본 발명과 동일한 양수인에게 양도되었으며, 핸드-프리 동작을 갖춘 차량용 스피커폰을 기술하고 있다.

인간의 음성에 응답하는 음성 인식 제어 시스템은 자동차의 응용에 사용하는데 매우 바람직하다. 대부분의 이동 무선 송수신기(Transceiver)의 기능(예컨대, 온/오프, 송신/수신, 볼륨, 스쾰치(Squelch), 등등) 또는 이동무선 전화 제어기능(예컨대, 푸시버튼 다이얼링, 음성 인식기 트레이닝, 전화 호의 응답)은 어떤 매뉴얼 동작을 요구함이 없이 음성 명령에 의해 용이하게 성취될 수 있다. 따라서, 차량용 스피커폰과 함께 음성 인식을 사용하는 것은 자동차의 운전자가 그의 손을 핸들(Steering wheel)로부터 떼거나 또는 운전자가 도로로부터 한눈을 파는 일이 전혀 없도록 전적으로 핸드-프리 전화 통화를 제공할 가능성을 갖는다. 이것의 특징은 스피커폰의 핸드-프리 가능성을 확장할 수 있을 뿐만 아니라, 차량에 있어서 이동 무선 전화를 사용하는데 안전성과 편리성을 부가하게 된다.

불행하게도, 차량의 무선 전화에 완전히 핸드-프리 제어를 적용하는 것은 몇가지 중요한 장애를 유발한다. 차량 환경에 있어서, 음성 인식이 이용될 때, 차량에 있어서 본질적인 고도의 환경 노이즈가 신뢰할 수 있는 음성 제어에 대하여 무시하지 못할 장애를 부여한다. 더욱이, 차량용 스피커폰은 전형적으로 자동차의 차양판(sun visor)상의 머리 위에 장착되도록 사용자의 입으로부터 떨어져 있는 마이크로폰을 갖고 있다. 그 결과, 필요로된 높은 마이크로폰의 감도는 음성 인식 장치에 인가되는 환경 배경 노이즈의 양을 대폭 증가시키며, 이것은 그 인식의 신뢰성을 열화 시킨다.

특히, 자동 다이얼링식 전화에 있어서 음성 인식 에러의 문제점은 시스템의 성능을 현저하게 억제시킨다. 자동 및 레퍼토리 다이얼링(repertoty dialing)의 기능이 최근에 셀룰러 전화의 용도에 있어서 이용될 수 있었으며, 이것에 의해 사용자는 구두로 전화 디지트(digits)를 입력시킬 수 있거나, 또는 미리 규정된 키워드를 써서 미리 기억된 번호를 구두로 호출할 수 있다. 만약, 음성 인식 유니트가 명령 키워드를 잘못 인식한다면, 음성 명령 제어기는 일반적으로 인증(verification)할 목적으로 사용자에게 인식된 명령을 회답한다. 사용자는 그 다음에 정확한 키워드를 재 입력한다. 상기 입력/ 인증/ 재입력 과정은 통상적으로 단지 작은 불편일뿐이며, 그 이유는 그것이 전형적으로 대다수의 명령에 대하여 거의 수초 동안 취해지기 때문이다. 그러나, 만약 음성 인식 장치가 전화 번호를 표시하는 긴 일련의 디지트에서 단일의 디지트를 잘못 검출한다면, 입력/ 인증/ 재입력의 과정은 굉장히 시간을 소비하게 되며, 현저하게 적어도 사용자에 대해서는 욕구불만을 갖게 된다.

이러한 이유로, 음성 명령에 의해 디지트를 입력하기 위한 종래의 기술은 심하게 제한되어 왔다. 몇몇 음성 인식 제어기는 사용자가 소정수, 예컨대, 전화 번호에 대해서 7 또는 11의 디지트를 발음하도록 대기한다. 최종 기대된 디지트의 인식에 따라서, 상기 제어기는 음성합성을 이용하여, 인식된 번호를 인증하기 위한 사용자에게 구두로 회답한다. 사용자는 그 다음에 소정의 에러 명령 키워드를 말함으로서 잘못 인식된 전화 번호가 입력되는 것을 방지할 수 있다. 그러나, 인식의 정밀도가 높지 않은 차량의 환경에 있어서, 정확한 인식을 위한 완전한 디지트의 시퀀스를 수회 반복하는 것이 필요하다. 다른 버전(versions)에 있어서는, 음성 명령 다이얼 장치가 인식 직후에 개개의 단일 디지트를 반복한다. 이 별개의 대안이 고 노이즈 환경에서 보다 신뢰할 수 있는 것이 입증될 수 있을 지라도, 이것은 특히 인식 정밀도가 높을 때, 긴 스토링(string)의 디지트롤 입력하도록 상당량의 시간을 필요 이상으로 요구한다. 더욱이, 단일 디지트 인증 과정은 디지트가 부정확하게 인식될 때 매우 불쾌하게 한다. 왜냐하면, 사용자가 에러 명령을 말하기 위해 마음속으로 멈추고, 부정확한 단일 디지트를 반복하고, 정확한 응답을 듣고, 그 다음 그것을 계속 해야만 할 때, 사용자는 입력될 그 다음의 디지트롤 쉽게 잊어버릴 수 있기 때문이다. 대체로, 종래 기술의 디지트 입력/ 인증 절차는 사용하기가 쉽지 않다.

그러므로, 음성 인식 제어 시스템에 있어서 음성 명령에 의해 일련의 디지트를 입력하고 인증 하기 위한 인텔리전트 방법에 대한 필요성이 존재한다.

[발명의 개요]

따라서, 본 발명의 일반적인 목적은 음성 인식에 의해 일련의 키워드를 입력하고 인증 하기 위한 개선된 방법 및 장치를 제공하는데 있다.

본 발명의 보다 특정한 목적은 부분적인 시퀀스 디지트의 스트링(strings)을 입력하고 선택적으로 편집함으로써 전화기에 다이얼링하기 위한 개선된 사용자 상호작용적 음성 인식 제어 시스템(user-interactive speech recognition control system)을 제공하는데 있다.

본 발명에 의하면, 11 디지트 전화 번호와 같은 사용자가 말한 발음의 전체 시퀀스를 신뢰적으로 입력하는 음성 통신 장치를 위한 사용자가 상호 작용하는 음성 명령 제어 시스템이 제공된다. 이 음성 명령 제어 시스템은 사용자가 말한 발음의 다수의 부분적인 시퀀스 가변 길이 스트링을 디지트와 같은 다수의 소정의 키워드에 대응하는 것처럼 인식하는 음성 유니트를 포함한다. 이 제어 시스템은 최초의 발음 스트링이 소정의 휴지 시간 간격 동안 정지된 후 휴지 신호(pause signal)를 공급하고, 그 다음에 그 최초의 발음 스트링에 응답하여 인식되어진 키워드의 사용자에게 표시를 제공한다. 이 제어 시스템은 또한 휴지 신호에 응답하고 소정의 에러 명령 키워드에 대응하는 제 2 의 발음 스트링의 인식에 응답하여 특정 키워드를 정정하기 위한 기구(mechanism)를 제공한다.

양호한 실시예에 있어서, 핸드-프리 사용자와 상호 작용하는 음성 명령 다이얼링 시스템(hands-free user-interactive voice command dialing system)이 차량용 스피커폰을 이용하는 이동 무선전화기와 함께 사용된다. 일련의 디지트 후 소정의 휴지 시간 기간이 인식될 때, 그 인식된 디지트가 시스템에 의해서 회답된다. 부가적인 일련의 디지트가 그 다음에 입력될 수 있고, 인식된 후속의 디지트의 스트링만이 그 다음의 휴지 후에 회답된다. 만약 (워드 CLEAR와 같은) 에러 명령 키워드가 그 다음에 인식될 때, 입력된 최종 디지트의 스트링만이 클리어된다. 만약, 에러 명령어가 계속해서 2회 인식된다면, 디지트의 전체 스트링이 클리어된다. 사용자가 말을 하고 있으나 아무것도 인식되지 않는 것을 제어기가 검출하면, 시스템은 (아마도 워드REPEAT에 의해서) 응답하여 사용자에게 음성 인식기가 이전의 스트링을 인식할 수 없게 되고 그것이 반복되어지는 것을 표시한다. 최종 디지트 스트링이 입력될 시에, 사용자는 (워드TERMINATE와 같은) 정지 명령을 말하고 인식된 디지트의 전체 시퀀스가 회답되어 무선 전화기에 출력한다.

상기 방법에 있어서, 사용자는 환경 노이즈 조건에 응답하여 인식 처리의 인증 모드를 변경하도록 유연성을 갖는다. 고 인식 정밀도가 기대되는 환경에 있어서, 사용자는 전체 디지트 시퀀스를 휴지 함이 없이 입력할 수 있고, 시스템은 즉시 전체 시퀀스를 확인하여 기억한다. 대안적으로, 고 배경 노이즈 조건하에서, 사용자는 각 스트링이 발음되어진 후 휴지 함으로서 부분적 시퀀스 디지트 스트링의 인증을 요구하는 선택권을 갖는다. 만약, 인식 에러가 있다면, 특정 디지트 스트링이 전체 디지트 시퀀스를 재 입력시키는 것을 갖지 않고 정정될 수 있다. 인간이 디지트 스트링의 미리 규정된 그룹(예컨대, 1-312-397-1000)에서 긴 디지트 시퀀스(예컨대, 긴 전화번호)를 수월하게 판독, 기억, 및 말할 수 있으므로, 각 휴지 후에, 키워드의 스트링을 인증하는 본 방법은 또한 매우 사용자에게 쓸모 있다.

[양호한 실시예에 대한 설명]

이제 첨부 도면을 참조하면, 제1도는 본 발명의 사용자 상호작용 제어 시스템(100)에 대한 일반적인 블록 선도를 도시하고 있다. 이 시스템은 기본적으로 음성 통신 장치(140)에 접속된 장치 제어기(120)로 구성되어 있다. 음성 인식기(110)가 사용자로부터의 음성 명령을 시스템에 대한 명령 신호로 번역하기 위해서 장치 제어기에 결합되어 있다. 장치 제어기는 음성 인식기로 부터의 정보뿐만 아니라, 타이머(124), 액티비티 검출기(114), 및 제어기 메모리(134)로 부터의 정보를 감시한다. 이 제어기는 인식 템플리트를 선택하고 음성 인식기(110)를 인에이블하고, 타이머를 리세트 시키고, 데이터를 제어기 메모리(134)에 기억하고, 그 메모리로부터 데이터를 판독하고, 음성 통신 장치의 다이얼링 동작을 제어하고, 사용자로의 피드백(feedback)을 제공하기 위해서 음성 합성기(130)에 정보를 제공하는 능력을 갖고 있다. 이 시스템은 사용자의 손이 다른 작업을 수행하는데 자유롭게 되도록 스피커폰과 함께 사용하는데 잘 어울린다. 스피커폰(150)은 상기 핸드-프리 특징을 제공하도록 오디오 방향을 제어한다.

음성 통신 장치(140)는 예컨대, 2 방향 무선 시스템, 전화 시스템, 인터콤(내선 통신) 시스템, 음성 데이터 입력 시스템 등과 같은, 임의의 무선 또는 지상선 음성 통신 시스템의 부분을 포함할 수 있다. 본 실시예에 있어서, 음성 통신 장치(140)는 셀룰러 이동 무선 전화기와 같은 무선 전화 송수신기이다. 이와 같은 무선 전화기의 상세한 설명은 모토롤러 사의 인스트럭션 매뉴얼 제 68P81066E40호, 명칭 DYNA T.A.C.(R) 셀룰러 이동 전화에서 볼 수 있게 된다. 그러나, 음성 제어를 필요로 하는 임의의 지상선 전화 또는 단신 방식의 무선 송수신기도 사용될 수 있다. 또한, 핸드-프리 사용자 상호작용 동작을 행하는 임의의 전자 장치도 또한 본 발명의 장점을 가질 수 있다.

음성 통신 장치(140)는 송신 선로(144) 및 수신 선로(140)를 이용하여 송신/ 수신 오디오 및 다이얼링 정보를 통신 채널에 인터페이스 한다. 이동 무선 전화기의 양호한 실시예에 있어서, 이들 선로는 이중 무선 전화 동작을 위한 한 쌍의 무선 주파수(RF) 채널에 인터페이스 할 수 있다.

음성 인식기(110)는 라인(158)에서 입력 음성 신호에 대해 음성 인식을 수행한다. 인식 동안, 음성 인식기(110)는 미리 기억된 워드의 템플리트를 입력 음성 정보에 대해 비교한다. 본 실시예의 인식 알고리즘은 연속 음성 인식, 다이내믹 시간 워핑(Dynamic Time Warping), 에너지 정규화, 및 템플리트 정합(template match)을 판정하기 위한 체비쉐브 거리 판정법(Chebyshev distance metric)을 도입한다. 음향, 음성, 및 신호 처리에 관한 IEEE 국제 회의 (1982년 5월 3일 - 5일), 제 2 권, 제 899 쪽 내지 902 쪽, 제이. 에스. 브리들, 엠. 디. 브라운 및 알. 엠. 체임버린에 의한 접속된 워드 인식을 위한 알고리즘에 기재된 바와 같은, 종래 기술의 인식 알고리즘도 또한 사용될 수 있다.

본 실시예에 있어서, 8 비트의 마이크로컴퓨터가 음성 인식기(110)의 기능을 수행한다. 더욱이, 제1도의 여러 가지 다른 제어 시스템의 블록도 CODEC/FILTER 및 DSP(Digital Signal Processor)의 도움으로 동일한 마이크로컴퓨터에 의해 부분적으로 실시된다. 블록(110)의 기능을 수행하는데 사용될 수 있는 대표적인 음성 인식 하드웨어는 제이.펙캄, 제이.그린, 제이.캐닝 및 피.스티븐스에 의해, 명칭이 실시간 하드웨어 연속 음성 인식 시스템인 음향, 음성, 및 신호 처리에 관한 IEEE 국제 회의 (1982년 5월 3일 - 5일), 제 2 권, 제 863 쪽 -866 쪽의 논문 및 그 속에 포함된 참고 문헌에 기술되어 있다. 그러나, 본 발명은 어느 특정 하드웨어나, 또는 어느 특정 형식의 음성 인식에도 한정되지 않는다. 보다 특정적으로, 본 발명은 통화자에 의존하거나 또는 통화자에 의존하지 않는 음성 인식, 분리되거나 또는 연속적인 워드 인식, 및 소프트웨어 베이스 또는 하드웨어 베이스 실시의 사용을 꾀하려는데 있다.

장치 제어기(120)는 전형적으로 음성 통신 장치(140), 음성 인식기(110), 및 음성 합성기(130) 간을 인터페이스 하는 마이크로 프로세서이다. 장치 제어기(120)는 음성 인식기(110)에 의해서 제공된 장치 제어 데이터(112)를 특정의 음성 통신 장치에 의해서 인식될 수 있는 제어 신호로 번역한다. 이들의 제어 신호는 장치에 사용자에 의해서 명령된 특정의 동작 기능을 수행하도록 지시한다. 예컨대, 만약 사용자가 말한 발음이 미리 규정된 전화 번호의 시퀀스에 대응한다면, 장치 제어기(120) 는 제어기 버스(148)를 거쳐서 적정한 다이얼링 신호를 생성하게 된다. 제어기(120)는 또한 제어 헤드의 로크 해제, 호 응답, 또는 임의의 수의 다른 동작 기능과 같은, 음성 통신 장치(140)의 다른 특징 기능의 음성 명령 제어를 수행할 수 있다.

장치 제어기(120)는 또한 음성 통신 장치(140)의 동작 상태를 나타내는 장치 상태 데이터(122)를 제공한다. 이 데이터는 음성 합성기(130)에 인가되어, 스피커(176)를 거쳐서 출력될 때 사용자가 인식할 수 있는 음성으로 번역된다. 예컨대, 사용자가 말한 발음이 디지트 시퀀스를 종료시키기 위한 미리 규정된 명령 키워드에 대응할 때, 음성 합성기(130)는 인식된 전화 번호를 사용자의 회답으로서 합성하게 된다. 상태 데이터(122)는 또한 이름 및 전화 번호(오피스(office), 555-1234, 등), 음성 인식 응답 정보(준비 완료(Ready), 종료(Terminate)?, 등), 또는 무선 전화 상태 정보(호 드롭(Call Dropped), 시스템 버지(System Busy), 등)에 관한 정보를 포함한다.

본 실시예에 있어서, 음성 합성기(130)로서 19 채널의 보코더(vocoder)가 사용되어 있다. 이와 같은 보코더의 예가 제이. 엔. 호움즈, JSRU 채널 보코더, IEE Proc, 제 127권, 파트 F, 제 1 호, 1980년 2월, 제 53 쪽 - 60 쪽에 알려져 있다. 그러나, 당업자에게 자명한 바와 같이, 임의의 음성 합성기의 장치가 이용될 수 있다. 또한, 본 발명은 사용자에게 표시를 제공하는 임의의 수단이 음성 합성기 블록(130)의 기본적인 응답 기능을 수행하게 되는 것을 꾀하고 있다. 예컨대, 임의의 가시적 표시기(예컨대, LED, LCD, CRT, 등) 또는 가청 표시기(예컨대, 톤 발생기(tone generator)또는 다른 가청 신호 발생기)로 대체된다. 더욱이, 양호한 실시예에 있어서, 14 디지트 전화 번호 디스플레이는 현재 인식된 디지트의 사용자에게 부가적인 표시를 연속적으로 제공한다.

전형적으로 랜덤 액서스 메모리(RAM)인 제어 메모리(134)는 음성 인식기(110)에 의해서 인식된 다수의 키워들르 기억한다. 메모리 버스(136)는 키워드 입력의 처리 동안에 정보를 제어기 메모리(134)에 전송하고, 키워드 인증의 처리 동안에 장치 제어기(120)에 의해서 기억된 정보로의 액세스를 제공한다. 만약 음성 인식기(110) 또는 음성 통신 장치(140)가 디지트 입력 기억 기능을 수행하기 위해 내부 RAM을 도입한다면, 외부 제어기 메모리(134)는 생략될 수 있다.

음성 액티비티 검출기(114)는 양호한 실시예에서 에너지를 기준으로한 검출기이다. 검출기(114)는 음성 인식기로 부터의 정보를 이용함으로서 보다 정교한 메커니즘으로 대체될 수 있다. 어느 경우에 있어서도, 음성 액티비티 검출기(114)는 음성 액티비티에 대하여 입력 음성 신호 (158)를 감시하는 기능을 수행하며, 그로써, 장치 제어기(120)는 인식될 음성이 존재하는지의 여부를 판정할 수 있다. 검출기(114)에 사용될 수 있는 대표적인 기술에 대해서는, 알. 제이. 맥오레이 및 엠. 엘. 맬패스에 의한 명칭이 소프트-디시전 노이즈 억압 필터인, LEEE TRANS. 음향, 음성, 및 신호 처리에 관한 기술, ASSP-28 권, 제 2 호(1990년 4월), 제 137 쪽 -145 쪽을 참조한다.

타이머 블록(124)은 이전의 음성 활동 이후 종료되어진 시간뿐만 아니라, 최후의 키워드가 인식되어진 이후부터 종료되어진 시간의 계측을 제공한다. 이들 시간 간격은 데이터 버스(126)를 거쳐서 제어기(120)에 의해 초기화되고, 감시되며, 리세트될 수 있다. 또 다시, 이들의 타이머의 또한 상세한 설명에 대해서는 플로우 차트의 기술을 참조한다.

스피커폰(150)은 핸드-프리 제어 시스템의 송신/수신 오디오 스위칭 기능뿐만 아니라, 수신/응답 오디오 다중화 기능을 수행한다. 사용자가 말한 입력 음성은 마이크로폰(152)에 인가되며, 이 마이크로폰(152)은 전형적으로 사용자의 입으로부터 좀 떨어져 원격적으로 장착된다(예컨대, 자동차의 차양판상에 장착된다). 마이크로폰(152)은 전기적 입력 음성 신호를 발생하며, 이 신호는 다음에 전치 증폭기(153)에 의해서 증폭되어, 스피커폰(150)에 입력 음성 신호(154)를 제공한다. 스피커폰(150)은 154에 있어서의 입력 음성 신호를 입력 신호 라인(158)을 거쳐서 음성 인식기(110)로 향하게 한다.

단신 방식이 시스템에 있어서, 이동 무선 사용자가 통화할 때, 신호 검출기(160)는 검출기 출력(162)을 거쳐서 정의 제어 신호를 제공하여, 송신 오디오 스위치(156)를 닫고, 검출기 출력(164)을 거쳐서 부의 제어 신호를 제공하여, 수신 오디오 스위치(166)를 연다. 역으로, 지상선 파티가 통화 중일 때, 신호 검출기(160)는 역극성의 신호를 제공하여, 수신 오디오 스위치(166)를 닫는 한편, 송신 오디오 스위치(156)를 연다. 수신 오디오 스위치(166)가 닫혔을 때, 음성 통신 장치(140)로 부터의 수신기 오디오(146)는 수신 오디오 스위치(166)를 통하여 스위치된 수신 오디오 출력(168)으 거쳐서 멀티플렉서(170)에 경로 배정된다. 멀티플렉서(170)는 음성 합성기(130)로 부터의 음성 응답 오디오(132)와 전환된 수신 오디오(168)간의 오디오 경로를 장치 제어기(120)로 부터의 멀티플렉서 제어 신호(128)에 응답하여 제어한다. 언제든지 장치 제어기가 정보를 음성 합성기에 발송하든 지간에, 멀티플렉서 장치 신호(128)는 음성 응답 오디오를 스피커에 발성하도록 다중화 장치(170)에 지시한다.

여기에서 상술한 이동체 스피커폰 실시예는 수많은 형태중 단지 한 실시예이다. 예컨대, 음성 인식기(110)는 지상 통신선 파티가 회신하든 안하든 항상 이동 사용자의 명령에 응답하는 것이 요구된다. 이러한 경우에 있어서, 입력 음성 신호(154)는 음성 인식기(110)에 직접 접속된다. 더욱이, 몇몇 통신 시스템에 있어서는, 오디오 스위치(156 및 166) 대신에 신호 검출기로 부터의 제어 신호에 응답하여 동등하지만 역 감쇠를 제공하는 가변 이득 장치를 갖는 장점을 나타낸다. 신호 검출기(160)는 지상 통신선 파티 또는 이동 사용자가 말하는지의 여부에 지상 통신선 파티로부터 음성 인식기(110)가 부적당하게 음성을 인식하는 것으로부터 방지하도록 사용될 수 있는 신호를 장치 제어기(120)에 또한 공급한다.

이해된 바와 같이, 장치 제어기(120)는 사용자 상호 작용하는 핸드 프리 음성 명령 제어 시스템(100)의 중앙부이다. 기술적으로 잘 알려진 장치 제어기의 실시예와 본 발명에 적합하게 사용한 것은 마이크로 프로세서이다.. 장치 제어기(120)의 상세한 동작은 제어 시스템(100)에 대한 소프트웨어 플로우 차트로 대체적으로 설명될 것이다. 그러나, 본 발명을 이해하기 위하여, 다음 실시에는 잡음 환경내의 특정 대지트 시퀀스의 입력을 도시하도록 사용될 것이다.

사용자는 다이얼링 시스템에 완전한 디지트 시퀀스 1-2-3-4-5-6-7를 입력하는 것이 요구된다는 것을 가정한다. 여기에서 사용된 바와 같이, 완전한 키워드 시퀀스(예컨대, 1-2-3-4-5-6-7)는 하나 또는 그 이상의 부분적인 시퀀스 키워드 스트링(STRING)(예컨대, 1-2-3, 4, 5-6, 7)으로 이루어져 있으며, 여기서 스트링(STRING)은 소정의 휴지 시간 간격, 즉, 비음성 액티비티 시간에 의해 분리된다. 사용자는 ENTER과 같은 언어 명령으로 디지트 입력 모드에 제어 시스템을 먼저 향하게 된다. 그 다음 시스템은 워드DIGITS과 같은 합성 응답으로 응답한다.

잡음 환경에 있어서, 자동차 내와 같이 음성 인식 정밀도는 환경 잡음에 기인하여 때때로 제한된다. 따라서, 사용자는 3 개의 부분적인 시퀀스 디지트 스트링 즉, 1-2-3; 4-5; 6-7 내의 완전한 디지트 시퀀스 1-2-3-4-5-6-7를 입력하도록 결정한다. 각각의 스트링은 임의 길이로 할 수 있다는 것을 주목한다. 그 다음 사용자는 발음 ONE-TWO-THREE를 말한 다음 정지한다. 만약, 키워드가 인식되지 않았다면, 디지트는 디스플레이적으로 나타내지 않고 제어 시스템은 합성 워드 REPEAT으로 응답한다.

따라서, 사용자는 다시ONE-THREE-THREE으로 틀리게 인식된다면, 디스플레이는 1-2-3을 나타내며, 합성기는 언어 확인 ONE-THREE-THREE으로 틀리게 인식된다면, 디스플레이는 1-2-3을 나타내며, 합성기는 언어 확인 ONE-THREE-THREE으로 응답하게 될 것이다. 상기와 같이 틀린 경우 사용자는 명령 워드 CLEAR을 발음한다. 상기 명령 키워드의 인식으로, 시스템은 최근 디지트 스트링을 클리어하며, 완전한 시퀀스가 클리어 되어진 것을 표시하도록 이중BEEP을 생성한 다음 디스플레이를 지운다.

다시, 사용자는 3 개의 제 2 휴지 간격으로 뒤따르게 된 ONE-TWO-THREE을 발음한다. 만약, 정확한 디지트 스트링 1-3-4이 인식된다면, 1-2-3은 디스플레이내에 나타내고 합성기는 ONE-TWO-THREE에 응답한다. 사용자는 또다른 휴지로 뒤따르게 된 발음 FOUR-FIVE으로 계속된다. 상기 발음이 주변 잡음 때문에 4-6으로 잘못 인식되었으면, 1-2-3-4-5-6은 디스플레어를 나타내지 않으며, 합성기는 FOUR-SIX로 응답한다. 상기 최종 디지트 스트링을 정정하기 위하여, 사용자는 CLEAR를 발음한다. 최종 디지트 스트링 4-6 만이 클리어된다면, 디스플레이는 다시 1-2-3을 나타낸다. 합성기는 최근 디지트 스트링만이 클리어되어진 것과 미리 입력된 스트링이 메모리 내에 잔류하는 것을 표시하도록 신호 BEEP으로 사용자에게 응답한다. 다시 사용자는 휴지로 뒤따르게 된 FOUR-FIVE를 발음한다. 바르게 인식되어져 있다면, 합성기는 FOUR-FIVE로 응답하고, 디스플레이는 1-2-3-4-5를 나타낸다.

시퀀스로 계속해서, 사용자는 또다른 휴지로 뒤따르게 된 SIX-SEVEN을 발음한다. 바르게 인식된다면, 전체 시퀀스 1-2-3-4-5-6-7 은 디스플레이 되어질 것이고, 합성기는 최종 디지트 스트링으로 인식됨을 나타내는 확정 SIX-SEVEN으로 응답한다. 전체 디지트 시퀀스가 입력되어지는 경우, 사용자는 명령 TERMINATE을 발음한다. 합성기는 전체 시퀀스 ONE-TWO-FOUR-FIVE-SIX-SEVEN로 응답한다. 디스플에이 1-2-3-4-5-6-7 은 완전한 디지트 시퀀스를 인증하도록 지속한다.

제2a및 2b도는 디지트 시퀀스 입력 진행 동안 제어 시스템(100)으로 수행되는 단계의 시퀀스를 기술한다. 양호한 실시예에 있어서, 제어기 다이얼링 시퀀스는 명령 워드 ENTER를 인식하여 단계(202)에서 시작한다. 단계(204)에서 제어기 메모리(134)의 메모리 위치를 초기화하기 위하여, 시작 포인터(SP)와 끝 포인터(EP)는 메모리 위치 제로에 초기화한다. 응답 플래그는 단계(205)에서 리세트하며, 타이머 블록(124)의 휴지 타이머와 인식 타이머의 양쪽이 단계(208)에서 제로에 리세트한다.

단계(210)에서, 제어기는 음성 인식기가 단일 디지트 0 내지 9에 대응하는 임의 키워드를 인식하였는지의 여부를 테스트한다. 단일 디지트가 인식되어져 있다면, 응답 플래그는 단계(212)에서 테스트된다. 응답 플래그가 미리 세트되어져 있다면, 사용자 선행 디지트에 응답되어지지 않을 때까지인 적어도 하나의 디지트가 기억되어 진다. 따라서, 특정 디지트 스트링내의 제 1 기억 디지트의 메모리 위치를 나타내는 시작 포인터(SP)는 조절되지 않는다. 그렇지만, 응답 플래그가 세트되지 않았다면, 인식된 현행 디지트는 스트링의 제 1 디지트를 나타낸다. 상기 경우에 있어서, 단계(214)는 현행 디지트가 기억된 것과 대응하는 메모리 위치에서 시작 포인터(SP)를 갱신한다.

단계(216)에 있어서, 인식 디지트는 끝 포인터(EP)에 대응하는 메모리 위치에서의 제어기 메모리(134)에 기억된다. 끝 포인터(EP)는 다음 입수 가능 메모리 위치에 위치하도록 단계(218)에서 증가된다. 타이머의 양쪽이 단계(220)에서 리세트한다. 응답 플래그는 디지트가 기억되어진 후 단계(221)에서 세트한다. 제어는 인식될 다음 디지트에 대하여 대기하도록 단계(210)에서 되돌려 보낸다.

디지트 키워드가 단계(210)에서 인식되어져 있지 않다면, 제어는 정지 명령 키워드가 인식되어져 있는지 체크하도록 단계(222)로 진행한다. 양호한 실시예에서, 워드 TERMINAATE은 디지트 입력 진행의 끝을 나타내도록 사용되는 명령 키워드로 선택되어진다. TERMINATE 가 인식된다면, 전체 디지트 시퀀스는 단계(224)에서 음성 합성기(130)에 의해 응답된다. 합성되는 디지트 시퀀스는 메모리(134)를 판독함으로서 얻게 되며, 메모리 위치 제로에서 시작해서 메모리 위치 EP-1에 끝난다. 다음에, 상기 전체 디지트 시퀀스는 단계(226)에서 음성 통신 장치(140)에 출력한다. 디지트 입력 진행은 단계(228)에서 끝난다.

디지트 편집 진행은 TERMINATE 명령이 인식된 후 수행되지 않는다는 것을 주목한다. 음성 합성에 의해 디지트 시퀀스의 인증만이 주어진다면, 전체 디지트 시퀀스는 가시 디스플레이 내에 잔류한다. 예컨대, 사용자가 워드 TERMINATE 로 즉시, 뒤따르게 된 전체 디지트 시퀀스를 발음한다면, 인식된 시퀀스를 취한 시스템을 정정한다. 상기 입력 모드는 인식 정밀도가 고도로 기대할 때 사용될 것이다. 그러나, 상기는 사용자가 단계(202)에서의 디지트 입력 진행을 다시 시작함으로서 임의의 에러를 정정하도록 요구하는 것에 대해, 에러가 단계(228) 이후에 정정될 수 없다는 것을 뜻하는 것은 아니다. 보다 현저하게는, 사용자는 워드 TERMINATE 전에 휴지를 삽입함으로서 방금 입력된 디지트 스트링을 정정하는 옵션을 항상 갖는다. 따라서, 사용자는 정정 진행을 상호 작용적으로 사용하도록 또는 신속히 입력하도록 적응성을 가져 키워드 시퀀스를 확실하게 한다.

명령 키워드 TERMINATE 가 단계(222)에서 인식되지 않는다면, 제어기는 명령 키워드 CLEAR 가 단계(230)에서 인식 될 때 보이도록 체크한다. CLEAR 명령이 인식된다면, 오디오 응답 신호는 단계(232)에서 음성 합성기로 출력한다. 언급한 실시예에서, 음성 합성기는 단일 BEEF 음을 발생하도록 하게 한다. 그렇지만, 무수한 다른 인증 신호가 선택된다. 단계(234)에서, 제어기는 시작 포인터(SP)가 제로 일 때, 체크함으로서, 제로 또는 하나의 디지트 스트링이 입력되어져 있는지를 보이도록 테스트한다. 단지 하나의 스트링이 입력되어져 있다면, 단일 스트링을 클리어링하는 것은 전체 디지트 시퀀스를 클리어링 하는 것과 같다. 따라서, 제 2 신호음은 방금 최종 스트링보다도 오히려 전체 시퀀스가 클리어되어진 것을 사용자에게 알리도록 단계(244)에 지시된다. 디지트 스트링이 입력되어져 있지 않다면 단계(234)에서의 시험은 시작 포인트(SP)가 제로로 될 때까지 단계(244)에 전송하는 결과이다. 한 스트링보다도 많은 스트링이 입력되어져 있다면, 제어기는 상기가 제 2 시간인지 연속 클리어 명령 키워드가 단계(236)에서 인식된 것을 보이도록 체크하며, 상기는 전체 시퀀스를 클리어하도록 사용자가 요구하는 것을 뜻한다. 제 2 연속 클리어는 시작 포인터(SP)가 끝 포인터(EP)와 같은지 체크함으로서 즉시 결정된다. 제 2 연속 클리어 키워드가 인식되어진다면, 제어기는 음성 합성기에 의해 제 2 신호음을 출력하도록 단계(244)로 다시 진행한다. 클리어 명령이 인식된 제 1 시간은 하나의 스트링보다도 많이 입력된다면, 제어는 최종 가입 디지트 스트링만을 클리어하도록 단계(238)로 진행한다. 메모리 포인터의 견지에서, 디지트 스트링만을 클리어하도록 단계(238)로 진행한다. 메모리 포인터의 견지에서, 디지트 스트링은 시작 포인터(SP)의 위치와 같은 끝 포인터(EP)를 고정시킴으로서 클리어된다. 응답 플레그는 디지트 스트링이 응답되어 있지 않은 것으로 지속하지 않기 때문에 단계(240)에서 리세트한다. 단계(242)는 타이머를 리세트하여 제어는 단계(210)에서 다음 디지트를 인식하도록 되돌려 보낸다.

상기에서 언급한 바와 같이, 단지 하나의 스트링이 입력되어 진다면, 또는 두 연속 클리어 명령이 인식되어진다면, 제 2 신호음은 단계(244)에서 출력한다. 디지트 시퀀스를 클리어 하도록 시작 포인터(SP)와 끝 포인터(EP)는 단계(204)에서 한 것처럼 메모리 위치 제로와 같게 둘다 리세트한다. 단계(248)는 메모리 내에 잔류하는 디지트 스트링이 없기 때문에 응답 플래그를 리세트한다. 단계(250)는 타이머를 리세트한다. 제어는 단계(210)에서 다음 키워드용으로 보이도록 다시 되돌려 보낸다.

디지트 키워드가 단계(210)에서 인식되어 있지 않았다면, TERMINATE 는 단계(222)에서 인식되지 않으며, CLEAR 도 단계(230)에서 인식되지 않아, 제어는 음성 액티비티 검출기(114)에서 액티비티 라인(116)을 체크하도록 단계(252)로 진행한다. 만약 음성 액티비티라면, 휴지 타이머만이 단계(254)에서 리세트하여 제어는 단계(210)에서 다음 디지트용으로 보이도록 되돌려 보낸다.

이에 반해서, 음성 액티비티가 아니라면, 휴지 타이머는 만료인지 보이도록 단계(256)에서 체크된다. 양호한 실시예에 있어서, 휴지 타이머는 비음성 액티비티로 3초후 만료한다. 휴지 타이머가 만료되지 않았다면, 제어는 단계(210)로 다시 되돌려 보낸다. 그러나, 3 초 휴지가 검출된다면, 응답 플래그는 디지트 스트링이 응답되는지 안되는지 보이도록 단계(258)에서 테스트된다. 응답 플래그가 단계(221)에서 이미 세트되어져 있다면, 단계(258)는 최종 입력 디지트 스트링이 음성 합성을 통해 사용자에게 응답되는 단계(260)로 제어하도록 돌린다. 다시, 메모리 포인터의 견지에서, 최종 입력 디지트 스트링은 메모리 위치(SP)에서 시작하여 메모리 위치 EP-1 까지 계속된다. 응답 플래그는 제어가 단계(210)로 다시 진행되기 전에 단계(252)에서 리세트하며, 타이머는 단계(246)에서 리세트한다.

응답 플래그가 세트되지 않았다면, 디지트는 응답되어 있지 않은 것인 비인식된 것을 뜻하며, 인식 타이머는 단계(268)에서 테스트된다. 인식 타이머는 음성 액티비티가 인식되어 있지 않은 것이 발생되어 있는지 아닌지 보이도록 사용된다. 단계(268)는 인식 타이머가 휴지 타이머 보다 큰지 적은지의 여부를 쉽게 테스트한다. 양쪽의 타이머가 단계(254)에서 인용하여 항상 리세트하기 때문에, 음성 액티비티는 인식함이 없이 일어나며, 인식 타이머와 휴지 타이머를 비교하도록 적당하게 된다. 휴지 타이머는 종료되므로서, 단계(268)에서의 휴지 타이머 값은 정확히 3 초이다. 상기 3 초가 최종 음성 액티비티로 경과된 것을 지시한다. 만약 3 초 보다 크게 일어난다면, 키워드가 인식되기 때문에, 인식 타이머는 휴지 타이머를 초과한다. 예컨대, 사용자가 2 초 동안 말한다면, 3 초 동안 휴지하며, 그러나, 아무것도 인식되지 않는다면, 인식 타이머는 휴지 타이머가 3 초에 있는 동안, 적어도 5 초의 값을 갖는다. 상기의 경우에 있어서, 제어는 단계(272)로 진행함으로써, 합성기는 사용자에게 워드 REPEAT를 응답하도록 향하게 된다. 양쪽의 타이머는 단계(272)에서 리세트하며, 제어는 디지트 인식 단계(210)로 되돌려 보낸다.

하지만, 양쪽 타이머가 단계(268)에서 동등하다면, 음성 액티비티는 3 초 이상 동안 발생되지 않는다. 상기의 경우에 있어서, 제어는 단계(276)로 진행하여 인식 타이머는 테스트된다. 언급한 실시예에 있어서, 인식 타이머는 비음성 인식의 6초후 종료한다. 상기와 같은 경우라면, 합성기는 디지트 입력 진행이 단계(280)에서 끝나는 것을 상용자에게 알리도록 단계(278)에서 워드 TIME OUT를 응답하도록 지시한다. 인식 타이머가 여태껏 종료되지 않았다면, 제어기는 모니터링 음성 액티비티를 지속하도록 단계(210)로 다시 되돌려 보낸다.

다시 검토하면, 본 발명은 음성 명령에 의해 일련의 키워드를 입력하고 인증하기 위해 고도로 상호 작용적이고 사용자에 호의적인 방법을 제공한다. 상술한 바와 같이, 본 제어 시스템은 디지트의 가변 길이 스트링을 입력하는 경우 및 디지트 스트링간에 선택적으로 휴지 함으로써 인증 처리를 제어하는 경우에 사용자에게 큰 유연성을 허용한다. 고 인식 정밀도가 기대되면, 사용자는 전체 디지트 시퀀스를 휴지 함이 없이 정확히 입력할 수 있다. 대안으로, 인식 정밀도가 저하된 상태 하에서, 사용자는 임의의 디지트 번호가 불려진 후 휴지 함으로써 부분적인 시퀀스 디지트 스트링로 인증을 요구하는 옵션을 갖는다.

본 발명의 명확한 실시예가 도시되어져 본 명세서에 기술되는 동안, 또다른 수정 및 개선은 기술적으로 숙련된 사람에 의해 만들어진다. 특히, 명령 워드 CLEAR 및 TERMINATE(종료), 또는 응답 워드 BEEP(신호음), REPEAT(,반복), 및 TIME OUT(타임아웃)는 제안된 실시예에서 특정 출원에 대한 대표적인 영문 워드로서만 선택되어진 것을 주목하게 된다. 그러나, 다른 명령 워드 및 응답 워드는 만약 요구된다면, 상이한 언어로 사용하기 위해 특별히 선택된다. 수많은 하드웨어 및 소프트웨어 수정도 또한 본 키워드 입력 방법을 각종 다른 응용에 적응시키는데 수행될 수 있다. 여기에 설명되고 청구된 가장 기초적인 원리를 유지하는 모든 그와 같은 수정은 본 발명의 범주 내에 포함한다.

Claims

전자 장치를 제어하는 사용자 상호 작용 방법에 있어서, 휴지 시간 간격에 의해 분리된 적어도 2개의 가변 길이의 음성 발음 스트링(strings)에 포함된 키워드를 인식하는 단계와, 발음 스트링이 소정의 휴지 시간 동안 정지한 후 휴지 신호를 제공하는 단계와, 상기 휴지 신호에 응답하여, 사용자에게 상기 휴지 신호 전에 일어나는 발음 스트링에 대응하는 인식된 특정 키워드의 표시를 제공하는 단계와, 상기 휴지 신호에 응답하고 상기 휴지 신호 후에 일어나는 발음 스트링에 포함된 소정의 에러 명령 키워드의 인식에 응답하여 특정 키워드를 정정하는 단계를 포함하는 것을 특징으로 하는 전자 장치를 제어하는 사용자 상호 작용 방법.
제 1 항에 있어서, 상기 인식 단계는 특정 인식된 키워드를 메모리에 기억시키는 단계를 구비하는 것을 특징으로 하는 전자 장치를 제어하는 사용자 상호 작용 방법.
제 2 항에 있어서, 상기 표시 제공 단계는 상기 기억된 키워드를 메모리로부터 판독하는 단계를 구비하는 것을 특징으로 하는 전자 장치를 제어하는 사용자 상호 작용 방법.
제 1 항에 있어서, 상기 정정 단계는 상기 소정의 에러 명령 키워드의 인식의 사용자에게 표시를 제공하는 단계를 구비하는 것을 특징으로 하는 전자 장치를 제어하는 사용자 상호 작용 방법.
제 2 항에 있어서, 상기 정정 단계는 상기 소정의 에러 명령 키워드의 인식에 응답하여, 상기 휴지 신호 전에 일어나는 최종 발음 스트링에만 대응하는 기억된 키워드를 메모리로부터 클리어하는 단계를 구비하는 것을 특징으로 하는 전자 장치를 제어하는 사용자 상호 작용 방법.
제 2 항에 있어서, 상기 정정 단계는 연속적인 발음 스트링에 포함된 2개의 동일한 에러 명령 키워드를 인식하는 단계와, 그와 같은 인식에 응답하여 메모리에 기억된 모든 키워드를 클리어하는 단계를 더 구비하는 것을 특징으로 하는 전자 장치를 제어하는 상호 작용 방법.
제 2 항에 있어서, 발음 스트링에 포함된 소정의 정지 명령 키워드를 인식하는 단계와, 그와 같은 인식에 응답하여 메모리에 기억된 모든 키워드를 출력하는 단계를 더 포함하는 것을 특징으로 하는 전자 장치를 제어하는 사용자 상호 작용 방법.
제 1 항에 있어서, 상기 표시 제공 단계는 어떤 대응하는 키워드 인식 없이 음성 발음 발생 사용자에게 표시를 제공하는 단계를 더 구비하는 것을 특징으로 하는 전자 장치를 제어하는 사용자 상호 작용 방법.
제 1 항에 있어서, 상기 소정의 휴지 시간은 5 초 보다 크지 않은 것을 특징으로 하는 전자 장치를 제어하는 사용자 상호 작용 방법.
사용자 상호작용 음성 인식 제어 장치에 있어서, 휴지 시간 간격으로 분리된 적어도 2 개의 가변 길이 음성 발음 스트링에 포함된 키워드를 인식하는 수단과, 발음 스트링이 소정의 휴지 시간 동안 정지된 후 휴지 신호를 제공하는 수단과, 상기 휴지 신호에 응답하여, 상기 휴지 신호 전에 일어나는 최종 발음 스트링에 대응하는 인식된 특정 키워드의 사용자에게 표시를 제공하는 수단과, 상기 휴지 신호에 또한 응답하고, 상기 휴지 신호 후에 일어나는 그 다음의 발음 스트링에 포함된 소정의 에러 명령 키워드의 인식에 응답하여 상기 특정 키워드를 정정하는 수단을 포함하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 10 항에 있어서, 상기 제어 장치는 원격 통신 장치를 위한 자동 다이얼 장치인 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 11 항에 있어서, 상기 원격 통신 장치는 무선 전화기인 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 11 항에 있어서, 상기 원격 통신 장치는 스피커폰을 구비하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 10 항에 있어서, 상기 인식 수단은 연속 워드 음성 인식을 수행하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 10 항에 있어서, 상기 인식 수단은 특정 인식된 키워드를 메모리에 기억하는 수단을 구비하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 15 항에 있어서, 상기 표시 제공 수단은 상기 기억된 키워드를 메모리로부터 판독하는 수단을 구비하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 10 항에 있어서, 상기 표시 제공 수단은 음성 합성기를 구비하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 10 항에 있어서, 상기 표시 제공 수단은 가시적 디스플레이(Visual Display)를 구비하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 10 항에 있어서, 상기 소정의 휴지 시간은 5 초 보다 크지 않은 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 10 항에 있어서, 상기 정정 수단은 상기 소정의 에러 명령 키워드의 인식 사용자에게 표시를 제공하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 15 항에 있어서, 상기 정정 수단은 상기 소정의 에러 명령 키워드의 인식에 응답하여, 상기 휴지 신호 전에 일어나는 최종 발음 스트링에만 대응하는 기억된 키워드를 메모리로부터 클리어하는 수단을 더 구비하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 15 항에 있어서, 상기 정정 수단은 연속적인 발음 스트링에 포함된 2 개의 동일한 에러 명령 키워드를 인식하는 수단과, 그와 같은 인식에 응답하여 메모리에 기억된 모든 키워드를 클리어하는 수단을 더 구비하는 것을 특징으로 하느 사용자 음성 인식 제어 장치.
제 10 항에 있어서, 상기 표시 수단은 어떤 대응하는 키워드 인식 없이 음성 발음 발생 사용자에게 표시를 제공하는 수단을 더 구비하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
제 15 항에 있어서, 발음 스트링에 포함된 소정의 정지 명령 키워드를 인식하는 수단과, 그와 같은 인식에 응답하여 메모리에 기억된 모든 키워드를 출력하는 수단을 더 포함하는 것을 특징으로 하는 사용자 상호작용 음성 인식 제어 장치.
다수의 가변 길이 발음 스트링으로 이루어진 전체 시퀀스의 음성 발음을, 상기 전체 시퀀스에 포함된 키워드에 대응하는 데이터 출력을 제공하는 음성 인식 제어기에 입력하는 방법으로서, 각 발음 스트링에는 휴지 시간 간격이 뒤따르고, 각 발음 스트링은 적어도 하나의 키워드를 포함하는 전체 시퀀스의 음성 발음을 입력하는 방법에 있어서,

(a) 제 1 키워드 세트에 대응하여 제 1 발음 스트링을 인식하는 단계와,

(b) 상기 제 1 인식된 키워드 세트를 판독/기입 메모리에 기억하는 단계와,

(c) 상기 제 1 발음 스트링이 소정의 휴지 시간 간격 동안 정지된 후 휴지 신호를 제공하는 단계와,

(d) 상기 휴지 신호에 응답하여, 상기 제 1 기억된 키워드 세트를 메모리로부터 검색하는 단계와,

(e) 적어도 상기 검색된 키워드 세트의 사용자에게 표시를 제공하는 단계와,

(f) 소정의 에러 명령 키워드에 대응하여 제 2 발음 스트링을 인식하는 단계와,

(g) 상기 소정의 에러 명령 키워드의 인식에 응답하여 상기 제 1 기억된 키워드 세트를 정정하는 단계를 포함하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 상기 인식 단계는 연속적인 워드 음성 인식을 수행하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 상기 표시 제공 단계는 상기 제 1 키워드 세트에만 대응하는 음성을 합성하는 단계를 구비하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 상기 표시 제공 단계는 모든 기억된 키워드를 가시적으로 디스플레이 하는 단계를 더 구비하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 상기 소정의 휴지 시간은 5 초 보다 크지 않은 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 상기 정정 단계는 상기 소정의 에러 명령 키워드의 인식 사용자에게 표시를 제공하는 단계를 더 구비하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 상기 정정 단계는 상기 소정의에러 명령 키워드의 인식에 응답하여 상기 제 1 기억된 키워드 세트만을 메모리로부터 클리어하는 단계를 더 구비하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 상기 정정 단계는 연속적인 발음 스트링에 포함된 2 개의 동일한 에러 명령 키워드를 인식하는 단계와, 그와 같은 인식에 응답하여 메모리에 기억된 모든 키워드를 클리어하는 단계를 더 구비하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 발음 스트링에 포함된 소정의 정치 명령 키워드를 인식하는 단계와, 그와 같은 인식에 응담하여 메모리에 기억된 모든 키워드를 출력하는 단계를 더 포함하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.
제 25 항에 있어서, 상기 표시 제공 단계는 어떤 대응하는 키워드 인식 없이 음성 발음의 발생 사용자에게 표시를 제공하는 단계를 더 구비하는 것을 특징으로 하는 전체 시퀀스의 음성 발음을 입력하는 방법.