KR100309207B1

KR100309207B1 - 음성-대화식언어명령방법및장치

Info

Publication number: KR100309207B1
Application number: KR1019950703880A
Authority: KR
Inventors: 디미트리르티스셰브; 자레드씨.번스테인; 죠오지티.첸; 죤더블유.부츠버거
Original assignee: 에드워드 이. 데이비스; 에스알아이 인터내셔널
Priority date: 1993-03-12
Filing date: 1994-03-08
Publication date: 2001-12-17
Also published as: US5634086A; EP0692135A1; WO1994020952A1; EP0692135B1; ATE195605T1; KR960701431A; EP0692135A4; JP3899122B2; JPH08507620A; DE69425564D1; JP2006048065A

Abstract

본 발명 언어 명령 방법 및 장치는 문맥-기초된 언어 인식 방법으로 명령 및 평가에 사용된다. 예행에서 단어 연쇄 패턴의 범위에 상응하는 유한상태 문법 세트(113)가 히든 마아코브 모델(HMM) 언어 인식기(112)에서 HMM 모델에 제한요소로서 사용된다. 본 발명은 상호작용 결정 메카니즘을 지니는 시스템이 포함되고, 상호작용 결정 메카니즘은 사람-기초된 상호작용 명령에서 자연 수준의 패이션스를 의태하는 셋 이상의 에러 수용 수준을 사용한다. 언어 감지 발음 말단 검출기가 사람 대화 언어를 의태하는 발음의 결과를 판단하는데 제공된다.

Description

[발명의 명칭]

음성-대화식 언어 명령 방법 및 장치

[발명의 배경]

본 발명은 언어 인식, 특히 언어 명령에 사용하는 히든 마아코브 모델(Hidden Markov model: HMM) 모델을 기본으로하는 언어인식 시스템의 형태에 관한 것이다.

발명의 배경으로, 문헌[Rabiner et al., "An Introduction to Hidden Markov Models," IEEE ASSP Magazine, Jan. 1986, pp. 4-16]에 히든 마아코브 모델화 방법에 대한 지침 논문이 기재되어 있다.

히든-마아코브-모델-기초된 많은 언어 인식 시스템이 알려져 있기 때문에 여기서 자세히 설명할 필요가 없다. 이들 언어 인식 시스템들은 전형적으로 한세트의 예행으로 부터 산정되는 변수들을 갖추고 있는 음성분절 (이음(異音) 또는, 더욱 일반적으로, 단음(單音)을 포함함)의 통계모델인 음소(音素)를 실현하는 방식을 사용한다.

단어들의 모델은 적당한 단음 모델들을 연접함으로써 이루어지고, 단음은 음소의 음향실현이며, 음소는 개별적인 단어들에 사용될 수 있는 언어의 최소단위이다. 인식은 임력된 언어 시그날에 대하여 단어 모델의 세트를 통해 가장 적당한 경로를 찾는 것으로 이루어진다.

이미 알려진 마아코브 모델 언어 인식 시스템은 마아코브 자료(Markov source)로서 언어 저작물의 모델을 기본으로 한다. 모델화 되는 언어 단위는 유한 상태의 기계(finite state machine)에 의해 표시된다. 확률분포는 각각의 절점(node)을 떠나는 전이와 연관되어 있으며 그 절점에 도달했을 때 각각의 전이를 취할 확률이 지정되어 있다. 출력부호에 대한 확률분포는 각각의 절점과 연관된다. 전이 확률 분포는 암시적으로 지속기간을 모델화하고 있다. 출력부호 분포들은 전형적으로 스펙트럼과 같은 언어 부호 특징을 모델화하는데 사용된다.

전이 및 출력 부호에 대한 확률분포들은 지정된 언어의 실예를 사용하여 산정한다. 인식은 마아코브 연쇄중에서 입력된 음성을 형성하는 제일 높은 확률을 가진 경로를 결정함으로서 이루어진다. 연속적인 언어에서는 이 경로가 단어 모델의 연쇄에 상당할 것이다.

사전에 수록된 언어 이외의 언어를 인식하는 모델에 이미 알려져 있고, 본 발명에서는 거부된 단음 모델이라 명명하고 때로는 "필러(filler)" 모델 이라고 명명한다. 이러한 모델이 로즈(Rose)등이 쓴 "A Hidden Markov Model Based Keyword Recognition System," Proceedings of IEEE ICASSP, 1990에 기재되어 있다.

본 발명과 결부되어 사용된 특정의 히든 마아코브 모델 인식 시스템은 해독 언어 인식기(Decipher speech recognizer)이며, 미합중국 캘리포니아 멘로 파크 소재의 에스알아이 인터내셔날(SRI International)로부터 구매할 수 있다. 해독 시스템은 확률적인 음성정보, 음성 모델을 상이한 문맥 의존의 수준으로 예행할 수 있는 예행기, 단어들에 대한 다양한 발음, 및 인식기로 이루어진다. 본 발명의 공동 발명자들은 해독 언어 인식기를 다른 논문 및 문헌에 공개하였으며, 문답 기술에 대한 초기의 판을 기술하고 있다[참조예, Automatic Evaluation and Training in English Pronunciation," Proc, ICSLP 90, Nov. 1990, Kobe, Japan. "Toward Commercial Applications of Speaker-Independent Continuous Speech Recognition," Proceedings of Speech Tech 91, (April 23, 1991) New York, New York. "A Voice Interactive Language Instruction System," Proceedings of Eurospeech 91, Genoa, Italy September 25, 1991]. 상기된 논문들은 단지 예행자들의 경험을 기재하고 있다.

그밖의 다른 언어 예행 기술이 공지되어 있다. 예를들어, 에자와(Ezawa)등의 미합중국특허 제4,969,194호에는 사용자가 언어로 발음하여 간단하게 지시하는 시스템이 기재되어 있다. 이 시스템은 언어 인식능력이 없고, 몇몇의 언어의 음성 특성 및 언어의 근본적인 진동수를 참조 세트와 비교하는 컴퍼레이터(comparator)를 사용한 부호-기초된 피드백(feedback) 메카니즘을 갖는다.

오가모토(Okamoto)의 미합중국특허 제4,380,438호에는 사용자 자신의 언어를 기록하고 재생하는데 사용된 아날로그 테입 기록기의 디지탈 조절기가 기재되어 있다. 상기 특허의 조절기에는 인식능력이 없다.

보그스(Boggs)의 미합중국특허 제4,860,360호는 언어를 평가하는 시스템에 관한 것이고, 대화 채널에서 잘못된 발음이 분석된다. 상기 특허의 시스템은 공지된 어휘에 대한 언어 시그날을 정령하거나 인식하지 못하고, 단지 시그날 분석과 잘못된 발음을 측정하여 산정하는 것에 관한 것이다.

하베슨(Harbeson)의 미합중국특허 제 4,276,445호에는 언어 분석 시스템이 기재되어 있고, 보다 작은 아날로그 피치 디스플레이(analog pitch disply)를 제공한다. 상기 특허는 본 발명과 관련이 없는 것으로 사려된다.

홀랜드(Holland)등의 미합중국특허 제4,641,343호에는 아날로그 시스템이 기재되어 있고, 상기 특허의 아날로그 시스템은 포먼트(formant) 진동수들을 취하여, 사용자가 최종 디스플레이를 하도록 마이크로프로세서에 입력된다. 피드백만이 입력 부호로부터 직접 산정할 수 있는 기호로 그래픽으로 나타난다. 상기 특허에도 언어 인식의 요소 또는 다른 그밖의 높은 수준의 언어 인식 과정이 없다.

베이커(Baker)등의 미합중국특허 제4,783,803호에는 언어의 개시를 감지하는 프레임중에 측정하는 수단을 포함하는 언어 인식장치 및 기술이 공지되어 있다. 상기된 특허는 음성 변수만을 처리하는 낮은 수준의 음성-기초된 말단 탐지기에 관하여 설명하고 있지만, 높은 수준의 문맥-감지 말단 탐지 능력은 포함하지 않는다.

언어 문맥-감지 방법으로 사용자와 상호작용하여 사용자가 본래의 발음으로 적합하게 발음하도록 지시하는 유사-대화 방법으로 스크립트의 사용자-독해를 추적할 수 있는 인식 및 피드백 시스템이 요구되고 있다.

[발명의 요약]

본 발명은 명령 및 평가, 특히 언어 명령 및 언어 발음의 평가를 위해 언어 문맥-감지 언어 인식법을 적용하는 명령 시스템을 제공한다. 본 발명의 명령 시스템은 예행, 특히 언어예행을 통제할 수 있고, 외국인 사용자에 의한 강한 악센트를 수용하면서 고유의 소리-상호 작용 방법으로 실행을 평가할 수 있다. 예행 자료 및 명령은 예행자에게, 이로 한정되는 것은 아니지만, 비디오, 오디오 또는 인쇄물을 포함한 다양한 방법으로 제공될 수 있다. 예를들어, 한가지 언어-명령-특정 응용에서, 전체의 대화 및 상호작용은 목적하는 언어로 수행될 수 있다. 즉, 특정의 언어 명령은 사용자에게 익숙한 언어일 수 있다.

미리 선택된 가시화된 정보와 결부되어 본 발명의 시스템은 예행자에게 청각 정보를 제공될 수 있다. 본 발명의 시스템은 예행-사용자가 독해단계에서 원문을 음성으로 독해하게 하여 시스템에 저장된 스크립트와 비교하여 선택된 언어의 변수를 모니터링한다. 이어서 시스템은 사용자에게 가능한 응답의 목록을 제시하면서 특정의 질문을 한다. 이어서, 사용자는 목적하는 언어로 적절한 답변을 암송하여 응답할 수 있다. 본 발명의 시스템은 정확하게 인식하고 반응할 수 있으며 예행자의 정확하지 못한 발음, 일시적인 정지 및 다른 부정확성에도 불구하고 자동적으로 언어를 판독할 수 있다.

특정 양태로, 예행단계에서 단어 연쇄 패턴의 범위에 상응하는 유한 상태 문법 세트(finite state grammer set)가 히든 마아코브 모델(HMM) 언어 인식기에서 HMM 연구 장치에 대한 제한 요소로서 사용되고, HMM 언어 인식기는 목적 언어를 모국어로 하는 수화자에 의해 제공된 목적-언어를 서술(판독)하는 히든 마아코브 모델 세트를 지닌다.

본 발명은 바람직하게는 미합중국 캘리포니아 멘로 파크 소재의 에스알아이 인터내셔날로부터 입수한 해독 언어 인식기와 같은 언어 문맥-감지 언어 인식기의 사용을 기초로 하고 있지만, 다른 언어문맥-감지 언어 인식기도 근원적인 언어 인식 엔진으로 사용될 수 있다.

본 발명은 독해 예행과 같은 예행, 상호작용하여 결정하는 메카니즘을 사용한 다수-선택 질문 장치를 통해 사용자와 대면하는 메카니즘을 포함한다. 결정 메카니즘은 셋 이상의 에러를 수용하여, 사람-기본된 상호작용 명령으로 자동 수준의 수용을 의태한다.

독해 단계 메카니즘은 유한 상태 기기, 또는 스크립트중의 어떠한 위치에서 독해 에러를 인식하고 제 1 작용 세트를 이용하는 넷 이상의 단계를 지니는 유한 상태 기기와 동일한 기기를 통해 수행된다. 상호작용 질문 단계와 관련된 메카니즘은 또한 넷 이상의 단계를 지니는 또다른 유한 상태 기기를 통해 수행되지만, 독해 에러 뿐만아니라 부정확한 응답을 인식하고 제 2 작용 세트를 유발시킨다.

언어 문맥-감지 언어 인식기의 일부로서, 언어의 확률적 모델은 스크립트를 서술하여 단순화시키고, 적어도 중지 및 스크립트 발음 이외의 발음을 비교하여 부적합한 발음을 확실하게 모델화한다.

상호작용 독해 및 문답 단계와 결부되어, 언어-감지 발음 말단 검출은 발음의 종결을 판단하여 사람 대화언어를 의태하게 한다.

정확한 독해 시간의 비율, 독해 속도 대 일반적인 모국어 사용자의 독해 속도의 비율, 및 인식된 단어 스트림에서 "알트(alt)" 단위(언어에 대한 신규한 모델)의 비율을 측정하여 언어 및 독해능, 즉, 속도 및 에러율을 분석할 수 있는 점수 시스템을 제공한다.

DSP 기기 또는 동일한 효과를 내튼 프로세서에 관하여, 본 발명의 시스템은 특정 예행의 주제에 대하여 시스템과 사용자 사이에 동시 대화할 수 있게 한다. 본 발명의 시스템은 전화망을 통해 시스템으로부터 떨어진 지역에서 용이하게 사용될 수 있고, 사용자는 시스템과 상호작용하는 가시화되거나 입력된 사항으로 전화 번호 및 참조사항을 선택하여 시스템에 접근할 수 있다.

본 발명은 첨부된 도면과 하기된 발명의 상세한 설명을 참조로하여 보다 쉽게 이해할 수 있을 것이다.

[도면의 간단한 설명]

제 1 도는 본 발명에 따른 시스템의 블록다이아그램이다.

제 2 도는 본 발명에 사용된 인식과정의 기능적인 블록다이아그램이다.

제 3 도는 본 발명과 결합되어 사용된 과정의 기능적인 블록다이아그램이다.

제 4A1 도는 본 발명에 따라 장치된 장치에 입력된 예행을 통해 사용자와 대면하는 과정의 첫번째 부분의 흐름도이다.

제 4A2 도는 본 발명에 따라 장치된 장치에 입력된 예행을 통해 사용자와 대면하는 과정의 두번째 부분의 흐름도이다.

제 4B 도는 본 발명에 따른 추적과정의 흐름도이다.

제 5 도는 본 발명에 따른 독해 방식에 사용된 문장 수준의 문법의 상태 다이아그램이다.

제 6 도는 본 발명에 따라 사용된 단어-수준 문법의 상태 다이아그램이다.

제 7 도는 본 발명에 따른 응답 방식에 사용된 문장 수준의 문법의 상태 다이아그램이다.

제 8 도는 본 발명에 따른 문법에 사용된 "알트" 구조의 상태 다이아그램이다.

제 9 도는 독해속도 계측기의 블록 다이아그램이다.

제 10 도는 독해상태 계측기의 블록 다이아그램이다.

[발명의 상세한 설명]

제 1 도는 장치(10)에 인접하여 위치한 사용자 (12)에게 명령하거나 전화 (14)를 통해 장치 (10)으로부터 멀리 떨어진 사용자 (12')에게 명령하고 대화하는 본 발명에 따른 명령장치 (10)의 시스템 블록다이아그램을 나타내는 것이다. 장거리 사용자 (12)는 스피커를 통해 명령 및 피드백을 접수하는 마이크로폰 (16) 또는 이어폰 (18) 및 가시화 모니터(CRT) (20)을 통해 시스템과 상호작용할 수 있다. 원거리 사용자 (12')는 신문 광고로부터 얻을 수 있는 바와 같은 공개되거나 인쇄된 원문 (22)를 통해 즉시 접수하거나, 잘 알려져 있거나 입력된 원문을 사용할 수 있다. 원거리 사용자의 전화 (14)는 다중채널 (26)을 통해 전화 네트워크 (16)과 연결된다. 다중채널 (26)의 출력은 저주파 통과 필터 (30)을 통해 전치 증폭기(28)에 연결되고, 이어서 디지탈 전환기 (32)에 대한 아날로그에 연결되며, 이는 워크스테이션 또는 시 배분(timesharing) 컴퓨터 (36)에서 디지탈 부호 처리(DSP) 서브시스템 (34)의 부분이다. DSP서브시스템 (34)로부터의 출력은 디지탈을 아날로그로 전환시키는 전환기(DAC) (38)을 통해 증폭기 (40) 또는 전화 네트워크 (24)에 제공되어, 각각 수화자 (18) 또는 전화 (14)에 연결된다. CRT (20)은 전형적으로 워크스테이션 (36)의 가시화 출력 기기이다. 적합한 DSP 서브시스템은 "소니테크 스피리트 30(Sonitech Spirit 30)" DSP 카드이고, 적합한 워크스테이션은 선 마이크로시스템스 스파크스테이션 2 유닉스 워크스테이션(Sun Microsystems SPARCStation 2 UNIX workstation)이다.

제 1 도와 연결된 제 2 도는 근본적인 시스템의 기본 작동이 예시되어 있다. 시스템은 바람직하게는 에스알아이 인터내셔날의 해독시스템과 같이 언어 인식 시스템 주위에 설치된다. 사용자 (12)는 가시화되거나 청취할 수 있는 부호와 같은 자극에 대한 반응을 마이크로폰(MIC) (14)에 말을 한다. 마이크로폰 (14)의 연속적인 언어 부호는 전자적인 경로를 통해 "전방 말단(front end)" 부호 처리 시스템 (42)에 공급된다. 전방 말단 부호 처리 시스템 (42)는 일차적으로 DSP 서브시스템 (34)에 함유되어 있고, 모 워크스테이션 (36)을 조절한다. 전방 말단 부호 처리시스템 (42)는 음성 특징 변수를 취하여, 히든 마아코브 모델(HMM) 모델 세트 (46) 주위에 장치된 모델 탐색자 (44)에 음성 특징 변수를 공급한다. 모델 탐색자 (44)는 청취할 수 있는 특징을 "탐색(search)"하고, 이러한 탐색은 유한 상태 문법에 의해 단지 제한되고 처리할 수 있는 선택 세트로 한정된다. 따라서, HMM 모델 (46)과 비교할 경우 우수한 발음으로 사용자에게 현저한 범위가 부여된다. 탈한정된 문법 및 어휘의 형태로 응용 서브시스템 (48)은 모델 탐색자 (44)와 대화한다. 응용 서브시스템 (48)은 탐색이 수행되는 유한상태 문법을 모델 탐색자 (44)에 공급하고, 모델 탐색자 (44)는 해독, 인식 또는 비인식 뿐만아니라 역추적-생성된 정보와 같은 언어 인식 시스템에 내장된 역추적 처리를 통해 응용 서브시스템 (48)에 전달하고, 이어서, 본 발명에 따라 사용자와 상호작용 한다.

본 발명과 연결되어 사용된 언어 처리 시스템은 두가지의 기능적 방식, 즉, 예행 방식과 인식방식이 있다. 처리는 제 3 도에 참조로 예시되어 있다. 예행 방식에서, 예행 스크립트(102)는 예행자 (104)중의 다수의 사람을 나타내고, 이들 각각은 예행 스크립트(102)에 상응하는 다양한 언어 패턴 (106)을 제공한다. 예행 스크립트(102) 및 언어 패턴 (106)은 목적 언어 (111)의 일반적인 HMM 모델을 형성하는 히든 마아코브 모델 예행자 (108)에 색인 세트로서 제공된다. 이러한 처리는 목적 언어에 대해 단지 1회 수행되어야 하고, 전형적으로 모국어를 말하는 사람과 모국어가 아닌 사람으로 목적언어의 일반적인 HMM모델을 생성시킨다. 이어서, 일반적인 HMM 모델 및 미리 선택된 스크립트(114)를 입력시켜 사용하는 HMM 네트워크 모델 컴파일러(110)가 미리 선택된 스크립트에 특정적으로 언어 모델(113)의 네트워크를 형성시킨다. 네트워크 언어 모델 컴파일러 출력은 히든 마아코브 모델-기초된 언어 인식기 (112)에 공급된다.

인식 방식에서, 예행 스크립트(102)의 기능적인 서브세트이지만, 미리 선택된 스크립트(102)의 단어를 필수적으로 포함하지는 않는 미리 선택된 스크립트(114)는 예행자/사용자(116) 또는 발음이 평가되는 기기에 제공된다. 예행자/사용자(116)의 언어는 미리 선택된 스크립트(114)에 상응하는 언어 패턴 (118)의 형태인 것으로 추정된다. 미리 선택된 스크립트(114) 및 단일 언어 패턴 (118)은 색인된 세트로서 히든 마아코브 모델 언어 인식기 (112)에 공급된다. 각각의 평가시간 (음성-길이, 단어-길이, 구-길이, 또는 문장 길이-시간) 동안, 단어들은 인식기 (112)에 의해 인식된다. 평가 시간 및 평가 이전의 시간 동안 인식된 많은 단어들로부터, 인식 점수 세트 (120)이 산정되고, 응용 서브시스템 (48)(제 2 도)에 전달되어 본 발명에 기재된 형태의 예행 조절 단위로서 제공된다. 점수 세트 (120)은 역추적-생성된 정보를 구체화한 인식 과정의 스냅숏(snapshot)이다. 점수 세트 120은 이하 본원에서 설명될 결정 장치를 구체화한 유한 상태의 기기를 사용하는 응용 서브시스템 (48)/예행 조절단위에 전달된다. 다른 기능중에서도 유한 상태의 기기는 생(生) 점수 세트 정보를 제거하여 스크립트된 예행에 대한 양호한 해독만을 인지한다. 특정적으로, 유한 상태의 기기는 독해 속도 및 독해의 상태를 포함한 예행 수행의 질을 판단하는데 있어서 점수 세트의 서브세트를 확인한다.

제 4 도는 본 발명에 따라 장착된 장치에 내장된 예행을 통해 사용자와 대면하는 과정의 흐름도이다. 장치는 유한 상태의 기기(FSM)로서 장착되고, 유한 상태의 기기는 응용 서브시스템 (48)에 내장되고, 응용 서브시스템은 사용자 (12) 및 예행 자료의 상호작용을 조절한다.

작동에서, 참조(reference)는 FSM에 의해 스크립트에 지시되어, CRT 스크린에 나타나거나, 읽을 수 있는 인쇄된 자료로서 제공될 수 있다. 문장 색인 i=1 및 단어 색인 j=1(단계 A)로 개시하여, 추적과정이 수행된다(단계 B). FSM은 사용자가 스크립트중의 최종 문장을 독해했는지를 측정(단계C)하여, 참이면 끝(END)으로 빠져나간다(단계 C). 또한, FSM은 사용자가 추적기에 의해 검출된 바와 같이 중지하고 최종 추적 작동 이후로 스크립트에서 양호하게(인식될 수 있게) 단어를 독해하고 있는지를 측정한다(단계 E). 참이면, FSM은 바람직하게는 청취할 수 있거나 가시화된 답변으로 반응한다. 즉, "오케이(okay)"라고 반응(단계 F)하고, FSM은 추적과정을 재순환한다(단계 B).

반면, 사용자가 최종 추적작동 이후로 양호하게 단어를 독해한 후 정지하지 않은 것을 FSM이 측정한다면, FSM은 사용자에게 "P(i)부터 독해하세요"라고 말한다(단계 G). P(i)는 비추적된 단어를 함유하거나 즉각적으로 함유하는 구의 스크립트에서 확인된 위치의 개시점이다. 따라서, 추적과정은 다시 자극(단계 H)되고, 이러한 단계는 사용자가 한번의 패널티를 감수하는 수준에서 적용된다. 이어서, FSM은 이러한 새로운 수준(단계 I)에서 상기된 바와 같이 최종 문장이 완결되었음을 시험하고, 스크립트가 완결되었을 경우 종결된다(단계 J). 또한 FSM은 사용자가 추적 작동에 의해 검출된 바와 같이 중지되고 스크립트에서 양호하게(인식될 수 있게) 단어를 독해했는지를 시험 측정한다(단계 K). 참이면, FSM은 바람직하게는 청취할 수 있거나 가시화된 답변으로 반응한다. 즉, "오케이(okay)"라고 반응(단계 L)하고, 새로운 문장의 시작을 시험(단계 M)하여, 참이면, FSM은 추적과정으로 재순환(단계 B)되지만, 거짓이면, FSM은 현재의 문장내에서 다시 추적한다(단계 H).

단어가 추적 작동(단계 K)에 의해 지시된 바와 같이 정확하게 독해되지 않을 경우, FSM은 새로운 문장이 시작되는지를 시험 측정하여(단계 N), FSM이 재순환되고, 사용자가 문장의 시작부분을 독해하게 한다(단계 G). 문장의 시작이 아니라면, FSM은 "아니오, 문장은 S(i) 입니다. P(i)부터 독해하세요"라고 말한다(단계 P). 달리 말하자면, 사용자는 문장의 모델로 나타내고, 다시 시도하는 문장의 시작점에서 출발하도록 촉구된다.

촉구된 후에, FSM은 추적과정을 재유발시키고(단계 Q), 최종 문장이 입력되었는지를 시험하여 가시화하고(단계 R), 예스(YES)이면 종결되며(단계 S), 또한, 사용자가 스크립트에서 단어를 양호하게 독해한 후에 중지되는지를 시험하여 가시화한다(단계 T). FSM은 참인 경우 "오케이(ok)"를 나타내어, 새로운 문장을 시험하고(단계 V), 노(no)이면 다시 추적을 개시하며, 또한, 새로운 문장이라면, 추적으로 가장 높은 수준의 페이션스(patience)로 다시 세팅한다(단계 B). FSM이 양호한 단어를 추적하지 않는다면, 새로운 문장이 개시되었는지를 점검하여 나타내고(단계 W), 새로운 문장이 개시되었다면, 사용자는 개시화되는 문장 위치 P(i)로부터 독해를 개시하도록 촉구된다(단계 G). 새로운 문장이 아니라면, FSM은 "오케이 적합합니다. 다음 문장의 시작부분부터 독해하세요"(즉, P(i+1))와 같이 구를 암송하여 패이션스의 상실을 나타낸다(단계 Z). 이어서 문장 카운터 색인 i는 하나의 문장(i+1)에 의해 증강되고(단계 AA) 카운터 색인 j는 1로 재세팅되어(단계 AB), 초기 추적과정으로 순환되며(단계 B), FSM은 이의 초기 수준의 패이션스로 회복된다.

제 4B 도는 제 4A 도의 FSM에 의해 사용된 추적과정(단계 B, H, Q)의 흐름도이다. 추적 과정은 예를들어 미리 선택된 스크립트에 상응하는 히든 마아코브 모델의 언어 패턴을 사용하여 하나의 제2의 입력 언어를 시험한다(단계 AC). FSM은 현재의 위치에 대한 카운터(i & j)를 갱신하고(단계 AD), 최종 문장이 암송되었는지를 시험하여 측정한다(단계 AE). 예스이면, 추적 과정을 빠져나간다(단계 AF). 최종 문장이 인식되지 않았다면, FSM은 선행 단어 이후로 인식된 중지 단음의 수이고 일반적으로 중지의 길이를 나타내는 중지 인디케이터(indicator)를 산정한다. 이어서 현재 위치(i, j)에 대한 중지 인디케이터 임계치(threshold)와 비교하여 정밀한 수준(단계 AH)을 예행한다. 중지 인디케이터가 임계치를 초과하면, 추적 과정은 빠져나간다(단계 AI). 중지 인디케이터가 임계치를 초과하지 않았다면, FSM은 거부(reject) 인디케이터를 산정한다(단계 AJ). 일반적으로 가능성을 지시하여 사용자가 미리 선택된 스크립트에 상응하는 언어를 제공하지 않게 하는 거부 인디케이터는 예를들어 최종 단어 이후로 인식자에 의해 반송된 모든 거부 음성을 합계함으로서 산정한다.

따라서 거부 인디케이터는 거부 인디케이터 임계치에 비교되고(단계 AK), 거부 인디케이터 임계치는 예행 점수 정확성 수준 또는 원문중에서 현재의 위치의 함수이다. 인디케이터가 임계치를 초과하는 경우, 공정은 빠져나간다(단계 AL). 인디케이터가 임계치를 초과하지 않은 경우, 거부 밀도가 산정된다(단계 AM).

거부 밀도는 인식자에 의해 반송된 거부 음성의 수를 계수한 선행의 많은 스크립트된 단어들(예, 다섯)을 시험하여, 거부 음성의 수를 거부 음성의 수와 스크립트된 단어(다섯)의 수의 합으로 나눔으로써 산정된다. 몫이 거부 밀도이다. 따라서, 중지 길이를 다양하게 하는 것은 거부 밀도에 영향을 주지 않는다.

따라서 거부 밀도는 거부 밀도 임계치(예행 정확성 수준, 원문 위치 또는 둘 모두의 함수)와 비교된다(단계 AN). 거부 밀도가 임계치를 초과하는 경우, 추적과정은 종결된다(단계 AO); 그렇지 않으면 추적과정은 계속된다(단계 AC).

거부 인디케이터 임계치, 거부 밀도 임계치 및 중지 인디케이터 임계치는 원문중의 정확성 또는 위치의 수준의 함수로서 다양하게 조절될 수 있다. 조절과정은 사용자, 예행 디자이너에 의해 수행되거나 또는 시스텀에 의해 자동적으로 조절될 수 있다.

제 5 도는 예행의 독해 단계 동안의 문장-수준 문법에 대한 구조를 나타낸다. 문장 수준의 문법 및 관련된 언어 구조는 수화자의 언어에서 예측될 수 있는 중단, 머뭇거리는 소리 및 스크립트 언어 이외의 현상을 수용하는데 필요한 구조적인 복잡성이 있다. 문법은 스크립트된 언어 패턴으로부터 인식된 문장 (126), (128), (130)을 분리하는 "알트(alt)" 구조 (122)로 이루어진다. "알트" 구조의 목적은 독해 또는 응답 예행중에 다양한 지점에서 독자에 의해 삽입될 수 있는 스크립트 이외(스크립트가 아님)의 언어 또는 침묵(단순히 중지가 아님)을 확인 또는 다르게는 산정하는 것이다. 본 발명에 따른 알트 구조는 히든 마아코브 모델을 기초로하는 언어 인식 시스템에 사용되어 기초 언어 인식기에 다양한 기능을 제공하고, 언어 인식 시스템이 스크립트 이외의 입력 자료나 비스크립토된 입력 자료를 명백한 양상으로 처리하게 한다.

제 6 도는 독해 방식과 응답 방식에서 문장의 단어-수준 문법의 구조를 나타낸다. 특정 양식이 탐지되는 공지된 단어 수준 문법과는 달리, 이러한 문법은 명백하게 모든 단어들 사이에서 암송을 더듬거리게 하여, 다음에 독해되는 각각의 주문된 단어 (136), (138) 사이에서 알트 구조 (132), (134)로 이루어진다. 단어들은 원자 단위로서 인식자에 의해 반송되는 반면, 알트 구조는 거부 단음 및 중지 단음의 문자열로서 인식자에 의해 분석되고 반송되며, 거부 단음 및 중지 단음은 본원에 보다 상세히 기재된 바와 같은 알트 구조을 형성하는다. 알트 구조는 응용 서브시스템 (48)(제 2 도)에 사용자에 의한 독해에 관해 보다 높은 수준으로 결정되게 하는 능력을 부여한다.

제 7 도는 응답 방식에서 문장 수준의 문법 구조를 나타낸다. 초기의 알트 (140)은 궤도에 의해 다수의 응답 (142), (144), (146), (148)중에서 어느 하나에 선택적으로 연결되고, 각각의 응답은 궤도에 의해 최종 알트 (150)에 연결된다. 연결되지 않은 응답을 거부하는 이 문법은 초기 알트 (140)에 루프(loop)를 형성하여 사용자로부터 응답되고, 유효한 응답 후에 최종 알트 (150)상에 루프를 형성하거나 유효한 응답중 하나를 번역하는 동안 감탄사 및 중지를 수용하여 언어를 거부한다.

제 8 도는 모든 알트에 일반적인 알트 구조 (152)를 예시한다. 알트 구조 (152)는 히든 마아코브 상태의 네트워크이고, 이의 변수는 스크립트 이외의 언어, 침묵 또는 배경음에 상응하는 음성 특징을 산정하도록 예행된다. 알트 구조는 초기 노드(node) (166) 및 말단 노드 (168) 사이에서 선택적인 전방 전이 아크(arc) (158), (160), (162) 및 (164)를 따라 "중지(pause)" 모델 (154) 및 "거부(reject)" 모델 (156)로 이루어진다. 초기 노드 (166) 및 말단 노드 (168) 사이에는 전방 전이 아크 (170) 및 반송 전이 아크 (172)만이 존재한다. 중지 모델 (154) 및 거부 모델 (156)의 내부 구조는 세개의 마아코브 상태 및 다섯개의 전이 아크로 이루어지고, 미합중국 캘리포니아 멘로 파크 소재의 에스알아이 인터내셔날로부터 입수한 해독 언어 인식 시스템에서 다른 단음의 모델에 사용된 정확한 구조이다.

중지 모델 (154)는 예행 데이타(전형적으로 기록됨)의 비-언어 분절에서 예행되는 단음이고, 예행 데이타에서 발생하는 침묵 또는 배경음의 예들을 포함한다. 거부 단음에 대한 모델 (156)은 예행 데이타로부터 무작위로 또는 주기적으로 선택된 광범위하게 다양한 언어에 대해 예행된 단음이다.

완전히 예행된 중지 모델 단음 (154) 및 거부 모델 단음 (156)을 지니는 알트 구조 (152)는 전이 아크에 의해 내부적으로 연결되어 이어지는 모든 가능한 사항들, 즉, 지연된 침묵(중지 단음 (154) 및 반송 아크 (172)를 통한 다수의 루프); 지연된 스크립트 이외의 언어(중지 단음 (156) 및 반송 아크 (172)를 통한 다수의 루프); 또다른 주기의 침묵 및 스크립트 이외의 언어; 및 비중지 및 비 스크립트 이외의 언어(전방 전이 아크 (170)상의 측로)을 허용한다.

중지 단음 (154) 및 거부 단음 (156)을 유도하는 초기의 전이 아크 (158) 또는 (162)는 각각 0.5의 확률로 측정되며 본 발명의 한가지 태양이다.

제 9 도는 본 발명에 따른 독해 속도 산정계 (180)을 나타내는 것이다. 독해 속도 산정계는 응용 서브시스템 (48)(유한 상태의 기기)로부터 시간, 및 특정의 관련된 타이밍에서, 형태(단어, 중지 요소, 거부요소) 및 위치에 의한 양호한 언어 요소를 입증하는 점수 세트(120)의 서브세트(데이타의 정렬)을 수용한다. 확률 정보를 얻을 수는 있지만, 사용되지는 않는다.

독해 속도는 단어 산정계 (184)를 사용하여 "양호한" 단어를 산정하고, 타이머 (184)을 사용하여 제거된(양호한) 단어를 함유하는 구의 시간을 산정한다. 독해 속도 점수 (190)은 "양호한" 단어 W의 수를 "양호한" 단어를 함유하는 허용된 구를 암송하는데 소모된 시간 T로 나누는 디바이더 (188)로부터 측정된다.

본 발명에 기재된 서브시스템은 회로에 의하거나, 하기된 방정식을 이용하는 컴퓨터 프로그램에 의해 이행될 수 있다.

제 10 도는 독해능의 점수 (230)을 측정하는 메카니즘 (192)를 예시한다. 시스템에 있어서, 미리 선택된 스크립트의 단어 수에 대한 산정값 (195), 스크립트의 최적 독해 시간 (197)이 보고되는 메카니즘 (196), 거부 단음 (199)의 수를 산정하는 수단 (198), 미리 선택된 스크립트에서 모든 단어를 독해하는데 소요되는 전체 시간을 측정하는 수단 (200), 및 언급된 분석 수단으로 수용할 수 있는 구를 독해하는데 소요되는 "양호한" 시간을 측정하는 수단 (202)를 제공하는 단어 산정원 (194)가 있다.

디바이더 수단 (204)는 첫번째 몫 (205)를 얻을 수 있도록 전체 시간 값 (201)을 양호한 시간 값 (203)으로 나누고, 측정 수단(206)(다수)은 첫번째 측정 변수 ("a")에 의해 첫번째 몫 (205)를 측정하여 첫번째 점수 성분 (208)을 제공한다. 세개의 측정 변수 a, b 및 c의 합은 바람직하게는 통상 1.0이고 세가지 형태의 질의 측정치 각각의 상대적인 양의 할당된 몫이 된다.

선택 수단 (210)은 최적의 독해 시간 (197) 및 양호한 시간 (203)사이의 최대치를 선택하여 바람직한 최대값 (211)을 제공한다. 이 값은 신속한 독해와 바람직한 속도의 독해 사이의 바람직함의 척도에 사용된다. 바람직함을 평가하는데 있어서, 디바이더 수단 (212)는 바람직한 최대값 (211)을 최적의 독해 시간 (197)로 나누어 제 2 의 몫 (213)을 제공한다. 제 2 의 몫은 측정 수단 (214)(다수)에 의한 제 2 의 측정 변수 (b)로 측정되어 제 2 의 점수 성분 (216)을 제공한다.

가산 또는 합계 수단 (218)은 거부 단음 (199)의 수 및 스크립트 단어 (195)의 수를 합하여 독해능의 값 (219)를 제공한다. 디바이더 수단 (220)은 단어 (195)의 수를 독해능의 값 (219)로 나누어 제 3 의 몫 (221)을 제공한다. 제 3 의 몫은 측정 수단 (222)(다수)에 의한 제 3 의 측정 변수 (c)로 측정하여 제 3 의 점수 성분 (224)를 제공한다.

세개의 입력 합계 수단 (226)은 제 2, 제 2 및 제 3의 점수 성분 (208), (216) 및 (224)를 합하여 점수 합계 (227)을 제공한다. 점수합 (227)은 척도 인자 (228)를 곱하는 측정 수단에 의해 값 10과 같은 백분율 또는 다른 척도로 평가되어 독해 능력 점수 (230)을 제공한다.

본 발명에 기재된 독해능 평가 서브시스템은 하기된 방정식을 적용하는 회로 또는 컴퓨터 프로그램으로 이행될 수 있다:

RQS = 10 * (a*T_g/T_t+b*(Tn/]max(T_n'T_g)]) + c*W/(R_g+W)

상기식에서,

RQS는 1 내지 10 의 크기로 나타낸 독해 능력 점수이며(본원에서는 크기 인자 10을 기준으로 함);

a, b, 및 c는 합계가 1 인 크기 인자이고 특정 양태로 a=0.25, b=0.25 및 c=0.5일 수 있고;

W는 원본중의 단어의 수이며,

T_g는 "양호한" 시간 또는 양호하게 문장을 독해하는데 소요된 시간이고;

T_t는 초기 및 최후 중지를 제외하고 독해하는데 소요된 전체 독해 시간이며;

T_n은 최적의 독해시간, 즉, 양호한 모국어 수화자에 의한 독해 시간이고;

R_g는 문장의 "양호한" 독해 동안, 즉, T_g동안에 검측된 거부의 수이다.

부록 A는 컴퓨터 워크스테이션에 의해 수행된 본 발명에 따른 시스템의 공급원 코드 목록의 마이크로필름 카드 부록이다. 공급원 코드의 언어는 C이다.

본원에서는 본 발명의 특정 양태를 참조로하여 설명하였다. 본 분야의 전문가라면 본원을 참조할 경우 그밖의 양태도 자명할 것이다. 따라서 본 발명을 상기된 특정 양태로 한정하고자 하는 것은 아니다.

Claims

단어 연쇄 가설을 제공하는 언어 인식기가 혼입되고, 언어 인식기의 제한 요소로서 단어 연쇄 패턴의 범위에 우선 순위를 주는 언어 모델을 사용하는 자동 언어 인식 시스템에 있어서, 디지탈 컴퓨터에 문장을 형성하는 연쇄적으로 배열된 각각의 단어 사이에 위치된 단일의 알트 요소를 함유하는 문장 문법 모델을 제공하고; 디지탈 컴퓨터에 문장의 조합에 의한 스크립트의 문법 모델을 연속적으로 배열된 각각의 문장 사이에 위치된 단일의 알트 요소에 의해 분리되는 스트링내로 제공하며; 대상 언어로 예행되고 문법 모델로 디지탈 컴퓨터에 저장된 언어 인식기를 사용하여 사용자의 언어를 스크립트중의 단어의 스트링으로 조정하며, 스크립트된 언어 및 비스크립트된 언어 및 문맥-감지 침묵을 판정하고; 사용자가 스크립트된 언어 및 비스크립트된 언어 및 문맥 감지 침묵에 대해 3회 이상의 수준으로 반응하게 하여 미리 선택된 스크립트를 음성 및 어의를 정확하게 암송하게 함을 특징으로하여, 선택적인 원문을 함유하는 미리 선택된 스크립트와 관련된 언어 패턴에서 언어 패턴을 추적하고 에러를 확인하며 사용자가 미리 선택된 스크립트를 암송하게 하는 방법.
제 1 항에 있어서, 선택적인 응답의 선택 전에 위치한 제 1 의 일반적인 알트 요소 및 선택적인 응답의 선택 후에 위치한 제 2 의 일반적인 알트 요소를 함유하여, 선택적인 응답의 음성을 정확하고 어의를 정확하게 하는 문장의 선택적인 원문에 대한 상호작용 대화 문법 모델을 제공하는 단계를 추가로 포함하는 방법.
제 1 항에 있어서, 사용 단계가 언어 인식기의 출력의 분절을 스크립트된 단어, 중지 단음 및 거부 단음에 대해 반복적으로 시험하고; 분절에 대한 거부밀도를 측정하며; 거부 밀도를 거부 밀도 임계치에 대해 시험하고; 거부 밀도가 거부 밀도 임계치를 초과하는 경우 스크립트가 아닌 것으로 나타냄을 포함하는 방법.
제 3 항에 있어서, 거부 밀도가 미리 선택된 연쇄 스크립트된 단어의 수중에서 언어 인식기에 의해 반송된 거부 단음의 수를 거부 단음과 미리 선택된 단어수의 합으로 나눔으로써 측정되는 방법.
제 1항에 있어서, 사용 단계가 스크립트된 단어, 중지 단음 및 거부 단음에 대한 언어 인식기 출력의 현행 분절을 순환적으로 검사하고; 현행 분절에 대한 거부 인디케이터를 측정하며; 거부 인디케이터 임계치에 대한 거부 인디케이터를 시험하고; 및 거부 인디케이터가 거부 인디케이터 임계치를 초과할 경우 스크립트 이외에서와 같이 언어를 표시함을 포함하는 방법.
제 5항에 있어서, 거부 인디케이터 측정 단계가 미리 선택된 연쇄 스크립트된 단어수 이외에 언어 인식기에 의해 반송된 거부 단음을 합계함을 포함하는 방법.
제 1항에 있어서, 사용 단계가 스크립트된 단어, 중지 단음 및 거부 단음에 대한 언어 인식기 출력 현행 분절을 순환적으로 검사하고; 현행 분절에 대한 중지 인디케이터를 측정하며; 중지 인디케이터 임계치에 대해 중지인디케이터를 시험하고; 중지 인디케이터가 중지 인디케이터 임계치를 초과할 경우 스크립트 이외에서와 같이 언어를 표시함을 포함하는 방법.
제 7항에 있어서, 문장의 단어중에서보다 문장 및 주요 구절의 끝에서 작아지는 중지 인디케이터 임계치가 언어 문맥 및 원본중의 위치에 따라 좌우되는 방법.
제 7항에 있어서, 중지 인디케이터 측정 단계가 미리 선택된 연쇄 스크립트된 단어수 이외에 언어 인식기에 의해 반송된 중지 단음을 합계함을 포함하는 방법.
제 2항에 있어서, 알트 요소가 연장된 침묵을 포함한 사항에 대한 다수의 전이 아크; 연장된 스크립트 이외의 언어; 침묵 및 스크립트 이외의 언어의 대채 기간; 및 비 중지 및 비 스크립트 이외의 언어를 포함하는 구조로 이루어지는 방법.
어떤 대상에 관해 사용자에게 정보를 제공하고 허용될 수 있는 발음으로 미리 선택된 스크립트의 독해을 유도하는 수단; 음성 정보의 시간-불변 프레임으로부터 언어-함유 부호를 나타내는 음성 표시를 감지하는 수단; 음성 정보 프레임의 축적에 상응하는 가능한 발음의 세트를 측정하기 위한 음성 정보의 프레임을 분석하는 수단; 분석 수단에 결합된 판독의 정확성을 측정하기 위한 발음의 완전함을 평가하는 수단; 및 비교 수단에 결합된 미래 선택된 스크립트를 정확하게 하는 반응을 생성하는 수단을 포함하고, 언어 인식기 생성 단어 연쇄 가설을 혼입한 방향 언어 인식 서브시스템을 사용하고 언어 인식기에 제한 요소로서 단어 연쇄 패턴의 범위를 서열화하는 언어 모델을 사용하여 시스템에 대한 구두 입력 및 구두 및 그래픽 출력으로 사용자의 언어를 추적하는 시스템.
제 11항에 있어서, 추적 시스템이 사용자가 외국어로 명령하기 위한 시스템이고 생성 수단이 본래의 발음 및 해석의 예로서 가청 반응을 발생시키는 수단을 포함하는 시스템.
제 11항에 있어서, 독해한 단어를 계수하는 수단; 스크립트된 단어를 독해하는데 소요된 시간을 측정하는 수단; 및 계수된 단어수를 측정된 소요시간으로 나누는 수단을 포함하여, 독해 속도를 측정하는 수단을 추가로 포함하는 시스템.
미리 선택된 스크립트에서 단어(195)를 계수하는 수단(194); 최적 독해 시간(197)을 설정하는 존속 시간을 제공하는 수단(196); 거부 단음(199)를 계수하는 수단(198); 미리 선택된 스크립트에서 모든 단어를 독해하는데 소요된 전체 시간(201)을 측정하는 수단(200); 분석 수단에 의해 허용될 수 있는 의도된 구문을 판독하는데 소요된 양호한 시간(203)을 측정하는 수단(202); 제 1의 몫(205)를 얻기 위해 전체 시간(201)을 양호한 시간(203)으로 나누는 수단(204); 제 1의 점수 성분(208)을 얻기 위해 제 1의 몫(205)를 제 1의 측정 변수(a)로 측정하는 수단(206); 바람직한 최대치(211)을 생성하기 위해 최적 독해 시간(197)과 양호한 시간(203) 사이의 최대치를 선택하는 수단(210); 제 2의 몫(213)을 얻기 위해 바람직한 최대치(211)을 최적 독해 시간(197)로 나누는 수단(212); 제 2의 점수 성분(216)을 얻기 위해 제 2의 몫(213)을 제 2의 측정 변수(b)로 측정하는 수단(214); 독해능 값(219)를 얻기 위해 거부 단음의 수(199)와 단어의 수(195)를 합계하는 수단(218); 제 3의 몫(221)을 얻기 위해 상기 단어의 수(195)를 상기 독해능 값(219)로 나누는 수단(220); 제 3의 점수 성분(224)를 얻기 위해 제 3의 몫(221)을 제 3의 측정 변수(c)로 측정하는 수단(222); 점수합(227)을 생성하기 위해 제 1의 점수 성분(208), 제 2의 점수 성분(216) 및 제 3의 점수 성분(224)를 합계하는 수단(226); 및 독해능 점수(230)을 얻기 위해 점수의 합(227)을 환산 계수(228)로 측정하는 수단을 포함하여, 독해능 점수(230)을 얻기 위한 독해능 측정 수단(192)를 추가로 포함하는 시스템.
어떤 대상에 관해 사용자에게 정보를 제공하고 구두 반응을 유발하기 위해 허용될 수 있는 발음의 미리 선택된 세트로부터 응답을 유도하는 수단; 음성 정보의 시간-불변 프레임으로부터 언어-함유 부호를 나타내는 음성 표시를 감지하는 수단; 음성 정보 프레임의 축적에 상응하는 가능한 발음의 세트를 측정하기 위해 음성 정보의 프레임을 분석하는 수단; 분석 수단에 결합되어 발음 세트로부터 발음의 완전함을 평가하는 수단; 평가 수단에 결합되어 발음의 종결을 나타내면서 가능한 발음 세트로부터 발음에 대한 최상의 가설을 선택하는 수단; 선택 수단에 결합되어 선택된 응답을 측정하기 위해 허용가능한 발음의 미리 선택된 세트로 최상의 가설을 비교하는 수단; 및 비교 수단에 결합되어 선택된 응답에 사응하는 반응을 생성하는 수단을 포함하고, 언어 인식기 생성 단어 연쇄가설을 혼입한 음성 언어 인식 서브시스템을 사용하고 언어 인식기에 대한 제한 요소로서 단어 연쇄 패턴의 범위를 서열화하는 언어 모델을 사용하여 언어를 추적하고 시스템에 구두 입력하는 사용자 및 구두 및 그래픽 출력과 상호작용하는 시스템.
제 15항에 있어서, 상호작용 시스템이 사용자가 외국어로 명령하기 위한 시스템이고, 생성 수단이 본래의 발음 및 해석의 예로서 가청 반응을 발생시키는 수단을 포함하는 시스템.