KR100309207B1 - 음성-대화식언어명령방법및장치 - Google Patents

음성-대화식언어명령방법및장치 Download PDF

Info

Publication number
KR100309207B1
KR100309207B1 KR1019950703880A KR19950703880A KR100309207B1 KR 100309207 B1 KR100309207 B1 KR 100309207B1 KR 1019950703880 A KR1019950703880 A KR 1019950703880A KR 19950703880 A KR19950703880 A KR 19950703880A KR 100309207 B1 KR100309207 B1 KR 100309207B1
Authority
KR
South Korea
Prior art keywords
language
words
reject
measuring
script
Prior art date
Application number
KR1019950703880A
Other languages
English (en)
Other versions
KR960701431A (ko
Inventor
디미트리르티스셰브
자레드씨.번스테인
죠오지티.첸
죤더블유.부츠버거
Original Assignee
에드워드 이. 데이비스
에스알아이 인터내셔널
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에드워드 이. 데이비스, 에스알아이 인터내셔널 filed Critical 에드워드 이. 데이비스
Publication of KR960701431A publication Critical patent/KR960701431A/ko
Application granted granted Critical
Publication of KR100309207B1 publication Critical patent/KR100309207B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명 언어 명령 방법 및 장치는 문맥-기초된 언어 인식 방법으로 명령 및 평가에 사용된다. 예행에서 단어 연쇄 패턴의 범위에 상응하는 유한상태 문법 세트(113)가 히든 마아코브 모델(HMM) 언어 인식기(112)에서 HMM 모델에 제한요소로서 사용된다. 본 발명은 상호작용 결정 메카니즘을 지니는 시스템이 포함되고, 상호작용 결정 메카니즘은 사람-기초된 상호작용 명령에서 자연 수준의 패이션스를 의태하는 셋 이상의 에러 수용 수준을 사용한다. 언어 감지 발음 말단 검출기가 사람 대화 언어를 의태하는 발음의 결과를 판단하는데 제공된다.

Description

[발명의 명칭]
음성-대화식 언어 명령 방법 및 장치
[발명의 배경]
본 발명은 언어 인식, 특히 언어 명령에 사용하는 히든 마아코브 모델(Hidden Markov model: HMM) 모델을 기본으로하는 언어인식 시스템의 형태에 관한 것이다.
발명의 배경으로, 문헌[Rabiner et al., "An Introduction to Hidden Markov Models," IEEE ASSP Magazine, Jan. 1986, pp. 4-16]에 히든 마아코브 모델화 방법에 대한 지침 논문이 기재되어 있다.
히든-마아코브-모델-기초된 많은 언어 인식 시스템이 알려져 있기 때문에 여기서 자세히 설명할 필요가 없다. 이들 언어 인식 시스템들은 전형적으로 한세트의 예행으로 부터 산정되는 변수들을 갖추고 있는 음성분절 (이음(異音) 또는, 더욱 일반적으로, 단음(單音)을 포함함)의 통계모델인 음소(音素)를 실현하는 방식을 사용한다.
단어들의 모델은 적당한 단음 모델들을 연접함으로써 이루어지고, 단음은 음소의 음향실현이며, 음소는 개별적인 단어들에 사용될 수 있는 언어의 최소단위이다. 인식은 임력된 언어 시그날에 대하여 단어 모델의 세트를 통해 가장 적당한 경로를 찾는 것으로 이루어진다.
이미 알려진 마아코브 모델 언어 인식 시스템은 마아코브 자료(Markov source)로서 언어 저작물의 모델을 기본으로 한다. 모델화 되는 언어 단위는 유한 상태의 기계(finite state machine)에 의해 표시된다. 확률분포는 각각의 절점(node)을 떠나는 전이와 연관되어 있으며 그 절점에 도달했을 때 각각의 전이를 취할 확률이 지정되어 있다. 출력부호에 대한 확률분포는 각각의 절점과 연관된다. 전이 확률 분포는 암시적으로 지속기간을 모델화하고 있다. 출력부호 분포들은 전형적으로 스펙트럼과 같은 언어 부호 특징을 모델화하는데 사용된다.
전이 및 출력 부호에 대한 확률분포들은 지정된 언어의 실예를 사용하여 산정한다. 인식은 마아코브 연쇄중에서 입력된 음성을 형성하는 제일 높은 확률을 가진 경로를 결정함으로서 이루어진다. 연속적인 언어에서는 이 경로가 단어 모델의 연쇄에 상당할 것이다.
사전에 수록된 언어 이외의 언어를 인식하는 모델에 이미 알려져 있고, 본 발명에서는 거부된 단음 모델이라 명명하고 때로는 "필러(filler)" 모델 이라고 명명한다. 이러한 모델이 로즈(Rose)등이 쓴 "A Hidden Markov Model Based Keyword Recognition System," Proceedings of IEEE ICASSP, 1990에 기재되어 있다.
본 발명과 결부되어 사용된 특정의 히든 마아코브 모델 인식 시스템은 해독 언어 인식기(Decipher speech recognizer)이며, 미합중국 캘리포니아 멘로 파크 소재의 에스알아이 인터내셔날(SRI International)로부터 구매할 수 있다. 해독 시스템은 확률적인 음성정보, 음성 모델을 상이한 문맥 의존의 수준으로 예행할 수 있는 예행기, 단어들에 대한 다양한 발음, 및 인식기로 이루어진다. 본 발명의 공동 발명자들은 해독 언어 인식기를 다른 논문 및 문헌에 공개하였으며, 문답 기술에 대한 초기의 판을 기술하고 있다[참조예, Automatic Evaluation and Training in English Pronunciation," Proc, ICSLP 90, Nov. 1990, Kobe, Japan. "Toward Commercial Applications of Speaker-Independent Continuous Speech Recognition," Proceedings of Speech Tech 91, (April 23, 1991) New York, New York. "A Voice Interactive Language Instruction System," Proceedings of Eurospeech 91, Genoa, Italy September 25, 1991]. 상기된 논문들은 단지 예행자들의 경험을 기재하고 있다.
그밖의 다른 언어 예행 기술이 공지되어 있다. 예를들어, 에자와(Ezawa)등의 미합중국특허 제4,969,194호에는 사용자가 언어로 발음하여 간단하게 지시하는 시스템이 기재되어 있다. 이 시스템은 언어 인식능력이 없고, 몇몇의 언어의 음성 특성 및 언어의 근본적인 진동수를 참조 세트와 비교하는 컴퍼레이터(comparator)를 사용한 부호-기초된 피드백(feedback) 메카니즘을 갖는다.
오가모토(Okamoto)의 미합중국특허 제4,380,438호에는 사용자 자신의 언어를 기록하고 재생하는데 사용된 아날로그 테입 기록기의 디지탈 조절기가 기재되어 있다. 상기 특허의 조절기에는 인식능력이 없다.
보그스(Boggs)의 미합중국특허 제4,860,360호는 언어를 평가하는 시스템에 관한 것이고, 대화 채널에서 잘못된 발음이 분석된다. 상기 특허의 시스템은 공지된 어휘에 대한 언어 시그날을 정령하거나 인식하지 못하고, 단지 시그날 분석과 잘못된 발음을 측정하여 산정하는 것에 관한 것이다.
하베슨(Harbeson)의 미합중국특허 제 4,276,445호에는 언어 분석 시스템이 기재되어 있고, 보다 작은 아날로그 피치 디스플레이(analog pitch disply)를 제공한다. 상기 특허는 본 발명과 관련이 없는 것으로 사려된다.
홀랜드(Holland)등의 미합중국특허 제4,641,343호에는 아날로그 시스템이 기재되어 있고, 상기 특허의 아날로그 시스템은 포먼트(formant) 진동수들을 취하여, 사용자가 최종 디스플레이를 하도록 마이크로프로세서에 입력된다. 피드백만이 입력 부호로부터 직접 산정할 수 있는 기호로 그래픽으로 나타난다. 상기 특허에도 언어 인식의 요소 또는 다른 그밖의 높은 수준의 언어 인식 과정이 없다.
베이커(Baker)등의 미합중국특허 제4,783,803호에는 언어의 개시를 감지하는 프레임중에 측정하는 수단을 포함하는 언어 인식장치 및 기술이 공지되어 있다. 상기된 특허는 음성 변수만을 처리하는 낮은 수준의 음성-기초된 말단 탐지기에 관하여 설명하고 있지만, 높은 수준의 문맥-감지 말단 탐지 능력은 포함하지 않는다.
언어 문맥-감지 방법으로 사용자와 상호작용하여 사용자가 본래의 발음으로 적합하게 발음하도록 지시하는 유사-대화 방법으로 스크립트의 사용자-독해를 추적할 수 있는 인식 및 피드백 시스템이 요구되고 있다.
[발명의 요약]
본 발명은 명령 및 평가, 특히 언어 명령 및 언어 발음의 평가를 위해 언어 문맥-감지 언어 인식법을 적용하는 명령 시스템을 제공한다. 본 발명의 명령 시스템은 예행, 특히 언어예행을 통제할 수 있고, 외국인 사용자에 의한 강한 악센트를 수용하면서 고유의 소리-상호 작용 방법으로 실행을 평가할 수 있다. 예행 자료 및 명령은 예행자에게, 이로 한정되는 것은 아니지만, 비디오, 오디오 또는 인쇄물을 포함한 다양한 방법으로 제공될 수 있다. 예를들어, 한가지 언어-명령-특정 응용에서, 전체의 대화 및 상호작용은 목적하는 언어로 수행될 수 있다. 즉, 특정의 언어 명령은 사용자에게 익숙한 언어일 수 있다.
미리 선택된 가시화된 정보와 결부되어 본 발명의 시스템은 예행자에게 청각 정보를 제공될 수 있다. 본 발명의 시스템은 예행-사용자가 독해단계에서 원문을 음성으로 독해하게 하여 시스템에 저장된 스크립트와 비교하여 선택된 언어의 변수를 모니터링한다. 이어서 시스템은 사용자에게 가능한 응답의 목록을 제시하면서 특정의 질문을 한다. 이어서, 사용자는 목적하는 언어로 적절한 답변을 암송하여 응답할 수 있다. 본 발명의 시스템은 정확하게 인식하고 반응할 수 있으며 예행자의 정확하지 못한 발음, 일시적인 정지 및 다른 부정확성에도 불구하고 자동적으로 언어를 판독할 수 있다.
특정 양태로, 예행단계에서 단어 연쇄 패턴의 범위에 상응하는 유한 상태 문법 세트(finite state grammer set)가 히든 마아코브 모델(HMM) 언어 인식기에서 HMM 연구 장치에 대한 제한 요소로서 사용되고, HMM 언어 인식기는 목적 언어를 모국어로 하는 수화자에 의해 제공된 목적-언어를 서술(판독)하는 히든 마아코브 모델 세트를 지닌다.
본 발명은 바람직하게는 미합중국 캘리포니아 멘로 파크 소재의 에스알아이 인터내셔날로부터 입수한 해독 언어 인식기와 같은 언어 문맥-감지 언어 인식기의 사용을 기초로 하고 있지만, 다른 언어문맥-감지 언어 인식기도 근원적인 언어 인식 엔진으로 사용될 수 있다.
본 발명은 독해 예행과 같은 예행, 상호작용하여 결정하는 메카니즘을 사용한 다수-선택 질문 장치를 통해 사용자와 대면하는 메카니즘을 포함한다. 결정 메카니즘은 셋 이상의 에러를 수용하여, 사람-기본된 상호작용 명령으로 자동 수준의 수용을 의태한다.
독해 단계 메카니즘은 유한 상태 기기, 또는 스크립트중의 어떠한 위치에서 독해 에러를 인식하고 제 1 작용 세트를 이용하는 넷 이상의 단계를 지니는 유한 상태 기기와 동일한 기기를 통해 수행된다. 상호작용 질문 단계와 관련된 메카니즘은 또한 넷 이상의 단계를 지니는 또다른 유한 상태 기기를 통해 수행되지만, 독해 에러 뿐만아니라 부정확한 응답을 인식하고 제 2 작용 세트를 유발시킨다.
언어 문맥-감지 언어 인식기의 일부로서, 언어의 확률적 모델은 스크립트를 서술하여 단순화시키고, 적어도 중지 및 스크립트 발음 이외의 발음을 비교하여 부적합한 발음을 확실하게 모델화한다.
상호작용 독해 및 문답 단계와 결부되어, 언어-감지 발음 말단 검출은 발음의 종결을 판단하여 사람 대화언어를 의태하게 한다.
정확한 독해 시간의 비율, 독해 속도 대 일반적인 모국어 사용자의 독해 속도의 비율, 및 인식된 단어 스트림에서 "알트(alt)" 단위(언어에 대한 신규한 모델)의 비율을 측정하여 언어 및 독해능, 즉, 속도 및 에러율을 분석할 수 있는 점수 시스템을 제공한다.
DSP 기기 또는 동일한 효과를 내튼 프로세서에 관하여, 본 발명의 시스템은 특정 예행의 주제에 대하여 시스템과 사용자 사이에 동시 대화할 수 있게 한다. 본 발명의 시스템은 전화망을 통해 시스템으로부터 떨어진 지역에서 용이하게 사용될 수 있고, 사용자는 시스템과 상호작용하는 가시화되거나 입력된 사항으로 전화 번호 및 참조사항을 선택하여 시스템에 접근할 수 있다.
본 발명은 첨부된 도면과 하기된 발명의 상세한 설명을 참조로하여 보다 쉽게 이해할 수 있을 것이다.
[도면의 간단한 설명]
제 1 도는 본 발명에 따른 시스템의 블록다이아그램이다.
제 2 도는 본 발명에 사용된 인식과정의 기능적인 블록다이아그램이다.
제 3 도는 본 발명과 결합되어 사용된 과정의 기능적인 블록다이아그램이다.
제 4A1 도는 본 발명에 따라 장치된 장치에 입력된 예행을 통해 사용자와 대면하는 과정의 첫번째 부분의 흐름도이다.
제 4A2 도는 본 발명에 따라 장치된 장치에 입력된 예행을 통해 사용자와 대면하는 과정의 두번째 부분의 흐름도이다.
제 4B 도는 본 발명에 따른 추적과정의 흐름도이다.
제 5 도는 본 발명에 따른 독해 방식에 사용된 문장 수준의 문법의 상태 다이아그램이다.
제 6 도는 본 발명에 따라 사용된 단어-수준 문법의 상태 다이아그램이다.
제 7 도는 본 발명에 따른 응답 방식에 사용된 문장 수준의 문법의 상태 다이아그램이다.
제 8 도는 본 발명에 따른 문법에 사용된 "알트" 구조의 상태 다이아그램이다.
제 9 도는 독해속도 계측기의 블록 다이아그램이다.
제 10 도는 독해상태 계측기의 블록 다이아그램이다.
[발명의 상세한 설명]
제 1 도는 장치(10)에 인접하여 위치한 사용자 (12)에게 명령하거나 전화 (14)를 통해 장치 (10)으로부터 멀리 떨어진 사용자 (12')에게 명령하고 대화하는 본 발명에 따른 명령장치 (10)의 시스템 블록다이아그램을 나타내는 것이다. 장거리 사용자 (12)는 스피커를 통해 명령 및 피드백을 접수하는 마이크로폰 (16) 또는 이어폰 (18) 및 가시화 모니터(CRT) (20)을 통해 시스템과 상호작용할 수 있다. 원거리 사용자 (12')는 신문 광고로부터 얻을 수 있는 바와 같은 공개되거나 인쇄된 원문 (22)를 통해 즉시 접수하거나, 잘 알려져 있거나 입력된 원문을 사용할 수 있다. 원거리 사용자의 전화 (14)는 다중채널 (26)을 통해 전화 네트워크 (16)과 연결된다. 다중채널 (26)의 출력은 저주파 통과 필터 (30)을 통해 전치 증폭기(28)에 연결되고, 이어서 디지탈 전환기 (32)에 대한 아날로그에 연결되며, 이는 워크스테이션 또는 시 배분(timesharing) 컴퓨터 (36)에서 디지탈 부호 처리(DSP) 서브시스템 (34)의 부분이다. DSP서브시스템 (34)로부터의 출력은 디지탈을 아날로그로 전환시키는 전환기(DAC) (38)을 통해 증폭기 (40) 또는 전화 네트워크 (24)에 제공되어, 각각 수화자 (18) 또는 전화 (14)에 연결된다. CRT (20)은 전형적으로 워크스테이션 (36)의 가시화 출력 기기이다. 적합한 DSP 서브시스템은 "소니테크 스피리트 30(Sonitech Spirit 30)" DSP 카드이고, 적합한 워크스테이션은 선 마이크로시스템스 스파크스테이션 2 유닉스 워크스테이션(Sun Microsystems SPARCStation 2 UNIX workstation)이다.
제 1 도와 연결된 제 2 도는 근본적인 시스템의 기본 작동이 예시되어 있다. 시스템은 바람직하게는 에스알아이 인터내셔날의 해독시스템과 같이 언어 인식 시스템 주위에 설치된다. 사용자 (12)는 가시화되거나 청취할 수 있는 부호와 같은 자극에 대한 반응을 마이크로폰(MIC) (14)에 말을 한다. 마이크로폰 (14)의 연속적인 언어 부호는 전자적인 경로를 통해 "전방 말단(front end)" 부호 처리 시스템 (42)에 공급된다. 전방 말단 부호 처리 시스템 (42)는 일차적으로 DSP 서브시스템 (34)에 함유되어 있고, 모 워크스테이션 (36)을 조절한다. 전방 말단 부호 처리시스템 (42)는 음성 특징 변수를 취하여, 히든 마아코브 모델(HMM) 모델 세트 (46) 주위에 장치된 모델 탐색자 (44)에 음성 특징 변수를 공급한다. 모델 탐색자 (44)는 청취할 수 있는 특징을 "탐색(search)"하고, 이러한 탐색은 유한 상태 문법에 의해 단지 제한되고 처리할 수 있는 선택 세트로 한정된다. 따라서, HMM 모델 (46)과 비교할 경우 우수한 발음으로 사용자에게 현저한 범위가 부여된다. 탈한정된 문법 및 어휘의 형태로 응용 서브시스템 (48)은 모델 탐색자 (44)와 대화한다. 응용 서브시스템 (48)은 탐색이 수행되는 유한상태 문법을 모델 탐색자 (44)에 공급하고, 모델 탐색자 (44)는 해독, 인식 또는 비인식 뿐만아니라 역추적-생성된 정보와 같은 언어 인식 시스템에 내장된 역추적 처리를 통해 응용 서브시스템 (48)에 전달하고, 이어서, 본 발명에 따라 사용자와 상호작용 한다.
본 발명과 연결되어 사용된 언어 처리 시스템은 두가지의 기능적 방식, 즉, 예행 방식과 인식방식이 있다. 처리는 제 3 도에 참조로 예시되어 있다. 예행 방식에서, 예행 스크립트(102)는 예행자 (104)중의 다수의 사람을 나타내고, 이들 각각은 예행 스크립트(102)에 상응하는 다양한 언어 패턴 (106)을 제공한다. 예행 스크립트(102) 및 언어 패턴 (106)은 목적 언어 (111)의 일반적인 HMM 모델을 형성하는 히든 마아코브 모델 예행자 (108)에 색인 세트로서 제공된다. 이러한 처리는 목적 언어에 대해 단지 1회 수행되어야 하고, 전형적으로 모국어를 말하는 사람과 모국어가 아닌 사람으로 목적언어의 일반적인 HMM모델을 생성시킨다. 이어서, 일반적인 HMM 모델 및 미리 선택된 스크립트(114)를 입력시켜 사용하는 HMM 네트워크 모델 컴파일러(110)가 미리 선택된 스크립트에 특정적으로 언어 모델(113)의 네트워크를 형성시킨다. 네트워크 언어 모델 컴파일러 출력은 히든 마아코브 모델-기초된 언어 인식기 (112)에 공급된다.
인식 방식에서, 예행 스크립트(102)의 기능적인 서브세트이지만, 미리 선택된 스크립트(102)의 단어를 필수적으로 포함하지는 않는 미리 선택된 스크립트(114)는 예행자/사용자(116) 또는 발음이 평가되는 기기에 제공된다. 예행자/사용자(116)의 언어는 미리 선택된 스크립트(114)에 상응하는 언어 패턴 (118)의 형태인 것으로 추정된다. 미리 선택된 스크립트(114) 및 단일 언어 패턴 (118)은 색인된 세트로서 히든 마아코브 모델 언어 인식기 (112)에 공급된다. 각각의 평가시간 (음성-길이, 단어-길이, 구-길이, 또는 문장 길이-시간) 동안, 단어들은 인식기 (112)에 의해 인식된다. 평가 시간 및 평가 이전의 시간 동안 인식된 많은 단어들로부터, 인식 점수 세트 (120)이 산정되고, 응용 서브시스템 (48)(제 2 도)에 전달되어 본 발명에 기재된 형태의 예행 조절 단위로서 제공된다. 점수 세트 (120)은 역추적-생성된 정보를 구체화한 인식 과정의 스냅숏(snapshot)이다. 점수 세트 120은 이하 본원에서 설명될 결정 장치를 구체화한 유한 상태의 기기를 사용하는 응용 서브시스템 (48)/예행 조절단위에 전달된다. 다른 기능중에서도 유한 상태의 기기는 생(生) 점수 세트 정보를 제거하여 스크립트된 예행에 대한 양호한 해독만을 인지한다. 특정적으로, 유한 상태의 기기는 독해 속도 및 독해의 상태를 포함한 예행 수행의 질을 판단하는데 있어서 점수 세트의 서브세트를 확인한다.
제 4 도는 본 발명에 따라 장착된 장치에 내장된 예행을 통해 사용자와 대면하는 과정의 흐름도이다. 장치는 유한 상태의 기기(FSM)로서 장착되고, 유한 상태의 기기는 응용 서브시스템 (48)에 내장되고, 응용 서브시스템은 사용자 (12) 및 예행 자료의 상호작용을 조절한다.
작동에서, 참조(reference)는 FSM에 의해 스크립트에 지시되어, CRT 스크린에 나타나거나, 읽을 수 있는 인쇄된 자료로서 제공될 수 있다. 문장 색인 i=1 및 단어 색인 j=1(단계 A)로 개시하여, 추적과정이 수행된다(단계 B). FSM은 사용자가 스크립트중의 최종 문장을 독해했는지를 측정(단계C)하여, 참이면 끝(END)으로 빠져나간다(단계 C). 또한, FSM은 사용자가 추적기에 의해 검출된 바와 같이 중지하고 최종 추적 작동 이후로 스크립트에서 양호하게(인식될 수 있게) 단어를 독해하고 있는지를 측정한다(단계 E). 참이면, FSM은 바람직하게는 청취할 수 있거나 가시화된 답변으로 반응한다. 즉, "오케이(okay)"라고 반응(단계 F)하고, FSM은 추적과정을 재순환한다(단계 B).
반면, 사용자가 최종 추적작동 이후로 양호하게 단어를 독해한 후 정지하지 않은 것을 FSM이 측정한다면, FSM은 사용자에게 "P(i)부터 독해하세요"라고 말한다(단계 G). P(i)는 비추적된 단어를 함유하거나 즉각적으로 함유하는 구의 스크립트에서 확인된 위치의 개시점이다. 따라서, 추적과정은 다시 자극(단계 H)되고, 이러한 단계는 사용자가 한번의 패널티를 감수하는 수준에서 적용된다. 이어서, FSM은 이러한 새로운 수준(단계 I)에서 상기된 바와 같이 최종 문장이 완결되었음을 시험하고, 스크립트가 완결되었을 경우 종결된다(단계 J). 또한 FSM은 사용자가 추적 작동에 의해 검출된 바와 같이 중지되고 스크립트에서 양호하게(인식될 수 있게) 단어를 독해했는지를 시험 측정한다(단계 K). 참이면, FSM은 바람직하게는 청취할 수 있거나 가시화된 답변으로 반응한다. 즉, "오케이(okay)"라고 반응(단계 L)하고, 새로운 문장의 시작을 시험(단계 M)하여, 참이면, FSM은 추적과정으로 재순환(단계 B)되지만, 거짓이면, FSM은 현재의 문장내에서 다시 추적한다(단계 H).
단어가 추적 작동(단계 K)에 의해 지시된 바와 같이 정확하게 독해되지 않을 경우, FSM은 새로운 문장이 시작되는지를 시험 측정하여(단계 N), FSM이 재순환되고, 사용자가 문장의 시작부분을 독해하게 한다(단계 G). 문장의 시작이 아니라면, FSM은 "아니오, 문장은 S(i) 입니다. P(i)부터 독해하세요"라고 말한다(단계 P). 달리 말하자면, 사용자는 문장의 모델로 나타내고, 다시 시도하는 문장의 시작점에서 출발하도록 촉구된다.
촉구된 후에, FSM은 추적과정을 재유발시키고(단계 Q), 최종 문장이 입력되었는지를 시험하여 가시화하고(단계 R), 예스(YES)이면 종결되며(단계 S), 또한, 사용자가 스크립트에서 단어를 양호하게 독해한 후에 중지되는지를 시험하여 가시화한다(단계 T). FSM은 참인 경우 "오케이(ok)"를 나타내어, 새로운 문장을 시험하고(단계 V), 노(no)이면 다시 추적을 개시하며, 또한, 새로운 문장이라면, 추적으로 가장 높은 수준의 페이션스(patience)로 다시 세팅한다(단계 B). FSM이 양호한 단어를 추적하지 않는다면, 새로운 문장이 개시되었는지를 점검하여 나타내고(단계 W), 새로운 문장이 개시되었다면, 사용자는 개시화되는 문장 위치 P(i)로부터 독해를 개시하도록 촉구된다(단계 G). 새로운 문장이 아니라면, FSM은 "오케이 적합합니다. 다음 문장의 시작부분부터 독해하세요"(즉, P(i+1))와 같이 구를 암송하여 패이션스의 상실을 나타낸다(단계 Z). 이어서 문장 카운터 색인 i는 하나의 문장(i+1)에 의해 증강되고(단계 AA) 카운터 색인 j는 1로 재세팅되어(단계 AB), 초기 추적과정으로 순환되며(단계 B), FSM은 이의 초기 수준의 패이션스로 회복된다.
제 4B 도는 제 4A 도의 FSM에 의해 사용된 추적과정(단계 B, H, Q)의 흐름도이다. 추적 과정은 예를들어 미리 선택된 스크립트에 상응하는 히든 마아코브 모델의 언어 패턴을 사용하여 하나의 제2의 입력 언어를 시험한다(단계 AC). FSM은 현재의 위치에 대한 카운터(i & j)를 갱신하고(단계 AD), 최종 문장이 암송되었는지를 시험하여 측정한다(단계 AE). 예스이면, 추적 과정을 빠져나간다(단계 AF). 최종 문장이 인식되지 않았다면, FSM은 선행 단어 이후로 인식된 중지 단음의 수이고 일반적으로 중지의 길이를 나타내는 중지 인디케이터(indicator)를 산정한다. 이어서 현재 위치(i, j)에 대한 중지 인디케이터 임계치(threshold)와 비교하여 정밀한 수준(단계 AH)을 예행한다. 중지 인디케이터가 임계치를 초과하면, 추적 과정은 빠져나간다(단계 AI). 중지 인디케이터가 임계치를 초과하지 않았다면, FSM은 거부(reject) 인디케이터를 산정한다(단계 AJ). 일반적으로 가능성을 지시하여 사용자가 미리 선택된 스크립트에 상응하는 언어를 제공하지 않게 하는 거부 인디케이터는 예를들어 최종 단어 이후로 인식자에 의해 반송된 모든 거부 음성을 합계함으로서 산정한다.
따라서 거부 인디케이터는 거부 인디케이터 임계치에 비교되고(단계 AK), 거부 인디케이터 임계치는 예행 점수 정확성 수준 또는 원문중에서 현재의 위치의 함수이다. 인디케이터가 임계치를 초과하는 경우, 공정은 빠져나간다(단계 AL). 인디케이터가 임계치를 초과하지 않은 경우, 거부 밀도가 산정된다(단계 AM).
거부 밀도는 인식자에 의해 반송된 거부 음성의 수를 계수한 선행의 많은 스크립트된 단어들(예, 다섯)을 시험하여, 거부 음성의 수를 거부 음성의 수와 스크립트된 단어(다섯)의 수의 합으로 나눔으로써 산정된다. 몫이 거부 밀도이다. 따라서, 중지 길이를 다양하게 하는 것은 거부 밀도에 영향을 주지 않는다.
따라서 거부 밀도는 거부 밀도 임계치(예행 정확성 수준, 원문 위치 또는 둘 모두의 함수)와 비교된다(단계 AN). 거부 밀도가 임계치를 초과하는 경우, 추적과정은 종결된다(단계 AO); 그렇지 않으면 추적과정은 계속된다(단계 AC).
거부 인디케이터 임계치, 거부 밀도 임계치 및 중지 인디케이터 임계치는 원문중의 정확성 또는 위치의 수준의 함수로서 다양하게 조절될 수 있다. 조절과정은 사용자, 예행 디자이너에 의해 수행되거나 또는 시스텀에 의해 자동적으로 조절될 수 있다.
제 5 도는 예행의 독해 단계 동안의 문장-수준 문법에 대한 구조를 나타낸다. 문장 수준의 문법 및 관련된 언어 구조는 수화자의 언어에서 예측될 수 있는 중단, 머뭇거리는 소리 및 스크립트 언어 이외의 현상을 수용하는데 필요한 구조적인 복잡성이 있다. 문법은 스크립트된 언어 패턴으로부터 인식된 문장 (126), (128), (130)을 분리하는 "알트(alt)" 구조 (122)로 이루어진다. "알트" 구조의 목적은 독해 또는 응답 예행중에 다양한 지점에서 독자에 의해 삽입될 수 있는 스크립트 이외(스크립트가 아님)의 언어 또는 침묵(단순히 중지가 아님)을 확인 또는 다르게는 산정하는 것이다. 본 발명에 따른 알트 구조는 히든 마아코브 모델을 기초로하는 언어 인식 시스템에 사용되어 기초 언어 인식기에 다양한 기능을 제공하고, 언어 인식 시스템이 스크립트 이외의 입력 자료나 비스크립토된 입력 자료를 명백한 양상으로 처리하게 한다.
제 6 도는 독해 방식과 응답 방식에서 문장의 단어-수준 문법의 구조를 나타낸다. 특정 양식이 탐지되는 공지된 단어 수준 문법과는 달리, 이러한 문법은 명백하게 모든 단어들 사이에서 암송을 더듬거리게 하여, 다음에 독해되는 각각의 주문된 단어 (136), (138) 사이에서 알트 구조 (132), (134)로 이루어진다. 단어들은 원자 단위로서 인식자에 의해 반송되는 반면, 알트 구조는 거부 단음 및 중지 단음의 문자열로서 인식자에 의해 분석되고 반송되며, 거부 단음 및 중지 단음은 본원에 보다 상세히 기재된 바와 같은 알트 구조을 형성하는다. 알트 구조는 응용 서브시스템 (48)(제 2 도)에 사용자에 의한 독해에 관해 보다 높은 수준으로 결정되게 하는 능력을 부여한다.
제 7 도는 응답 방식에서 문장 수준의 문법 구조를 나타낸다. 초기의 알트 (140)은 궤도에 의해 다수의 응답 (142), (144), (146), (148)중에서 어느 하나에 선택적으로 연결되고, 각각의 응답은 궤도에 의해 최종 알트 (150)에 연결된다. 연결되지 않은 응답을 거부하는 이 문법은 초기 알트 (140)에 루프(loop)를 형성하여 사용자로부터 응답되고, 유효한 응답 후에 최종 알트 (150)상에 루프를 형성하거나 유효한 응답중 하나를 번역하는 동안 감탄사 및 중지를 수용하여 언어를 거부한다.
제 8 도는 모든 알트에 일반적인 알트 구조 (152)를 예시한다. 알트 구조 (152)는 히든 마아코브 상태의 네트워크이고, 이의 변수는 스크립트 이외의 언어, 침묵 또는 배경음에 상응하는 음성 특징을 산정하도록 예행된다. 알트 구조는 초기 노드(node) (166) 및 말단 노드 (168) 사이에서 선택적인 전방 전이 아크(arc) (158), (160), (162) 및 (164)를 따라 "중지(pause)" 모델 (154) 및 "거부(reject)" 모델 (156)로 이루어진다. 초기 노드 (166) 및 말단 노드 (168) 사이에는 전방 전이 아크 (170) 및 반송 전이 아크 (172)만이 존재한다. 중지 모델 (154) 및 거부 모델 (156)의 내부 구조는 세개의 마아코브 상태 및 다섯개의 전이 아크로 이루어지고, 미합중국 캘리포니아 멘로 파크 소재의 에스알아이 인터내셔날로부터 입수한 해독 언어 인식 시스템에서 다른 단음의 모델에 사용된 정확한 구조이다.
중지 모델 (154)는 예행 데이타(전형적으로 기록됨)의 비-언어 분절에서 예행되는 단음이고, 예행 데이타에서 발생하는 침묵 또는 배경음의 예들을 포함한다. 거부 단음에 대한 모델 (156)은 예행 데이타로부터 무작위로 또는 주기적으로 선택된 광범위하게 다양한 언어에 대해 예행된 단음이다.
완전히 예행된 중지 모델 단음 (154) 및 거부 모델 단음 (156)을 지니는 알트 구조 (152)는 전이 아크에 의해 내부적으로 연결되어 이어지는 모든 가능한 사항들, 즉, 지연된 침묵(중지 단음 (154) 및 반송 아크 (172)를 통한 다수의 루프); 지연된 스크립트 이외의 언어(중지 단음 (156) 및 반송 아크 (172)를 통한 다수의 루프); 또다른 주기의 침묵 및 스크립트 이외의 언어; 및 비중지 및 비 스크립트 이외의 언어(전방 전이 아크 (170)상의 측로)을 허용한다.
중지 단음 (154) 및 거부 단음 (156)을 유도하는 초기의 전이 아크 (158) 또는 (162)는 각각 0.5의 확률로 측정되며 본 발명의 한가지 태양이다.
제 9 도는 본 발명에 따른 독해 속도 산정계 (180)을 나타내는 것이다. 독해 속도 산정계는 응용 서브시스템 (48)(유한 상태의 기기)로부터 시간, 및 특정의 관련된 타이밍에서, 형태(단어, 중지 요소, 거부요소) 및 위치에 의한 양호한 언어 요소를 입증하는 점수 세트(120)의 서브세트(데이타의 정렬)을 수용한다. 확률 정보를 얻을 수는 있지만, 사용되지는 않는다.
독해 속도는 단어 산정계 (184)를 사용하여 "양호한" 단어를 산정하고, 타이머 (184)을 사용하여 제거된(양호한) 단어를 함유하는 구의 시간을 산정한다. 독해 속도 점수 (190)은 "양호한" 단어 W의 수를 "양호한" 단어를 함유하는 허용된 구를 암송하는데 소모된 시간 T로 나누는 디바이더 (188)로부터 측정된다.
본 발명에 기재된 서브시스템은 회로에 의하거나, 하기된 방정식을 이용하는 컴퓨터 프로그램에 의해 이행될 수 있다.
제 10 도는 독해능의 점수 (230)을 측정하는 메카니즘 (192)를 예시한다. 시스템에 있어서, 미리 선택된 스크립트의 단어 수에 대한 산정값 (195), 스크립트의 최적 독해 시간 (197)이 보고되는 메카니즘 (196), 거부 단음 (199)의 수를 산정하는 수단 (198), 미리 선택된 스크립트에서 모든 단어를 독해하는데 소요되는 전체 시간을 측정하는 수단 (200), 및 언급된 분석 수단으로 수용할 수 있는 구를 독해하는데 소요되는 "양호한" 시간을 측정하는 수단 (202)를 제공하는 단어 산정원 (194)가 있다.
디바이더 수단 (204)는 첫번째 몫 (205)를 얻을 수 있도록 전체 시간 값 (201)을 양호한 시간 값 (203)으로 나누고, 측정 수단(206)(다수)은 첫번째 측정 변수 ("a")에 의해 첫번째 몫 (205)를 측정하여 첫번째 점수 성분 (208)을 제공한다. 세개의 측정 변수 a, b 및 c의 합은 바람직하게는 통상 1.0이고 세가지 형태의 질의 측정치 각각의 상대적인 양의 할당된 몫이 된다.
선택 수단 (210)은 최적의 독해 시간 (197) 및 양호한 시간 (203)사이의 최대치를 선택하여 바람직한 최대값 (211)을 제공한다. 이 값은 신속한 독해와 바람직한 속도의 독해 사이의 바람직함의 척도에 사용된다. 바람직함을 평가하는데 있어서, 디바이더 수단 (212)는 바람직한 최대값 (211)을 최적의 독해 시간 (197)로 나누어 제 2 의 몫 (213)을 제공한다. 제 2 의 몫은 측정 수단 (214)(다수)에 의한 제 2 의 측정 변수 (b)로 측정되어 제 2 의 점수 성분 (216)을 제공한다.
가산 또는 합계 수단 (218)은 거부 단음 (199)의 수 및 스크립트 단어 (195)의 수를 합하여 독해능의 값 (219)를 제공한다. 디바이더 수단 (220)은 단어 (195)의 수를 독해능의 값 (219)로 나누어 제 3 의 몫 (221)을 제공한다. 제 3 의 몫은 측정 수단 (222)(다수)에 의한 제 3 의 측정 변수 (c)로 측정하여 제 3 의 점수 성분 (224)를 제공한다.
세개의 입력 합계 수단 (226)은 제 2, 제 2 및 제 3의 점수 성분 (208), (216) 및 (224)를 합하여 점수 합계 (227)을 제공한다. 점수합 (227)은 척도 인자 (228)를 곱하는 측정 수단에 의해 값 10과 같은 백분율 또는 다른 척도로 평가되어 독해 능력 점수 (230)을 제공한다.
본 발명에 기재된 독해능 평가 서브시스템은 하기된 방정식을 적용하는 회로 또는 컴퓨터 프로그램으로 이행될 수 있다:
RQS = 10 * (a*Tg/Tt+b*(Tn/]max(Tn'Tg)]) + c*W/(Rg+W)
상기식에서,
RQS는 1 내지 10 의 크기로 나타낸 독해 능력 점수이며(본원에서는 크기 인자 10을 기준으로 함);
a, b, 및 c는 합계가 1 인 크기 인자이고 특정 양태로 a=0.25, b=0.25 및 c=0.5일 수 있고;
W는 원본중의 단어의 수이며,
Tg는 "양호한" 시간 또는 양호하게 문장을 독해하는데 소요된 시간이고;
Tt는 초기 및 최후 중지를 제외하고 독해하는데 소요된 전체 독해 시간이며;
Tn은 최적의 독해시간, 즉, 양호한 모국어 수화자에 의한 독해 시간이고;
Rg는 문장의 "양호한" 독해 동안, 즉, Tg동안에 검측된 거부의 수이다.
부록 A는 컴퓨터 워크스테이션에 의해 수행된 본 발명에 따른 시스템의 공급원 코드 목록의 마이크로필름 카드 부록이다. 공급원 코드의 언어는 C이다.
본원에서는 본 발명의 특정 양태를 참조로하여 설명하였다. 본 분야의 전문가라면 본원을 참조할 경우 그밖의 양태도 자명할 것이다. 따라서 본 발명을 상기된 특정 양태로 한정하고자 하는 것은 아니다.

Claims (16)

  1. 단어 연쇄 가설을 제공하는 언어 인식기가 혼입되고, 언어 인식기의 제한 요소로서 단어 연쇄 패턴의 범위에 우선 순위를 주는 언어 모델을 사용하는 자동 언어 인식 시스템에 있어서, 디지탈 컴퓨터에 문장을 형성하는 연쇄적으로 배열된 각각의 단어 사이에 위치된 단일의 알트 요소를 함유하는 문장 문법 모델을 제공하고; 디지탈 컴퓨터에 문장의 조합에 의한 스크립트의 문법 모델을 연속적으로 배열된 각각의 문장 사이에 위치된 단일의 알트 요소에 의해 분리되는 스트링내로 제공하며; 대상 언어로 예행되고 문법 모델로 디지탈 컴퓨터에 저장된 언어 인식기를 사용하여 사용자의 언어를 스크립트중의 단어의 스트링으로 조정하며, 스크립트된 언어 및 비스크립트된 언어 및 문맥-감지 침묵을 판정하고; 사용자가 스크립트된 언어 및 비스크립트된 언어 및 문맥 감지 침묵에 대해 3회 이상의 수준으로 반응하게 하여 미리 선택된 스크립트를 음성 및 어의를 정확하게 암송하게 함을 특징으로하여, 선택적인 원문을 함유하는 미리 선택된 스크립트와 관련된 언어 패턴에서 언어 패턴을 추적하고 에러를 확인하며 사용자가 미리 선택된 스크립트를 암송하게 하는 방법.
  2. 제 1 항에 있어서, 선택적인 응답의 선택 전에 위치한 제 1 의 일반적인 알트 요소 및 선택적인 응답의 선택 후에 위치한 제 2 의 일반적인 알트 요소를 함유하여, 선택적인 응답의 음성을 정확하고 어의를 정확하게 하는 문장의 선택적인 원문에 대한 상호작용 대화 문법 모델을 제공하는 단계를 추가로 포함하는 방법.
  3. 제 1 항에 있어서, 사용 단계가 언어 인식기의 출력의 분절을 스크립트된 단어, 중지 단음 및 거부 단음에 대해 반복적으로 시험하고; 분절에 대한 거부밀도를 측정하며; 거부 밀도를 거부 밀도 임계치에 대해 시험하고; 거부 밀도가 거부 밀도 임계치를 초과하는 경우 스크립트가 아닌 것으로 나타냄을 포함하는 방법.
  4. 제 3 항에 있어서, 거부 밀도가 미리 선택된 연쇄 스크립트된 단어의 수중에서 언어 인식기에 의해 반송된 거부 단음의 수를 거부 단음과 미리 선택된 단어수의 합으로 나눔으로써 측정되는 방법.
  5. 제 1항에 있어서, 사용 단계가 스크립트된 단어, 중지 단음 및 거부 단음에 대한 언어 인식기 출력의 현행 분절을 순환적으로 검사하고; 현행 분절에 대한 거부 인디케이터를 측정하며; 거부 인디케이터 임계치에 대한 거부 인디케이터를 시험하고; 및 거부 인디케이터가 거부 인디케이터 임계치를 초과할 경우 스크립트 이외에서와 같이 언어를 표시함을 포함하는 방법.
  6. 제 5항에 있어서, 거부 인디케이터 측정 단계가 미리 선택된 연쇄 스크립트된 단어수 이외에 언어 인식기에 의해 반송된 거부 단음을 합계함을 포함하는 방법.
  7. 제 1항에 있어서, 사용 단계가 스크립트된 단어, 중지 단음 및 거부 단음에 대한 언어 인식기 출력 현행 분절을 순환적으로 검사하고; 현행 분절에 대한 중지 인디케이터를 측정하며; 중지 인디케이터 임계치에 대해 중지인디케이터를 시험하고; 중지 인디케이터가 중지 인디케이터 임계치를 초과할 경우 스크립트 이외에서와 같이 언어를 표시함을 포함하는 방법.
  8. 제 7항에 있어서, 문장의 단어중에서보다 문장 및 주요 구절의 끝에서 작아지는 중지 인디케이터 임계치가 언어 문맥 및 원본중의 위치에 따라 좌우되는 방법.
  9. 제 7항에 있어서, 중지 인디케이터 측정 단계가 미리 선택된 연쇄 스크립트된 단어수 이외에 언어 인식기에 의해 반송된 중지 단음을 합계함을 포함하는 방법.
  10. 제 2항에 있어서, 알트 요소가 연장된 침묵을 포함한 사항에 대한 다수의 전이 아크; 연장된 스크립트 이외의 언어; 침묵 및 스크립트 이외의 언어의 대채 기간; 및 비 중지 및 비 스크립트 이외의 언어를 포함하는 구조로 이루어지는 방법.
  11. 어떤 대상에 관해 사용자에게 정보를 제공하고 허용될 수 있는 발음으로 미리 선택된 스크립트의 독해을 유도하는 수단; 음성 정보의 시간-불변 프레임으로부터 언어-함유 부호를 나타내는 음성 표시를 감지하는 수단; 음성 정보 프레임의 축적에 상응하는 가능한 발음의 세트를 측정하기 위한 음성 정보의 프레임을 분석하는 수단; 분석 수단에 결합된 판독의 정확성을 측정하기 위한 발음의 완전함을 평가하는 수단; 및 비교 수단에 결합된 미래 선택된 스크립트를 정확하게 하는 반응을 생성하는 수단을 포함하고, 언어 인식기 생성 단어 연쇄 가설을 혼입한 방향 언어 인식 서브시스템을 사용하고 언어 인식기에 제한 요소로서 단어 연쇄 패턴의 범위를 서열화하는 언어 모델을 사용하여 시스템에 대한 구두 입력 및 구두 및 그래픽 출력으로 사용자의 언어를 추적하는 시스템.
  12. 제 11항에 있어서, 추적 시스템이 사용자가 외국어로 명령하기 위한 시스템이고 생성 수단이 본래의 발음 및 해석의 예로서 가청 반응을 발생시키는 수단을 포함하는 시스템.
  13. 제 11항에 있어서, 독해한 단어를 계수하는 수단; 스크립트된 단어를 독해하는데 소요된 시간을 측정하는 수단; 및 계수된 단어수를 측정된 소요시간으로 나누는 수단을 포함하여, 독해 속도를 측정하는 수단을 추가로 포함하는 시스템.
  14. 미리 선택된 스크립트에서 단어(195)를 계수하는 수단(194); 최적 독해 시간(197)을 설정하는 존속 시간을 제공하는 수단(196); 거부 단음(199)를 계수하는 수단(198); 미리 선택된 스크립트에서 모든 단어를 독해하는데 소요된 전체 시간(201)을 측정하는 수단(200); 분석 수단에 의해 허용될 수 있는 의도된 구문을 판독하는데 소요된 양호한 시간(203)을 측정하는 수단(202); 제 1의 몫(205)를 얻기 위해 전체 시간(201)을 양호한 시간(203)으로 나누는 수단(204); 제 1의 점수 성분(208)을 얻기 위해 제 1의 몫(205)를 제 1의 측정 변수(a)로 측정하는 수단(206); 바람직한 최대치(211)을 생성하기 위해 최적 독해 시간(197)과 양호한 시간(203) 사이의 최대치를 선택하는 수단(210); 제 2의 몫(213)을 얻기 위해 바람직한 최대치(211)을 최적 독해 시간(197)로 나누는 수단(212); 제 2의 점수 성분(216)을 얻기 위해 제 2의 몫(213)을 제 2의 측정 변수(b)로 측정하는 수단(214); 독해능 값(219)를 얻기 위해 거부 단음의 수(199)와 단어의 수(195)를 합계하는 수단(218); 제 3의 몫(221)을 얻기 위해 상기 단어의 수(195)를 상기 독해능 값(219)로 나누는 수단(220); 제 3의 점수 성분(224)를 얻기 위해 제 3의 몫(221)을 제 3의 측정 변수(c)로 측정하는 수단(222); 점수합(227)을 생성하기 위해 제 1의 점수 성분(208), 제 2의 점수 성분(216) 및 제 3의 점수 성분(224)를 합계하는 수단(226); 및 독해능 점수(230)을 얻기 위해 점수의 합(227)을 환산 계수(228)로 측정하는 수단을 포함하여, 독해능 점수(230)을 얻기 위한 독해능 측정 수단(192)를 추가로 포함하는 시스템.
  15. 어떤 대상에 관해 사용자에게 정보를 제공하고 구두 반응을 유발하기 위해 허용될 수 있는 발음의 미리 선택된 세트로부터 응답을 유도하는 수단; 음성 정보의 시간-불변 프레임으로부터 언어-함유 부호를 나타내는 음성 표시를 감지하는 수단; 음성 정보 프레임의 축적에 상응하는 가능한 발음의 세트를 측정하기 위해 음성 정보의 프레임을 분석하는 수단; 분석 수단에 결합되어 발음 세트로부터 발음의 완전함을 평가하는 수단; 평가 수단에 결합되어 발음의 종결을 나타내면서 가능한 발음 세트로부터 발음에 대한 최상의 가설을 선택하는 수단; 선택 수단에 결합되어 선택된 응답을 측정하기 위해 허용가능한 발음의 미리 선택된 세트로 최상의 가설을 비교하는 수단; 및 비교 수단에 결합되어 선택된 응답에 사응하는 반응을 생성하는 수단을 포함하고, 언어 인식기 생성 단어 연쇄가설을 혼입한 음성 언어 인식 서브시스템을 사용하고 언어 인식기에 대한 제한 요소로서 단어 연쇄 패턴의 범위를 서열화하는 언어 모델을 사용하여 언어를 추적하고 시스템에 구두 입력하는 사용자 및 구두 및 그래픽 출력과 상호작용하는 시스템.
  16. 제 15항에 있어서, 상호작용 시스템이 사용자가 외국어로 명령하기 위한 시스템이고, 생성 수단이 본래의 발음 및 해석의 예로서 가청 반응을 발생시키는 수단을 포함하는 시스템.
KR1019950703880A 1993-03-12 1994-03-08 음성-대화식언어명령방법및장치 KR100309207B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3285093A 1993-03-12 1993-03-12
US08/032850 1993-03-12
PCT/US1994/002542 WO1994020952A1 (en) 1993-03-12 1994-03-08 Method and apparatus for voice-interactive language instruction

Publications (2)

Publication Number Publication Date
KR960701431A KR960701431A (ko) 1996-02-24
KR100309207B1 true KR100309207B1 (ko) 2001-12-17

Family

ID=21867160

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950703880A KR100309207B1 (ko) 1993-03-12 1994-03-08 음성-대화식언어명령방법및장치

Country Status (7)

Country Link
US (1) US5634086A (ko)
EP (1) EP0692135B1 (ko)
JP (1) JP2006048065A (ko)
KR (1) KR100309207B1 (ko)
AT (1) ATE195605T1 (ko)
DE (1) DE69425564D1 (ko)
WO (1) WO1994020952A1 (ko)

Families Citing this family (146)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6109923A (en) 1995-05-24 2000-08-29 Syracuase Language Systems Method and apparatus for teaching prosodic features of speech
WO1997021201A1 (en) * 1995-12-04 1997-06-12 Bernstein Jared C Method and apparatus for combined information from speech signals for adaptive interaction in teaching and testing
IL120622A (en) * 1996-04-09 2000-02-17 Raytheon Co System and method for multimodal interactive speech and language training
GB9619165D0 (en) * 1996-09-13 1996-10-23 British Telecomm Training apparatus and method
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US6157913A (en) * 1996-11-25 2000-12-05 Bernstein; Jared C. Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions
US5857173A (en) * 1997-01-30 1999-01-05 Motorola, Inc. Pronunciation measurement device and method
US5920838A (en) * 1997-06-02 1999-07-06 Carnegie Mellon University Reading and pronunciation tutor
JPH1152979A (ja) * 1997-08-08 1999-02-26 Fujitsu Ltd 順序データの音声認識装置
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US5995932A (en) * 1997-12-31 1999-11-30 Scientific Learning Corporation Feedback modification for accent reduction
US6134529A (en) * 1998-02-09 2000-10-17 Syracuse Language Systems, Inc. Speech recognition apparatus and method for learning
JP3178426B2 (ja) * 1998-07-29 2001-06-18 日本電気株式会社 自然言語対話システム及び自然言語対話プログラム記録媒体
KR100385892B1 (ko) * 1998-09-10 2003-08-14 이에스피 평가 아카데미(주) 외국어말하기평가시스템
US6380934B1 (en) * 1998-11-30 2002-04-30 Mitsubishi Electric Research Laboratories, Inc. Estimating targets using statistical properties of observations of known targets
US6353924B1 (en) * 1999-02-08 2002-03-05 Incert Software Corporation Method for back tracing program execution
US7062441B1 (en) 1999-05-13 2006-06-13 Ordinate Corporation Automated language assessment using speech recognition modeling
US6308151B1 (en) * 1999-05-14 2001-10-23 International Business Machines Corp. Method and system using a speech recognition system to dictate a body of text in response to an available body of text
US6468084B1 (en) * 1999-08-13 2002-10-22 Beacon Literacy, Llc System and method for literacy development
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
EP1139318A4 (en) * 1999-09-27 2002-11-20 Kojima Co Ltd PRONUNCIATION EVALUATION SYSTEM
US6401066B1 (en) 1999-11-09 2002-06-04 West Teleservices Holding Company Automated third party verification system
US7130800B1 (en) 2001-09-20 2006-10-31 West Corporation Third party verification system
US7206746B1 (en) 1999-11-09 2007-04-17 West Corporation Third party verification system
JP3520022B2 (ja) * 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
US7031923B1 (en) * 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
US6644973B2 (en) * 2000-05-16 2003-11-11 William Oster System for improving reading and speaking
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US6850882B1 (en) 2000-10-23 2005-02-01 Martin Rothenberg System for measuring velar function during speech
US7792676B2 (en) * 2000-10-25 2010-09-07 Robert Glenn Klinefelter System, method, and apparatus for providing interpretive communication on a network
GB0030079D0 (en) * 2000-12-09 2001-01-24 Hewlett Packard Co Voice exchanges with voice service systems
WO2002050803A2 (en) * 2000-12-18 2002-06-27 Digispeech Marketing Ltd. Method of providing language instruction and a language instruction system
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6523007B2 (en) * 2001-01-31 2003-02-18 Headsprout, Inc. Teaching method and system
US7664641B1 (en) 2001-02-15 2010-02-16 West Corporation Script compliance and quality assurance based on speech recognition and duration of interaction
US7739115B1 (en) 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US8180643B1 (en) 2001-02-15 2012-05-15 West Corporation Script compliance using speech recognition and compilation and transmission of voice and text records to clients
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
US8095370B2 (en) 2001-02-16 2012-01-10 Agiletv Corporation Dual compression voice recordation non-repudiation system
US20020147587A1 (en) * 2001-03-01 2002-10-10 Ordinate Corporation System for measuring intelligibility of spoken language
KR20010044657A (ko) * 2001-03-14 2001-06-05 김선래 말하기 능력 평가 시스템
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
KR20030027990A (ko) * 2001-09-27 2003-04-08 주식회사 아이티엔방송 음성 인식 시스템을 이용한 인터넷 영어 능력 평가 시스템및 그 방법
US7386453B2 (en) * 2001-11-14 2008-06-10 Fuji Xerox, Co., Ltd Dynamically changing the levels of reading assistance and instruction to support the needs of different individuals
US6819758B2 (en) 2001-12-21 2004-11-16 West Corporation Method, system, and computer-readable media for performing speech recognition of indicator tones
KR20020062564A (ko) * 2001-12-29 2002-07-26 강선 인터넷상에서의 외국어 교정 방법 및 그 시스템
US6953343B2 (en) 2002-02-06 2005-10-11 Ordinate Corporation Automatic reading system and methods
US7024362B2 (en) * 2002-02-11 2006-04-04 Microsoft Corporation Objective measure for estimating mean opinion score of synthesized speech
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
US6804331B1 (en) 2002-03-27 2004-10-12 West Corporation Method, apparatus, and computer readable media for minimizing the risk of fraudulent receipt of telephone calls
US6862343B1 (en) 2002-03-27 2005-03-01 West Corporation Methods, apparatus, scripts, and computer readable media for facilitating secure capture of sensitive data for a voice-based transaction conducted over a telecommunications network
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
EP1376537B1 (en) * 2002-05-27 2009-04-08 Pioneer Corporation Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
US6937702B1 (en) 2002-05-28 2005-08-30 West Corporation Method, apparatus, and computer readable media for minimizing the risk of fraudulent access to call center resources
US7403967B1 (en) 2002-06-18 2008-07-22 West Corporation Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7249011B2 (en) * 2002-08-12 2007-07-24 Avaya Technology Corp. Methods and apparatus for automatic training using natural language techniques for analysis of queries presented to a trainee and responses from the trainee
US6978224B2 (en) * 2002-09-17 2005-12-20 Hydrogenics Corporation Alarm recovery system and method for fuel cell testing systems
US6889147B2 (en) * 2002-09-17 2005-05-03 Hydrogenics Corporation System, computer program product and method for controlling a fuel cell testing device
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
US7593842B2 (en) * 2002-12-10 2009-09-22 Leslie Rousseau Device and method for translating language
US7324944B2 (en) * 2002-12-12 2008-01-29 Brigham Young University, Technology Transfer Office Systems and methods for dynamically analyzing temporality in speech
US7171358B2 (en) * 2003-01-13 2007-01-30 Mitsubishi Electric Research Laboratories, Inc. Compression of language model structures and word identifiers for automated speech recognition systems
US20040138883A1 (en) * 2003-01-13 2004-07-15 Bhiksha Ramakrishnan Lossless compression of ordered integer lists
US7797146B2 (en) * 2003-05-13 2010-09-14 Interactive Drama, Inc. Method and system for simulated interactive conversation
US7421393B1 (en) * 2004-03-01 2008-09-02 At&T Corp. System for developing a dialog manager using modular spoken-dialog components
US20040229954A1 (en) * 2003-05-16 2004-11-18 Macdougall Diane Elaine Selective manipulation of triglyceride, HDL and LDL parameters with 6-(5-carboxy-5-methyl-hexyloxy)-2,2-dimethylhexanoic acid monocalcium salt
US20080249779A1 (en) * 2003-06-30 2008-10-09 Marcus Hennecke Speech dialog system
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
US7524191B2 (en) * 2003-09-02 2009-04-28 Rosetta Stone Ltd. System and method for language instruction
US7386451B2 (en) * 2003-09-11 2008-06-10 Microsoft Corporation Optimization of an objective measure for estimating mean opinion score of synthesized speech
WO2005028714A1 (en) * 2003-09-22 2005-03-31 Hydrogenics Corporation Apparatus and method for reducing instances of pump de-priming
CN1320482C (zh) * 2003-09-29 2007-06-06 摩托罗拉公司 标识文本串中的自然语音停顿的方法
US20050144010A1 (en) * 2003-12-31 2005-06-30 Peng Wen F. Interactive language learning method capable of speech recognition
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US7412393B1 (en) * 2004-03-01 2008-08-12 At&T Corp. Method for developing a dialog manager using modular spoken-dialog components
JP3962763B2 (ja) * 2004-04-12 2007-08-22 松下電器産業株式会社 対話支援装置
US20060008781A1 (en) * 2004-07-06 2006-01-12 Ordinate Corporation System and method for measuring reading skills
KR100701271B1 (ko) 2004-08-20 2007-03-29 동아시테크주식회사 온라인 외국어 인터뷰 학습 및 평가 시스템과 그 시스템을이용한 인터뷰 학습 및 평가 방법
US8109765B2 (en) * 2004-09-10 2012-02-07 Scientific Learning Corporation Intelligent tutoring feedback
US20060057545A1 (en) * 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus
US7873522B2 (en) * 2005-06-24 2011-01-18 Intel Corporation Measurement of spoken language training, learning and testing
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20070055514A1 (en) * 2005-09-08 2007-03-08 Beattie Valerie L Intelligent tutoring feedback
US8756057B2 (en) * 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
CN101366065A (zh) * 2005-11-30 2009-02-11 语文交流企业公司 交互式语言教育***和方法
US7526722B2 (en) * 2005-12-29 2009-04-28 Sap Ag System and method for providing user help according to user category
US7979798B2 (en) * 2005-12-30 2011-07-12 Sap Ag System and method for providing user help tips
KR100687441B1 (ko) * 2006-03-16 2007-02-27 장성옥 외국어 음성 평가 방법 및 시스템
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US8171412B2 (en) * 2006-06-01 2012-05-01 International Business Machines Corporation Context sensitive text recognition and marking from speech
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US20080201158A1 (en) * 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
KR100943477B1 (ko) 2007-07-10 2010-02-22 한국방송공사 말하기 능력 공증 시스템 및 그 방법
US20090087821A1 (en) * 2007-09-27 2009-04-02 Kuang Chien Computer Co., Ltd. Digital language teaching system
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
KR20100022243A (ko) * 2008-08-19 2010-03-02 현대자동차주식회사 블루투스를 이용한 외국어 학습 시스템 및 그 방법
US20100105015A1 (en) * 2008-10-23 2010-04-29 Judy Ravin System and method for facilitating the decoding or deciphering of foreign accents
TW201019288A (en) * 2008-11-13 2010-05-16 Ind Tech Res Inst System and method for conversation practice in simulated situations
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US8630726B2 (en) * 2009-02-12 2014-01-14 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8682241B2 (en) * 2009-05-12 2014-03-25 International Business Machines Corporation Method and system for improving the quality of teaching through analysis using a virtual teaching device
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US20110189646A1 (en) * 2010-02-01 2011-08-04 Amos Benninga Pedagogical system method and apparatus
KR101153736B1 (ko) * 2010-05-31 2012-06-05 봉래 박 발음기관 애니메이션 생성 장치 및 방법
US9262941B2 (en) * 2010-07-14 2016-02-16 Educational Testing Services Systems and methods for assessment of non-native speech using vowel space characteristics
CN102971787B (zh) * 2010-10-29 2014-04-23 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及***
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
WO2013003749A1 (en) * 2011-06-30 2013-01-03 Rosetta Stone, Ltd Statistical machine translation framework for modeling phonological errors in computer assisted pronunciation training system
US9576593B2 (en) * 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
JP6045175B2 (ja) * 2012-04-05 2016-12-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム
WO2014005142A2 (en) 2012-06-29 2014-01-03 Rosetta Stone Ltd Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system
US9076347B2 (en) * 2013-03-14 2015-07-07 Better Accent, LLC System and methods for improving language pronunciation
US9412362B2 (en) 2013-08-28 2016-08-09 Verint Systems Ltd. System and method for determining the compliance of agent scripts
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US20150294580A1 (en) * 2014-04-11 2015-10-15 Aspen Performance Technologies System and method for promoting fluid intellegence abilities in a subject
US9412393B2 (en) 2014-04-24 2016-08-09 International Business Machines Corporation Speech effectiveness rating
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10255913B2 (en) * 2016-02-17 2019-04-09 GM Global Technology Operations LLC Automatic speech recognition for disfluent speech
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10431112B2 (en) 2016-10-03 2019-10-01 Arthur Ward Computerized systems and methods for categorizing student responses and using them to update a student model during linguistic education
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
GB2568902B (en) * 2017-11-29 2020-09-09 Auris Tech Ltd System for speech evaluation
US11232798B2 (en) * 2020-05-21 2022-01-25 Bank Of America Corporation Audio analysis system for automatic language proficiency assessment
JP2024000236A (ja) * 2022-06-20 2024-01-05 オムロンヘルスケア株式会社 認知機能検査装置及び認知機能検査プログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4276445A (en) * 1979-09-07 1981-06-30 Kay Elemetrics Corp. Speech analysis apparatus
US4380438A (en) * 1981-08-31 1983-04-19 Yugen Kaisha Batora Konsaruteingu Automated study voice record/reproduction system
US4641343A (en) * 1983-02-22 1987-02-03 Iowa State University Research Foundation, Inc. Real time speech formant analyzer and display
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
JPH065451B2 (ja) * 1986-12-22 1994-01-19 株式会社河合楽器製作所 発音訓練装置
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5010495A (en) * 1989-02-02 1991-04-23 American Language Academy Interactive language learning system
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech

Also Published As

Publication number Publication date
US5634086A (en) 1997-05-27
EP0692135A1 (en) 1996-01-17
WO1994020952A1 (en) 1994-09-15
EP0692135B1 (en) 2000-08-16
ATE195605T1 (de) 2000-09-15
KR960701431A (ko) 1996-02-24
EP0692135A4 (en) 1997-08-13
JP3899122B2 (ja) 2007-03-28
JPH08507620A (ja) 1996-08-13
DE69425564D1 (de) 2000-09-21
JP2006048065A (ja) 2006-02-16

Similar Documents

Publication Publication Date Title
KR100309207B1 (ko) 음성-대화식언어명령방법및장치
CN108496219B (zh) 语音处理***和方法
US8209173B2 (en) Method and system for the automatic generation of speech features for scoring high entropy speech
US5791904A (en) Speech training aid
US7840404B2 (en) Method and system for using automatic generation of speech features to provide diagnostic feedback
Hirschberg et al. Prosodic and other cues to speech recognition failures
EP0708958B1 (en) Multi-language speech recognition system
Goto et al. A real-time filled pause detection system for spontaneous speech recognition
Swerts et al. Corrections in spoken dialogue systems.
US8775184B2 (en) Evaluating spoken skills
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
Wightman et al. The aligner: Text-to-speech alignment using Markov models
Wilpon et al. An investigation on the use of acoustic sub-word units for automatic speech recognition
EP1010170B1 (en) Method and system for automatic text-independent grading of pronunciation for language instruction
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
Vaněk et al. Gender-dependent acoustic models fusion developed for automatic subtitling of parliament meetings broadcasted by the Czech TV
Barczewska et al. Detection of disfluencies in speech signal
CA2158062C (en) Method and apparatus for voice-interactive language instruction
JP3899122B6 (ja) 音声対話式言語指導のための方法及び装置
San-Segundo et al. Spanish recognizer of continuously spelled names over the telephone
Stojanović et al. A Method for Estimating Variations in Speech Tempo from Recorded Speech
KR102274751B1 (ko) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
Palafox et al. Speech tracking algorithm for an automated reading tutor in filipino
WO1994015330A1 (en) Method and apparatus for automatic evaluation of pronunciation
Nouza et al. Methods and application of phonetic label alignment in speech processing tasks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110824

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20120823

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee