KR100215946B1 - 게임장치,음성선택장치,음성인식장치및음성응답장치 - Google Patents

게임장치,음성선택장치,음성인식장치및음성응답장치 Download PDF

Info

Publication number
KR100215946B1
KR100215946B1 KR1019950012057A KR19950012057A KR100215946B1 KR 100215946 B1 KR100215946 B1 KR 100215946B1 KR 1019950012057 A KR1019950012057 A KR 1019950012057A KR 19950012057 A KR19950012057 A KR 19950012057A KR 100215946 B1 KR100215946 B1 KR 100215946B1
Authority
KR
South Korea
Prior art keywords
voice
input
speech
electrical signal
lips
Prior art date
Application number
KR1019950012057A
Other languages
English (en)
Other versions
KR950034051A (ko
Inventor
마에까와히데쯔구
와따나베다쯔미
오바라가즈아끼
가야시마가즈히로
마쯔이겐지
마쯔까와요시히꼬
Original Assignee
모리시타 요이치
마쓰시타 덴키 산교 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모리시타 요이치, 마쓰시타 덴키 산교 가부시끼 가이샤 filed Critical 모리시타 요이치
Publication of KR950034051A publication Critical patent/KR950034051A/ko
Application granted granted Critical
Publication of KR100215946B1 publication Critical patent/KR100215946B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Toys (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)
  • Position Input By Displaying (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

본 발명의 게임 장치는 작동자에 의해 발성된 음성 중 적어도 하나의 음성세트를 입력하고 상기 음성 세트를 제 1 전기 신호로 변환하며 상기 제 1 전기 신호를 출력하는 음성 입력 수단과, 상기 음성 입력 수단으로부터 출력되는 제 1 전기 신호에 기초하여 상기 음성 세트를 인식하는 음성 인식 수단과, 작동자의 입술의 움직임을 광학적으로 감지하고 감지된 입술의 움직임을 제 2 전기 신호로 변환하며 상기 제 2 전기 신호를 출력하는 화상 입력 수단과, 상기 제 2 전기 신호를 수신하고 수신된 제 2 전기 신호에 기초하여 작동자가 발성한 음성의 발성 구간을 구하는 음성 발성 구간 검출 수단과, 상기 음성 인식 수단에 의해 인식된 음성 세트와 상기 음성 발성 구간 검출 수단에 의해 얻어진 구간에 기초하여 입력된 음성세트로부터 작동자가 발성한 음성을 추출하는 종합 판단 수단과, 상기 종합 판단 수단에 의해 추출된 음성에 기초하여 대상물을 제어하는 제어 수단을 구비한다.

Description

게임 장치, 음성 선택 장치, 음성 인식 장치 및 음성 응답 장치
제 1 도는 본 발명의 실시예 1 에 따른 게임 장치의 구성을 도시한 블록도.
제 2 도는 본 발명의 실시예 1 에서 실시예 3 에 따른 화상 입력부의 상세한 구성을 도시한 도면.
제 3 도는 본 발명의 실시예 1 에 따른 발성 구간 검출부의 상세한 구성을 도시한 도면.
제 4 도는 본 발명의 실시예 1 에 따른 종합판단부의 상세한 구성을 도시한 블록도.
제 5a 도는 본 발명의 실시예 1 에시 실시예 3 에 따른 출력 미분 신호의 예를 도시한 그래프.
제 5b 도는 본 발명의 실시예 1 에시 실시예 3 에 따른 출력 미분 신호의 또다른 예를 도시한 그래프.
제 6 도는 본 발명의 실시예 1 에 따른 종합 판단부의 동작을 도시한 도면.
제 7 도는 본 발명의 실시예 1 에 따른 종합 판단부의 동작을 도시한 도면.
제 8 도는 본 발명의 실시예 2 에 따른 게임 장치의 구성을 도시한 블록도.
제 9 도는 본 발명의 실시예 2에 따른 입/입술 판독부와 실시예 3 에 따른 입/입술 처리부에 대한 상세한 구설을 도시한 블록도.
제 10 도는 본 발명에 따른 미분 회로의 동작을 도시한 도면.
제 11 도는 본 발명의 실시예 2 와 실시예 3 에 따른 패턴 정합부의 등작을 도시한 도면.
제 12 도는 본 발명의 실시예 3 에 따른 게임 장치의 구성을 도시한 도면.
제 13 도는 본 발명의 실시예 3 에 따른 종합 판단부의 동작을 도시한 도면.
제 14a 도는 본 발명의 실시예 3 에 따른 종합 판단부의 동작을 도시한 도면.
제 14b 도는 본 발명의 실시예 3 에 따른 종합 판단부의 또다른 동작을 도시한 도면.
제 15a 도는 본 발명에 따른 입력 장치의 구성예를 도시한 도면.
제 15b 도는 본 발명에 따른 입력 장치의 구성예를 도시한 도면.
제 16 도는 본 발명의 실시예 4 에 따른 음성 선택 장치의 구성을 도시한 도면.
제 17a 도는 제 16 도에 도시된 음싱 선택 장치의 입출력을 도시한 도면.
제 17b 도는 제 16 도에 도시된 음싱 선택 장치의 입출력을 도시한 도면.
제 18 도는 본 발명의 실시예 4 에 따른 음성 선택 장치의 다른 구성을 도시한 도면.
제 19 도는 본 발명의 실시예 5 에 따른 방향 검출 장치의 구성을 도시한 도면.
제 20 도는 입력 음성 파형과 프레임을 도시한 도면.
제 21 도는 본 발명의 실시예 5 에 따른 방향 선택 장치의 구성을 도시한 도면.
제 22 도는 본 발명의 실시예 5 에 따른 또다른 방향 선택 장치의 구성을 도시한 도면.
제 23 도는 음성 파형, 에너지 및 순환 메모리를 도시한 도면.
제 24 도는 본 발명의 실시예 6 에 따른 음성 종료점 검출 방법을 도시한 도면.
제 25 도는 본 발명의 실시예 6 에 따른 음성 검출 방법을 도시한 도면.
제 26 도는 본 발명의 실시예 6 에 따른 음성 인식 장치의 구성을 도시한 블록도.
제 27 도는 본 발명의 음성 인식 장치와 음성 선택 장치를 포함한 음성 응답장치의 구성을 도시한 도면.
제 28 도는 본 발명의 방향 검출 장치와 조작 장치를 포함한 음성 응답 장치의 구성을 도시한 도면.
제 29 도는 본 발명의 음성 인식 장치, 방향 선택 장치 및 조작 장치를 포함한 음성 응답 장치의 구성을 도시한 도면.
제 30 도는 본 발명의 방향 검출 장치, 방향 선택 장치 및 조작 장치를 포함한 음성 응답 장치의 구성을 도시한 도면.
제 31 도는 본 발명의 음성 인식 장치와 조작 장치를 포함한 음성 응답 장치의 구성을 도시한 도면.
제 32 도는 원격 제어될 수 있는 음성 응답 장치의 구성을 도시한 도면.
제 33 도는 본 발명의 음성 응답 장치를 포함한 장난감 예를 도시한 도면.
제 34 도는 종래 게임 장치의 구성을 도시한 도면.
*도면의 주요부분에 대한 부호의 설명 *
31 : 미분 회로 100 : 음성 선택 장치
400 : 방향 검출 장치 600,700 : 방향 선택 장치
1203,1303,1402,1501,1601 : 음성 응답 장치
[발명의 분야]
본 발명은 음성을 이용해 동작되는 게임 장치, 입이나 입술 모양의 화상과 음성을 입력하는 입력 장치 및 음성 응답 장치에 관한 것이다.
[종래의 기술]
제 34 도는 종래 게임 장치의 예를 도시한다. 이 게임 장치에서는 무선 수신기를 포함하는 비행선(7)을 동작시키기 위해 작동자가 무선 송신기를 포함한 원격 제어기를 이용한다. 제 34 도에 도시된 바와 같이 이와 같은 종래의 게임 장치는 일반적으로 원격 제어기에 구비된 조이스틱(joy sticl0(161)을 이용하여 작동자가 대상물(비행선)(7)을 조작한다. 작동자가 조이스틱(161)을 이동시키면 그 이동 각도가 각도 검출부(162 및 163)에 의해 감지되고 전기 신호로 변환되어 제어부(164)에 입력된다. 제어부(164)는 조이스틱(161)의 이동 각도에 따라 비행선(7)의 이동을 제어하는 무선 제어 신호를 출력한다.
그러나, 종래의 게임 장치에서 요구되는 조이스틱(161)의 이용은 인간(작동자)의 자연스러운 조작을 허용하지 않는다. 이는 작동자가 조작에 익숙해지는데 시간이 요구되고 원하는 만큼의 빠른 응답이 이루어질 수 없다는 문제점을 제공한다. 비행선 외에 작동자가 구동 장치를 갖춘 풍선을 조작하는 또다른 게임 장치의 예에서도 풍선의 이동은 상기의 방법으로 제어되어 풍선의 이등이 비생물적이므로 같은 문제점을 제공한다.
또한, 작동자의 입이나 입술 모양의 화상을 입력하여 작동자의 음성을 인식하는 장치도 제안되었다. 그러나;이러한 장치는 고도의 광학계 렌즈를 필요로 하므로 장치 전체의 크기와 규모가 커질 뿐 아니라 가격이 높아지는 문제점이 있다.
[발명의 개요]
본 발명의 게임 장치는, 작동자에 의해 발성된 음성을 포함하는 적어도 하나의 음성 세트를 입력하고. 상기 음성 세트를 제 1 전기 신호로 변환하며, 상기 제 1 전기 신호를 출력하는 음성 입력 수단과: 상기 음성 입력 수단으로부터 출력되는 제 1 전기 신호에 기초하여 상기 음성 세트를 인식하는 음성 인식 수단과; 작동자의 입술의 움직임을 광학적으로 감지하고, 감지된 입술의 움직임을 제 2 전기 신호로 변환하며, 상기 제 2 전기 신호를 출력하는 화상 입력 수단과; 상기 제 2 전기 신호를 수신하고;수신된 제 2 전기 신호에 기초하여 작동자가 발성한 음성의 구간을 구하는 발성 구간 검출 수단과:상기 음성 인식 수단에 의해 인식된 음성 세트와 상기 발성 구간 검출 수단에 의해 얻어진 구간을 근거로 입력된 음성 세트로부터 작동자가 발성한 음성을 추출.하는 종합 판단 수단과;상기 종합 판단 수단에 의해 추출된 음성을 근거로 대상물을 제어하는 제어 수단을 구비한다.
본 발명의 한 실시예에서 상기 발성 구간 검출 수단은, 상기 화상 입력 수단으로부터 출력되는 제 2 전기 신호의 변화 정도를 검출하는 미분 수단과; 상기 미분 수단에 의해 검출된 변화 정도가 소정의 값을 넘으면 대응하는 음성을 작동자에 의해 발성된 음성으로 판단하는 수단을 구비한다.
본 발명의 또다른 실시예에서 상기 종합 판단 수단은, 상기 발성 구간 검출 수단에 의해 얻어진 구간에 소정의 길이를 갖는 구간을 더하여 평가 구간을 작성하는 수단과; 상기 음성 인식 수단에 의해 인식된 음성 세트가 상기 음성 인식 수단으로부터 출력되는 인식 결과 출력시간을 검출하는 수단과;상기 인식 결과 출력시간과 상기 평가 구간 간을 비교하여 상기 인식 결과 출력시간이 상기 음성 세트의 상기 평가 구간내에 드는 음성을 작동자에 의해 발성된 음성으로 판단하는 수단을 구비 한다.
또한, 본 발명의 게임 장치는. 작동자의 입술의 움직임을 광학적으로 입력하고, 입력된 입술의 움직임을 전기 신호로 변환하며, 상기 전기 신호를 출력하는 화상 입력 수단과; 상기 전기 신호에 기초하여 입술의 움직임을 구하고, 구해진 입술의 움직임에 대응하는 단어를 인식하며, 그 인식 결과를 출력하는 입술 판독 수단과; 상기 인식 결과에 근거한 제어 신호에 따라 대상물을 제어하는 제어 수단을 구비한다.
본 발명의 한 실시예에서 상기 입술 판독 수단은, 소정 수의 단어를 저장하는 저장 수단과; 구해진 입술 움직임을 근거로 소정 수의 단어로부터 한 단어를 선택하고, 상기 선택된 단어를 입술의 움직임에 대응하는 단어로 판단하는 정합 수단을 구비한다.
본 발명의 또다른 실시예에서, 상기 저장 수단은 소정 수의 단어에 대응하는 입술의 움직임을 표준 패턴으로 저장하고, 상기 정합 수단은 모든 표준 패턴에 대해 구해진 입술의 움직임으로부터의 거리를 계산하며, 표준 패턴에 대해 계산된 거리 중 최소 한 개에 대응하는 단어를 선택한다.
본 발명의 또다른 실시예에서 상기 게임 장치는, 음성을 입력하고; 상기 음성을 또다른 전기 신호로 변환하며;상기 또다른 전기 신호를 출력하는 음성 입력수단과; 상기 음성 입력 수단으로부터 출력된 또다른 전기 신호에 기초하여 음성을 인식하는 음성 인식 수단과; 상기 음성 인식 수단에 의한 인식 결과와 상기 입술 판독 수단에 의한 인식 결과에 기초하여 상기 제어 수단에 인가될 제어 신호를 출력하는 종합 판단 수단을 구비한다.
본 발명의 또다른 실시예에서 상기 게임 장치는, 상기 음성 인식 수단에 의한 인식 결과에 대해 음성 인식 신뢰도를 구하는 수단과;상기 입술 판독 수단에 의한 인식 결과에 대해 입술 판독 신뢰도를 구하는 수단을 구비하고, 상기 종합 판단 수단은 상기 음성 인식 신뢰도와 상기의 입술 판독 신뢰도에 기초하여 상기 음성 인식 수단에 의한 인식 결과와·상기 입술 판독 수단에 의한 인식 결과중 하나를 선택하고 선택된 인식 결과를 제어 신호로 출력한다.
본 발명의 또다른 실시예에서 상기 화상 입력 수단은, 빛을 발하는 발광 수단과, 작동자의 입술로부터 반사된 빛을 수신하고 수신된 빛을 상기 제 2 전기 신호로 변환하는 광 검출 수단을 구비한다.
본 발명의 또다른 실시예에서 상기 빛은 입술의 측면에서 입술에 조사된다.
본 발명의 또다른 실시예에서 상기 빛은 입술의 정면에서 입술에 조사된다.
본 발명의 또다른 실시예에서 상기 음성 입력 수단은 적어도 하나의 마이크로폰(micro-phone)을 구비 한다.
본 발명의 또다른 실시예에서 상기 음성 입력 수단은 적어도 하나의 마이크로폰을 구비하고. 상기 마이크로폰과 상기 화상 입력 수단의 발광 수단 및 광검출수단은 단일 스테이지(stage) 상에 제공된다.
본 발명의 입력 장치는, 헤드폰(headphone)형의 헤드 세트와; 한쪽 끝이 헤드 세트에 접합된 지지대와; 상기 지지대의 또다른 끝에 접합되고, 작동자의 입술에 조사되는 빛을 발생하는 적어도 하나의 발광 소자와, 상기 입술로부터 반사된 빛을 수신하는 적어도 하나의 광 검출 소자를 포함하는 스테이지(stage)를 구비한다.
본 발명의 실시예에서 상기 스테이지는 제공된 음성을 입력하는 음성 입력수단을 더 구비한다.
본 발명의 음성 선택 장치는, 하나의 입력에 대해 출력될 수 있는 다수의 단어를 각각 포함하는 다수의 테이블을 저장하는 제 1 기역 수단과; 상기 다수의 테이블 중 하나를 저장하는 제 2 기억 수단과; 외부의 입력에 따라 상기 제 2 기억 수단에 저장된 한 테이블의 다수의 단어로부터 하나의 단어를 선택하고, 선택된 한 단어를 음성으로 출력하는 선택 수단과; 상기 제 2 기억 수단에 저장된 한 테이블을 상기 제 1 기억 수단에 저장된 다수의 테이블 중 상기 선택된 한 단어에 따라 결정된 다른 한 테이블로 바꾸는 변경 수단을 구비한다.
본 발명의 한 실시예에서, 상기 음싱 선택 장치는 랜덤수를 발생하는 수단을 더 구비하고, 상기 선택 수단은 상기 랜덤수를 이용하여 다수의 단어로부터 한 단어를 선택한다.
또한, 상기 음성 선택 장치는. 하나의 입력에 대응하여 출력될 수 있는 다수의 단어를 포함하는 테이블이 저장되는 기억 수단과; 외부 입력을 수신하고 랜덤수를 이용하여 상기 기역 수단에 저장된 테이블의 다수의 단어로부터 한 단어를 선택하며 선택된 하나의 단어를 음성으로 출력하는 선택 수단과;상기 랜덤수를 발생하는 수단을 구비한다.
본 발명의 음성 응답 장치는, 상술한 음성 선택 장치와; 음성을 수신하고 상기 음성을 인식하며 인식 결과를상기 음성 선택 장치에 출력하는 음성 인식 장치를 구비한다.
또한, 본 발명의 게임 장치는 상술한 음성 응답 장치를 구비한다.
또한. 본 발명의 게임 장치는 상술한 다수의 음성 응답 장치를 구비하고 상기 다수의 음성 응답 장치는 서로 대화가 가능하다.
또한, 본 발명의 게임 장치는, 입력된 음성을 전기 신호로 변환하고 각각이 다른 방향에 대응하는 다수의 음성 입력부와; 상기 다수의 음성 입력부 각각에 대해 전기 신호의 에너지를 구하고, 상기 다수의 음성 입력부중 최고의 에너지를 갖는 하나를 결정하며, 결정된 하나의 음성 입력부에 대응하는 방향을 음성이 발생된방향으로 판정하는 방향 검출 수단을 구비한다.
본 발명의 한 실시예에서 상기 게임 장치는, 대상물을 동작시키는 작동 수단과, 상기 판정된 방향으로 대상물의 동작 방향을 바꾸기 위해 상기 작동 수단을 제어하는 제어 수단을 더 구비한다.
본 발명의 또다른 실시예에서 상기 게임 장치는, 대상물의 현재 동작 방향을 측정하는 측정수단과; 상기 판정된 방향을 입력하고 상기 현재 방향과 상기 판정된 방향을 근거로 목적 방향을 구하며 상기 목적 방향을 저장하는 수단; 을 구비하는 방향 선택 수단과, 상기 대상물을 동작시키는 작등 수단을 더 구비하며, 상기 방향 선택 수단은 상기 목적 방향과 상기 현재 방향간의 차이를 이용하여 상기 대상물의 현재 동작 방향이 실질적으로 상기 목적 방향에 일치하도록 상기 작동 수단을 제어한다.
또한, 본 발명의 게임 장치는, 음성을 이용하여 상대적인 방향을 입력하는 입력 수단과; 대상물의 현재 방향을 측정히는 측정 수단과; 상기 현재 방향과 상기 입력된 상대적인 방향을 근거로 목적 방향을 구하고 상기 목적 방향을 저장하는 수단;을 포함하는 방향 선택 수단을 더 구비하고, 상기 방향 선택 수단은 상기 목적 방향과 상기 현재 방향간의 차이를 이용하여 상기 대상물의 현재 동작 방향이 실질적으로 상기 목적 방향에 일치하도록 대상물을 제어한다.
본 발명의 한 실시예에서, 상기 입력 수단은 상기 음성이 입력되는 입력부와, 상기 입력된 음성을 근거로 상대적인 방향을 인식하는 인식부를 구비한다.
또한, 본 발명의 게임 장치는, 음성을 이용하여 절대적인 방향을 입력하는 입력 수단과; 상기 절대적인 방향을 근거로 목적 방향을 결정하고 상기 목적 방향을 저장하는 수단과; 대상물의 현재 방향을 측정하는 측정 수단; 을 포함하는 방향 선택 수단을 구비하고, 상기 방향 선택 수단은 상기 목적 방향과 상기 현재 방향간의 차이를 이용하여 상기 대상물의 현재 동작 방향이 실질적으로 상기 목적 방향에 일치하도록 대상물을 제어한다.
본 발명의 실시예에서 상기 입력 수단은 상기 음성이 입력되는 입력부와 상기 입력된 음성을 근거로 절대적인 방향을 인식하는 인식부를 구비한다.
본 발명의 음성 인식 장치는, 음성에 대응하는 전기 신호를 수신하고 상기 전기 신호에 기초하여 음성의 입력이 종료된 시간을 나타내는 음성 종료점을 검출하는 제 1 검출 수단과;상기 전기 신호에 기초하여 상기 음성이 입력된 전 구간내에서 상기 음성이 발성된 구간인 발성 구간을 결정하는 제 2 검출 수단과; 상기 발성 구간에 대응하는 상기 전기 신호의 일부에 기초하여 특성량 벡터를 제공하는 특성량 추출 수단과; 앞서 작성된 다수의 음성 후보에 대한 특성량 벡터를 저장하는 기억 수단과; 상기 특성량 추출 수단으로부터의 특성량 벡터와 상기 기억 수단에 저장된 다수의 음성 후보에 대한 각각의 특-성량 벡터를 비교하여 상기 입력된 음성을 인식하는 수단을 구비한다.
본 발명의 한 실시예에서 상기 제 ]. 검출 수단은, 각각이 소정의 길이를 갖는 다수의 프레임으로 상기 전기 신호를 분할하는 수단과;다수의 프레임의 각각에 대해 상기 전기 신호의 에너지를 구하는 계산 수단과; 상기 에너지의 분산(variance)에 기초하여 상기 음성 종료점을 결·정하는 결정 수단을 구비한다.
본 발명의 또다른 실시예에서, 상기 결정 수단은 소정의 한계값을 상기 에너지의 분산과 비교하여 상기 음성 종료점을 결정하고, 상기 음성 종료점은 상기 에너지의 분산이 상기 한계값 보다 큰 값에서 작은 값으로 변화되는 동안 상기 한계 값에 일치하는 시간에 대응한다.
본 발명의 또다른 실시예에서 상기 결정 수단은 다수의 프레임의 에너지중 소정수의 프레임의 에너지에 대한 분산을 이용한다.
본 발명의 또다른 실시예에서 상기 제 2 검출 수단은;상기 전기 신호의 에너지를 평활화하는 수단과; 평활화하기 전에 각 프레임에 대한·상기 전기 신호의 에너지를 순차적으로 저장하는 제 1 순환 기억 수단과;각 프레임에 대한 평활화된 에너지를 순차적으로 저장하는 제 2 순환 기억 수단과;상기 음성 종료점이 검출된 시간에 상기 제 1 순환 기억 수단에 저장된 평활화하기 전의 에너지와 상기 음성 종료점이 검출된 시간에 상기 제 2 순환 기억 수단에 저장된 평활화된 에너지를 모두 이용하여 발성 구간 검출 한계값을 계산하는 한계값 계산 수단과; 평활화하기 전의 에너지와 상기 발성구간 검출 한계 값을 비교하여 상기 발성 구간을 결정하는 발성 구간 결정 수단을 구비한다.
본 발명의 또다른 실시예에서, 상기 한계값 계산 수단은, 상기 음성 종료점이 검출된 시간에 상기 제 1 순환 기억 수단에 저장된 평활화하기 전의 에너지의 최대치와 상기 음성 종료점이 검출되지 않은 시간에 상기 제 2 순환 기억 수단에 저장된 평활화된 에너지의 최소치를 이용하여 발성 구간 검출 한계값을 계산한다.
본 발명의 또다른 실시예에서 상기 특성량 검출 수단은, 상기 전기 신호의 발성 구간으로부터, 상기 전기 신호의 각 프레임의 제로 교차수와. 상기 전기 신호를 미분하여 구한 신호의 각 프레임의 제로 교차수와. 상기 전기 신호의 에너지를 계산하고, 이 값들은 상기 특성량 벡터의 요소로 사용된다.
또한;본 발명의 상기 음성 응답 장치는, 상술한 적어도 하나의 음성 인식 장치와;상기 적어도 하나의 음성 인식 장치의 인식 결과에 기초하여 대상물을 제어하는 적어도 하나의·제어 장치를 구비한다.
본 발명의 실시예에서 상기 음성 응답 장치는, 상기 적어도 하나의 음성 인식 장치에 연결되어 상기 적어도 하나의 음성 인식 장치에 의한 인식 결과를 송신하는 송신 수단과; 상기 적어도 하나의 제어 장치에 언결되어 상기 송신된 인식 결과를 수신하고 상기 적어도 하나의 제어 장치에 상기 인식 결과를 인가하는 수신수단을 더 구비하고, 상기 적어도 하나의 제어 장치와 상기 수신 수단이 상기 대상물에 부착됨으로써 대상물이 원격 제어기에 의해 제어될 수 있다.
이와 같이 본 발명은;(1) 사람의 음성에 의해 조작이 가능하고, 조작이 익숙해지는데 시간이 요구되지 않으며, 시끄러운 상황이나 화자가 음성을 쉽게 발성할 수 없는 상황에서 이용될 수 있고 발성 장애를 가진 사람도 이용할 수 있는 저가의 게임 장치를 제공하고,(2) 게임 장치나 완구가 자연스럽게 동작될 수 있도록하는 음성 인식 장치를 제공하고,(3) 입력된 음성에 대응하여 동작이 변할 수 있는 음성 응답 장치를 제공하는 이점을 갖는다.
본 발명의 상기 및 또다른 이점은 첨부된 도면을 참조로 상세한 설명을 이해하면 종래의 기술에 대한 숙련자가 명백하게 알 수 있다.
[양호한 실시예의 설명]
[실시예 1]
이하, 본 발명의 실시예 1 에 따른 게임 장치가 첨부된 도면을 참조로 설명된다. 본 실시예의 게임 장치에 따라 비행선은 비행선의 다양한 이동에 대응하는 음성 명령에 의해 조작된다. 음성 명령은 、마에(전)' 、우시로(후)', 、미기(우)', 、히다리(좌)', 、우에(상)', 、시따(하)'의 6 개 명령을 포함한다. 본 실시예에서는 화자로부터 발생한 음성 신호 뿐만 아니라 화자의 입술의 움직임을 나타내는 신호(이후 、입술 움직임 신호'라 칭한다)가 게임 장치에 입력된다. 상기 음성 신호와 입술 움직임 신호에 기초하여, 화자 즉, 게임 장치의 작동자가 말하고 있는지의 여부를 판단하는 처리가 행해진다. 그 결과, 특히 다른 사람이 발성한 음성과 같은 주위의 잡음으로 인한 게임 장치의 오동작을 방지할 수 있다.
제 1 도는 본 실시예에 따른 게임 장치의 구성을 도시한다. 제 1 도에 도시된 바와 같이 상기 게임 장치는,'입력된 음성을 처리하는 음성 입력부(1), 음성 인식부(2), 화상 입력부(3), 및 발성구간 검출부(4)를 구비한다. 상기 화상 입력부(3)는 화자의 입술의 움직임을 나타내는 입술 움직임 신호를 처리한다. 상기 음성 인식부(2)와 발성구간 검출부(4)는 모두 종합 판단부(5)에 연결된다. 종합 판단부(5)는 화자의 입술의 움직임과 입력된 신호에 기초하여 화자에 의해 제공된 명령을 판단한다. 종합 판단부(5)의 판단 결과는 제어부(6)에 입력되고 제어부(6)는 판단결과에 기초하여 비행선(7)을 제어한다.
먼저, 화자에 의해 제공된 명령을 포함하는 음성은 음성 입력부(1)에 입력된다. 음성의 입력은 일반적인 마이크로 폰(nlicrophone) 등을 이용해 실행된다. 음성 입력부(1)는 입력된 음성을 전기 신호로 변환하여 음성 신호(11)로 음성 인식부(2)에 출력한다. 음성 인식부(2)는 음성 신호(11)를 분석하여 그 결과를 음성 인식 결과(12)로 출력한다. 음성 신호(11)의 분석은 예를 들어. DP 정합(DP nlatching)등의 종래 공지된 방법으로 실행될 수 있다.
상기의 입력 음성 처리와 함께 입술 움직임 신호의 처리가 실행된다. 화자가 명령을 제공할 때 화자의 입술의 움직임이 화상 입력부(3)에 입력된다. 제 2 도는 화·상 입력부(3)의 구성예를 도시한다. 본 실시예의 화상 입력부(3)는 LED(Light Enlitting Diode)(21)로부터 발하여진 빛을 화자의 입술을 포함하는 부분(이후 '입술부분'이라 칭한다)에 조사한다. 입술부분에서 반사된 빛은 광 다이오드(22)에 의해 검출된다. 그래서, 화자의 입술의 움직임에 따른 입술 움직임 신호(13)는 화상 입력부(3)로부터 출력된다. 화자의 입술이 움직이는 경우 입술 움직임 신호(13)의 레벨은 화자의 입술 부근의 음영 변화에 따라 변한다. LED(21)로부터의 빛은 수직으로. 즉 화자의 정면으로부터 조사될 수도 있고, 수평으로, 즉 화자의 한 측면으로부터 조사될 수 있다.
화상 입력부(3)로부터의 입술 움직임 신호(13)는 발성 구간 검출부(4)에 입력된다. 제 3 도는 본 실시예의 발성 구간 검출부(4)에 대한 구성예를 도시한다.
제 3 도에 도시된 바와 같이 발성 구간 검출부(4)는 미분회로(31)와 구간 검출부(32)를 포함한다. 미분 회로(31)는 입력된 입술 움직임 신호(13)에서의 변화도를 나타내는 미분 신호(33)를 출력한다. 제 5a 도와 제 5b 도는 LED(21)로부터의 빛이 화자의 입술에 측면으로부터(즉, 수평으로) 조사될 때 구해진 미분 신호(33)의 파형예를 도시한다. 제 5A 도에 도시된 미분 신호(33)의 파형은 작동자가 、마에(전)'라 말했을 경우에 구해진 파형이고, 제 5b 도에 도시된 미분 신호(33)의 파형은 작동자가 、우시로(후)'라 말했을 경우에 구해진 파형이다. 제 5a 도 및 제 5b 도로부터 알 수 있듯이 미분 신호(33)가 큰 진폭을 갖는 경우는 작동자가 발성하는 때이다. 또한, LED(21)로부터의 빛은 작등자의 입술에 한 측면으로부터 조사되므로 명령 、우시로'의 、우'를 발성할 때 앞으로 나오는 입술의 움직임은 미분 신호(33)의 파형에 반영된다. LED(21)로부터의 빛이 화자의 입술에 정면으로부터 조사되는 경우에는 빛이 작동자의 얼굴에 바로 조사되므로 입술 움직임 신호(13)와 미분 신호(33)는 배경의 움직임으로 인한 잡음의 영향을 받지 않는다.
구간 검출부(32)는 미분 신호(33)를 수신하고 미분 신호(33)의 진폭을 판정하여 화자의 발성 구간을 검출한다. 발성 구간을 검출하는 구체적 방법은 제 6 도를 참조로 설명된다.
미분 신호(33)의 레벨(진폭)이 한계 진폭값(51)을 넘으면, 구간 검출부(32)는 미분 신호가 작동자의 명령에 의해 생성된 것으로 판단하고 미분 신호(33)의 레벨이 한계 진폭값(51)을 넘는 구간을 발성 구간으로 정의한다. 제 6 도에 도시된예에서는 구간(1)과 구간(2)가 발성 구간이다. 다음에, 구간 검출부(32)는 인접한 발성 구간간의 간격을 소정의 한계 시간 결이(52)와 비교한다. 소정의 한계 시간 길이(52)는 다수의 발성 구간이 화자에 의한 동일한 발성에 대응하는가 여부. 즉 다수의 발성 구간이 연속적으로 이루어지는지의 여부를 판단하는데 사용된다. 2개의 발성 구간간의 간격이 한계 시간 길이(52) 이하인 경우 발성 구간은 그 간격을 포함하는 하나의 연속 발성 구간으로 판단된다. 이와 같이 판단된 연속 발성 구간을 나타내는 발성 구간 검출 신호(14)가 발성구간 검출부(4)로부터 출력된다.
한계 시간 길이(52)와 한계 진폭값(51)은 적절한 값으로 설정된다.
상술한 바와 같이, 발성 구간 검출부(4)는 미분 신호(33)에 기초하여 화자의 입술 움직임의 강도와 지속시간을 검출하여 작동자가 명령을 발성한 구간(、발성구간')을 구한다.
다음에 종합 판단부(5)의 동작을 설명한다. 제 4 도에 도시된 바와 같이 종합 판단부(5)는 음성 인식 시간 판정부(41), 출력 판정부(42), 및 출력 게이트(gate)(43)를 포함한다. 음성 인식 시간 판정부(41)는 음성 인식 결과(12)를 수신하여 인식 결과가 음성 인식부(2)로부터 출력되는 지속 시간을 출력 판정부 (42)에 송신한다. 출력 판정부(42)는 음성 인식 시간 판정부(41)로부터의 출력과 함께 발성 구간 검출부(4)로부터 발성 구간 검출 신호(14)도 수신한다. 이제 제 7 도를 참조로 발성 구간 검출부(42)의 동작을 설명한다.
수신된 발성 구간 검출 신호(14)에 기초하여 출력 판정부(42)는 발성 구간의 전후에 평가를 위한 한계 시간 길이(71)(이후 、평가용 한계 시간 길이(71)'이라 칭한다)를 추가하여 평가를 위한 발성구간(72)(이후 、평가용 발성구간(72)'이라 칭한다)을 작성한다. 다음에, 출력 판정부(42)는 음성 인식 결과(12)가 음성 인식부(2)로부터 출력되는 지속 시간이 평가용 발성구간(72)내에 있는지의 여부를 판정한다. 지속 시간이 평가용 발성구간(72)내에 있는 경우, 음성 입력부(1)에 입력되고 음성 인식부(2)에 의해 인식된 음성은 화자에 의해 발성된 것으로 판단된다. 출력 판정부에 의한 판정 결과는 신호(15)로 제어부(6)에 출력된다.
평가용 발성구간(72)을 작성하기 위해 사용된 평가용 한계 시간 길이(71)는 음성 인식부(2)가 인식 처리를 수행하는데 요구되는 시간을 고려하여 설정된다. 이는 음성 인식 결과(12)가 출력되는 지속시간이, 인식된 음성이 화자에 의해 발성된 것인지의 여부를 판단하는 기준으로 사용되기 때문이다.
이와 같이 화자가 발성하여 입력된 명령에 대응하는 신호(15)가 구해지면, 제어부(6)는 입력된 명령에 따라 무선 제어 신호를 출력하여 비행선(7)을 제어한다.
실시예 1 에서는 화자가 명령을 발싱하는 발성 구간이 명령이 발성되는 동안의 화자의 입술익 움직임을 근거로 검출된다. 검출된 발성 구간을 근거로, 인식된 음성이 화자에 의해 발성된 것인지의 여부가 판단된다. 그 결과, 다른 사람의 발성에 의한 잘못된 인식을 방지하여 제어될 대상물(예컨대, 비행선)이 오동작되는 것을 막는다.
따라서, 사람의 음성에 의해 동작될 수 있어 화자(작동자)에 의한 자연스러운 조작을 가능하게 하는 게임 장치가 실현된다. 또한; 본 실시예에서는 화자의 입술의 움직임이 LED 와 광 다이오드의 조합을 근거로 간단한 구성과 방법으로 검출된다. 그 결과, 상기 게임 장치는 화자의 입술의 학상을 비디오 카메라 등에 의해 포착하는 종래의 게임 장치와 비교해 볼 때 매우 저렴한 비용으로 실현될 수 있다. 상기의 광 다이오드는 광 트랜지스터로 대체할 수 있다.
제 2 도와 제 3 도에 도시된 회로의 구성은 예시에 불과하다. 본 발명은 이특정 구성에 한정되지 않는다. 다른 방법으로 본 발명은 컴퓨터 소프트웨어를 이용하여 실현될 수 있다.
[실시예 2]
실시예 2 의 게임 장치에서는 명령0l 화자에 의해 발성된 음성 대신에 화자(게임 장치의 작동자)의 입술의 움직임만을 근거로 입력되어 입력된 명령에 따라 비행선을 제어한다. 그러므로, 본 실시예의 게임 장치는 잡음이 있는 환경이나 작동자의 발성이 쉽지 않은 상황(예를 들면, 한 밤중)에 사용될 수 있고 발성 장애가 있는 사람들이 사용할 수 있다.
제 8 도는 본 실시예의 게임 장치에 대한 구성을 간략하게 도시한다. 제 8 도에 도시된 바와 같이 본 실시예의 게임 장치는 실시예 1 의 게임 장치와 같이 화상 입력부(3), 제어부(6), 및 비행선(7)을 포함한다. 또한, 상기 게임 장치는 학자(작동자)가 발성한 단어를 인식하기 위한 입술 판독부(81)를 더 포함한다.
제 9.도는 입술 판독부(81)의 구성예를 도시한다. 본 실시예에서 입술 판독부(81)는 미분 회로(31), 차분 계산부(91), 데이타 베이스(92), 및 패턴 정합부(93)를 포함한다. 미분 회로(31)는 실시에 1 의 발성구간 검출부(4)에 포함된 미분회로(31)와 동일하다.
차분 계산부(91)는 미분 회로(31)로부터 출력된 미분 신호(33)를 소정의 시간 간격으로 표본화하여 다수의 데이타 표본을 포함하는 표본화 데이타열을 구하고 그 데이타 표본간의 차분을 계산한다. 뺄샘의 결과(이후 、차분 데이타열'이라 칭한다.)는 차분 계산부(91)로부터 데이타 베이스(92)와 패턴 정합부(93)에 공급된다. 데이타 베이스(92)는 인식에 사용되는 표준 패턴(탬플리트)의 차분 데이타열을 저장한다. 패턴 정합부(93)는 데이타 베이스(92)에 저장된 각 표준 패턴의 차분 데이타열과 인식 대상으로 입력된 패턴의 차분 데이타열 간의 거리의 차분을 구한다. 패턴 정합부(93)는 구해진 차분을 근거로 입력된 단어를 화자의 입술의 움직임으로 인식한다. 따라서, 인식의 신뢰도는 상술한 차분이 감소됨에 따라 증가된다.
이하 본 실시예의 게임 장치의 등작을 상세히 설명한다. 본 실시예에서는 입술 판독부(81)가 표준 패턴과 입력 패턴을 상기의 방법으로 비교하여 입력된 단어 를 인식한다. 따라서, 인식 동작에 앞서 입술 판독부(81)에 표준 패턴을 먼저 등록할 필요가 있다.
(등록 동작)
먼저, 화상 입력부(3)는 LED 로부터 조사되어 화자(작동자)의 입술 부분에서 반사된 빛을 수신하고, 입술의 움직임에 따라 발생된 전기 신호(13)를 입술 판독부(81)에 출력한다. 전기 신호(13)는 입술 판독부(81)의 미분 회로(31)에 입력된다.
미분 회로(31)는 전기 신호(13)의 변화 정도를 나타내는 미분 신호(33)를 차분 계산부(91)에 전달한다. 이 단계까지의 동작은 실시예 1 과 동일하다.
차분 계산부(91)의 동작은 제 10 도를 참조로 설명된다. 먼저, 차분 계산부(91)는 미분 신호(33)를 시간폭(△t)으로 표본화하고, 구해진 표본화 데이타열에서 인접한 데이타 표본간의 차분을 계산한다. 각 데이타 표본간에 계산된 차분, 즉 차분 데이타열이 베이스(92)로 출력된다. 데이타 베이스(92)는 이 차분 데이타열을 저장한다. 이와 같은 동작은 소정의 횟수만큼 반복된다. 이 횟수는 인식될 단어(카테고리)의 수와 동일하다. 모든 카테고리에 대한 차분 데이타열이 저장된다.
저장된 차분 데이타열은 인식에.사용되는 표준 패턴으로 유지된다. 본 실시예에서 대상물을 제어하는데 사용되는 명령은 、마에(전)', 、우시로(후)'. 、미기(우)', 、히다리(좌)', 、우에(상)', 및 、시따(하)'이다. 즉,6 개의 명령이 사용된다. 따라서. 차분 데이타열을 저장하는 처리과정은 6 번 반복되고 최종적으로 6 개의 표준 패턴이 데이타 베이스(92)에 보존된다.
모든 표준 패턴을 데이타 베이스(92)에 등록하는 것이 총료되면 데이타 베이스(92)는 각 차분 데이타열을 조사하고 각 차분 데이타열에 대해 입술이 움직이는 부분에 대응하는 데이타가 연속되는 구간 길이를 추출한다. 구체적으로 예를 들면, 0 에 가까운 값이 차분 데이타열내에서 소정의 시간동안 계속되는 경우, 데이타 베이스(92)는 그 데이타가 입술이 움직이지 않는 구간에 대응한다고 판단한다.
입술이 움직이는 부분에 대응하는 구간 길0l가 모든 표준 패턴에 대해 추출이 완료되면, 최대 길이를 갖는 표준 꽤턴이 선택되고 최대 길이는 그 표준 패턴에 대한 차분 데이타열 길이(N)로 정해진다. 이와 같이 등록이 완료되고 표준 패턴의 차분 데이타열이 데이타 베이스(92)에 보존된다.
(인식동작)
입술부분의 움직임을 입력하는 단계로부터 미분 신호(33)를 구하는 단계까지의 동작은 등록 동작의 경우와 동일하다. 여기서는 미분 신호(33)가 차분 계산부(91)에 입력된 이후의 동작을 제 11 도를 참조로 설명한다.
등록 동작의 경우와 동일하게 차분 계산부(91)에 입력된 미분 신호(33)는 시간폭(△t)으로 표본화된다. 다음에, 표준 패턴의 차분 데이타열 길이(N)와 동일한 길이를 갖는 구간내의 데이타 표본에 대해 인접한 데이타 표본간의 차분이 계산된다. 구해진 일련의 차분 데이타는 그 구간의 차분 데이타열로 다루어진다. 차분이 계산될 구간은 시간축을 따라 전방으로 △t 만큼씩 옮겨진다. 제 11 도는 구간(111 및 112)에 대해 구해진 차분 데이타열만을 도시한다. 구간(111)은 최초의 데이타 표본이 시작되는 구간으로 길이가 N 이고. 구간(112)은 구간(111)으로부터 시간축을 따라 전방으로 N/2 만큼 옮겨간 구간이다.
구간의 길이가 N 인 다수의 구간에 대한 차분 데이타열 (이후 인식 차분 데이타열이라 칭한다)이 구해지면, 이 인식 차분 데이타열은 패턴 정합부(93)로 공급된다. 패턴 정합부(93)는 데이타 베이스(92)로부터 표준 패턴을 판독하고, 표준패턴과 다수의 인식 차분 데이타열 각각 간의 거리를 구한다. 상술한 바와 같이 본 실시예에서는 6 개의 표준 패턴이 데이타 베이스(92)에 앞서 등록되었으므로 패턴 정합부(93)는 각 표준 패턴으로부터 인식 차분 데이타열 각각의 거리를 계산한다.
표준 패턴과 인식 차분 데이타열간의 거리는 다음의 식을 이용하여 계산된다.
-스캔-
여기서, ri는 i번째 인식 차분 데이타열을 나타내고, pij 는 j 번째 표준 패턴(j 번째 카테고리에 대응)을 나타내며, dj 는 인식 차분 데이타열과 j 번째 표준 패턴간의 거리를 나타낸다. 거리 dj 가 소정의 값 이하일 경우 패턴 정합부(93)는 인식차분 데이타열이 j 번째 표준 패턴과 일치하는 것으로 판단하고, j 번째 카테고리(단어)에 대응하는 신호(82)를 판단 결과로 출력한다.
이 판단 결과는 제어부(6)에 입력된다. 제어부(6)는 j 번째 카테고리에 대응하는 무선 제어 신호를 출력하여 비행선(7)을 제어한다.
상술한 바와 같이 본 실시예에서는 입력된 단어(명령)가 입술의 움직임만을 근거로 인식되고 인식된 단어에 따라 비행선이 제어된다. 그러므로;본 발명은 잡음이 있는 환경이나 작동자의 발성이 뉩지 않은 상황에서 사용될 수 있고 발성 장애가 있는 사람들에 의해 사용될 수 있다.
입술의 움직임을 입력하는 화상 입릭부(3)는 실시예 1과 유사하게 LED(21)와 광다이오드(22)의 조합으로 실현될 수 있으므로, 게임 장치는 입술의 움직임의 화상을 비디오 카메라 등을 이용해 포착하는 종래의 방법과 비교해 볼 때 매우 저렴한 비용으로 실현될 수 있다.
본 실시예에서는 게임 장치의 사용자는 명령을 입력하기에 앞서 명령 인식에 사용되는 표준 패턴을 먼저 등록한다. 또한, 예를들면 게임 장치의 제조시, 출하시 등에 불특정 사용자의 입술의 움직임을 수용할 수 있는 표준 패턴을 데이타 베이스(92)에 미리 등록하여 사용자에 의한 등록 동작을 생략할 수 있다.
[실시예 3]
다음은 실시예 3에서의 게임 장치를 설명한다. 본 실시예에서 명령은 음성과 화자(작동자)의 입술의 움직임을 사용해서 입력되고 판단은 인식 결과의 조합을 근거로 수행된다. 그렇게 해서 비행선이 작동된다. 따라서, 잡음이 있는 환경일지라도 작동자의 음성에 의한 명령을 적극적으로 인식하는 것이 가능하다.
제 12 도는 본 실시예의 게임 장치에 대한 구성도를 간략하게 나타낸다. 본실시예의 게임 장치는 실시예 1과 유사하게, 음성 입력부(1), 화상 입력부(3). 제어부(6), 및 비행선(7)을 포함한다. 부가적으로 실시예 3 의 게임 장치는 음성 처리부(121)와 입술 처리부(122)를 포함한다. 음성 처리부(121)는 실시예 1 의 음성 인식부(2)와 같은 방식으로 입력된 음성을 인식하고, 이어서 인식 결과에 대한 신뢰도를 계산한다. 입술 처리부(122)는 실시예 2 의 입술 판독부(81)와 같은 방식으로 입력된 단어를 인식하며 또한 인식 결과의 신뢰도를 계산한다. 음성 처리부(121)와 입술 처리부(122)로부터의 출력은 둘다 종합 판단부(123)로 입력된다. 종합 판단부(123)는 각각의 처리부(121 및 122)로부터의 인식 결과와 그 인식 결과의 신뢰도에 기초하여 화자에 의해 입력된 명령을 결정한다. 이어서, 종합 판단부(123)는 종합 판단 결과를 출력한다.
이하, 본 실시예의 게임장치의 동작을 상세히 설명한다.
화자(게임 장치의 작동자)에 의해 발성된 음성의 음성 입력부(1)에 의한 입력 단계와 음성 처리부(121)로 입력 음성에 대응하는 전기 신호(11)를 송신하는 것은 실시예 1 과 동일하다. 음성 처리부(121)는 전기 신호(11)를 수신하고 이 신호에 기초하여 입력 음성을 인식한다. 음성 인식 방법으로는 총래 공지된 임의의 방법이 사용될 수 있다. 여기서, 예를들면 상술한 예에서의 입술 인식부의 설명에 사용된 방법과 동일한 방법으로, 입력될 가능성이 있는 명령 각각이 발성될 때 전기 신호(11)가 구해지고, 전기 신호(11)는 데이타열을 구하기 위해 처리된다. 데이타열은 표준 패턴으로 미리 등록된다. 게임 작동자가 실제 명령을 발성했을 때 전기 신호(11)를 처리함으로서 구해지는 인식될 데이터열과, 미리 등록되는 모든 표준 패턴간의 거리를 계산함으로써, 음성 입력부를 통해 입력된 명령의 내용이 인식될 수 있다. 전술된 방식으로 음성이 인식되어진 후. 음성 처리부(121)는 인식된 결과가 어느 정도 신뢰 가능한가를 나타내는 신뢰도를 구한다. 다음에, 음성인식 결과와 신뢰도가 종합 판단부(123)에 출력(124)으로 인가된다. 신뢰도를 구하는 방법은 이하에 설명된다.
입력된 음성의 처리와 함께 입술의 움직임을 나타내는 신호의 처리가 실행된다. 먼저, 화상 입력부(3)가 실시예 1 과 동일한 방법으로 화자의 입술의 움직임을 입력하고, 입술의 움직임에 따라 변하는 레벨을 갖는 전기 신호(13)를 출력한다. 입술 처리부(122)는 전기 신호(13)를 수신하여 실시예 2 와 같은 방식으로 처리한다. 본 실시예에서 인식 차분 데이타열과 표준 패턴간의 패턴 정합 결과로 인식 차분 데이타열이 j 번째 표준 패턴과 일치하는 것으로 판단되면, 입술 처리부(122)는 인식 차분 데이타열과 j 번째 표준 패턴간의 거리에 기초하여 인식 졀과의 신뢰도를 계산한다. 이와 같이 구해진 인식 결과와 신뢰도는 종합 판단부(123)에 출력된다.
다음은 신뢰도를 계산하는 방법을 간략히 설명한다. 본 실시예에서 음성 인식 결과의 신뢰도와 입술 판독 결과의 신뢰도는 동일한 구조를 갖는 처리기(도시되지 않음)에 의해 동일한 처리 과정을 통하여 계산된다. 이하 음성 인식 결과에 대한 신뢰도 계산이 설명된다. 여기서, 음성 인식 결과에 대한 신뢰도가 3 가지 단계,즉'대',、중',、소'로평가되는경우가고려된다. '소'의경우는 인식결과의 신뢰도가 가장 높은 경우이고, 、대'의 경우는 인식 결과의 신뢰도가 가장 낮은 경우이다. 이러한 경우, 、소'와 、증' 단계 사이의 한계값(αL)과 、대'와 、중' 단계 사이의 한계값(αH)이 사용되고(αLαH), 인식될 대상물에 정합되는 것으로 판단되는 표준 패턴과 인식될 대상물간의 거리(d)가 한계값과 비교된다. 비교 결과가 dαL 이면 신뢰도가 、소'로 판단되고,αL≤dαH 이면 신뢰도가 、중'으로 판단된다. 비교 결과가 d≥αH 이면 신뢰도는 、대'로 판단된다. 입술의 움직임을 근거로 인식된 결과에 대해서도 유사하게 한계값 비교에 의해 신뢰도가 결정된다. 여기서 사용된 한계값은 적절하게 선택될 수 있다. 신뢰도를 계산하는 방법은 상술한 것에 국한되지 않는다. 다른 방법으로 임의의 공지된 방법이 적용될 수 있다.
다음에 종합 판단부(123)의 동작을 제 13 도를 참조로 설명한다.
제 13 도는 종합판단 방법의 개념을 나타내는 도면이다.
먼저, 종합 판단부(123)는 음성 인식 결과가 음성 처리부(121)로부터 출력될때의 시간(즉, 출력(124)이 발생될 때의 시간), 그리고 입술 판독 결과가 입술 처리부(122)로부터 출력될 때의 시간(즉, 출력(125)이 발생될 때의 시간)을 검출한다. 각각 검출된 출력 시간 전후에 소정의 한계값(131)에 대응하는 구간을 추가함으로써 평가용 구간(132a 및 132b)이 제공된다. 다음에; 입술 판독 결과에 대한평가용 구간(132a)과 음성 인식 결과에 대한 평가용 구간(132b)이 중복되는지 여부가 결정된다. 구간(132a 및 132b)이 중복될 경우. 종합 판단부(123)는 입술의 움직임이 입력되는 작동자의 발성 음성이 입력되어 인식되는 것으로 판단한다. 구간(132a 및 132b)이 증복되지 않는 경우, 인식된 음성은 환경의 잡음 또는 작동자가 아닌 사람에 의해 발성된 음성으로 판단된다. 따라서, 조작자가 아닌 사람의 음성이 잘못 인식되는 것을 방지할 수 있다.
이어서 종합 판단부(123)는 입술 판독 결과가 음성 인식 결과와 정합되는지 여부를 판단한다. 정합되는 경우 인식 걸과는 종합 판단 결과로 간주된다(제 13 도에서는 종합판단 결과 、마에(전)'). 정합되지 않는 경우 종합 판단 결과는 각각의 인식 결과에 대해 구해·진 신뢰도에 따러 결정된다. 인식 결과에 대한 신뢰도의 조합과 그 조함에 따라 결정된 종합 판단 결과 사이의 예시적 관계가 제 14a 도 및 제 14b 도에 도시된다. 본 실시예에서는 전술된 것처럼, 가장 낮은 신뢰도를 나타내는 、대'와, 가장 높은 신뢰도를 나타내는 、소', 그리고 그 사이의 중간 레벨을 나타내는 、중' 3 가지의 등급을 사용해서 평가가 실행된다. 제 14a 도는 신뢰도가 상호 동일하고 음성 인식 결과에 우선을 둔 경우의 관계를 보여주고, 제 14b 도는 신뢰도가 동일하고 입술 판독 결과에 우선을 둔 경우의 관계를 보여준다. 어떠한 인식 결과가 채택될 것인지는 게임 장치가 운용될 환경적 조건과 같은 요인에 따라 결정된다. 어떤 경우에, 어떤 인식 결과가 채택될 것인가는 게임 장치에서 미리 결정될 수 있다. 어떤 경우에, 게임 장치는 인식 결과가 작등자에 의해 결정될 수 있도록 구성된다. 예를들면, 작동자가 발성 장애를 갖지 않고 게임 장치가 상대적으로 잡음이 적은 조건에서 운영될 때, 제 14a 도의 경우처럼 음성 인식 결과에 우선권이 주어진다. 작동자가 발성 장애를 가지고 게임 장치가 잡음이 많은 조건에 서 운영되는 경우에는 제 14b 도의 경우가 채택된다.
종합 판단부(123)는 상술한 방법대로 결정된 종합판단 결과를 신호(15)로 출력한다. 마지막 단계로서 제어부(6)는 비행선(7)을 제어하기 위해 판단 결과에 따른 무선 제어 신호를 출력한다.
상술한 것처럼, 본 실시예에 따라 음성 신호 뿐만 아니라 입술의 움직임도 인식되고, 두가지 인식 결과를 사용하여 종합적 인식이 수행되므로, 잡음이 있는 환경하에서 화자에 의해 발성된 단어(명령)를 적극적으로 인식할 수 있다. 동시에, 본 실시예는 발성 장애를 갖는 사람이 음성 제어 기능에 의해 게임 장치를 사용할 수 있다는 효과를 달성한다. 또한, 실시예 1 과 실시예 2 와 유사하게, 입술의 움직임이 LED(21)와 광 다이오드(22)의 조함에 의해 검출되므로 비디오 카메라등이 입술의 움직임을 포착하는데 사용되는 종래 방법과 비교해 볼 때 저렴한 가격으로 게임 장치가 실현될 수 있다. 본 실시예에서 상세한 설명이 생략되었지만; 게임 장치의 사용자는 실시예 2 와 동일한 방법으로 입술 판독에 대한 표준 패턴을 등록한다. 다른 방법으로, 불특정한 사람에게 적용할 수 있는 표준 패턴이 제공되어 사용자에 의한 등록이 생략될 수도 있다.
실시예 1 과 실시예 3 에서는 비행선(7)을 무선 제어 신호로 제어할 수 있는 게임 장치가 예시적으로 설명되었다. 본 발명이 적용될 수 있는 게임 장치가 어느 한가지 게임 장치에 한정되는 것이 아니라는 것은 명백하다. 예를 들어, 상술한 실시예에서의 어떠한 한가지 구성이 작동자각자에게 제공되어 진다면 다수의 작동자에 의해 동시에 작동되는 게임 장치가 실현될 수 있다.
이하 본 발명의 입력 장치가 설명된다. 제 15a 도 및 제 15b 도는 본 발명의 입력 장치의 특성을 도시한 도면이다. 본 발명의 입력 장치는 헤드 세트(head set)(154), 그에 부착된 지지대(155), 광 다이오드(151)와 LED(152)가 포함된 스테이지(stage)(153)를 구비한다. 스테이지(153)는 지지대(155)에 소정의 각도로 연결된다(제 15a 도 참조). 스테이지(153)와 지지대(155)간의 각도를 적절히 조정함으로써 작동자의 입술 부분에서 조사되는 LED(152)로부터 방사된 빛의 방향을 변화시키는 것이 가능하다. 입력 장치는 LED(152)로부터 방사된 빛을 작동자의 입술부분으로 조사하고 입술의 움직임을 입력시키기 위하여 광 다이오드(151)에 의해 반사된 빛을 검출한다. 이와 같은 입력 장치는 상술한 실시예 1 에서 실시예 3 까지의 학상 입력부로 사용될 수 있다. 마이크로폰(156)이 스테이지(153)에 부가하여 장착되면(제 15b 도 참조); 입력 장치는 음성 입력 장치로서 사용될 수 있다.
제 15a 도에 도시된 바와 같이 마이크로폰이 장착되지 않은 입력 장치는 실시예 2의 화상 입력부로 사용될 수 있다. 제 15B 도에 도시된 바와 같이 마이크로폰이 장착된 입력 장치는 실시예 1 과 실시예 3 에서의 음성 입력부와 화상 입력부로서의 기능을 갖는 장치로서 사용될 수 있다.
상술한 것처럼. 본 발명의 입력 장치는 크기와 무게가 작은 광 다이오드(151), LED(152), 및 마이크로폰(156)을 사용하므로 전체 입력 장치가 초소형, 초경량이 된다. 또한. 사용된 부품은 모두 저가이므로 전체 입력 장치는 저가로 생산될 수 있다. 또한, 작동자의 입술, 광 다이오드(151) 및 LED(152) 간의 상대적인 위치 관계가 사실상 일정하도록, 헤드 세트(154)에 의해 본 발명의 입력 장치가 작동자의 머리에 고정된다. 그래서, 입술의 움직임이 안정되게 입력된다. 본 발명의 입력 장치에서는 입술의 움직임을 입력시키는데 빛이 사용되고, 반사된 빛은 전기 신호로 변환되어 출력된다. 그러므로, 입술의 움직임 대신에 화상을 입력하는 장치 또는 초음파를 사용하는 장치들과 같이 불가피하게 크고 복잡한 구성을 갖는 입력 장치와 비교하여 볼 때 상기 입력 장치는 간략한 구성을 갖는다.
여기서 입력 장치에는 단일 광다이오드와 신호 LED 가 장착된다. 다른 방법으로, 다수의 광 다이오드와 다수의 LED 를 장착하는 것이 가능하다. 예를 들면, 2 세트의 LED 와 광 다이오드가 제공되고 세트가 교차되어 배치될 경우 평면상에서의 움직임 방향을 검출할 수 있다.
상술한 것처럼, 본 발명에 따라 인간의 음성에 의해 자연스러운 작동이 수행되므로 게임 장치의 능숙한 조작이 요구되지 않는다. 또한; 입력 단어(명령)가 음성 뿐만 아니라 입술의 움직임에 의해서도 인식되므로 잡음이 있는 환경하에서도 안정적인 조작이 실현될 수 있다. 또한, 입술의 움직임이 LED 와 광 다이오드(광트랜지스터)의 조함에 의해 검출되므로, 비디오 카메라;초음파 또는 그와 유사한것들이 사용되는 경우와 비교하여 볼때 전체 장치가 저가로 생산될 수 있다.
더욱이, 실시예 1 에서 설명한 바와 같이, 작동자의 발성 구간이 입술의 움직임에 의해 검출되고 그 구간이 음성 인식에 사용되므로, 작등자 이외의 사람에 의해 발성되는 목소리를 잘못 인식하는 것0l 방지될 수 있다. 실시예 2 와 실시예 3 에서 설명한 바와 같이. 입력단어(명령)가 입술의 움직임을 근거로 인식되고 그 인식 결과에 의해 비행선이 제어될 경우, 본 발명은 잡음이 있는 환경하에서 또는 작동자가 발성하기 쉽지 않은 상황하에서도 사용될 수 있고 발성 장애를 가진 자에 의해서도 사용될 수 있다.
본 발명의 입력 장치에서. 저렴한 발광 소자(LED 또는 그와 유사한 것), 저렴한 광검출 소자(광 다이오드 또는 그와 유사한 것)등이 광 헤드세트, 지지대, 및 스테이지에 부착된다. 그래서,.초경량의 저렴한 입력 장치가 실현될 수 있다.
실시예 1 과 3 에서는 대상물의 이동이 인식된 음성과 입술의 움직임에 따라 제어되는 실시예가 설명되었다. 그러나, 음성이나 입술의 움직임에 의해 제어되는 대상물의 동작이 이동으로 국한되지 않는다.. 예를 들면, 단어를 발송하는 것과 같은 다른 동작이 제어될 수 있다. 인식된 음성에 따라 대상물이 임의의 동작(이동을 포함)을 수행할 수 있도록 하는 다양한 형태의 장치가 이하 설명된다.
이하 인식된 음성에 따라 대상물이 임의의 동작을 수행할 수 있도록 하는 장치의 실시예가 설명된다.
[실시예 4]
본 실시예에서는 인식된 음성에 대응하여 인식된 음성에 대해 제공되는 출력음성 세트의 그룹으로부터의 한 출력 음성 세트를 선택하고 선택된 출력 음성을 출력하는 장치를 설명한다.
제 16 도는 본 실시예의 음성 선택 장치(100)의 구성을 간략히 도시한다.
음성 선택 장치(100)는 랜덤수(random nunlber) 발생부(101), 선택부(102), 입출력 상태 기억부(103), 상태 변화부(104), 및 입출력 상태 데이타 베이스(105)를 구비한다. 입출력 상태 데이타 베이스(105)는 미리 다수의 입출력 상태의 테이블을 저장한다. 각각의 입출력 상태 테이블은 상태 s 의 입력 x(x 는 음이 아닌 정수)와 입력 x 에 대한 n개의 출력 단어의 그룹 sr)(x; i)(O ≤ i n(s))을 포함한다. 입출력 상대 테이블의 예가 제 17a 도 및 제 17b 도에 도시된다. 먼저; 제 17a 도에 도시된 초기 상태의 테이블(201)이 입출력 상태 기억부(103)에 저장된다. 랜덤수 발생부(101)는 출력 단어의 그룹으로부터 음성으로 출력될 한개의 단어를 선택하는데 사용되는 i 값을 결정한다.
이하, 음성 선택 장치(100)의 동작이 설명된다. 입력 x 가 외부에서 선택부(102)로 입력될 때;선택부(102)는 입출력 상태 기억부(103)에 저장된 입출력 상태테이블에 표준을 만들고 입력 x 에 대응하는 출력 단어 그룹 sp(x, i)을 선택한다. 그리고, 선택부(102)는 랜덤수 발생부(101)로 하여금 랜덤수 r(n(s)) (여기서 0 ≤r(n(s)) n(s))를 생성시키고 출력 단어 그룹 sp(x, i)중에서 한 단어를 선택할수 있도록 i = r(n(s))를 결정한다. 선택된 출력 단어는 음성으로 외부에 출력된다.
선택부(102)로부터의 출력 단어가 외부로 출력될 뿐만 아니라 상태 변화부(104)에도 출력된다. 선택부(102)로부터 출력이 수신되면 상태 변화부(104)는 입출력 상태 데이타 베이스(105)에 표준을 만들고 입출력 상태 기억부(103)의 내용을 선택부(102)로부터의 출력 단어에 대응하는 입출력 상태 테이블로 변화시킨다. 예를들어, 단어 、겐끼?(잘 지내는가?)'가 초기 테이블(201)의 음성으로서 출력되면 상태 변화부(104)는 입출력 상태 데이타 베이스(105)에 표준을 만들고 출력 、겐끼?'에 대응하는 입출력 상태(202)의 테이블을 제공한다. 제공된 상태 (202)에 대한 테이블은 입출력 상태 기억부(103)에 저장된다.
이러한 방법으로 본 실시예의 음성 선택 장치(100)는 입력에 응답하여, 랜덤수를 사용함으로써 선택된 단어에 대응하는 음성을 출력한다. 따라서, 음성 선택 장치(100)를 사용하여 단순한 대화형 시스템이 구성된다. 또한, 제 18 도에 도시된 것 같이 상태 변화부(104)와 입출력 상태 데이타 베이스(105)가 생략된 단순한 구조가 사용된다면 응답은 입력에 대해 한 번씩만 수행될 수 있다.
음성 선택 장치(100 및 100a)는 제 27 도에 도시된 음성 응답 장치의 음성선택 장치(1202)로서 사용될 수 있으며, 음성 인식 장치(l201)와 함께 사용될 수 있다. 더 구체적으로 음성이 먼저 음성 인식 장치(1201)에 의해 인식되면, 인식결과는 예를들어 음성에 부가된 식별 번호와 함께 음성 선택 장치(1202)에 입력된다. 음성 선택 장치(1202)는 입력 식별 번호를 입력 x 로 간주하여 출력 단어 그룹에서 무작위로 한 단어를 선택한다. 이어서 선택된 단어에 해당되는 음성이 발생된다. 따라서 음성 응답 장치(1203)가 실현될 수 있다. 음성 응답 장치(1203)에서는 임의의 음성이 입력되면 음성에 응답하여 음성이 출력된다. 또한, 이러한음성 응답 장치(1203)에서는 동일한 입력 음성에 대하여 다양한 종류의 응답이 수행될 수 있다. 예를들면;음성 선택 장치(1202)의 초기 상태에서의 인식결과로서 음성 인식 장치(1201)가 음성 、오하요(좋은 아침)'를 출력하였을 때. 음성 、오하요'에 적용되는 식별 번호(1)가 입력 x 로서 음성 선택 장치(1202)에 입력된다(제 17a 도 참조). 입력 x 에 응답하여 음성 선택 장치(1202)는 2 개의 출력 단어 、오하요'와 、겐끼?'를 포함한 sp(1, i) 그룹으로부터 한개의 단어를 무작위로 선택하고 선택된 단어에 대응하는 음성을 발생시킨다.
실제 작동에 앞서 음성 응답 장치(]203)에 음성 선택 장치(1202)에 의한 입력으로 수신될 수 있는 음성을 등록하는 것이 필요하다. 등록된 입력 단어 그룹에 포함되지 않은 단어에 대응하는 음성이 음성 선택 장치(1202)에 입력된다면. 예를들어 음성 、나니?(무엇?)'가 음성 선택 장치(1202)로부터 출력될 수도 있다. 실시예 3의 장치가 음성 인식 장치(1201)로 사용될 경우. 인식된 음성의 신뢰도가 낮을 때 작동자가 음성을 다시 입력하는데 사용되는 음성이 음성 선택 장치(1202)로부터 출력될 수 있다.
상술한 바와 같이 본 발명의 음성 선택 장치에서는 입출력 상태를 나타내는 다수의 테이블이 제공되丁, 이전 입출력의 이력에 따라 입출력 상태가 변화된다.
따라서 본 발명의 음성 선택 장치가 사용되면 단순한 대화를 수행할 수 있는 장치의 실현이 가능하게 된다. 또한, 음성 선택 장치에서는 하나의 입력 음성에 대해 다수의 출력 단어 후보가 제공되고, 다수의 단어 후보로부터 한 단어가 무작위로 선택된다. 그리고, 선택된 단어에 대응하는 음성이 생성된다. 결과적으로 하나의 입력에 대하여 동일한 응답을 수행하는 것0l 아니라 하나의 입력에 대해 다양한 형태의 응답을·제공할 수 있는 음성 응답 장치가 제공된다.
[실시예 5]
다음에 본 발명의 방향 검출 장치와 방향 선택 장치가 설명된다.
먼저, 방향 검출 장치(400)가 제 19 도를 참조로 설명된다. 방향 검출 장치(400)는 방향 검출부(401)와 그에 연결된 다수의 마이크로폰(402)을 구비한다. 마이크로폰(402)은 제어될 대상물에 부착된다. 여기서는 4 개의 마이크로폰이 장착되어 있는 경우를 가정하여 방향 검출 장치(400)의 동작에 대해 설명한다. 음성이 4 개의 마이크로폰 n1(i)(i = 0,1,2,3)을 통해 입력되면 방향 검출 장치(401)는 입력 음성 sp(m(i);t)을 제 20 도에 도시된 바와 같이 프레임 f(m(i), j)(501)(0≤ j)으로 나눈다. 예를들면, 한 프레임의 길이는 16ms 로 설정된다. 다음에, 방향 검출부(401)는 각 프레임 마다 음성 에너지 e(m(n). j)를 구하고, 구해진 에너지 e(m(n), j)가 길이 1(예를들어,1OO 의 길이)을 갖는 순환 기억부(도시되지 않음)에 저장된다. 이때 방향 검출부(401)는 한 프레임의 에너지가 저장될 때마다 각 마이크로폰에 대하여 이전의 한 프레임에 대한 에너지의/합계를 계산하여 어느 마이크로폰이 최대의 에너지 합계를 갖는지 판단한다. 이어서, 방향 검출부(401)는 에너지 합계의 죄대치를 앞서 실험적으로 결정된 한계값(The)과 비교한다. 에너지 합계의 최대치가 한계값(The)보다 크면 방향 검출부(401)로부터 마이크로폰에 대한 방향이 음성이 생성된 방향과 일치하는 것으로 판단된다. 판단된 마이크로폰의 i 번호가 음성 입력 방향으로서 방향 검출부(401)로부터 출력된다.
상술한 바와 같이 동작하는 방향 검출 장치(400)가 제 28 도에 도시된 조작장치(1302)와 함께 사용되면, 예를들어 음성이 발생되는 방향으로 이미 정해진 동작을 실행하는 음성 응답 장치(1303)가 구성될 수 있다. 특히, 예를들어 대상물(풍선 또는 기타 장난감)에 대상물을 조정하는 조작 장치(1302)와 방향 검출 장치(1301)(제 19 도의 (400))가 부착된다면. 대상물이 음성이 발생되는 방향으로 이동하거나 향하게 된다. 이와 같이 음성에 응답하여 음성이 발생되는 방향으로 이미 결정된 동작을 실행하는 장치가 제공될 수 있다.
상술한 조작 장치(1302)의 예로는 대상물에 부착된 프로폘러(propeller)를 갖는 3 개의 모터와 이 모터를 위한 추진기를 구비한 장치가 있다. 대상물이 이동하게 될 방향이 입력되면 장치는 대상물이 그 방향으로 움직일 수 있도록 3 개의 모터를 제어한다.
다음에 방향 선택 장치가 제 21 도를 참조로 설명된다. 방향 선택 장치(600)는 오프셋(offset) 계산부(601), 방위각 나침반(602), 및 목적 방향 기억부(603)로 구성된다. 방향 선택 장치(600)는 대상물이 이동될 방향 및/또는 대상물이 향하게 될 방향을 제어하는 장치로서 사용된다. 대상물이 이동될 방향 또는 대상물이 향하게 될 방향을 표시하는 입력 x(x는 음이 아닌 정수)가 입력될 때, 오프셋 계산부(601)는 오프셋 계산부(601)에 미리 저장된 테이블을 근거로 입력 x 에따라서 오프셋을 출력한다. 출력 오프셋은 방위각 나침반(602)에 의해 그때 측정된 대상물의 실제 방향에 합산되어 목적 방향 기억부(603)에 전송된다. 목적 방향 기억부(603)는 합산 결과를 대상물이 이동하거나 향하게 될 방향으로서 저장한다.
상술한 바와 같이, 제 21 도의 방향 선택 장치는 대상물이 현재 이등하거나 향하는 방향을 근거로 대상물의 방향을 변화시키는데 사용한다.
제 21 도에 도시된 방향 선택 장치(600)대신에 제 22 도에 도시된 방향 선택 장치(700)가 사용되면 대상물의 방향은 현재의 방향을 근거로 상대적인 방향으로 변하는 것이 아니라 절대적인 방향으로 변할 수 있다、 제 22 도의 방향 선택 장치(700)에서 방향 계산부(701)는 절대적인 방향(예를들어; 북쪽)을 나타내는 입력 x(x 는 음이 아닌 정수)를 외부에서 수신하고 입력 x 에 대응하는 값을 출력한다.
출력값은 목적 방향 기억부(603)에 목적 방향으로 직접 저장된다. 오프셋 계산부(601)와 유사하게, 방향 계산부(701)는 테이블 형태로 입력 x 에 대한 절대값을 표시하는 값을 보유함으로써 실현될 수 있다. 기억부(603)에 목적 방향을 저장한후, 방향 선택 장치(700)는 방위각 나침반(602)에 의해 대상물의 이동 또는 방향전환 동안에 현재의 방향을 연속적으로 측정한다. 측정된 방향과 목적 방향 기억부(603)에 저장된 방향과의 차이가 출력된다. 출력에 근거하여 대상물에 대한 피드백(feedback) 제어가 실행되면 목적 절대 방향으로 대상물을 이동시키거나 목적 방향으로 대상물을 회전시킬 수 있다.
제 29 도에 도시된 바와 같이 전술된 방향 선택 장치가 음성 인식 장치와 조작 장치와 함께 사용되면 음성 응답 장치(1402)가 실현될 수 있다. 임의 형태의 음성 인식 장치; 예를들어 종래의 음성 인식 장치와 ,실시예 1에서 ,실시예 3까지의 게임장치에 내장된 음성 인식 장치 등이 음성 응답 장치(1402)에 사용될 수 있다.
음성 응답 장치(1402)에서는 대상물이 향하는 또는 이동하는 방향이 음성에 의해 입력되면, 대상물이 이동하거나 향하는 방향은 입력된 음성에 따라 변화한다. 음성 응답 장치(1402)에서는 음성 인식 장치(1201)의 인식 결과가 방향 선택 장치(1401)의 입력으로 사용되고., 방향 선택 장치(1401)의 출력은 조작 장치(1302)의 입력으로 사용된다. 따라서; 대상물이 현.재 이등하거나 향하는 방향이 목적 방향과 비교되는 동안 대상물의 동작을 제어할 수 있다.
예를들어 북쪽 방향은 0 도로 정의되고 동쪽으로의 회전은 + 방향으로 정의한다. 대상물이 현재 0 도를 향하는 경우를 예로 든다. 본 실시예에서는 방향 선택 장치(600)(제 21 도 참조)가 방향 선택 장치(1401)로 사용된다. 단어 '미기(우)'가 +90° 와 연관된 테이블이 방향 선택 장치(600)의 오프셋 계산부(601)에 저장된 경우, 목적 방향을 지정하는 음성이 음성 인식 장치(1201)에 의해 단어 、미기'로 인식되었을 때 방향 선택 장치(600)는 조작 장치(1302)에 출력을 보낸다.
이 출력은 조작 장치(1302)로 하여금 현재의 방향에서 동쪽 방향으로 90°만큼 대상물이 향하는 방향 또는 이동하는 방향을 수정하도록 지시한다. 이때 방향 선택장치(600)에서는 방향의 변화 동안 현재 형하거나 이동하는 방향이 항상 목적 방향과 비교된다. 조작 장치(1302)는 방향 선택 장치(600)로부터의 출력에 의해 대상물이 향하거나 이등하는 방향이 목적 방향으로 수정되도록 제어된다.
다른 방법으로 제 22 도의 방향 선택 장치(700)가 방향 선택 장치(1401)로서 사용되면, 단어 、미기' 또는 、히다리' 대신에 절대 방향을 나타내는 단어 '기따(북쪽)' 또는 、난세이(남서쪽)'가 목적 방향을 나타내는 단어로 입력된다. 이때 방향 선택 장치(700)는 목적 방향 기억부에 절대 목적 방향으로서, 입력된 단어 、기따'에 대하여 0 도를, 、난세이'에 대해 -135 도를 저장하고, 상술된 동작이 실행된다. 여기서 목적 방향은 -180 도에서 +180 도 범위내에 있다.
본 실시예에서의 방향 검출 장치와 방향 선택 장치는 조작 장치와 결합될 수 있다. 이러한 경우 제 30 도에 도시된 바와 같이 방향 검출 장치(1301)의 검출 결과가 방향 선택 장치(1401)의 입력으로 사용되고, 방향 선택 장치(1401)의 출력이 조작 장치(1302)의 입력으로 사용된다. 따라서, 현재 향하거나 이동하는 대상물의 방향이 목적 방향과 비교되는 동안 대상물이 향하거나 이동하는 방향이 음성이 발생하는 방향으로 수정되는 음성 응답 장치(1501)가 실현 가능하게 된다.
[실시예 6]
본 실시예에서는 음성 인식과 관련된 장치가 설명된다. 이 장치는 제 26 도에 도시된 바와 같이 음성 종료점 검출 장치(1101), 음성 검출 장치(1102); 특성량 추출 장치(1103), 거리 계산 장치(1104), 및 사전(1105)을 구비한다.
먼저 음성 종료점 검출 장치(1101)를 설명한다. 음성 종료점 검출기(1101)는 입력 음성에 대응하는 신호를 수신하여 이 신호에 기초하여 음성 종료점을 검출한다. 본 명세서에서 음성 종료점은 음성 입력이 종결되는 시점을 의미한다.
본 실시예의 음성 종료점 검출 장치는 마이크로폰과 같은 음성 입력 장치에 연결된다. 음성 s(t)가 음성 입력 장치를 통해 입력될 때 음성 종료점 검출 장치 (1101)는 입력된 음성 s(t)를 제 23 도에 도시된 바와 같이 프레임 f(i)(i 는 음이 아닌 정수)로 나눈다. 이어서 각 프레임의 에너지 e(i)가 구해진다. 제 23 도에서 음성 s(t)는 곡선(801)으로 표시되고 에너지 e(i)는 곡선(802)으로 표시된다.
또한, 한 프레임에 대한 음성이 입력될 때마다 음성 종료점 검출 장치(1101)는 현재의 프레임에서; 소정 수의 프레임만큼 현재의 프레임에 선행하는 프레임까지의 에너지 분산을 구하여 이전에 실험적으로 결정된 한계값(Thv)과 에너지 분산을 비교한다. 비교 결과 에너지 분산이 한계값(Thv)을 큰 부분에서 작은 부분까지 교차하면 교차 시점이 음성 종료점으로 결정된다.
소정의 시간동안 각 프레임마다 에니지 분산을 구하는 방법이 설명된다. 먼저, 순환 기억이 이용되는 방법을 설명한다. 먼저, 각 프레임마다 구해진 에너지는 길이(거리) 1 인 순환 기억부(803)에 순차적으로 저장된다. 한 프레임에 대한 에너지가 구해질 때마다 소정 시간만큼 현재 프레임에 선행하는 프레임의 에너지가 분산을 구하기 위해 순환 기억부(803)로부터 조회된다.
순환 기억부를 사용하지 않고 에너지 분산을 구하는 다른 방법이 있다. 이 방법에서는 음성 종료점 검출 장치(1101)는 소정 수의 선행 프레임에 대해 평균값 m(i-1)과 분산 v(i-1)를 저장한다. 새로운 프레임에 대해 에너지 e(i)가 구해질때마다, 새로운 에너지 e(i)와 이전 에너지의 평균값 nl(i-1)의 가중된 합계가 에너지의 새로운 평균값 m(i)으로 대체된다. 유사하게 이전의 분산 v(i-1)와 e(i)-m(i) 1 의 가증된 합계가 새로운 분산 v(i)로 대체된다./ 이러한 방법으로 가상(pseudo) 에너지 분산이 구해진다. 여기서, 가중을 위해 감쇠 상수 α 가 사용되고 새로운 평균값과 분산이 다음 식을 근거로 구해진다. 여기서 α 는 1.02 이다.
-스캔-
이 방법에서는 순환 기억부가 필요 없기 때문에 기억 용량이 절약된다. 또 한 새로운 에너지가 구해질 때마다 소정의 시간 간격 동안 에너지의 합계를 구하는 동작이 생략되므로 처리 시간이 단축된다.
다음은 음성이 실제로 발생되는 구간을 추출하는 음성 검출 장치(1102)가 설명된다. 그 구간의 추출을 위해, 에너지를 저장하기 위한 순환 기억부(803)에 부가하여 평활화(sInothing) 에너지를 저장하기 위한 순환 기억부(902)가 제공된다.
제 24 도에 도시된 바와 같이 한 프레임에 대한 에너지가 구해질 때마다 에너지(802)는 메모리(803)에 저장되고 평활화 에너지(901)는 메모리(902)에 저장된다.
상술한 방식으로 음성 종료점(903)이 구해졌을 때, 에너지와 평활화 에너지의 이력이 순환 기억부(803 및 902)에 남게 된다. 이와 같이 하여 각 순환 기억부의 길이가 충분히 길다면(예를들어 2 초에 대응하는 길이), 한 단어에 대한 에너지가 남게된다. 음성 검출 장치(1102)는 이러한 메모리에 저장된 에너지 및 평활화 에너지를 사용하여 음성이 실제로 발성되는 구간을 추출한다.
구간의 추출은 다음의 과정을 통해 실행된다. 먼저 이하 설명되는 바와 같이 한계값(Th)이 결정된다. 한계값(Th)은 지난 것으로부터 새로운 것까지 순환 기억부(803)에 저장된 에너지와 순차적으로 비교된다. 에너지가 최초로 한계값을 초과할 때의 시점은 음성이 발성되는 구간의 시작점으로 판단된다. 반대로, 비교가 새로운 것부터 지난 것까지 이루어져서 에너지가 최초로 한계값을 교차하는 시점이 음성이 발성되는 구간의 종료점으로 판단된다. 이러한 방법으로 음성이 발성되는 구간이 추출된다.
한계값(Th)을 결정하는 방법이 설명된다. 먼저 음성 종료점이 검출되는 시점에서 메모리(803)의 최대 에너지 max(1001)과 메모리(902)의 최소 평활화 에너지min(1002)가 구해진다. 이 값들을 이용헤 한계값(Th)이 다음식을 근거로 구해진다. 여기서,β는 약 0.7의 값이다.
Th = min + β(max - min)
에너지를 평활학하는 방법으로 고정된 왼도우(window)의 중간값을 적용하는 방법이 사용된다. 그러나, 평활화 방법은 이러한 방법에 국한되지 않는다. 선택적으로 예를들면 평균값을 적용하는 방법이 사용될 수 있다. 본 실시예에서는 최대 평활화 에너지가 사용되지 않고 한계값(Th)을 구하기 위해 최대 에너지가 사용된다. 그 이유는 최대 평활화 에너지가 한계값(Th)을 구하는데 사용되면 단어의 길이가 번할 때마다 최대값이 크게 변하게 되고 이에 따라 한계값(Th) 또한 변하기 때문이다. 결과적으로 양호한 음성 검출이 이루어지지 않는다. 또한 최소 평활화 에너지가 한계값(Th)을 계산하는데 사용되면 음성이 아닌 잡음이 검출되지 못할 수 있다.
상술한 바와 같이 음성 검출 장치(1102)는 음성이 발성되는 구간 즉 입력 신
호에서 음성에 대응하는 부분의 추출을 실행한다.
다음으로 특성량 추출 장치(1103)는 검출된 음성으로부터 인식에 사용되는 특성량을 추출한다. 에너지의 경우와 같0l 특성량은 각 프레임마다 구해져 순환기억부에 저장된다. 여기서 、특성량'이란 3 가지 성분, 즉 원래의 음성 신호 s(t)의 제로 교차점 수와, 원래 음성 신호 s(t)의 미분된 신호의 제로 교차점 수와, 각 프레임간의 원래 신호 s(t)의 에너지 e(i)의 대수(1og) 차분을 포함하는 특성량 벡터로 구성된다.
음성 종료점 검출 장치(1101), 음싱 검출 장치(1102) 및 특성량 추출 장치(l103)를 통해 구해진 벡터는 거리 계산 장치(1104)로 입력된다. 거리 계산 장치(1104)는 입력된 벡터에 대해 사전(1105)에 미리 등록된 다수의 특성량 벡터를 각각 확인하여 인식 결과로서 최고 점수를 받은 확인된 결과를 출력한다. 확인 방법으로 벡터간의 기하학적 거리가 간단히 구해지거나 DP 정합 방법이 사용될 수 있다.
상술한 바와 같이 본 발명의 장치는 음성 인식을 실행한다. 음성 인식 장치는 제 27 도에 도시된 것처럼 실시예 4 에 설명된 음성 선택 장치(1202)와 함께 사용되거나 제 29 도에 도시된 것처럼 실시예 5 에 설명된 방향 선택 장치(1401) 및 조작 장치(1302)와 함께 사용될 수 있다. 선택적으로 음성 인식 장치가 제 31 도에 도시된 것처럼 단순히 조작 장치(1302)와 결합된다면, 음성 인식 장치(1201)의 결과가 조작 장치(1302)의 입력으로 사용됨으로써 장치 전체가 목적 방향으로 이동되는 음성 응답 장치(1601)가 구성될 수 있다. 선택적으로 본 실시예의 음성 인식 장치는 실시예 1 에서 실시예 3 까지에서 처럼 게임 장치에 내장될 수 있다.
이것은 게임 장치가 작동자의 음성에 의해 조작될 수 있도록 한다.
또한, 제 32 도에 도시된 것처럼, 음성 인식 장치(1201)를 포함하는 실시예 4 에서 실시예 6 까지 설명된 음성 응답 장치에서, 음성 인식 장치에 신호 전송 장치(1701)가 추가되고; 각 구성에서 음성 인식 장치 뒤에 연결되는 음성 선택 장치(1202), 방향 선택 장치(1401) 또는 조작 장치(1302)에 신호 수신 장치(1702)가 추가된다면, 조작자가 보유한 원격 제어 장치에 따라 단지 음성 인식 장치만을 사용하여 대상물을 원격 제어할 수 있다. 여기서, 적외선 또는 무선 전송이 신호 전송에 사용될 수 있다.
상술한 음성 응답 장치를 풍선에 부착함으로써 풍선과 대화하거나 풍선을 제어하는 것이 가능하다. 따라서 풍선에 내재된 기분 좋게 하는 특성을 효과적으로 이용하는 장난감의 생산이 가능하다.
제 33 도에 도시된 것처럼, 음성 응답 장치(1203)에 상술한 음성 인식 장치와 음성 선택 장치 제공된 2 개의 풍선(1801)이 준비되고,2 개의 음성 응답 장치는 작동자와 대화하는 것이 아니라 서로 대화하도록 구성된다. 결과적으로 구성요소끼리 자동적으로 대화할 수 있는 장난감의 생산이 가능하다. 또한 음성 응답 장치를 갖춘 다수의 풍선(1801)이 준비되고, 그들이 서로 대화하도록 구성 할 수도 있다. 이때;음성 응답 장치를 갖춘 각 풍선이 음성 인식 과정에서 거부 기능을 가지면 풍선은 구체적인 단어에 응답할 수 있다. 결과적으로 상기 방식으로 많은 풍선중 임의의 한개만이 어떤 특정 음성에 반응할 수 있도록 제작할 수 있다. 예를 들면 각각의 풍선(1801)에 이름을 지어주고 대응하는 이름을 나타내는 음성에만 각각의 풍선이 반응할 수 있다. 거부 방법으로서 음성 인식에 대해 내부 사전으로 부터 거리가 계산되고 한계값이 실험적으로 결정되어 한계값을 초과하는 거리는 거부된다. 또한, 음성 응답 장치에는 클럭 타이머가 내장될 수도 있다. 소정의 시간이 경과할 때, 등록된 출력 음성 세트의 그룹중에서 무작위로 한개의 음성 세트가 선택되고, 선택된 음성이 출력됨으로써 음성 응답 장치에 의한 대화가 시작될 수 있는 장난감의 생산이 가능하다.
제어될 대상물은 풍선에 국한되는 것이 아니라 박제 장난감, 인형, 사진, 또는 그림이 될 수도 있다. 선택·적으로 제어 대상물은 디스플레이의 동화상이 될 수도 있다. 더나아가 대상물로서 풍선이 아닌 반중력 장치(예를들어, 프로펠러에 의해 공중으로 나는 헬기 또는 자석을 이용한 선로위의 자동차)도 사용될 수 있다.
상술한 것처럼, 본 발명에 따라 인간의 음성에 의한 자연스러운 조작이 수행될 수 있으며, 게임 장치는 조작에 있어 숙련됨을 요구하지 않는다. 또한, 입력 단어(명령)는 음성뿐만 아니라 입술의 움직임에 의해서도 인식되므로, 잡음이 있는 환경하에서도 안정적인 조작이 가능하다. 더구나 입술의 움직임은 LED 와 광다이오드(광트랜지스터)의 조함에 의해 검출되므로, 전체 장치는, 비디오 카메라, 초음파 혹은 그와 유사한 것이 사용되는 경우에 비해 저가로 생산될 수 있다.
또한, 본 발명의 음성 인식 장치에서는. 화자의 발성 구간이 입술의 움직임에 의해 검출되고 그 구간이 음성의 인식얘 사용되므로, 화자가 아닌 다른 사람에 의해 발성된 음성이 잘못 인식되는 것을 빙·지할 수 있다. 본 발명의 또 다른 음성인식 장치에서는, 입력 단어(명령)가 입술의 움직임을 근거로 인식되고, 인식 결과에 의해 비행선이 제어되기 때묵에 본 발명은 잡음이 있는 환경에서나 화자가 쉽게 발성할 수 없는 상활佈에서도 사용될 수 있으며 발성 장애를 가진 자에 의해서도 사용될 수 있다.
본 발명의 입력 장치에서는, 저렴한 발광 소자(止D)와 저렴한 광검출 소자(광다이오드)가 가벼운 헤드 세트, 지지대 및 스테이지 등에 부착되므로, 입력 장치가 경량화되면서 가격 또한 저렴하다.
상술한 바와 같이 본 발명의 음성 신택 장치는 다수의 입출력 상태를 준비하고 이전의 입출력 이력을 근거로 입출력 상태를 변화시킨다. 따라서, 음성 선택 장치를 사용함으로서 쉬운 대화를 실행할 수 있는 장치를 제공하는 것이 가능하다.
본 발명의 음성 선택 장치는 한개 입력에 대해 다수의 출력을 준비하고 출력중 무작위로 한개 출력이 선택되므로 한 종류의 입력에 대해 다양한 응답이 실행될 수 있다.
본 발명의 방향 검출 장치는 다수의 마이크로폰을 이용하여 음성을 입력하고 최대 에너지를 제공하는 마이크로폰을 검출해 낸다. 따라서 음성이 발생되는 방향을 검출할 수 있다. 본 발명의 방향 선택 장치를 사용함으로써, 현재의 위치가 나침반에 의해 검출되는 동안 대상물은 정확히 정해진 방향으로 이동하거나 향할 수 있다.
본 발명의 음성 인식 장치에서는 음성 종료점 검출 장치가 먼저 음성의 종료점을 대략적으로 구하고, 그런 다음 음성 검출 장치가 자동적으로 한계값을 구한다. 이때 입력 음성의 최대 에너지와 평활화된 에너지의 최소 에너지에 의해 한계값이 정해져 발성 구간의 길이에 상관없이 양호한 음성 구간 추출이 가능해진다.
음성 검출 장치가 한계값을 이용해 음성을 검출할 때 그 음성으로부터 특성량이 구해지고 이 특성량을 근거로 음성 인식이 이루어진다.
상술한 장치의 적절한 결함에 의해 여러 종류의 음성 응답 장치가 제작될 수 있다. 예를들면 음성 인식 장치가 음성 선택 장치와 결합될 경우, 인간의 음성에 응답할 수 있는 음성 응답 장치가 실현 가능하여 인간 대 기계간의 인더페이스(interface)가 구축될 수 있다. 방향 검출 장치가 조작 장치와 결합될 경우 대상물은 음성에 응답하여 동작할 수 있다. 음성 인식 장치, 방향 선택 장치 및 조작 장치가 결합될 경우 대상물은 음성 내용에 의해 지적된 방향으로 정확히 이동되거나 대상물의 방향이 음성 내용에 의해 지적된 방향으로 변화될 수 있다. 또한 신호 전송 장치가 음성 응답 장치에 있는 음성 인식 장치에 연결되고, 신호 수신 장치가 음성 인식 장치 뒤의 장치에 연결되어 대상물에 부착된다면 원격 제어를 할 수 있는 음성 응답 장치가 실현 가능하다.
상술한 다수의 음성 응답 장치가 제공된다면, 음성 응답 장치가 자동적으로 그들 사이의 대화를 수행할 수 있는 장난감 제작이 가능하다. 각 풍선에 음성 응답 장치가 부착된다면 풍선에 내재된 기분 좋게 하는 특성을 가지며 대화를 실시할 수 있는 장난감 생산이 가능하다. 클록 타이머가 내장되고 어느 정도 시간이 경과한 후 적절한 음성을 출력하도록 장치가 게작된다면 인간의 음성에 반응하는 대신 대화를 시작할 수 있는 음성 응답 장치가 실현가능하다.
당업자라면 본 발명의 범위 및 정신에서 벗어나지 않고 다른 다양한 수정을 행할 수 있을 것이다. 따라서, 여기에 첨부된 청구범위는 기술된 바의 설명에 국한되지 않고 나아가 청구범위가 광범위하게 해석될 수 있다.

Claims (46)

  1. 작동자에 의해 발성된 음성을 포함하는 적어도 하나의 음성 세트를 입력하고, 상기 음성 세트를 제 1 전기 신호로 변환하며, 상기 제 1 전기 신호를 출력하는 음성 입력 수단과; 상기 음성 입력 수단으로부터 출력된 상기 제 1 전기 신호에 기초하여 상기
    음성 세트를 인식하는 음성 인식 수단과; 작동자의 입술의 움직임을 광학적으로 갇지하고, 감지된 입술의 움직임을 제 2 전기 신호로 변환하며;상기 제 2 전기 신호를 출력하는 화상 입력 수단과; 상기 제 2 전기 신호를 수신하고. 수신된 제 2 전기 신호에 기초하여 음성이 작동자에 의해 발성되는 구간을 구하는 발성 구간 검출 수단과; 상기 음성 인식 수단에 의해 인식된 음성 세트와 상기 발성 구간 검출 수단에 의해 구해진 구간을 근거로; 입력된 음성 세트로부터 작동자가 발성한 음성을 추출하는 종합 판단 수단과; 상기 종합 판단 수단에 의해 추출된 음성을 근거로 대상물을 제어하는 제어수단을 구비하는 게임 장치.
  2. 제 1항에 있어서, 상기 발성 구간 검출 수단은, 상기 화상 입력 수단으로부터 출력된 제 2 전기 신호의 변화 정도를 검출하는 미분 수단과: 상기 미분 수단에 의해 검출된 변화 정도가 소정의 값을 넘으면 대응하는 음성이 상기 작동자에 의해 발성뒨 것으로 판단하는 수단을 구비하는 게임 장치.
  3. 제 1항에 있어서, 상기 종합 판단 수단은, 상기 발성 구간 검출 수단에 의해 ㅓㅞ진 구간에 소정의 길이를 갖는 구간을 추가하여 평가 구간을 작성하는 수단과; 상기 음성 인식 수단에 의해 인식된 음성 세트가 상기 음성 인식 수단으로부터 출력되는 인식 결과 출력 시간을 검출하는 수단과; 상기 인식 결과 출력 시간과 상기 평가 구간간을 비교하여. 상기 음성 세트중에서 상기 인식 결과 출력 시간이 상기 평가 구간내에 드는 음성을 상기 작동자에 의해 발성된 음성으로 판단하는 수단을 구비하는 게임 장치.
  4. 작동자의 입술의 움직임을 광학적으로 입력하고, 입력된 입술의 움직임을 전기 신호로 변환하며, 상기 전기 신호를 출력하는 화상 입력 수단과; 상기 전기 신호에 기초하여 입술의 움직임을 구하고, 구한 입술의 움직임에 대응하는 단어를 인식하며;인식 결과를 출력하는 입술 판독 수단과; 상기 인식 결과에 기초하여 제어 신호에 따라 대상물을 제어하는 제어 수단을 구비하는 게임 장치.
  5. 제 4 항에 있어서, 상기 입술 판독 수단은, 소정의 수의 단어를 저장하는 저장 수단과; 구해진 상기 입술의 움직임을 근거로 소정의 수의 단어로부터 한 단어를 선택하고, 선택된 단어가 입술의 움직임에 대응하는 단어라고 판단하는 정합 수단을 구비하는 게임 장치.
  6. 제 5 항에 있어서, 상기 저장 수단은 상기 소정의 수의 단어에 대응하는 입술의 움직임을 표준패턴으로 저장하고, 상기 정합 수단은 모든 표준 패턴에 대해 구해진 입술의 움직임으로부터의 거리를 계산하여 표준 패턴에 대해 계산된 거리중 최소 거리에 대응하는 단어를 선택하는 게임 장치.
  7. 제 4 항에 있어서; 음성을 입력하고, 상기 음성을 또다른 전기 신호로 변환하며;상기 또다른 전기 신호를 출력하는 음성 입력 수단과; 상기 음성 입력 수단으로부터 출력되는 또다른 전기 신호에 기초하여 음성을 인식하는 음성 인식 수단과; 상기 음성 인식 수단에 의한 인식 결과와 상기 입술 판독 수단에 의한 인식 결과에 기초하여 상기 제어 수닥에 인가될 제어 신호를 출력하는 종합 판단 수단을 더 구비하는 게임 장치.
  8. 제 7 항에 있어서, 상기 음성 인식 수단에 의한 인식 결과에 대해 음성 인식 신뢰도를 구하는 수단과: 상기 입술 판독 수단에 의한 인식 결과에 대해 입술 판독 신뢰도를 구하는 수단을 더 구비하고.
    상기 종합 판단 수단은, 상기 음성 인식 신뢰도와 상기의 입술 판독 신뢰도에 기초하여 상기 음성 인식 수단에 의한 인식 결과와 상기 입술 판독 수단에 의한 인식 결과 중 하나를 선택하고;선택된 인식 결과를 상기 제어 신호로 출력하는 게임 장치.
  9. 제 1 항에 있어서, 상기 화·상 입력 수단은 빛을 발하는 발광 수단과;작동자의 입술로부터 반사된 빚을 수신하고 수신된 빛을 상기 제 2 전기 신호로 변환하는 광검출 수단을 구비하는 게임 장치.
  10. 제 4 항에 있어서, 상기 화상 입력 수단은 빛.을 발하는 발광 수단과, 작동자의 입술로부터 반사된 빛을 수신하고 수신된 빛을 상기 전기 신호로 변환하는 광검출 수단을 구비하는 게임 장치.
  11. 제 7 항에 있어서, 상기 화상 입력 수단은 빛을 발하는 발광 수단과, 작동자의 입술로부터 반사된 빛을 수신하고 수신된 빛을 상기 전기 신호로 변환하는 광검출 수단을 구비하는 게임 장치.
  12. 제 9 항에 있어서, 상기 빛은 입술의 측면으로부터 입술로 조사되는 게임 장치.
  13. 제 10 항에 있어서, 상기 빛이 입술의 측면으로부터 입술로 조사되는 게임 장치.
  14. 제 11 항에 있어서; 상기 빛은 입술의 측면으로부터 입술로 조사되는 게임 장치.
  15. 제 9 항에 있어서, 상기 빛은 입술의 정면으로부터 입술로 조사되는 게임 장치.
  16. 제 10 항에 있어서, 상기 빛은 입술의 정면으로부터 입술로 조사되는 게임 장치.
  17. 제 11항에 있어서, 상기 빛은 입술의 정면으로부터 입술로 조사되는 게임 장치.
  18. 제 1 항에 있어서, 상기 음성 입력 수단은 적어도 하나의 마이크로폰을 구비하는 게임 장치.
  19. 제 7 항에 있어서, 상기 음성 입력 수단이 적어도 하나의 마이크로폰을 구비하는 게임 장치.
  20. 제 11 항에 있어서, 상기 음성 입력 수단은 적어도 하니·의 마이크로폰을 구비하고, 상기 마이크로폰과;상기 화상 입력 수단의 발광 수단 및 광검출 수단은 단일 스테이지상에 제공되는 게임 장치.
  21. 헤드폰형의 헤드 세트와; 한쪽 끝이 상기 헤드 세트에 접합된 지지대와; 상기 지지대의 또 다른 끝에 접합되고, 작동자의 입술에 조사되는 빛을 발생하는 적어도 하나의 발광 소자와, 상기 입술로부터 반사된 빛을 수신하는 적어도 하나의 광검출 소자를 포함하는 스테이지(stage)를 구비하는 입력 장치.
  22. 제 21항에 있어서, 상기 스테이지는 제공된 음성을 입력하는 음성 입력 수단을 더 구비하는 입력 장치.
  23. 하나의 입력에 대해 출력될 수 있는 다수의 단어를 각각 포함하는 다수의 테이블을 저장하는 제 1 기억 수단과; 상기 다수의 테이블중 하나를 저장하는 제 2 기억 수단과; 외부의 입력에 따라 상기 제 2 기억 수단에 저장된 한 테이블에 포함된 다수의 단어로부터 한 단어를 선택하고 선택된 한 단어를 음성으로 출력하는 선택 수단과; 상기 제 2 기억 수단에 저장된 한 테이블을 상기 제 1 기억 수단에 저장된 다수의 테이블 중 상기 선택된 한 단어에 따라 결정되는 다른 하나의 테이블로 바꾸는 변경 수단을 구비하는 음성 선택 장치.
  24. 제 23 항에 있어서, 랜덤수를 발생하는 수단을 더 구비하고, 상기 선택 수단은 상기 랜덤수를 이용하여 다수의 단어로부터 한 단어를 선택하는 음성 선택 장치.
  25. 하나의 입력에 응답하여 출릭될 수 있는 다수의 단어를 포함하는 테이블이 저장되는 기억 수단과; 외부 입력을 수신하고. 랜덤수를 이용하여 상기 기역 수단에 저장되는 테이블에 포함된 다수의 단어로부터 한 단어를 선택하며. 선택된 한 단어를 음성으로 출력하는 선택 수단과; 상기 랜덤수를 발생하는 수단을 구비하는 음성 선택 장치.
  26. 하나의 입력에 대해 출력될 수 있는 다수의 단어를 각각 포함하는 다수의 테이블을 저장하는 제 1 기억 수단과; 상기 다수의 테이블중 하나를 저장하는 제 2 기억 수단과, 외부의 입력에 따라 상기 제 2 기억 수단에 저장된 한 테이블에 포함된 다수의 단어로부터 한 단어를 선택하고 선택된 한 단어를 음성으로 출력하는 선택 수단과, 상기 제 2 기억 수단에 저장된 한 테이블을 상기 제 1 기억 수단에 저장된 다수의 테이블 중 상기 선택된 한 단어에 따라 결정되는 다른 하나의 테이블로 바꾸는 변경 수단, 을 구비하는 음성 선택 장치와; 음성을 수신하고 상기 음성을 인식하며 인식 결과를 상기 음성 선택 장치에 출력하는 음성 인식 장치를 구비하는 음성 응답 장치.
  27. 하나의 입력에 응답하여 출릭될 수 있는 다수의 단어를 포함하는 테이블이 저장되는 기억 수단과, 외부 입력을 수신하고; 랜덤수를 이용하여 상기 기억 수단에 저장되는 테이블에 포함된 다수의 단어로부터 한 단어를·선택하며. 선택된 한 단어를 음성으로 출력하는 선택 수단과. 상기 랜덤수를 발생하는 수단, 을 구비하는 음성 선택 장치와; 음성을 수신하고 상기 음성을 인식하며 인식 결과를 상.기 음성 선택 장치에 출력하는 음성 인식 장치를 구비하는 음성 응답 장치.
  28. 하나의 입력에 대해 출력될 수 있는 다수의 단어를 각각 포함하는 다수의 테이블을 저장하는 제 1 기억 수단과. 상기 다수의 테이블중 하나를 저장하는 제 2 기억 수단과, 외부의 입력에 따라 상기 제 2 기억 수단에 저장된 한 테이블에 포함된 다수의 단어로부터 한 단어를 선택하고 선택된 한 단어를 음성으로 출력하는 선택 수단과, 상기 제 2 기억 수단에 저장된 한 테이블을 상기 제 1 기억 수단에 저장된 다수의 테이블 중 상기 선택된 한 단어에 따라 결정되는 다른 하나의 테이블로 바꾸는 변경 수단,을 구비하는 음성 선택 장치와; 음성을 수신하고 상기 음성을 인식하며 인식 결과를 상기 음성 선택 장치에 출력하는 음성 인식 장치;를 구비하는 음성 응답 장치를 구비하는 게임 장치.
  29. 하나의 입력에 응답하여 출럭될 수 있는 다수의 단어를 포함하는 테이블이 저장되는 기역 수단과, 외부 입력을 수신하고, 랜덤수를 이용하여 상기 기억 수단에 저장되는 테이블에 포함된 다수의 단어로부터 한 단어를·선택하며, 선택된 한 단어를 음성으로 출력하는 선택 수단과, 상기 랜덤수를 발생하는 수단, 을 구비하는 음성 선택 장치와; 음성을 수신하고 상기 음성을 인식하며 인식 걸과를 상기 음성 선택 장치에 출력하는 음성 인식 장치;를 구비하는 음성 응답 장치를 구비하는 게임 장치.
  30. 하나의 입력에 대해 출력될 수 있는 다수의 단어를 각각 포함하는 다수의 테이블을 저장하는 제 1 기억 수단과, 상기 다수의 테이블중 하나를 저장하는 제 2 기억 수단과, 외부의 입력에 따라 상기 제 2 기억 수단에 저장된 한 테이블에 포함된 다수의 단어르.부터 한 단어를 선택하고 선택된 한 단어를 음성으로 출력하는 선택 수단과, 상기 제 2 기억 수단에 저장된 한 테이블을 상기 제 1 기억 수단에 저장된 다수의 테이블 증 상기 선택된 .한 단어에 따라 결정되는 다른 하나의 테이블로 바꾸는 변경 수단, 을 구비하는 음성 선택 장치와; 음성을 수신하고 상기 음성을 인식하며 인식 결과를 상기 음성 선택 장치에 출력하는 음성 인식 장치;를 구비하는 음성 응답 장치를 다수 구비함으로써, 상기 다수의 음성 응답 장치는 서로 대화를 수행할 수 있는 게임 장치.
  31. 입력 음성을 전기 신호로 변환하고, 각각이 다른 방향에 대응하는 다수의 음성 입력부와; 상기 다수의 음성 입력부 각각에 대해 상기 전기 신호의 에너지를 구하고, 상기 다수의 음성 입력부중 최대 에너지를 갖는 하나를 결정하며, 결정된 하나의 음성 입력부에 대응하는 방향을 음성이 발생된 방향으로 판정하는 방향 검출 수단을 구비하는 게임 장치.
  32. 제 31항에 있어서; 대상물을 동작시키는 작동 수단과; 상기 대상물이 동작되는 방향을 판정된 방향으로 바꾸기 위해 상기 작동 수단을 제어하는 제어 수단을 더 구비하는 게임 장치.
  33. 제 31항에 있어서, 대상물의 현재의 동작 방향을 측정하는 측정 수단과; 판정된 방향을 입력하고 상기 현재의 동작 방향과 상기 판정된 방향을 근거로 목적 방향을 구하며 상기 목적 방향을 저장하는 수단을 포함하는 방향 선택 수단과; 상기 대상물을 동작시키는 작동 수단을 더 구비하며, 상기 방향 선택 수단은 상기 목적 방향과 상기 현재의 동작 방향간의 차이를 이용하여 상기 대상물의 현재의 동작 방향이 상기 목적 방향과 사실상 일치하도록 상기 작동 수단을 제어하는 게임 장치.
  34. 음성을 이용하여 상대적인 방향을 입력하는 입력 수단과; 대상물의 현재의 방향을 측정하는 측정 수단과; 상기 현재의 방향과 입력된 상기 상대적인 방향을 근거로 목적 방향을 구하고, 상기 목적 방향을 저장하는 수단; 을 포함하는 방향 선택 수단을 구비하고; 상기 방향 선택 수단은 상기 목적 방향과 상기 현재의 방향간의 차이를 이용하여 상기 대상물의 현재의 동작 방향이 상기 목적 방향과 사실상 일치하도록 대상물을 제어하는 게임 장치.
  35. 제 34 항에 있어서, 상기 입력 수단은, 상기 음성이 입력되는 입력부와, 입력된 음성을 근거로 상대적인 방향을 인식하는 인식부를 구비하는 게임 장치.
  36. 음성을 이용하여 절대적인 방향을 입력하는 입력 수단과; 상기 절대적인 방향을 근거로 목적 방향을 결정하고. 상기 목적 방향을 저장하는 수단과; 대상물의 현재의 방향을 측정하는 측정 수단;을 포함하는 방향 선택 수단을 구비하고, 상기 방향 선택 수단은 상기 목적 방향과 상기 현재의 방향간의 차이를 이용하여 상기 대상물의 현재의 동작 방향이 상기 목적 방향과 사실상 일치하도록 대상물을 제어하는 게임 장치.
  37. 제 36 항에 있어서, 상기 입력 수단은, 상기 음성이 입력되는 입력부와, 입력된 음성을 근거로 절대적인 방향을 인식하는 인식부를 구비하는 게임 장치.
  38. 음성에 대응하는 전기 신호를 수신하고, 상기 전기 신호에 기초하여 음성의 입력이 종료된 시간을 나타내는 음성 종료점을 검출하는 제 1 검출 수단과; 상기 전기 신호에 기초하여 상기 음성이 입력된 전구간 내에서 상기 음성이 발성된 구간인 발성 구간을 결정하는 제 2 검출 수단과; 상기 발성 구간에 대응하는 상기 전기 신호의 일부에 기초하여 특성량 벡터를 제공하는 특성량 추출 수단과; 미리 작성된 다수의 음성 후보에 대한 특성량 벡터를 저장하는 기억 수단과; 상기 특성량 추출 수단으로부터의 특성량 벡터와 상기 기억 수단에 저장된 다수의 음성 후보의 특성량 벡터 각각을 비교하여 입력된 음성을 인식하는 수단을 구비하는 음성 인식 장치.
  39. 제 38 항에 있어서, 상기 제 1 검출 수단은, 상기 전기 신호를 소정의 길이를 각각 갖는 다수의 프레임으로 분할하는 수단과; 다수의 프레임 각각에 대해 상기 전기 신호의 에너지를 구하는 계산 수단과; 상기 에너지의 분산을 근거로 상기 음성 종료점을 결정하는 결정 수단을 포함하는 음성 인식 장치.
  40. 제 39 항에 있어서, 상기 결정 수단은 소정의 한계값을 상기 에너지의 분산과 비교하여 상기 음성 종료점을 결정하고, 상기 음성 종료점은 상기 에너지의 분산이 상기 한계값보다 큰 값에서 상기 한계값보다 작은 값으로 변화되는 동안 상기 힌계값과 일치하는 시간에 대응하는 음성 인식 장치.
  41. 제 39 항에 있어서, 상기 결정 수단은 다수의 프레임의 에너지 중 소정 수의 프레임의 에너지에 대한 분산을 이용하는 음성 인식 장치.
  42. 제 39 항에 있어서, 상기.제 2 검출 수단은, 상기 전기 신호의 에너지를 평활화하는 수단과; 평활화하기 전에 각 프레임에 대한 전기 신호의 에너지를 순차적으로 저장하는 제 1 순환 기억 수단과; 각 프레임에 대한 평활화된 에너지를 순차적으로 저장하는 제 2 순환 기억 수단과; 상기 음성 종료점이 검출된 시간에 상기 제 1 순환 기억 수단에 저장된 평활화하기 전의 에너지와 상기 음성 종료점이 검출된 시간에·상기 제 2 순환 기억 수단에 저장된 평활화된 에너지를 모두 이용하여 발성 구간 검출 한계값을 계산하는 한계값 계산 수단과; 평활화하기 전의 에너지와 상기 발성 구간 검출 한계값을 비교하여 상기 발성 구간을 결정하는 발성 구간 결정 수단을 포함하는 음성 인식 장치.
  43. 제 42 항에 있어서, 상기 한계값 계산 수단은 상기 음성 종료점이 검출된 시간에 상기 제 1 순환 기억 수단에 저장된 평활화하기 전의 에너지의 죄대치와 상기 음성 종료점이 검출되지 않은 시간에 상기 제 2 순환 기억 수단에 저장된 평활화된 에너지의 최소치를 이용하여 발성 구간 검출 한계값을 계산하는 음성 인식 장치.
  44. 제 42 항에 있어서, 상기 특성량 추출 수단은 상기 전기 신호의 발성 구간으로부터, 상기 전기 신호 각 프레임의 제로 교차수와, 상기 전기 신호를 미분하여 구해진 신호의 각 프레임의 제로 교차수와, 상기 전기 신호의 에너지를 계산하고. 이들 구해진 값들을 상기 특성량 벡터의 요소로 사용하는 음성 인식 장치.
  45. 음성에 대응하는 전기 신호를 수신하고, 상기 전기 신호에 기초하여 음성의 입력이 종료된 시간을 나타내는 음성 종료점을 검출하는 제 1 검출 수단과, 상기 전기 신호에 기초하여 상기 음성이 입력된 전구간 내에서 상기 음성이 발성된 구간인 발성 구간을 결정하는 제 2 검출 수단과, 상기 발성 구간에 대응하는 상기 전기 신호의 일부에 기초하여 특성량 벡터를 제공하는 툭성량 추출 수단과; 미리 작성된 다수의 음성 후보에 대한 특성량 벡터를 저장하는 기억 수단과, 상기 특성량 추출 수단으로부터의 특성량 벡터와 상기 기억 수단에 저장된 다수의 음성 후보의 특성량 벡터 각각을 비교하여 입력된 음성을 인식하는 수단을 구비하는 적어도 하나의 음성 인식 장치와; 상기 적어도 하나의 음성 인식 장치의 인식 결과에 기초하여 대상물을 제어하는 적어도 하나의 제어 장치를 구비하는 음성 응답 장치.
  46. 제 45 항에 있어서, 상기 적어도 하나의 음성 인식 장치에 연결되어 상기 적어도 하나의 음성 인식 장치에 의한 인식 결과를 송신하는 송신 수단과; 상기 적어도 하나의 제어 장치에 연결되어 상기 송신된 인식 결과를 수신하고 상기 적어도 하나의 제어 장치에 상기 인식 결과를 인가하는 수신 수단을 더 구비하고, 상기 적어도 하나의 제어 장치와 상기 수신 수단이 상기 대상물에 부착됨으로써 상기 대상물이 원격 제어기에 의해 제어될 수 있게 되는 음성 응답 장치.
KR1019950012057A 1994-05-13 1995-05-13 게임장치,음성선택장치,음성인식장치및음성응답장치 KR100215946B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP9962994 1994-05-13
JP94-99629 1994-05-13
JP94-274911 1994-11-09
JP27491194 1994-11-09

Publications (2)

Publication Number Publication Date
KR950034051A KR950034051A (ko) 1995-12-26
KR100215946B1 true KR100215946B1 (ko) 1999-08-16

Family

ID=26440741

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950012057A KR100215946B1 (ko) 1994-05-13 1995-05-13 게임장치,음성선택장치,음성인식장치및음성응답장치

Country Status (6)

Country Link
US (2) US6471420B1 (ko)
EP (1) EP0683481B1 (ko)
KR (1) KR100215946B1 (ko)
CN (1) CN1132149C (ko)
DE (1) DE69527745T2 (ko)
ES (1) ES2181732T3 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018070639A1 (ko) * 2016-10-14 2018-04-19 삼성전자 주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156872A1 (en) 2001-01-04 2002-10-24 Brown David W. Systems and methods for transmitting motion control data
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3112254B2 (ja) * 1997-03-04 2000-11-27 富士ゼロックス株式会社 音声検出装置
CA2225060A1 (en) * 1997-04-09 1998-10-09 Peter Suilun Fong Interactive talking dolls
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
DE19751290A1 (de) * 1997-11-19 1999-05-20 X Ist Realtime Technologies Gm Einheit und Verfahren zum Transformieren von akustischen Signalen
JP3688879B2 (ja) * 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
US7081915B1 (en) * 1998-06-17 2006-07-25 Intel Corporation Control of video conferencing using activity detection
DE69943018D1 (de) * 1998-10-09 2011-01-20 Sony Corp Lernvorrichtung und -verfahren, erkennungsvorrichtung und verfahren, und aufnahme-medium
DE60044521D1 (de) * 1999-02-16 2010-07-22 Yugen Kaisha Gm & M Sprache umwandlung gerät und verfahren
JP3132815B2 (ja) * 1999-04-21 2001-02-05 株式会社トイテック 玩具用音声認識装置
US9232037B2 (en) 1999-10-20 2016-01-05 Curo Interactive Incorporated Single action sensory prompt interface utilising binary state time domain selection protocol
US6804539B2 (en) * 1999-10-20 2004-10-12 Curo Interactive Incorporated Single action audio prompt interface utilizing binary state time domain multiple selection protocol
US6771982B1 (en) 1999-10-20 2004-08-03 Curo Interactive Incorporated Single action audio prompt interface utlizing binary state time domain multiple selection protocol
WO2001035377A1 (en) * 1999-11-12 2001-05-17 Kirksey William E Method and apparatus for displaying writing and utterance of word symbols
KR20010073719A (ko) * 2000-01-19 2001-08-01 정우협 머드게임의 음성인식 동작(조절작동)방법
KR20010073718A (ko) * 2000-01-19 2001-08-01 정우협 네트워크게임의 음성인식 동작(조절작동)방법
JP2002091466A (ja) 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
US20020116197A1 (en) * 2000-10-02 2002-08-22 Gamze Erten Audio visual speech processing
US7904194B2 (en) * 2001-02-09 2011-03-08 Roy-G-Biv Corporation Event management systems and methods for motion control systems
US6641401B2 (en) 2001-06-20 2003-11-04 Leapfrog Enterprises, Inc. Interactive apparatus with templates
WO2003001478A1 (en) * 2001-06-20 2003-01-03 Leapfrog Enterprises, Inc. Interactive apparatus with templates
JP2003202888A (ja) * 2002-01-07 2003-07-18 Toshiba Corp 無線通信機能付きヘッドセットおよびこれを用いた音声処理システム
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
JP2003316387A (ja) * 2002-02-19 2003-11-07 Ntt Docomo Inc 学習装置、移動通信端末、情報認識システム、及び、学習方法
US7587318B2 (en) * 2002-09-12 2009-09-08 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
US20040254794A1 (en) * 2003-05-08 2004-12-16 Carl Padula Interactive eyes-free and hands-free device
US7231190B2 (en) * 2003-07-28 2007-06-12 Motorola, Inc. Method and apparatus for terminating reception in a wireless communication system
US7610210B2 (en) * 2003-09-04 2009-10-27 Hartford Fire Insurance Company System for the acquisition of technology risk mitigation information associated with insurance
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
DE602004021716D1 (de) * 2003-11-12 2009-08-06 Honda Motor Co Ltd Spracherkennungssystem
US7355593B2 (en) * 2004-01-02 2008-04-08 Smart Technologies, Inc. Pointer tracking across multiple overlapping coordinate input sub-regions defining a generally contiguous input region
US20050154593A1 (en) * 2004-01-14 2005-07-14 International Business Machines Corporation Method and apparatus employing electromyographic sensors to initiate oral communications with a voice-based device
JP2005202854A (ja) * 2004-01-19 2005-07-28 Nec Corp 画像処理装置、画像処理方法及び画像処理プログラム
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
WO2005112004A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding models
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
DE102004028082A1 (de) * 2004-06-09 2005-12-29 BSH Bosch und Siemens Hausgeräte GmbH Haushaltgerät mit Bilderfassungseinrichtung
GB2415639B (en) * 2004-06-29 2008-09-17 Sony Comp Entertainment Europe Control of data processing
US7704135B2 (en) * 2004-08-23 2010-04-27 Harrison Jr Shelton E Integrated game system, method, and device
US20060046845A1 (en) * 2004-08-26 2006-03-02 Alexandre Armand Device for the acoustic control of a game system and application
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
KR100718125B1 (ko) 2005-03-25 2007-05-15 삼성전자주식회사 생체신호와 인공신경회로망을 이용한 생체인식 장치 및방법
JP4910312B2 (ja) * 2005-06-03 2012-04-04 ソニー株式会社 撮像装置および撮像方法
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US20070055528A1 (en) * 2005-08-30 2007-03-08 Dmitry Malyshev Teaching aid and voice game system
US7883420B2 (en) 2005-09-12 2011-02-08 Mattel, Inc. Video game systems
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
US20100235169A1 (en) * 2006-06-02 2010-09-16 Koninklijke Philips Electronics N.V. Speech differentiation
US8069039B2 (en) * 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
US8326636B2 (en) 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
CN101101752B (zh) * 2007-07-19 2010-12-01 华中科技大学 基于视觉特征的单音节语言唇读识别***
JP4462339B2 (ja) * 2007-12-07 2010-05-12 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8172637B2 (en) * 2008-03-12 2012-05-08 Health Hero Network, Inc. Programmable interactive talking device
US9135809B2 (en) * 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
JP2012502325A (ja) * 2008-09-10 2012-01-26 ジュンヒュン スン デバイスインターフェイシングのための多重モード調音統合
US8154644B2 (en) * 2008-10-08 2012-04-10 Sony Ericsson Mobile Communications Ab System and method for manipulation of a digital image
JP2010165305A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
JP5499633B2 (ja) * 2009-10-28 2014-05-21 ソニー株式会社 再生装置、ヘッドホン及び再生方法
KR101644015B1 (ko) * 2009-11-27 2016-08-01 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US8996382B2 (en) * 2010-10-14 2015-03-31 Guy L. McClung, III Lips blockers, headsets and systems
KR20130022607A (ko) * 2011-08-25 2013-03-07 삼성전자주식회사 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법
WO2014025012A1 (ja) * 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
RU2523220C1 (ru) * 2013-02-19 2014-07-20 Михаил Сергеевич Беллавин Электронно-вычислительное устройство
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
WO2014201347A1 (en) 2013-06-14 2014-12-18 Intercontinental Great Brands Llc Interactive video games
WO2015072816A1 (ko) * 2013-11-18 2015-05-21 삼성전자 주식회사 디스플레이 장치 및 제어 방법
KR102345611B1 (ko) * 2013-11-18 2021-12-31 삼성전자주식회사 디스플레이 장치 및 제어 방법
CN104753607B (zh) * 2013-12-31 2017-07-28 鸿富锦精密工业(深圳)有限公司 消除移动装置干扰信号的方法以及电子设备
CN105096935B (zh) * 2014-05-06 2019-08-09 阿里巴巴集团控股有限公司 一种语音输入方法、装置和***
CN107004405A (zh) * 2014-12-18 2017-08-01 三菱电机株式会社 语音识别装置和语音识别方法
JP2017120609A (ja) * 2015-12-24 2017-07-06 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
US20170326443A1 (en) * 2016-05-13 2017-11-16 Universal Entertainment Corporation Gaming machine
CN106095381B (zh) * 2016-06-07 2020-05-01 北京京东尚科信息技术有限公司 终端设备及其显示屏幕的滑动操作控制方法和装置
US10764643B2 (en) * 2016-06-15 2020-09-01 Opentv, Inc. Context driven content rewind
CN108227904A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互***与方法
US10332515B2 (en) 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US10748542B2 (en) 2017-03-23 2020-08-18 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
CN106875941B (zh) * 2017-04-01 2020-02-18 彭楚奥 一种服务机器人的语音语义识别方法
CN107316651B (zh) * 2017-07-04 2020-03-31 北京中瑞智科技有限公司 基于麦克风的音频处理方法和装置
CN109859749A (zh) 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
US11068735B2 (en) * 2017-12-05 2021-07-20 Denso Corporation Reliability calculation apparatus
CN108465241B (zh) * 2018-02-12 2021-05-04 网易(杭州)网络有限公司 游戏声音混响的处理方法、装置、存储介质及电子设备
US10997979B2 (en) * 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method
US11288974B2 (en) 2019-03-20 2022-03-29 Edana Croyle Speech development system
US11282402B2 (en) 2019-03-20 2022-03-22 Edana Croyle Speech development assembly
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
US12033656B2 (en) * 2021-06-19 2024-07-09 Kyndryl, Inc. Diarisation augmented reality aide

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3582559A (en) 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
US4245430A (en) 1979-07-16 1981-01-20 Hoyt Steven D Voice responsive toy
ZA813750B (en) 1981-06-04 1982-06-30 Digicor Pty Ltd Audio sensing apparatus
US4799171A (en) 1983-06-20 1989-01-17 Kenner Parker Toys Inc. Talk back doll
JPS6055985A (ja) 1983-09-05 1985-04-01 株式会社トミー 音声認識玩具
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US4975960A (en) * 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
US4725956A (en) 1985-10-15 1988-02-16 Lockheed Corporation Voice command air vehicle control system
US4757541A (en) * 1985-11-05 1988-07-12 Research Triangle Institute Audio visual speech recognition
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US4696653A (en) 1986-02-07 1987-09-29 Worlds Of Wonder, Inc. Speaking toy doll
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk ***画像入力による音声認識方法
GB8618193D0 (en) 1986-07-25 1986-11-26 Smiths Industries Plc Speech recognition apparatus
JPS6338993A (ja) * 1986-08-04 1988-02-19 松下電器産業株式会社 音声区間検出装置
US4829578A (en) 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4857030A (en) * 1987-02-06 1989-08-15 Coleco Industries, Inc. Conversing dolls
US4840602A (en) 1987-02-06 1989-06-20 Coleco Industries, Inc. Talking doll responsive to external signal
JPH067343B2 (ja) 1987-02-23 1994-01-26 株式会社東芝 パタ−ン識別装置
US5222147A (en) 1989-04-13 1993-06-22 Kabushiki Kaisha Toshiba Speech recognition LSI system including recording/reproduction device
JPH0398078A (ja) 1989-09-12 1991-04-23 Seiko Epson Corp 音声評価システム
JPH03129400A (ja) 1989-10-13 1991-06-03 Seiko Epson Corp 音声認識装置
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
CA2031965A1 (en) 1990-01-02 1991-07-03 Paul A. Rosenstrach Sound synthesizer
US5210791A (en) 1990-12-13 1993-05-11 Michael Krasik Telephone headset on-line indicator
US5209695A (en) 1991-05-13 1993-05-11 Omri Rothschild Sound controllable apparatus particularly useful in controlling toys and robots
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
JP3098078B2 (ja) 1991-11-27 2000-10-10 日本放送協会 雷警報装置
US5305422A (en) 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5579431A (en) 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
JP3129400B2 (ja) 1997-03-24 2001-01-29 株式会社桑原組 組立用ブロックとその組立方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018070639A1 (ko) * 2016-10-14 2018-04-19 삼성전자 주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법
US11094323B2 (en) 2016-10-14 2021-08-17 Samsung Electronics Co., Ltd. Electronic device and method for processing audio signal by electronic device

Also Published As

Publication number Publication date
EP0683481A2 (en) 1995-11-22
DE69527745T2 (de) 2003-05-15
ES2181732T3 (es) 2003-03-01
EP0683481B1 (en) 2002-08-14
CN1120965A (zh) 1996-04-24
EP0683481A3 (en) 1998-03-04
US6471420B1 (en) 2002-10-29
DE69527745D1 (de) 2002-09-19
CN1132149C (zh) 2003-12-24
KR950034051A (ko) 1995-12-26
US5884257A (en) 1999-03-16

Similar Documents

Publication Publication Date Title
KR100215946B1 (ko) 게임장치,음성선택장치,음성인식장치및음성응답장치
US11823681B1 (en) Accessory for a voice-controlled device
JPH08187368A (ja) ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
US10504511B2 (en) Customizable wake-up voice commands
US9940949B1 (en) Dynamic adjustment of expression detection criteria
US9430467B2 (en) Mobile speech-to-speech interpretation system
US7321853B2 (en) Speech recognition apparatus and speech recognition method
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
Novoa et al. DNN-HMM based automatic speech recognition for HRI scenarios
US9293134B1 (en) Source-specific speech interactions
CN105765650A (zh) 带有多向解码的语音辨识器
JP2003255991A (ja) 対話制御システム、対話制御方法及びロボット装置
WO2008080912A1 (en) Systems and methods for intelligent control of microphones for speech recognition applications
Heinrich et al. Towards robust speech recognition for human-robot interaction
KR20210017392A (ko) 전자 장치 및 이의 음성 인식 방법
KR20090025939A (ko) 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법
Krishna et al. Design of voice and gesture controlled Quadcopter
CN110716181A (zh) 声音信号采集方法以及分离式麦克风阵列
JP2004024863A (ja) ***認識装置および発生区間認識装置
JPH03208099A (ja) 音声認識装置及び方法
JPH04257900A (ja) 舌動作検出型音節認識装置
KR101086602B1 (ko) 차량용 음성인식 시스템 및 그 방법
Vovos et al. Speech operated smart-home control system for users with special needs.
JP2000311077A (ja) 音声情報入力装置
US11600275B2 (en) Electronic device and control method thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20050511

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee