JPH08187368A - ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 - Google Patents

ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置

Info

Publication number
JPH08187368A
JPH08187368A JP7114957A JP11495795A JPH08187368A JP H08187368 A JPH08187368 A JP H08187368A JP 7114957 A JP7114957 A JP 7114957A JP 11495795 A JP11495795 A JP 11495795A JP H08187368 A JPH08187368 A JP H08187368A
Authority
JP
Japan
Prior art keywords
voice
input
recognition
unit
electric signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7114957A
Other languages
English (en)
Inventor
Hidetsugu Maekawa
英嗣 前川
Tatsumi Watanabe
辰巳 渡辺
Kazuaki Obara
和昭 小原
Kazuhiro Kayashima
一弘 萱嶋
Kenji Matsui
謙二 松井
Yoshihiko Matsukawa
善彦 松川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7114957A priority Critical patent/JPH08187368A/ja
Publication of JPH08187368A publication Critical patent/JPH08187368A/ja
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition

Landscapes

  • Toys (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Selective Calling Equipment (AREA)

Abstract

(57)【要約】 【目的】 人間にとって自然な音声による操作を可能と
するゲーム装置を提供する。 【構成】 音声認識部2音声を認識し、発声区間検出部
4は画像入力部3が取り込んだ話者(装置の操作者)の
***付近の動きから、話者の発声区間を検出する。統合
判断部5は、音声認識結果と検出された発声区間の情報
とに基づいて、話者が発声した音声認識結果のみを抽出
する。認識結果は制御部6に送られ、飛行船7の制御に
利用される。以上の構成により、話者以外の周囲騒音に
よる誤認識を防止することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を用いて操作する
ゲーム装置、***画像や音声を入力する入力装置、およ
び音声反応装置に関する。
【0002】
【従来の技術】図34に従来のゲーム装置の例として、
無線受信機を備えた飛行船を操作者の手元の無線受信器
付きリモートコントローラーによって操作するゲーム装
置を示す。図34に示すように、従来のゲーム装置で
は、リモートコントローラに備えられたジョイスティッ
ク161を用いて対象物を操作するのが一般的である。
操作者がジョイスティック161を動かすと、その角度
が角度検出部162および163によって検出され、電
気信号に変換されて制御部164に出力される。制御部
164は、これらの電気信号に基づき、ジョイスティッ
ク161の角度に応じて飛行船7の移動を制御するため
のラジオコントロール信号を出力する。
【0003】
【発明が解決しようとする課題】しかしながら従来のゲ
ーム装置は、ジョイスティック161による操作である
ため、人間にとって自然な操作とはなっていない。この
ため操作習熟に時間がかかる、とっさの反応に鈍くなる
等の問題点を有していた。また、飛行船ではなく、駆動
装置付きの風船を操作するゲーム装置もあるが、この装
置においても上述したようにして風船の動きが制御され
るため、風船の動きが非生物的になってしまい、風船独
特の暖かみが薄れるという問題があった。
【0004】また、操作者の***の画像を入力すること
により、音声を認識する装置も提案されているが、この
ような装置では、高度な光学系レンズを必要とするため
に装置自体が大ががりなものとなってしまう上に高価で
あるという問題点がある。
【0005】本発明はこのような現状に鑑みてなされた
ものであり、その目的は、(1)自然な音声による操作
が可能であり、操作習熟を必要とせず、さらに騒音下あ
るいは音声を発しにくい状況での利用、および発声に障
害を持つ者の利用を可能にするゲーム装置を低コストか
つ簡易な構成で提供すること、(2)操作者の***の動
きおよび音声を簡易な構成により入力することが可能で
ある入力装置、(3)同一の入力音声に対して、複数の
言葉の中からランダムに選択された言葉を音声として出
力する音声選択装置、(4)音声によって自然な動作を
させることができるゲーム装置または玩具、ならびにこ
れらに用いられる音声認識装置を提供すること、および
(5)入力される音声に応じて動作を変えることができ
る音声反応装置を提供することにある。
【0006】
【課題を解決するための手段】本発明のゲーム装置は、
操作者によって発生された音声を含む少なくとも1つの
音声を入力し、入力された該音声を第1の電気信号に変
換し、該第1の電気信号を出力する音声入力手段と、該
音声入力手段から出力された該第1の電気信号に基づい
て該少なくとも1つの音声を認識する音声認識手段と、
該操作者の***の動きを光学的に検出し、検出された該
***の動きを第2の電気信号に変換し、該第2の電気信
号を出力する画像入力手段と、該第2の電気信号を受け
取り、受け取った該第2の電気信号に基づいて、該話者
によって該音声が発生されている区間を求める発生区間
検出手段と、該音声認識手段によって認識された該少な
くとも1つの音声と、該発生区間検出手段によって求め
られた該区間とに基づいて、該少なくとも1つの音声か
ら該操作者によって発生された該音声を抽出する統合判
断手段と、該統合判断手段によって抽出された該音声に
基づいて、対象物を制御する制御手段とを備えており、
そのことにより上記目的を達成する。
【0007】前記発声区間検出手段は、前記画像入力手
段から出力される前記第2の電気信号の変化の度合いを
検出する微分手段と、該微分手段によって検出される該
変化の度合いが所定の値を超えたときに、対応する音声
は前記操作者によって発生されたと判断する手段とを備
えていてもよい。
【0008】前記統合判断手段は、前記発声区間検出手
段によって求められた前記区間に所定の長さの区間を加
えることにより評価区間を作成する手段と、前記音声認
識手段によって認識された前記少なくとも1つの音声
が、該音声認識手段から出力された認識結果出力時間を
検出する手段と、該認識結果出力時間と該評価区間とを
比較し、該少なくとも1つの音声のうち、該認識結果出
力時間が該評価区間内に収まっている音声を前記操作者
によって発声された前記音声と判断する手段とを備えて
いてもよい。
【0009】本発明の他のゲーム装置は、操作者の***
の動きを光学的に入力し、該入力された***の動きを電
気信号に変換し、該電気信号を出力する画像入力手段
と、該電気信号に基づいて該***の動きを求め、該求め
られた***の動きに対応する言葉を認識し、認識結果を
出力する***認識手段と、該認識結果に基づいた制御信
号に応じて対象物を制御する制御手段とを備えており、
そのことにより上記目的を達成する。
【0010】前記***認識手段は、所定数の言葉を記憶
している記憶手段と、前記求められた***の動きに応じ
て該所定数の言葉から1つを選択し、該選択された言葉
を該***の動きに対応する該言葉であると判断するマッ
チング手段とを備えていてもよい。
【0011】前記記憶手段は、前記所定数の言葉に対応
する***の動きを標準パターンとして記憶しており、前
記マッチング手段は、該標準パターンの全てについて、
前記求められた***の動きとの距離を算出し、該標準パ
ターンのうちの該距離が最も小さい1つに対応する言葉
を選択してもよい。
【0012】前記ゲーム装置は、音声を入力し、該音声
を他の電気信号に変換し、該他の電気信号を出力する音
声入力手段と、該音声入力手段から出力された該他の電
気信号に基づいて該音声を認識する音声認識手段と、該
音声認識手段による認識結果と、前記***認識手段によ
る前記認識結果との両方に基づいて、前記制御手段に与
えられるべき前記制御信号を出力する統合判断手段とを
さらに備えていてもよい。
【0013】前記ゲーム装置は、前記音声認識手段によ
る前記認識結果に対して、音声認識信頼度を求める手段
と、前記***認識手段による前記認識結果に対して、口
唇認識信頼度を求める手段とを有しており、前記統合判
断手段は、該音声認識信頼度および該***認識信頼度に
基づいて、該音声認識手段による該認識結果および該口
唇認識手段の該認識結果のうちの一方を選択し、それを
前記制御信号として出力してもよい。
【0014】前記画像入力手段は、光を出射する発光手
段と、前記操作者の前記***によって反射された該光を
受け取り、該受け取った光を前記第2の電気信号に変換
する受光手段とを有していてもよい。
【0015】前記画像入力手段は、光を出射する発光手
段と、前記操作者の前記***によって反射された該光を
受け取り、該受け取った光を前記電気信号に変換する受
光手段とを有していてもよい。
【0016】前記画像入力手段は、光を出射する発光手
段と、前記操作者の前記***によって反射された該光を
受け取り、該受け取った光を前記電気信号に変換する受
光手段とを有していてもよい。
【0017】前記光は、前記***に側方から照射されて
もよい。
【0018】前記光は、前記***に正面から照射されて
もよい。
【0019】前記音声入力手段は、少なくとも1つのマ
イクロフォンを有していてもよい。前記音声入力手段は
少なくとも1つのマイクロフォンを有しており、該少な
くとも1つのマイクロフォン、および前記画像入力手段
の前記発光手段および前記受光手段は、1つの台上に設
けられていてもよい。
【0020】本発明の入力装置は、ヘッドフォン状のヘ
ッドセットと、一端が該ヘッドセットに接合されている
支柱と、該支柱の他端に接合されている台であって、そ
の上に、操作者の***に照射される光を発生する少なく
とも1つの発光素子と、該***によって反射された該光
を受け取る少なくとも1つの受光素子とが設けられてい
る台とを備えており、そのことにより上記目的を達成す
る。
【0021】前記台上には、音声を入力する音声入力手
段が設けられていてもよい。
【0022】本発明の音声選択装置は、複数のテーブル
を格納する第1の記憶手段であって、該複数のテーブル
のそれぞれは、1つの入力に対して出力されうる複数の
言葉を含んでいる第1の記憶手段と、該複数のテーブル
のうちの1つを格納する第2の記憶手段と、外部からの
入力に応じて、該第2の記憶手段に格納されている該1
つのテーブルに含まれている該複数の言葉から1つの言
葉を選択し、該選択された1つの言葉を音声として出力
する選択手段と、該第2の記憶手段に格納されている該
1つのテーブルを、該第1の記憶手段に格納されている
該複数のテーブルのうちから該選択された1つの言葉に
応じて決定される他のテーブルに更新する遷移手段とを
備えており、そのことにより上記目的を達成する。
【0023】前記音声選択装置は、乱数を発生する手段
をさらに備えており、前記選択手段は該乱数を用いて前
記複数の言葉から前記1つの言葉を選択してもよい。
【0024】本発明の他の音声選択装置は、テーブルを
格納する記憶手段であって、該テーブルは、1つの入力
に応じて出力されうる複数の言葉を含んでいる記憶手段
と、外部からの入力を受け取り、該記憶手段に格納され
ている該テーブルに含まれている該複数の言葉から乱数
を用いて1つの言葉を選択し、それを音声として出力す
る選択手段と、該乱数を発生する手段とを備えており、
そのことにより上記目的を達成する。
【0025】本発明の音声反応装置は、上述した音声選
択装置と、音声を入力し、該音声を認識し、認識結果を
該音声選択装置に与える音声認識手段とを備えており、
そのことにより上記目的を達成する。
【0026】本発明の他のゲーム装置は、上述した音声
反応装置を備えており、そのことにより上記目的を達成
する。
【0027】本発明の他のゲーム装置は、上述した音声
反応装置を複数個備えており、それにより該音声反応装
置がお互いに対話し、そのことにより上記目的を達成す
る。本発明の他のゲーム装置は、入力した音声を電気信
号に変換する複数の音声入力部であって、該複数の音声
入力部はそれぞれ異なる方向に対応している音声入力部
と、該電気信号のエネルギーを該複数の音声入力部のそ
れぞれについて求め、該複数の音声入力部のうちの該エ
ネルギーが最大である1つを決定し、該決定された1つ
の音声入力部に対応する方向を該音声が発生された方向
であると判定する方向検出手段とを備えており、そのこ
とにより上記目的を達成する。
【0028】前記ゲーム装置は、対象物を動作させる動
作手段と、前記判定された方向に該対象物の動作する方
向を変更するように該動作手段を制御する制御手段とを
さらに備えていてもよい。
【0029】前記ゲーム装置は、対象物の動作の現在の
方向を計測する計測手段、および前記判定された方向を
入力し、該現在の方向および該判定された方向に基づい
て目的方向を求め、該目的方向を格納する手段とを有し
ている方向選択手段と、該対象物を動作させる動作手段
とをさらに備えており、該方向選択手段は、該目的方向
と該現在の方向の差を用いて、該対象物の動作の該現在
の方向と該目的方向とが実質的に一致するように該動作
手段を制御してもよい。
【0030】本発明の他のゲーム装置は、音声により相
対的な方向を入力する入力手段と、対象物の現在の方向
を計測する計測手段と、該現在の方向および該入力され
た相対的な方向に基づいて目的方向を求め、該目的方向
を格納する手段とを有する方向選択手段を備えたゲーム
装置であって、該方向選択手段によって、該目的方向と
該現在の方向の差を用いて、該対象物の該現在の方向と
該目的方向とが実質的に一致するように該対象物を制御
し、そのことにより上記目的を達成する。
【0031】前記入力手段は、前記音声が入力される入
力部と、該入力された音声に基づいて前記相対的な方向
を認識する認識部とを有していてもよい。
【0032】本発明の他のゲーム装置は、音声により絶
対的な方向を入力する入力手段と、該絶対的な方向に基
づいて目的方向を決定し、該目的方向を格納する手段
と、対象物の現在の方向を計測する計測手段とを有する
方向選択手段を備えたゲーム装置であって、該方向選択
手段によって、該目的方向と該現在の方向の差を用い
て、該対象物の該現在の方向と該目的方向とが実質的に
一致するように該対象物を制御し、そのことにより上記
目的を達成する。
【0033】前記入力手段は、前記音声が入力される入
力部と、該入力された音声に基づいて前記絶対的な方向
を認識する認識部とを有していてもよい。
【0034】本発明の音声認識装置は、音声に対応する
電気信号を受け取り、該電気信号から、該音声の入力が
終了した時間である音声終了点を検出する第1の検出手
段と、該電気信号に基づいて、該音声が入力された区間
のうちの該音声が発声された区間である発声区間を決定
する第2の検出手段と、該電気信号の該発声区間の部分
に基づいて、特徴量ベクトルを作成する特徴量抽出手段
と、予め作成された複数の候補音声の特徴量ベクトルを
記憶する記憶手段と、該特徴量抽出手段からの該特徴量
ベクトルを、該記憶手段に記憶されている該複数の候補
音声の該特徴量ベクトルのそれぞれと比較することによ
り、該入力された音声を認識する手段とを備えており、
そのことにより上記目的を達成する。
【0035】前記第1の検出手段は、前記電気信号を、
それぞれが所定の長さを有する複数のフレームに分割す
る手段と、該複数のフレームのそれぞれに対して該電気
信号のエネルギーを求める算出手段と、該エネルギーの
分散に基づいて前記音声終了点を決定する決定手段とを
備えていてもよい。
【0036】前記決定手段は、予め定められている閾値
と前記エネルギーの前記分散とを比較することにより前
記音声終了点を決定し、該音声終了点は、該エネルギー
の該分散が該閾値とよりも大きい値から小さい値に変化
するときに該分散が該閾値と一致する時間であってもよ
い。
【0037】前記決定手段は、前記複数のフレームの前
記エネルギーのうちの所定数のフレームのエネルギーに
対する分散を用いてもよい。
【0038】前記第2の検出手段は、前記電気信号の前
記エネルギーを平滑化する手段と、該電気信号の該エネ
ルギーを平滑化しないままフレーム毎に順次格納する第
1の循環式記憶手段と、該平滑化されたエネルギーをフ
レーム毎に順次格納する第2の循環式記憶手段と、前記
音声終了点が検出されたときに該第1の循環式記憶手段
に格納されている該平滑化されていないエネルギーおよ
び該第2の循環式記憶手段に格納されている平滑化され
たエネルギーの両方を用いて、発声区間検出用閾値を算
出する閾値算出手段と、該平滑化されていないエネルギ
ーを該発声区間検出用閾値と比較することにより、前記
発声区間を決定する発声区間決定手段とを有していても
よい。
【0039】前記閾値算出手段は、前記音声終了点が検
出された時点で前記第1の循環式記憶手段に格納されて
いる前記平滑化されていないエネルギーの最大値と、該
音声終了点が検出されていない時点で前記第2の循環式
記憶手段に格納されている前記平滑化エネルギーの最小
値とを用いて、前記発声区間検出用閾値を算出してもよ
い。
【0040】前記特徴量検出手段は、前記電気信号の前
記発声区間の部分から、該電気信号のフレーム毎のゼロ
交差数と、該電気信号を微分して得られる信号のフレー
ム毎のゼロ交差数と、該電気信号の前記エネルギーとを
算出し、これらを前記特徴量ベクトルの要素としてもよ
い。
【0041】本発明の他の音声反応装置は、少なくとも
1つの上述した音声認識装置と、該少なくとも1つの音
声認識装置の認識結果に基づいて対象物を制御する少な
くとも1つの制御手段とを備えており、そのことにより
上記目的を達成する。
【0042】前記音声反応装置は、前記少なくとも1つ
の音声認識装置に接続されており、該少なくとも1つの
音声認識装置による前記認識結果を送信する送信手段
と、前記少なくとも1つの制御装置に接続されており、
該送信された認識結果を受け取り、該少なくとも1つの
制御装置に与える受信手段とをさらに備えており、該少
なくとも1つの制御装置および該受信手段は前記対象物
に取り付けられており、それにより該対象物を遠隔より
操作することを可能としてもよい。
【0043】
【作用】本発明のゲーム装置では、音声認識手段は入力
された音声を認識し、発声区間検出装置は話者(操作
者)の***の動きから話者が発声している区間である発
声区間を検出する。この音声認識結果、および発声区間
の検出結果に基づいて、統合判断部が話者が音声により
入力したコマンドを認識し、そのコマンドに応じて制御
部が対象物を制御する。これにより、人間の音声により
ゲームを操作することが可能であり、話者以外の者の音
声を誤認識したことに起因する誤操作を防ぐことができ
る。また、本発明の他のゲーム装置では、操作者の***
の動きから直にコマンドを認識するので、人間の音声に
より、騒音下、あるいは音声を発しにくい状況でもゲー
ムを操作することが可能となる。また、このゲーム装置
は、発生に障害のある者の利用も可能とする。本発明の
さらに他のゲーム装置では、音声認識手段による認識結
果と***の動きに基づく認識結果との両方から統合判断
部がより確からしい認識結果を判定する。このため、上
述した利点に加えて、音声によるゲーム操作の信頼性を
より高くすることができるという利点も得られる。
【0044】本発明の入力装置は、軽いヘッドセットに
支柱を取り付け、支柱に取り付けた台に安価な発光素子
(例えば、LED等)と安価が受光素子(フォトダイオ
ード等)を取り付けているために、非常に軽く、しかも
安価に入力装置を提供することができる。さらに、ヘッ
ドセットを伸縮可能にしておけば、その入力装置の操作
者ごとにヘッドセットの長さを調節して、発光素子およ
び受光素子と操作者の***付近との位置関係を調節する
ことができる。
【0045】本発明の音声選択装置では、外部から1つ
の入力があると、第2の記憶手段に格納されているテー
ブルに含まれている言葉のうちの1つが選択され、音声
として出力される。そして、第2の記憶手段に格納され
ているテーブルは、第1の記憶手段に格納されている複
数のテーブルのうちからこの出力に応じて選ばれるテー
ブルに変更される。次に外部から入力があると、上述し
た動作が繰り返される。このようにして、本発明の音声
選択装置は、1つの入力に1つの言葉を返すという1回
の動作だけではなく、次々と与えられる入力に応じて言
葉を返していくということができる。この音声選択装置
を音声認識装置と組み合わせれば、入力された音声から
それに対応する言葉を認識し、その認識結果に応じて、
ランダムに選ばれた言葉を音声として出力する音声反応
装置を構成することができる。ゲーム装置にこの音声反
応装置を少なくとも1個設ければ、音声反応装置に操作
者と対話を行わせることができるし、また複数個設ける
と、装置同士で対話を行うゲーム装置を構成することも
できる。また1つの入力に対して出力されるべき言葉を
乱数を用いて選択することにより、同一の入力に対して
常に同じ言葉を出力するというのではなく、変化のある
出力を行うことができる。
【0046】本発明の他のゲーム装置では、それぞれが
異なる方向に対応している複数の音声入力部を用いて音
声が入力された方向を検出する。そして、検出された方
向に対象物の移動の向きあるいは対象物自体の向きを変
更する。このようにして、音声により対象物を動作させ
ることができる。また本発明の他のゲーム装置では、音
声によって入力された方向と現在の対象物の移動方向あ
るいは向きとの差を方位計で検出しながら、対象物の移
動方向あるいは向きを変更する。
【0047】本発明の音声認識装置は、入力された音声
に対応する電気信号から音声の入力が終了した点を検出
する。続いて、このようにして求められる音声が入力さ
れている区間分の電気信号から、さらに音声が発声され
ている区間を抽出する。この音声が発声されている区間
分の電気信号から、実際に候補音声の特徴量ベクトルと
比較される特徴量ベクトルを作成するので、本発明の音
声認識装置は簡単な構成で精度よく音声を認識すること
ができる。また、音声が発声されている区間の抽出に用
いられる閾値は、上記電気信号のエネルギーおよびこの
エネルギーを平滑化したものとに基づいて算出される。
これにより、音声が発声されている区間を良好に検出す
ることができる。さらに、この音声認識装置を、対象物
の動作を制御する手段と組み合わせて得られる音声反応
装置では、入力された音声に対応する動作を対象物に行
わせることができる。
【0048】
【実施例】
(第1の実施例)以下、図面を参照しながら本発明のゲ
ーム装置の第1の実施例を説明する。本実施例は、飛行
船の動きに応じた音声コマンドで飛行船を操作するゲー
ム装置である。音声コマンドは、「前」・「後ろ」・
「右」・「左」・「上」・「下」の6個のコマンドを含
んでいる。
【0049】本実施例では、話者(ゲーム装置の操作
者)の音声信号とともに話者の***の動きを表す信号を
入力し、これらの信号に基づいて話者が発声しているか
否かを判定する処理を行っている。これにより、周囲の
騒音、特に他者が話した声による誤動作を防止すること
が可能となる。
【0050】図1に、本実施例のゲーム装置の構成を簡
単に示す。本実施例のゲーム装置は、入力された音声を
処理するための音声入力部1および音声認識部2、***
の動きを入力し、***の動きを示す信号を処理するため
の画像入力部3および発声区間検出部4を備えている。
音声認識部2および発声区間検出部4は、ともに統合判
断部5に接続されており、ここで入力された音声および
***の動きの両方に基づき、話者が発声したコマンドが
何であるかが判断される。統合判断部5の判断結果は制
御部6に入力され、これに基づいて制御部6は飛行船7
を制御する。
【0051】まず、話者が発声したコマンドを含む音声
が音声入力部1に入力される。音声の入力は、例えば、
通常のマイクロフォン等を利用することができる。音声
入力部1は入力された音声を電気信号に変換し、これを
音声信号11として音声認識部2に出力する。音声認識
部2は音声信号11を解析し、その結果を音声認識結果
12として出力する。音声信号11の解析は、例えばD
Pマッチング等の従来から知られている手法により行う
ことができる。
【0052】以上の入力音声の処理と平行して、***の
動きを表す電気信号の処理が行われる。話者がコマンド
を発声すると、そのときの***の動きが画像入力部3に
入力される。図2に画像入力部3の構成例を示す。本実
施例の画像入力部3は、LED21から発した光を話者
の***部分に照射し、***部分に反射された光をフォト
ダイオード22によって検出する。これにより、***の
動きに応じた電気信号13を出力する。話者の***に動
きがある場合、電気信号13のレベルは、話者の***付
近の陰影の変化に応じて変化する。なお、話者の***に
は、LED21からの光を正面から照射してもよいし、
側面から照射してもよい。
【0053】画像入力部3からの電気信号13は発声区
間検出部4に入力される。図3に、本実施例の発声区間
検出部4の構成を示す。発声区間検出部4は、微分回路
31と区間検出部32とを有している。微分回路31
は、入力された電気信号13の変化度合いを示す微分信
号33を出力する。微分信号33の波形の一例を図5に
示す。図5は、LED21からの光を話者の***に側面
から照射した状態で話者がコマンド「前」および「後
ろ」を発声したときに得られた微分信号33を示してい
る。図5から分かるように、話者が発声している場合に
は、微分信号33の振幅が大きくなる。また、話者の口
唇に側面からLED光を当てているため、コマンド「後
ろ」の「う」を発した時に唇が尖る動きが波形に反映さ
れているのがわかる。なお、LED21からの光を話者
の***に正面からあてる場合には、光が話者の顔のみに
当たるので、電気信号13および微分信号33は背景の
動きに起因するノイズの影響を受けないという利点があ
る。
【0054】区間検出部32は、この微分信号33を受
け取り、微分信号33の振幅の大きさを判定し、話者の
発声区間を検出する。具体的な発声区間の検出法を図6
を参照しながら説明する。
【0055】区間検出部32は、微分信号33のレベル
が所定の振幅閾値51を超えると、その微分信号33は
話者がコマンドを発声したことによって生じたものであ
ると判断し、微分信号33のレベルが振幅閾値51を超
えている区間を発声区間とする。図6に示す例では、区
間1および区間2が発声区間である。続いて、隣接する
発声区間のインターバルを所定の時間閾値52と比較す
る。この時間閾値52は、複数の発声区間が同一の発声
に対応するものか否か、つまり複数の発声区間が連続す
るものか否かを判断するために用いられる値である。発
声区間のインターバルが時間閾値52以内であれば、そ
のインターバルを挟んだ2つの発声区間は連続した発声
区間であると判断される。このようにして判定された連
続した発声区間を表す信号14が発声区間検出部4から
出力される。なお、振幅閾値51および時間閾値52
は、いずれも、予め適当な値に設定され得る。
【0056】以上述べたようにして、発声区間検出部4
は、微分信号33を用いて***の動きの激しさと持続時
間を検出することにより、話者がコマンドを発声した区
間を求める。
【0057】次に、統合判断部5の動作について説明す
る。統合判断部5は、図4に示すように、音声認識時間
判定部41、出力判定部42および出力ゲート43を有
している。音声認識時間判定部41は音声認識結果12
を受け取り、認識された音声が音声入力部1に入力され
た時間を出力判定部42に伝える。出力判定部42に
は、音声認識時間判定部41からの出力の他に、発声区
間検出部4からの発声区間検出信号14が入力される。
ここで、図7を参照しながら出力判定部42の動作を説
明する。
【0058】出力判定部42は、まず、受け取った発声
区間検出信号14に基づいて、発声区間の前後に評価用
の時間閾値71を足すことにより評価用発声区間72を
作成する。次に、音声認識結果12が音声認識部2から
出力された時間が、上記評価用発声区間72に収まって
いるか否かを判定する。収まっている場合には、音声入
力部1に入力され、音声認識部2によって認識された音
声は、話者によって発声されたものであると判断され
る。判断の結果は信号15として制御部6に出力され
る。
【0059】なお、評価用発声区間72を作成するため
の時間閾値71は、音声認識部2が行う認識処理に要す
る時間を考慮して設定される。これは、認識された音声
が話者の発声によるものかどうかを判断する材料の1つ
として、音声認識結果12が出力された時間を用いてい
るためである。
【0060】このようにして、音声によって入力された
コマンドに対応する信号15が得られると、制御部6
は、入力されたコマンドに応じたラジオコントロール信
号を出力することにより飛行船7を制御する。
【0061】以上のように第1の実施例では、話者がコ
マンドを発声したときの***の動きから話者が発声して
いる発声区間を検出し、これに基づいて、認識された音
声が話者のものか否かを判断する。このため、話者以外
の発声による誤認識、およびその結果生じる対象物の誤
動作を防止することができる。
【0062】従って、音声による操作という人間にとっ
て自然な操作によるゲーム装置を実現することが可能と
なる。また、本実施例では、話者の***の動きを、LE
Dとフォトダイオードとの組み合わせといった簡易な構
成・方法によって検出している。このため、話者の***
の画像をビデオカメラ等を用いて取り入れていた従来の
装置と比較して、非常に安価に実現することができる。
もちろん、フォトダイオードの代わりにフォトトランジ
スタを用いても構わない。
【0063】なお、図2、図3の回路構成は一例を示し
たもので、この構成のみに限定されるものではない。ま
た、計算機のソフトウェアを利用して実現することも可
能である。
【0064】(第2の実施例)本発明の第2の実施例の
ゲーム装置では、コマンドを音声により入力するのでは
なく、***の動きのみで入力し、入力されたコマンドに
応じて飛行船を制御する。これにより、騒音下での利
用、また例えば真夜中等の音声を発声できない状況にお
ける利用、あるいは発声に障害がある者の利用を可能に
する。
【0065】図8は、本実施例のゲーム装置の構成を簡
単に示す図である。本実施例のゲーム装置は、上記実施
例1と同様に、画像入力部3、制御部6、飛行船7を備
えており、さらに、***の動きから話者(操作者)の言
葉を認識する***認識部81を備えている。
【0066】***認識部81の構成例を図9に示す。本
実施例では、***認識部81は、微分回路31、差分計
算部91、データベース92およびパターンマッチング
部93から構成される。微分回路31は、上記第1の実
施例のゲーム装置の発声区間検出部4において用いられ
たものと同じである。差分計算部91は、微分回路31
からの微分信号33を所定の時間幅でサンプリングし、
サンプリングデータ間の差分を計算する。差分計算の結
果は、差分計算部91からデータベース92およびパタ
ーンマッチング部93の両方に送られる。データベース
92には、認識に用いられる標準パターンの差分計算結
果が保持されている。パターンマッチング部93は、保
持されている標準パターンの差分結果と、認識対象とな
っている入力パターンの差分計算結果との距離の差を求
め、この差に基づいて***の動きとして入力された言葉
を認識する。もちろん、差が小さいほど認識結果の信頼
性は高い。
【0067】以下、本実施例のゲーム装置の動作を詳細
に説明する。本実施例では、***認識部81は、上述し
たように標準パターンと入力パターンとの比較により入
力された言葉の認識を行うために、認識動作を行うより
も前に標準パターンを予め***認識部81に登録してお
く必要がある。
【0068】(登録動作)まず、画像入力部3が、話者
の***部分によって反射されたLED反射光を受け、口
唇の動きに応じた電気信号13を***認識部81に出力
する。電気信号13は***認識部81の微分回路31に
入力される。微分回路31は、電気信号13の変化の度
合いを示す微分信号33を差分計算部91に伝える。こ
こまでは、第1の実施例と同様である。
【0069】差分計算部91の動作を図10を参照しな
がら説明する。まず、微分信号33を時間幅(Δt)で
サンプリングし、得られたサンプリングデータにおいて
隣り合うサンプリングデータ間の差を計算する。計算さ
れたサンプリングデータ間の差、すなわち一連の差分デ
ータはデータベース92に出力される。データベース9
2はこの差分データ列を保持する。以上の動作を、認識
されるべき言葉(カテゴリー)の数だけ繰り返し、全て
のカテゴリーに対して差分データ列を格納する。格納さ
れた差分データ列は、認識に用いられる標準パターンと
して保持されることになる。本実施例では、対象物の制
御に用いられるコマンドは、「前」・「後ろ」・「右」
・「左」・「上」・「下」の6つである。従って、上述
した差分データ列の格納は6回繰り返され、最終的には
6つの標準パターンがデータベース92に保持されるこ
とになる。
【0070】このようにして全ての標準パターンをデー
タベース92に登録し終えると、データベース92は各
差分データ列を調べ、***が動いている部分に相当する
データが続いている区間の長さを各差分データ列に対し
て抽出する。具体的には、例えば、差分データ列内でゼ
ロに近い値が所定の時間よりも長く続いていれば、その
区間は***が動いていないときに相当すると判断する。
そして、全ての標準パターンについて***が動いている
部分に対応する区間の長さを抽出し終わると、最も長い
長さを有する標準パターンを選び出し、その長さを標準
パターンの差分データ列長(N)と定める。以上で登録
動作が終了し、標準パターンの差分データ列がデータベ
ース92に保持された状態となる。
【0071】(認識動作時)***部分の動きを入力して
から微分信号33を得るまでの動作は、登録動作時と全
く同様である。ここでは、微分信号33が差分計算部9
1に入力されてから後の動作を図11を参照しながら説
明する。
【0072】差分計算部91に入力された微分信号33
は、登録動作時と同じように時間幅(Δt)でサンプリ
ングされる。続いて、標準パターンの差分データ列長
(N)の長さ分の区間内のサンプリングデータについ
て、隣接するサンプリングデータ間の差分を計算し、得
られた一連の差分データをその区間の差分データ列とす
る。差分が計算される区間は順次Δtずつ時間的に後方
にずらしていく。図11では、一番目のサンプリングデ
ータを区間の始まりとし、区間の長さがNであるような
区間111についての差分データ列、および区間111
からN/2だけ時間的に後方にずれた区間112につい
て差分データ列のみを図示している。
【0073】区間の長さがNである複数の区間の差分デ
ータ列(以下、これらを認識差分データ列とする)が求
められると、これらの認識差分データ列は、パターンマ
ッチング部93に送られる。パターンマッチング部93
は、データベース92から標準パターンを読み出してき
て、複数の認識差分データ列のそれぞれについて、標準
パターンのそれぞれとの距離を求める。本実施例では、
上述したように6個の標準パターンがデータベース92
に登録されているので、パターンマッチング部93は認
識差分データ列のそれぞれについて、各標準パターンと
の距離を1つずつ計算することになる。
【0074】認識差分データ列と標準パターンとの距離
は、以下の式を用いて計算される。 ここで、riはi番目の認識差分データ列、pijはj番目
の標準パターン(j番目のカテゴリーに対応)、dj
認識差分データ列とj番目の標準パターンとの距離であ
る。パターンマッチング部93は、この距離dj がある
一定値以下となると、認識差分データ列がj番目の標準
パターンと一致したと判断し、そのj番目のカテゴリー
(言葉)に対応する信号82を判断結果として出力す
る。
【0075】この判断結果は制御部6に入力され、制御
部6はj番目のカテゴリーに対応したラジオコントロー
ル信号を出力して、飛行船7を制御する。
【0076】以上述べたように、本実施例では、***の
動きのみを基に入力された言葉(コマンド)を認識し、
認識された言葉に応じて飛行船を制御する。このため、
騒音下での利用や、声が出しにくい状況での利用、また
発声に障害がある者の利用が可能になる。
【0077】また、***の動きを入力する画像入力部3
は、上記実施例1と同様に、LED21とフォトダイオ
ード22の組み合わせによって実現され得るため、ビデ
オカメラ等を用いて***の画像自体を取り込む従来の方
法と比較して、非常に安価なゲーム装置を提供すること
ができる。
【0078】なお、本実施例ではゲームの利用者が、コ
マンドの入力に先立って、コマンドの認識に用いられる
標準パターンの登録を行っている。しかし、例えばゲー
ム装置製造時あるいは出荷時等にあらかじめ不特定の利
用者の***の動きに対応できるような標準パターンをデ
ータベース92に登録しておき、利用者による登録を省
略するようにしてもよい。
【0079】(第3の実施例)続いて、本発明の第3の
実施例のゲーム装置を説明する。本実施例では、コマン
ドを音声および話者(操作者)の***の動きの両方によ
り入力し、両方の認識結果を統合して判断することによ
り、飛行船を操作する。このため、騒音下においても話
者が発声したコマンドを確実に認識することが可能であ
る。
【0080】図12に本実施例のゲーム装置の構成を簡
単に示す。本実施例のゲーム装置は、実施例1のゲーム
装置と同様の構成を有する音声入力部1、画像入力部
3、制御部6および飛行船7を備えている。また、さら
に音声処理部121および***処理部122を備えてい
る。音声処理部121は、上記実施例1の音声認識部2
と同様にして入力された音声を認識し、続いて認識結果
の信頼度を算出する。また、***処理部122は、実施
例2の***認識部81と同様にして***の動きとして入
力された言葉(コマンド)を認識し、それとあわせて認
識結果の信頼度を算出する。音声処理部121および口
唇処理部122からの出力はともに統合判断部123に
入力される。統合判断部123は、各処理部121およ
び122からの認識結果、および信頼度から統合的に話
者の入力したコマンドを判断し、判断結果を出力する。
【0081】以下、本実施例のゲーム装置の動作を詳細
に説明する。
【0082】話者(ゲーム装置の操作者)が発声した音
声を音声入力部1が入力し、入力された音声に対応する
電気信号11を音声処理部121に伝えるのは、実施例
1と同様である。音声処理部121は、電気信号11を
受け取り、これに基づいて入力された音声を認識する。
音声認識の手法としては、従来から知られているどの方
法を用いてもよい。ここでは、例えば上記実施例の***
認識部の説明において述べた方法と同様に、入力される
可能性のある全てのコマンドについてそれを発声したと
きに得られる電気信号11を処理して得られるデータ列
を標準パターンとして予め登録しておき、実際にゲーム
装置の操作者がコマンドを発声したときに得られた電気
信号11を処理して得られた認識対象データ列と、予め
登録された全ての標準パターンとの距離を算出すること
により、音声入力部から入力されたコマンド(音声)が
何であるかを認識する。このようにして音声が認識され
ると、続いて音声処理部121は、認識結果はどの程度
信頼がおけるものかを示す信頼度を求め、音声認識結果
と信頼度との両方を出力124として統合判断部123
に与える。信頼度の求め方は後で述べる。
【0083】また入力された音声の処理と平行して、口
唇の動きを表す信号の処理が行われる。まず、画像入力
部3は、話者の***の動きを実施例1と同様にして入力
し、***の動きに応じてレベルが変化する電気信号13
を出力する。***処理部122は電気信号13を受け取
り、実施例2と同様の処理を行う。ただし、本実施例の
***処理部122は、認識差分データ列と標準パターン
とのパターンマッチングの結果、認識差分データ列がj
番目の標準パターンと一致するものと判断されると、そ
の認識差分データ列とj番目の標準パターンとの距離d
jに基づいて、認識結果の信頼度を算出する。このよう
にして得られた認識結果と信頼度はともに統合判断部1
23に出力される。
【0084】次に、簡単に信頼度の算出方法を簡単に説
明する。本実施例では、音声認識結果の信頼度も***の
動きに基づく認識結果の信頼度も同じ処理により求めら
れる。以下、音声認識結果の信頼度の算出を説明する。
音声認識結果の信頼度を「大」、「中」、「小」の3段
階で評価する場合を考える。なお、信頼度「小」のとき
が最も認識結果の信頼性が高く、信頼度「大」のときに
認識結果の信頼性は最も低いものとする。この場合、信
頼度「小」と「中」とを分ける閾値αL、および信頼度
「中」と「大」とを区切る閾値αH(ただしαL<αH
を用い、認識対象と一致すると判断された標準パターン
と認識対象との距離dを上記閾値と比較する。比較した
結果d<αLならば信頼度は「小」と判定される。同様
に、αL≦d<αH、d≧αHのときには、それぞれ信頼
度は「中」、「大」と判定される。***の動きに基づく
認識結果についても同様に、閾値との比較により信頼度
がどの段階であるかが判定される。なお、ここで用いら
れる閾値は、適当な値に設定することができる。また、
信頼度の算出方法は、ここで説明した方法に限られず、
公知のどの方法を用いてもよい。
【0085】続いて、統合判断部123の動作を、図1
3を参照しながら説明する。
【0086】図13は、統合判断を行う方法の概念を示
す図である。まず、統合判断部123は、音声認識結果
が音声処理部121から出力された時間(すなわち出力
124が発生された時間)および***の動きに基づく認
識結果が***処理部122から出力された時間(すなわ
ち出力125が発生された時間)を検出し、検出された
各出力時間の前後に所定の閾値131に相当する区間を
足すことにより、評価用区間132aおよび132bを
作成する。続いて、***認識結果についての評価用区間
132aと音声認識結果について作成された評価用認識
区間132bとが重なっているか否かを判定する。重な
っている場合には、統合判断部123は、***の動きを
入力した操作者が発声した音声が入力され、認識された
と判断する。重なっていない場合には、認識された音声
は、周囲の騒音や操作者以外のものの発声によると判断
される。これにより、操作者以外の音声の誤認識を防ぐ
ことができる。
【0087】次に、統合判断部123は、***の動きに
基づく認識結果と音声に基づく認識結果とが一致してい
るかどうかを判定し、一致した場合にはそれらの認識結
果を統合判断結果とする(図13の統合判断結果
「前」)。一致しなかった場合、各認識結果に対して求
められた信頼度に応じて統合判断結果を決定する。認識
結果に対する信頼度の組み合わせと、その組み合わせに
応じて決定される統合判断結果との対応関係の例を図1
4に示す。この例では、上述したように、各認識結果に
対する信頼度を、最も信頼性の低い「大」、最も信頼性
の高い「小」、およびこれらの間の「中」との3段階で
評価している。図14の(a)は、信頼度が同等である
ときに音声認識結果を優先する場合の対応関係であり、
(b)は***認識結果を優先する場合の対応関係であ
る。どちらの認識結果を採用するかは、このゲーム装置
が操作される周囲の環境等の要因に応じて決定されるも
のであり、これを予めゲーム装置に登録しておくことも
可能であるし、あるいは操作者が自分で入力するように
ゲーム装置を構成してもよい。例えば、(a)のように
音声認識結果が優先されるのは、発声に支障がない健常
者でかつ周囲の騒音が比較的小さい場合であり、発声に
障害を持つ話者の場合や周囲の騒音が非常に大きい場合
には(b)を採用する。
【0088】統合判断部123は、以上述べたように決
定された統合判断結果を信号15として出力する。最後
に、制御部6が判断結果に応じたラジオコントロール信
号を出力して、飛行船7を制御する。
【0089】以上のように本実施例によれば、音声信号
とともに***の動きも認識し、両者の結果を統合的に使
って認識するため、騒音下においても確実に話者が発声
した言葉(コマンド)を認識することができる。同時
に、発声に障害を持つ者が音声操作によるゲームを利用
することを可能にするという効果もある。また、上述し
た実施例1および2と同様に、LED21とフォトダイ
オード22の組み合わせで***の動きを検出しているた
め、ビデオカメラ等を用いて***の画像を取り込む方法
と比較して非常に安価に実現できる、という効果もあ
る。
【0090】なお、詳細な説明は省略したが、本実施例
でも第2の実施例と同様に、ゲームの利用者が***認識
時の標準パターンの登録を行うが、あらかじめ不特定話
者に対応できる形の標準パターンを準備しておき、利用
者による登録を省略するようにしてもよい。
【0091】また、上記実施例1〜3では、飛行船7を
ラジオコントロール信号によって制御するゲーム装置を
例として説明しているが、本発明が適用されうるゲーム
装置はこれに限られないのはもちろんである。例えば、
上記実施例のいずれかで述べたような構成を操作者の数
だけ設ければ、複数の操作者が同時にプレイすることが
可能なゲーム装置を実現することができる。
【0092】以下、本発明の入力装置を説明する。図1
5は、本発明の入力装置の構成を簡単に示す図である。
本発明の入力装置は、ヘッドセット154と、それに取
り付けられた支柱155と、フォトダイオード151お
よびLED152が設けられた台153とを有してお
り、台153は所定の角度で支柱155に接合されてい
る(図15の(a)参照)。台153と支柱155との
角度を調整すれば、LED152が発した光が操作者の
***部分に照射される方向を変更することができる。こ
の入力装置は、LED152が発した光を操作者の***
部分に照射し、反射された光をフォトダイオード151
で検出することにより、***の動きを入力する装置であ
る。このような入力装置は、例えば、上記実施例1〜3
における画像入力部として用いることができる。また、
台153にマイク156を付加すれば(図15の(b)
参照)、この入力装置を音声入力装置としても用いるこ
とができる。
【0093】図15の(a)に示すようにマイクを設け
ていない入力装置は、上記実施例2の画像入力部として
用いることができる。また、図15の(b)に示すよう
にマイクを有する入力装置は、上記実施例1および3の
音声入力部と画像入力部とを兼ねた装置として用いるこ
とができる。
【0094】このように、本発明の入力装置は、非常に
サイズが小さく、かつ非常に軽く実装することができる
フォトダイオード151、LED152、およびマイク
156を用いているので、入力装置全体のサイズおよび
重量は非常に小さい。また、使用している構成要素はす
べて安価であるため、低コストで実現することができ
る。さらに、本発明の入力装置は、ヘッドセット154
により操作者の頭部に固定されるため、***とフォトダ
イオード151およびLED152の位置を実質的に一
定にすることができる。このため、***の動きを安定し
て入力することができる。また、本発明の入力装置は光
により***の動きを入力し、それを電気信号に変換して
出力するので、従来の入力装置、例えば***の動きでは
なく画像を入力する装置や、超音波を用いる装置といっ
た大がかりで複雑な構成にならざるを得ない入力装置よ
りも簡易な構成にすることが可能である。
【0095】なお、ここでは、フォトダイオードとLE
Dはそれぞれ1つずつしか実装していないが、それぞれ
を複数個実装することも可能である。たとえば、LED
とフォトダイオードを2組準備し、各組を十字状に配置
すれば面上での動き方向が検出できるといった効果があ
る。
【0096】以上説明したように、本発明によれば、人
間にとって自然な音声による操作が可能であり、かつ操
作習熟を必要としないゲーム装置を得ることができる。
また、音声のみから入力された言葉(コマンド)を認識
するのではなく、***の動きを利用しているので、騒音
下においても安定な操作が可能である。さらに、***の
動きをLEDとフォトダイオード(フォトトランジス
タ)の組み合わせでとらえるため、ビデオカメラ、ある
いは超音波等を利用する場合と比較して、低コストで実
現することができる。
【0097】さらに、上記第1の実施例で述べたよう
に、***の動きから話者の発声区間を検出し、これを音
声認識結果の判断材料とするため、話者以外の発声によ
る誤認識を防止することができる。また、上記第2およ
び第3の実施例で述べたように、***の動きから入力さ
れた言葉(コマンド)を認識して飛行船の制御を行うよ
うにすれば、騒音下においても、また声が出しにくい状
況や、発声に障害を持つ者の利用も可能となる。
【0098】また、本発明の入力装置は、軽いヘッドセ
ットと支柱および台に安価な発光素子(LED等)と安
価な受光素子(フォトダイオード等)を取り付けてい
る。このため、非常に軽く、しかも安価な入力装置を実
現することができる。
【0099】上記実施例1〜3では、認識された音声あ
るいは***の動きに応じて、対象物の移動が制御される
例を説明した。しかし、音声あるいは***の動きに基づ
いて制御される対象物の動作は移動に限らず、例えば何
らかの言葉を言い返す、等の動作であってもよい。以下
に説明するのは、認識された音声に応じて、対象物に何
らかの動作(移動を含む)を行わせるための様々な装置
である。
【0100】以下に、認識された音声に応じて対象物に
何らかの動作を行わせるための装置を各実施例において
説明する。
【0101】(第4の実施例)本実施例では、認識され
た音声に応じて、その音声に対して用意された出力音声
の集合から1つの出力音声を選択し、それを出力する装
置を説明する。
【0102】図16に本実施例の音声選択装置100の
構成を簡単に示す。音声選択装置100は、乱数発生部
101、選択部102、入出力状態メモリ103、状態
遷移部104および入出力状態データベース105とを
有している。入出力状態データベース105には、複数
個の入出力状態テーブルが予め記憶されている。各入出
力状態テーブルは、状態sにおける入力x(xは負でな
い整数)と、入力xに対するn(s)個の出力音声の集
合sp(x,i)(0≦i<n(s))とを含んでい
る。入出力状態テーブルの例を図17に示す。入出力状
態メモリ103には、最初、図17(a)に示す初期状
態のテーブル201が格納されている。乱数発生部10
1は、出力音声の集合から出力すべき1つの音声を選択
するのに用いられるiを決定する。
【0103】以下、この音声選択装置100の動作を説
明する。選択部102に外部から入力xがあると、選択
部102は、入出力状態メモリ103に格納されている
入出力状態テーブルを参照し、入力xに対応する出力音
声集合sp(x,i)を選択する。続いて、選択部10
2は、乱数発生部101に乱数r(n(s))(ただ
し、0≦r(n(s))<n(s))によって決定さ
せ、i=r(n(s))として出力音声集合sp(x,
i)の中から1つの音声を選び出す。そして、これを外
部に出力する。
【0104】選択部102からの出力は、外部だけでは
なく、状態遷移部104にも与えられる。選択部102
からの出力を受け取ると、状態遷移部104は、入出力
状態データベース105を参照しながら、入出力状態メ
モリ103の内容を、選択部102からの出力に対する
入出力状態テーブルに書き換える。例えば、初期状態2
01において「元気?」が出力された場合、状態遷移部
104は、入出力状態データベース105を参照して、
出力「元気?」に対する入出力状態202のテーブルを
取り出す。そして、取り出した状態202のテーブルを
入出力状態メモリ103に格納する。
【0105】このようにして本実施例の音声選択装置1
00は、入力された音声に対して、乱数を用いて選ばれ
た音声を出力する。従って、この音声選択装置100を
用いれば簡単な対話システムを構築することが可能とな
る。また、図18に示すように、状態遷移部104と入
出力状態データベース105とを省略した簡単な構成の
音声選択装置100aを用いれば、入力された音声に対
して一回だけの応答をさせるようにすることもできる。
【0106】上記音声選択装置100および100a
は、図27に示すように音声反応装置1203の音声選
択装置1202として、音声認識装置1201と組み合
わせて用いられ得る。具体的に説明すると、まず、音声
認識装置1201によって音声が認識されると、その認
識結果は、例えばその音声に付された識別番号によって
音声選択装置1202に入力される。音声選択装置12
02は、入力された識別番号を入力xとして出力音声集
合から1つの音声をランダムに選択し、それを出力す
る。これにより、ある音声を入力するとそれに対応した
音声が出力され、しかも、同じ入力音声に対してもさま
ざまな応答をすることができる音声反応装置1203を
実現することができる。例えば、音声選択装置1202
が初期状態にあるときに音声認識装置1201が「おは
よう」という音声を認識結果として出力すると、音声選
択装置1202には、「おはよう」という音声に与えら
れた識別番号1が入力xとして入力される(図2(a)
参照)。これに応じて、音声選択装置1202は、「お
はよう」、「元気?」の2つの出力音声を含む集合sp
(1,i)から1つをランダムに選び、出力する。
【0107】この音声反応装置1203では、実際の動
作に先立って、音声選択装置1202に入力として受け
入れられ得る音声を登録しておく必要がある。登録音声
集合に含まれていない音声が音声選択装置1202に入
力されたときには、例えば、「何?」という音声を音声
選択装置1202から出力させればよい。また上記実施
例3の装置を音声認識装置1201として用いた場合に
は、認識された音声の信頼性が低いときにはもう一度音
声入力をしてもらうための音声を音声認識選択装置12
02から出力させることもできる。
【0108】このように本発明の音声選択装置では、入
出力の状態を表すテーブルを複数個用意し、過去の入出
力の履歴に応じて入出力の状態を遷移させている。従っ
て本発明の音声選択装置を用いれば、簡単な対話を行う
装置を実現することが可能となる。また、この音声選択
装置では、1つの入力に対して複数の出力音声の候補を
有しており、これらの出力音声候補から1つをランダム
に選択して出力する。このため、1つの入力に対して常
に同じ応答をするのではなく、変化のある応答をするこ
とができる音声反応装置が得られる。
【0109】(第5の実施例)次に、本発明の方向検出
装置および方向選択装置を説明する。
【0110】まず、図19を参照しながら方向検出装置
400を説明する。方向検出装置400は、方向検出部
401とこれに接続された複数のマイク402を有して
おり、マイク402は、制御される対象物に取り付けら
れている。ここでは、マイクの個数が4個である場合を
例として方向検出装置400の動作を説明する。4個の
マイクm(i)(i=0,1,2,3)から音声が入力
されると、方向検出部401は、図20に示すように、
入力された音声sp(m(i),t)をフレームf(m
(i),j)501(0≦j)に分割する。例えば1フ
レームの長さは16msとされる。次に方向検出部40
1は、各フレームについてフレーム内の音声のエネルギ
ーe(m(n),j)を求め、求められたエネルギーe
(m(n),j)を長さl(例えば長さ100)の循環メ
モリ(不図示)に順次蓄えていく。このとき方向検出部
401は、1フレーム毎のエネルギーが蓄えられる度に
各マイクについて過去lフレーム分のエネルギーの和を
求め、エネルギーの和が最大となるマイクを決定する。
続いて方向検出部401は、エネルギーの和の最大値を
予め実験的に定められた閾値Theと比較し、エネルギ
ーの和の最大値が閾値Theよりも大きければ、方向検
出部401からそのマイクへ至る方向が音声が聞こえて
くる方向であると判定する。こうして判定されたマイク
の番号iが、音声が入力された方向として方向検出部4
01から出力する。
【0111】このように動作する方向検出装置400
を、例えば、図28に示すように動作装置1302と組
み合わせて用いれば、音声の聞こえた方向に応じて所定
の動作を行う音声反応装置1303を構成することがで
きる。具体的には、例えば対象物(例えば風船やぬいぐ
るみなど)にこれを動かすための動作装置1302およ
び方向検出装置1301(図19では400)を取り付
ければ、人間の声のする方に対象物が移動するというよ
うに、音声に応じて音声が聞こえてくる方向に向けて所
定の動作を行う装置を作ることができる。
【0112】なお、上述した動作装置1302の一例と
しては、対象物に取り付けられたプロペラ付きのモータ
ーを3個とこれらのモーターの駆動装置とを有してお
り、次に移動しようとする方向を入力すると、対象物が
その方向へ移動するように3個のモーターを制御する装
置がある。
【0113】次に図21を参照しながら方向選択装置を
説明する。方向選択装置600は、オフセット算出部6
01、方位計602および目的方向メモリ603を有し
ており、対象物の移動する方向あるいは対象物の向きを
制御するための装置として用いられ得る。オフセット算
出部601は、次に対象物が移動すべき方向あるいは対
象物が向くべき方向を示す入力x(xは負でない整数)
が入力されると、予めオフセット算出部601に格納さ
れているテーブルに基づいて、入力xに応じたオフセッ
トを出力する。出力されたオフセットは、方位計602
によって計測されたその時点での対象物の実際の方向に
加算されて目的方向メモリ603に送られる。目的方向
メモリ603は、方位計602からの実際の方向にオフ
セットを加えたものを次に対象物が移動すべき方向ある
いは次に対象物が向くべき方向として記憶する。
【0114】このように図21の方向選択装置は、入力
xに応じて、現在対象物が移動している方向あるいは対
象物が向いている方向を基準として対象物の方向を変え
るために用いられる。
【0115】また、図21の方向選択装置600に代え
て図22の方向選択装置700を用いれば、現在の方向
を基準とした相対的な方向に対象物の方向を変えるので
はなく、絶対的な方向に変えることができる。図22の
方向選択装置700では、方向算出部701は、絶対的
な方向(例えば、北など)を示す入力x(xは負でない
整数)を外部から受け取ると、入力xに対応する値を出
力する。出力された値は目的とする方向としてそのまま
目的方向メモリ603に記憶される。この方向算出部7
01も上述したオフセット算出部601と同様に、入力
xに対する絶対的な方向の値をテーブルとして保持する
ことによって実現可能である。このように目的とする方
向をメモリ603に格納した後、方向選択装置700
は、対象物が移動していく、あるいは向きを変えていく
中での現在の方向を方位計602で順次計測し、計測さ
れた方向と目的方向メモリ603に記憶された方向との
差分を出力する。この出力に基づいて対象物に対してフ
ィードバック制御を行えば、目的とする絶対的な方向に
対象物を移動させたり、対象物の向きを変えたりするこ
とができる。
【0116】上述したような方向選択装置を、音声認識
装置および動作装置と組み合わせれば、図29に示すよ
うに、対象物の向きあるいは移動方向を音声によって入
力すればそれに応じて対象物の向きあるいは移動方向が
変化する音声反応装置1402を実現することができ
る。音声反応装置1402では、音声認識装置1201
の認識結果を方向選択装置1401の入力とし、さらに
方向選択装置1401の出力を動作装置1302に入力
している。これにより、現在の対象物の向きあるいは移
動方向と目的とする方向とを比較しながら、対象物の動
作を制御することが可能になる。
【0117】例えば、北を0度とし、東回りを正の方向
としたときに、対象物が現在0度の方向を向いている場
合を考える。このとき、方向選択装置1401として上
述した方向選択装置600(図21参照)を用いている
ものとする。目的とする方向を示す音声が音声認識装置
1201により「右」という言葉であると認識される
と、方向選択装置600のオフセット算出部601に
「右」という言葉に+90度が対応づけられているテー
ブルを格納しておけば、方向選択装置600は、動作装
置1302に対して、対象物の向きあるいは移動方向を
現在の向きから東回りに90度ほど変えるようにという
出力を送る。このとき、方向選択装置600によって、
対象物の向きあるいは移動方向の変化中に現在の方向と
目的とする方向とは常に比較される。動作装置1302
は、方向選択装置600の出力によって目的とする方向
に対象物の向きあるいは移動方向が変わるように制御さ
れる。あるいは方向選択装置1401として用いられて
いるのが図22の方向選択装置700である場合には、
目的とする方向を表す言葉として、「右」や「左」では
なく「北」や「南西」というような絶対的な方向を表す
言葉が入力されることになる。このとき、方向選択装置
700は、入力された言葉が「北」であれば0度を、
「南西」であれば−135度を目的とする絶対的な方向
として目的方向メモリに格納し、上述したような動作を
行う。なお、ここで目的とする方向は−180度〜+1
80度とする。
【0118】また、本実施例の方向検出装置および方向
選択装置を動作装置と組み合わせてもよい。この場合、
図30に示すように、方向検出装置1301の検出結果
を方向選択装置1401の入力とし、方向選択装置14
01の出力を動作装置1302の入力とする。これによ
り、対象物の向きあるいは移動している方向を、現在の
対象物の向きあるいは移動している方向と目的とする方
向とを比較しながら音声が聞こえてくる方向に変えると
いう音声反応装置1501を実現することができる。
【0119】(第6の実施例)本実施例では、音声認識
に関する装置を説明する。この装置は、図26に示すよ
うに、音声終了点検出装置1101、音声検出装置11
02、特徴量抽出装置1103、距離計算装置1104
および辞書11105を有している。
【0120】まず、入力された音声に対応する信号を受
け取り、その信号に基づいて音声終了点を検出する音声
終了点検出装置1101を説明する。本明細書では「音
声終了点」は音声入力が終了した時間を意味するものと
する。
【0121】本実施例の音声終了点検出装置1101
は、マイクなどの音声入力装置に接続されている。音声
入力装置から音声s(t)が入力されると、音声終了点
検出装置1101は、図23に示すように入力された音
声s(t)をフレームf(i)(iは負でない整数)に
分割し、各フレーム内のエネルギーe(i)を求める。
図23では、音声s(t)を曲線801で、エネルギー
e(i)を曲線802で表している。続いて音声終了点
検出装置1101は、1フレーム分の音声が入力される
度にそのフレームから所定個数前のフレームまでのエネ
ルギーの分散を求め、予め実験的に定められている閾値
Thvと比較する。比較の結果、エネルギーの分散が閾
値Thvと大きい方から小さい方に交差していれば、交
差した時点を音声終了点と判定する。
【0122】ここで一定期間のフレーム毎のエネルギー
から分散を求める方法を述べる。まず、循環メモリを使
う方法であるが、フレーム毎に求まるエネルギーを順
次、長さlの循環メモリ803に格納していく。そし
て、1フレームのエネルギーが求まる度に、そこから一
定期間ほど遡ったフレームのエネルギーを循環メモリ8
03から参照することにより、分散を求める。
【0123】また、循環メモリを用いずにエネルギーの
分散を求める方法もある。この方法では、音声終了点検
出装置1101に過去の所定数個のフレームについての
平均m(i−1)と分散v(i−1)を保持させてお
き、新しいフレームに対してエネルギーe(i)が求め
られる度に、新しく求められたエネルギーe(i)と過
去のエネルギーの平均m(i−1)との重みづけした和
を新しいエネルギーの平均m(i)とし、同じく過去の
分散v(i−1)と|e(i)−m(i)|との重みづ
け和を新しい分散v(i)とする。このようにすれば擬
似的なエネルギーの分散を求めることができる。ここ
で、重みづけには減衰定数αを用い、次式を用いて新し
い平均と分散とを求める。αとしては1.02を用いて
いる。
【0124】
【数1】
【0125】このようにすることにより、循環メモリを
必要とせず、メモリの節約につながり、新しいエネルギ
ーが求まる度に一定期間内のエネルギーの総和を求める
等の手間が省け、処理時間の短縮にもつながる。
【0126】次に、実際に音声が発音された区間を抽出
する音声検出装置1102を説明する。この区間の抽出
のために、エネルギーを格納するための循環メモリ80
3とは別に、平滑化エネルギーを格納するための循環メ
モリ902を用意しておき、図24に示すように、1フ
レームのエネルギーが求まる度にメモリ803にはエネ
ルギー802を、メモリ902には平滑化エネルギー9
01を蓄えてゆく。上述したようにして音声終了点90
3が求まった時点では、これらの循環メモリ803およ
び902にはエネルギーおよび平滑化エネルギーの履歴
が残っており、これらの循環メモリの長さlを十分な長
さ(例えば2秒に相当する長さ)にしておけば、一単語
分のエネルギーを残しておくことができる。そこで、音
声検出装置1102は、これらのメモリに格納されてい
るエネルギーおよび平滑化エネルギーを用いて音声が発
音された区間を抽出する。
【0127】区間の抽出は次のような手順で行われる。
まず、後で説明するようにして閾値Thを決定する。こ
の閾値Thと循環メモリ803内に格納されているエネ
ルギーとを過去のものから順に比較していき、エネルギ
ーが初めてその閾値を超える点を音声が発音された区間
の始点とする。また、逆に音声終了点から過去に遡って
いくときにエネルギーが初めて閾値と交差する点を音声
が発音された区間の終点とする。このようにして、音声
が発音された区間を抽出する。
【0128】ここで閾値Thの決定の仕方を説明する。
まず、音声終了点が検出された時点でのメモリ803内
のエネルギーの最大値max1001と、メモリ902
ないの平滑化エネルギーの最小値min1002とを求
める。これらの値を用いて、次式から閾値Thを算出す
る。
【0129】
【数2】
【0130】ただし、βとしては0.07程度の値を採
用した。
【0131】またここでは、エネルギーを平滑化する方
法としては一定ウインドウ内のメディアン値を採る方法
を用いている。しかし、平滑化の方法はこれに限定され
るものではなく、例えば平均値を採ってもかまわない。
なお、閾値Thを求める際に平滑化エネルギーの最大値
ではなくエネルギーの最大値を用いたのは、閾値Thを
求めるのに平滑化エネルギーの最大値を用いると、単語
の長さが変動した場合に最大値が大幅に変動し、それに
伴なって閾値Thも変動してしまい、結果的に良好な音
声検出ができなくなるからである。また、平滑化エネル
ギーの最小値を閾値Thの算出に用いているので、音声
ではないノイズが検出されるのを防ぐこともできる。
【0132】上述したようにして、音声が発音されてい
る区間の抽出、すなわち入力された信号のうちの音声に
相当する部分の検出が音声検出装置1102によって行
われる。
【0133】次に、検出された音声から、特徴量抽出装
置1103によって、認識のための特徴量を抽出する。
特徴量もエネルギー同様、フレーム毎に求めるものと
し、循環メモリに蓄えていくものとする。ここで特徴量
とは、原信号のゼロ交差数と原信号の微分信号のゼロ交
差数と原信号のエネルギーの対数をとったもののフレー
ム間差分の3つの要素を含む特徴量ベクトルとする。
【0134】このように音声終了点検出装置1101、
音声検出装置1102、および特徴量抽出装置1103
を経て得られた音声の特徴量ベクトルは、距離計算装置
1104に入力される。距離計算装置1104は、辞書
1105に予め登録されている複数の音声の特徴量ベク
トルのそれぞれと入力された特徴量ベクトルとを照合
し、最もスコアがよかったものを認識結果として出力す
る。照合の方法は単純にベクトル間のユークリッド距離
を取ってもよいし、DPマッチング法を用いてもよい。
【0135】以上説明したようにして、本実施例の装置
は音声認識を行う。この音声認識装置は、図27に示す
ように実施例4で述べた音声選択装置1202と組み合
わせて用いることもできるし、図29に示すように実施
例5で述べた方向選択装置1401、および動作装置1
302に組み合わせることもできる。また、単に動作装
置1302と組み合わせて、音声認識装置1201の結
果を動作装置1302の入力として目的の方向へ装置全
体を移動させる音声反応装置1601を構成することも
できる。
【0136】さらに、実施例4〜6で述べた音声反応装
置のうち音声認識装置1201を含むものでは、音声認
識装置側に信号送信装置1701を付加し、それぞれの
構成の中で音声認識装置の後段に来る音声選択装置12
02や方向選択装置1401や動作装置1302に信号
受信装置1702を付加すれば、音声認識装置のみを手
元のリモコンとして対象物を遠隔操作することが可能と
なる。ここで信号送受信に赤外線や無線を用いることが
可能である。
【0137】また、上述した音声反応装置を風船に取り
つけることによって、風船と対話したり、風船をコント
ロールすることが可能になり、風船独特のあたたかみを
生かした玩具を作ることが可能となる。
【0138】また、図33に示すように、上述した音声
認識装置と音声選択装置とを備えた音声反応装置120
3を風船1801に取り付けた物を2つ用意し、人がこ
の音声反応装置に話しかけるのではなく、2つの音声反
応装置同士がお互いに対話するように構成すれば、勝手
に対話するような玩具を作ることが可能となる。さら
に、この音声反応装置付き風船1801を複数用意し、
対話させることも可能である。このときに、それぞれの
音声反応装置付き風船に音声認識過程でリジェクト機能
を持たせれば、特定の言葉に対してのみ反応することが
可能となり、ある発声に対し一つの風船だけが反応する
ように構成することも可能となる。例えば、それぞれの
風船1801に名前を付け、その名前を呼んだ時だけ反
応させることが可能となる。ここでリジェクトの方法は
音声認識を行う時に内部の辞書と距離を計算するが、実
験的に閾値を決めておき、その閾値を越えたものをリジ
ェクトするというものがある。さらに、音声反応装置に
時計を組み込んで、所定の時間が経過したら、登録され
ている出力音声集合の中から1つの音声をランダムに選
んで出力させることにより、音声反応装置側から対話を
始めることのできる玩具を構成することも可能である。
【0139】なお、上記対象物は風船に限定されるもの
ではなく、ぬいぐるみや人形、あるいは写真や絵であっ
てもかまわない。また、ディスプレイ中の動画であって
もよい。また、対象物として、風船以外の反重力装置
(例えば、ヘリコプターのようにプロペラによって浮上
するものや、リニアモーターカーのように磁力によって
浮上するもの)を用いてもよい。
【0140】
【発明の効果】以上説明したように、本発明によれば、
人間にとって自然な音声による操作が可能であり、かつ
操作習熟を必要としないゲーム装置を得ることができ
る。また、音声のみから入力された言葉(コマンド)を
認識するのではなく、***の動きを利用しているので、
騒音下においても安定な操作が可能である。さらに、口
唇の動きをLEDとフォトダイオード(フォトトランジ
スタ)の組み合わせでとらえるため、ビデオカメラ、あ
るいは超音波等を利用する場合と比較して、低コストで
実現することができる。
【0141】さらに、本発明の音声認識装置では、***
の動きから話者の発声区間を検出し、これを音声認識結
果の判断材料とするため、話者以外の発声による誤認識
を防止することができる。また、本発明の他の音声認識
装置では、***の動きから入力された言葉(コマンド)
を認識して飛行船の制御を行うために、騒音下において
も、また声が出しにくい状況や、発声に障害を持つ者の
利用も可能となる。
【0142】また、本発明の入力装置は、軽いヘッドセ
ットと支柱および台に安価な発光素子(LED等)と安
価な受光素子(フォトダイオード等)を取り付けてい
る。このため、非常に軽く、しかも安価な入力装置を実
現することができる。
【0143】以上説明したように、本発明の音声選択装
置は、入出力の状態を複数用意し過去の入出力の履歴に
より入出力の状態を遷移させる。このため、この音声選
択装置を用いることにより簡単な対話をする装置を提供
することが可能となる。また、本発明の音声選択装置は
1つの入力に対し複数の出力を用意しており、この中か
らランダムに選択した1つを出力するので、1つの入力
に対し常に同じ応答ではなく、変化のある応答をするこ
とができる。
【0144】また、本発明の方向検出装置は、複数のマ
イクによって音声を入力し、エネルギーが最大となるマ
イクを検出する。これにより、音声が発声された方向を
検出することができる。さらに、本発明の方向選択装置
を用いれば、方位計によって現在の位置を検出しなが
ら、対象物を入力された方向に正確に移動させたり、あ
るいは入力された方向に対象物の向きを変えたりするこ
とができる。
【0145】また、本発明の音声認識装置は、音声終了
点検出装置によりまず大まかな音声の終了点を求めてか
ら、音声検出装置で自動的に閾値を求める。ここで、入
力された音声のエネルギーの最大値と、エネルギーを平
滑化したものの最小値とから閾値を決定しているので、
音声の発声区間の長短に関係なく、良好な音声区間抽出
を行うことができる。音声検出装置が閾値を用いて音声
を検出すると、この音声から特徴量を求め、これに基づ
いて音声認識を行う。
【0146】また、上述した装置を適宜組み合わせるこ
とにより、様々な音声反応装置を得ることができる。例
えば、音声認識装置と音声選択装置を組み合わせれば、
人が声で話しかけると返答する音声反応装置が得られ、
これによりマン・マシンインターフェースを構築するこ
とが可能となる。また、方向検出装置と動作装置を組み
合わせれば、音声に反応して対象物を動作させることが
可能となるし、音声認識装置と方向選択装置と動作装置
を組み合わせれば、音声の内容が示す方向に対象物を正
確に移動させたり、音声の内容が示す方向に対象物の向
きを変えたりすることが可能となる。さらに、音声反応
装置のうちの音声認識装置に信号送信装置を接続し、音
声認識装置の後段にくる装置に信号受信装置を接続して
対象物に取り付ければ、遠隔からの操作が可能である音
声反応装置を実現することができる。
【0147】さらに、上述したような音声反応装置を複
数個用意すれば、音声反応装置間で自動的に対話をする
玩具を構成することも可能である。また、音声反応装置
をそれぞれ風船に付ければ、風船独特の暖かみを持ち、
しかも話しかけることが可能な玩具を作ることができ
る。また、時計を組み込み、ある時間がくれば適当な音
声を出力することによって人間から話かけるのではな
く、自分から話しかける音声反応装置を作ることも可能
である。
【図面の簡単な説明】
【図1】本発明の第1の実施例のゲーム装置の構成を示
すブロック図である。
【図2】本発明の第1〜第3の実施例の画像入力部の詳
細な構成を示す図である。
【図3】本発明の第1の実施例における発声区間検出部
の詳細な構成を示す図である。
【図4】本発明の第1の実施例における統合判断部の詳
細な構成を示すブロック図である。
【図5】本発明の第1〜第3の実施例における微分信号
の出力例を示すグラフである。
【図6】図3の発声区間検出部の処理動作を説明するた
めの図である。
【図7】図4の統合判断部の処理動作を説明するための
図である。
【図8】本発明の第2の実施例のゲーム装置の構成を示
すブロック図である。
【図9】本発明の第2、第3の実施例における***認識
部の詳細な構成を示すブロック図である。
【図10】本発明の第2、第3の実施例における微分回
路の処理動作を示す図である。
【図11】本発明の第2、第3の実施例のパターンマッ
チング部の処理動作を示す図である。
【図12】本発明の第3の実施例のゲーム装置の構成を
示すブロック図である。
【図13】本発明の第3の実施例における統合判断部の
処理動作を示す図である。
【図14】本発明の第3の実施例における統合判断部の
処理動作を示す図である。
【図15】本発明の入力装置の具体的構成例を示す図で
ある。
【図16】本発明の第4の実施例の音声選択装置の構成
を示す図である。
【図17】図16の音声選択装置における入出力状態を
示す図である。
【図18】本発明の変形例の音声選択装置の構成を示す
図である。
【図19】本発明の第5の実施例の方向検出装置の構成
を示す図である。
【図20】入力された音声の波形とフレームとを説明す
る図である。
【図21】本発明の第5の実施例の方向選択装置の構成
を示す図である。
【図22】本発明の第5の実施例の他の方向選択装置の
構成を示す図である。
【図23】音声波形、エネルギー、および循環メモリを
説明する図である。
【図24】本発明の第6の実施例における音声終了点の
検出方法を説明する図である。
【図25】本発明の第6の実施例における音声検出方法
を説明する図である。
【図26】本発明の第6の実施例の音声認識装置の構成
を示すブロック図である。
【図27】本発明の音声認識装置、および音声選択装置
を用いた音声反応装置の構成を示す図である。
【図28】本発明の方向検出装置、および動作装置を用
いた音声反応装置の構成を示す図である。
【図29】本発明の音声認識装置、方向選択装置、およ
び動作装置を用いた音声反応装置の構成を示す図であ
る。
【図30】本発明の方向検出装置、方向選択装置、およ
び動作装置を用いた音声反応装置の構成を示す図であ
る。
【図31】本発明の音声認識装置、および動作装置を用
いた音声反応装置の構成を示す図である。
【図32】本発明の遠隔操作が可能な音声反応装置の構
成を示す図である。
【図33】本発明の音声反応装置を用いた玩具の一例を
示す図である。
【図34】従来のゲーム装置の構成を示す図である。
【符号の説明】
1 音声入力部 3 画像入力部 2 音声認識部 4 発声区間検出部 5、123 統合判断部 6 制御部 7 飛行船 21 LED 22 フォトダイオード 81 ***認識部 100,100a 音声選択装置 101 乱数発生部 102 音声選択部 103 入出力状態メモリ 104 状態遷移部 105 入出力状態データベース 400、1301 方向検出装置 401 方向検出部 600、700、1401 方向選択装置 601 オフセット算出装置 602 方位計 603 目的方向メモリ 701 方向算出装置 1101 音声終了点検出装置 1102 音声検出装置 1103 特徴量抽出装置 1104 距離計算装置 1105 辞書 1201 音声認識装置 1202 音声選択装置 1302 動作装置 1701 信号送信装置 1702 信号受信装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 9/12 301 B H04Q 9/00 301 B (72)発明者 萱嶋 一弘 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 松井 謙二 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 松川 善彦 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (39)

    【特許請求の範囲】
  1. 【請求項1】 操作者によって発生された音声を含む少
    なくとも1つの音声を入力し、入力された該音声を第1
    の電気信号に変換し、該第1の電気信号を出力する音声
    入力手段と、 該音声入力手段から出力された該第1の電気信号に基づ
    いて該少なくとも1つの音声を認識する音声認識手段
    と、 該操作者の***の動きを光学的に検出し、検出された該
    ***の動きを第2の電気信号に変換し、該第2の電気信
    号を出力する画像入力手段と、 該第2の電気信号を受け取り、受け取った該第2の電気
    信号に基づいて、該話者によって該音声が発生されてい
    る区間を求める発生区間検出手段と、 該音声認識手段によって認識された該少なくとも1つの
    音声と、該発生区間検出手段によって求められた該区間
    とに基づいて、該少なくとも1つの音声から該操作者に
    よって発生された該音声を抽出する統合判断手段と、 該統合判断手段によって抽出された該音声に基づいて、
    対象物を制御する制御手段と、を備えているゲーム装
    置。
  2. 【請求項2】 前記発声区間検出手段は、 前記画像入力手段から出力される前記第2の電気信号の
    変化の度合いを検出する微分手段と、 該微分手段によって検出される該変化の度合いが所定の
    値を超えたときに、対応する音声は前記操作者によって
    発生されたと判断する手段と、を備えている請求項1に
    記載のゲーム装置。
  3. 【請求項3】 前記統合判断手段は、 前記発声区間検出手段によって求められた前記区間に所
    定の長さの区間を加えることにより、評価区間を作成す
    る手段と、 前記音声認識手段によって認識された前記少なくとも1
    つの音声が、該音声認識手段から出力された認識結果出
    力時間を検出する手段と、 該認識結果出力時間と該評価区間とを比較し、該少なく
    とも1つの音声のうち、該認識結果出力時間が該評価区
    間内に収まっている音声を前記操作者によって発声され
    た前記音声と判断する手段と、を備えている請求項1ま
    たは2に記載のゲーム装置。
  4. 【請求項4】 操作者の***の動きを光学的に入力し、
    該入力された***の動きを電気信号に変換し、該電気信
    号を出力する画像入力手段と、 該電気信号に基づいて該***の動きを求め、該求められ
    た***の動きに対応する言葉を認識し、認識結果を出力
    する***認識手段と、 該認識結果に基づいた制御信号に応じて対象物を制御す
    る制御手段と、を備えているゲーム装置。
  5. 【請求項5】 前記***認識手段は、 所定数の言葉を記憶している記憶手段と、 前記求められた***の動きに応じて該所定数の言葉から
    1つを選択し、該選択された言葉を該***の動きに対応
    する該言葉であると判断するマッチング手段と、を備え
    ている請求項4に記載のゲーム装置。
  6. 【請求項6】 前記記憶手段は、前記所定数の言葉に対
    応する***の動きを標準パターンとして記憶しており、 前記マッチング手段は、該標準パターンの全てについ
    て、前記求められた***の動きとの距離を算出し、該標
    準パターンのうちの該距離が最も小さい1つに対応する
    言葉を選択する、請求項5に記載のゲーム装置。
  7. 【請求項7】 音声を入力し、該音声を他の電気信号に
    変換し、該他の電気信号を出力する音声入力手段と、 該音声入力手段から出力された該他の電気信号に基づい
    て該音声を認識する音声認識手段と、 該音声認識手段による認識結果と、前記***認識手段に
    よる前記認識結果との両方に基づいて、前記制御手段に
    与えられるべき前記制御信号を出力する統合判断手段
    と、をさらに備えている、請求項4に記載のゲーム装
    置。
  8. 【請求項8】 前記音声認識手段による前記認識結果に
    対して、音声認識信頼度を求める手段と、 前記***認識手段による前記認識結果に対して、***認
    識信頼度を求める手段と、を有しており、前記統合判断
    手段は、該音声認識信頼度および該***認識信頼度に基
    づいて、該音声認識手段による該認識結果および該***
    認識手段の該認識結果のうちの一方を選択し、それを前
    記制御信号として出力する、請求項7に記載のゲーム装
    置。
  9. 【請求項9】 前記画像入力手段は、光を出射する発光
    手段と、前記操作者の前記***によって反射された該光
    を受け取り、該受け取った光を前記第2の電気信号に変
    換する受光手段とを有している、請求項1に記載のゲー
    ム装置。
  10. 【請求項10】 前記画像入力手段は、光を出射する発
    光手段と、前記操作者の前記***によって反射された該
    光を受け取り、該受け取った光を前記電気信号に変換す
    る受光手段とを有している、請求項4に記載のゲーム装
    置。
  11. 【請求項11】 前記画像入力手段は、光を出射する発
    光手段と、前記操作者の前記***によって反射された該
    光を受け取り、該受け取った光を前記電気信号に変換す
    る受光手段とを有している、請求項7に記載のゲーム装
    置。
  12. 【請求項12】 前記光は、前記***に側方から照射さ
    れる、請求項9、10および11のいずれか1つに記載
    のゲーム装置。
  13. 【請求項13】 前記光は、前記***に正面から照射さ
    れる、請求項9、10および11のいずれか1つに記載
    のゲーム装置。
  14. 【請求項14】 前記音声入力手段は、少なくとも1つ
    のマイクロフォンを有している、請求項1または7に記
    載のゲーム装置。
  15. 【請求項15】 前記音声入力手段は少なくとも1つの
    マイクロフォンを有しており、該少なくとも1つのマイ
    クロフォン、および前記画像入力手段の前記発光手段お
    よび前記受光手段は、1つの台上に設けられている、請
    求項11に記載のゲーム装置。
  16. 【請求項16】 ヘッドフォン状のヘッドセットと、 一端が該ヘッドセットに接合されている支柱と、 該支柱の他端に接合されている台であって、その上に、
    操作者の***に照射される光を発生する少なくとも1つ
    の発光素子と、該***によって反射された該光を受け取
    る少なくとも1つの受光素子とが設けられている台と、
    を備えている入力装置。
  17. 【請求項17】 前記台上には、音声を入力する音声入
    力手段が設けられている、請求項16に記載の入力装
    置。
  18. 【請求項18】 複数のテーブルを格納する第1の記憶
    手段であって、該複数のテーブルのそれぞれは、1つの
    入力に対して出力されうる複数の言葉を含んでいる第1
    の記憶手段と、 該複数のテーブルのうちの1つを格納する第2の記憶手
    段と、 外部からの入力に応じて、該第2の記憶手段に格納され
    ている該1つのテーブルに含まれている該複数の言葉か
    ら1つの言葉を選択し、該選択された1つの言葉を音声
    として出力する選択手段と、 該第2の記憶手段に格納されている該1つのテーブル
    を、該第1の記憶手段に格納されている該複数のテーブ
    ルのうちから該選択された1つの言葉に応じて決定され
    る他のテーブルに更新する遷移手段と、を備えている音
    声選択装置。
  19. 【請求項19】 乱数を発生する手段をさらに備えてお
    り、前記選択手段は該乱数を用いて前記複数の言葉から
    前記1つの言葉を選択する、請求項18に記載の音声選
    択装置。
  20. 【請求項20】 テーブルを格納する記憶手段であっ
    て、該テーブルは、1つの入力に応じて出力されうる複
    数の言葉を含んでいる記憶手段と、 外部からの入力を受け取り、該記憶手段に格納されてい
    る該テーブルに含まれている該複数の言葉から乱数を用
    いて1つの言葉を選択し、それを音声として出力する選
    択手段と、 該乱数を発生する手段と、を備えている音声選択装置。
  21. 【請求項21】 請求項18、19および20のうちの
    いずれか1つに記載の音声選択装置と、 音声を入力し、該音声を認識し、認識結果を該音声選択
    装置に与える音声認識手段と、を備えている音声反応装
    置。
  22. 【請求項22】 請求項21に記載の音声反応装置を備
    えているゲーム装置。
  23. 【請求項23】 請求項21に記載の音声反応装置を複
    数個備えており、それにより該音声反応装置がお互いに
    対話するゲーム装置。
  24. 【請求項24】 入力した音声を電気信号に変換する複
    数の音声入力部であって、該複数の音声入力部はそれぞ
    れ異なる方向に対応している音声入力部と、 該電気信号のエネルギーを該複数の音声入力部のそれぞ
    れについて求め、該複数の音声入力部のうちの該エネル
    ギーが最大である1つを決定し、該決定された1つの音
    声入力部に対応する方向を該音声が発生された方向であ
    ると判定する方向検出手段と、を備えているゲーム装
    置。
  25. 【請求項25】 対象物を動作させる動作手段と、 前記判定された方向に該対象物の動作する方向を変更す
    るように該動作手段を制御する制御手段と、をさらに備
    えている請求項24に記載のゲーム装置。
  26. 【請求項26】 前記ゲーム装置は、 対象物の動作の現在の方向を計測する計測手段と、 前記判定された方向を入力し、該現在の方向および該判
    定された方向に基づいて目的方向を求め、該目的方向を
    格納する手段と、を有している方向選択手段と、 該対象物を動作させる動作手段と、をさらに備えてお
    り、該方向選択手段は、該目的方向と該現在の方向の差
    を用いて、該対象物の動作の該現在の方向と該目的方向
    とが実質的に一致するように該動作手段を制御する請求
    項24に記載のゲーム装置。
  27. 【請求項27】 音声により相対的な方向を入力する入
    力手段と、 対象物の現在の方向を計測する計測手段と、 該現在の方向および該入力された相対的な方向に基づい
    て目的方向を求め、該目的方向を格納する手段と、を有
    する方向選択手段を備えたゲーム装置であって、 該方向選択手段によって、該目的方向と該現在の方向の
    差を用いて、該対象物の該現在の方向と該目的方向とが
    実質的に一致するように該対象物を制御するゲーム装
    置。
  28. 【請求項28】 前記入力手段は、前記音声が入力され
    る入力部と、該入力された音声に基づいて前記相対的な
    方向を認識する認識部とを有している、請求項27に記
    載のゲーム装置。
  29. 【請求項29】 音声により絶対的な方向を入力する入
    力手段と、 該絶対的な方向に基づいて目的方向を決定し、該目的方
    向を格納する手段と、 対象物の現在の方向を計測する計測手段と、を有する方
    向選択手段を備えたゲーム装置であって、 該方向選択手段によって、該目的方向と該現在の方向の
    差を用いて、該対象物の該現在の方向と該目的方向とが
    実質的に一致するように該対象物を制御するゲーム装
    置。
  30. 【請求項30】 前記入力手段は、前記音声が入力され
    る入力部と、該入力された音声に基づいて前記絶対的な
    方向を認識する認識部とを有している、請求項29に記
    載のゲーム装置。
  31. 【請求項31】 音声に対応する電気信号を受け取り、
    該電気信号から、該音声の入力が終了した時間である音
    声終了点を検出する第1の検出手段と、 該電気信号に基づいて、該音声が入力された区間のうち
    の該音声が発声された区間である発声区間を決定する第
    2の検出手段と、 該電気信号の該発声区間の部分に基づいて、特徴量ベク
    トルを作成する特徴量抽出手段と、 予め作成された複数の候補音声の特徴量ベクトルを記憶
    する記憶手段と、 該特徴量抽出手段からの該特徴量ベクトルを、該記憶手
    段に記憶されている該複数の候補音声の該特徴量ベクト
    ルのそれぞれと比較することにより、該入力された音声
    を認識する手段と、を備えている音声認識装置。
  32. 【請求項32】 前記第1の検出手段は、 前記電気信号を、それぞれが所定の長さを有する複数の
    フレームに分割する手段と、 該複数のフレームのそれぞれに対して該電気信号のエネ
    ルギーを求める算出手段と、 該エネルギーの分散に基づいて前記音声終了点を決定す
    る決定手段と、を備えている、請求項31に記載の音声
    認識装置。
  33. 【請求項33】 前記決定手段は、予め定められている
    閾値と前記エネルギーの前記分散とを比較することによ
    り前記音声終了点を決定し、 該音声終了点は、該エネルギーの該分散が該閾値とより
    も大きい値から小さい値に変化するときに該分散が該閾
    値と一致する時間である、請求項32に記載の音声認識
    装置。
  34. 【請求項34】 前記決定手段は、前記複数のフレーム
    の前記エネルギーのうちの所定数のフレームのエネルギ
    ーに対する分散を用いる、請求項32または33に記載
    の音声認識装置。
  35. 【請求項35】 前記第2の検出手段は、 前記電気信号の前記エネルギーを平滑化する手段と、 該電気信号の該エネルギーを平滑化しないままフレーム
    毎に順次格納する第1の循環式記憶手段と、 該平滑化されたエネルギーをフレーム毎に順次格納する
    第2の循環式記憶手段と、 前記音声終了点が検出されたときに該第1の循環式記憶
    手段に格納されている該平滑化されていないエネルギー
    および該第2の循環式記憶手段に格納されている平滑化
    されたエネルギーの両方を用いて、発声区間検出用閾値
    を算出する閾値算出手段と、 該平滑化されていないエネルギーを該発声区間検出用閾
    値と比較することにより、前記発声区間を決定する発声
    区間決定手段と、を有している請求項32に記載の音声
    認識装置。
  36. 【請求項36】 前記閾値算出手段は、前記音声終了点
    が検出された時点で前記第1の循環式記憶手段に格納さ
    れている前記平滑化されていないエネルギーの最大値
    と、該音声終了点が検出されていない時点で前記第2の
    循環式記憶手段に格納されている前記平滑化エネルギー
    の最小値とを用いて、前記発声区間検出用閾値を算出す
    る、請求項35に記載の音声認識装置。
  37. 【請求項37】 前記特徴量検出手段は、 前記電気信号の前記発声区間の部分から、該電気信号の
    フレーム毎のゼロ交差数と、該電気信号を微分して得ら
    れる信号のフレーム毎のゼロ交差数と、該電気信号の前
    記エネルギーとを算出し、これらを前記特徴量ベクトル
    の要素とする、請求項35または36に記載の音声認識
    装置。
  38. 【請求項38】 請求項32から37のいずれか1つに
    記載の少なくとも1つの音声認識装置と、 該少なくとも1つの音声認識装置の認識結果に基づいて
    対象物を制御する少なくとも1つの制御手段と、を備え
    ている音声反応装置。
  39. 【請求項39】 前記音声反応装置は、 前記少なくとも1つの音声認識装置に接続されており、
    該少なくとも1つの音声認識装置による前記認識結果を
    送信する送信手段と、 前記少なくとも1つの制御装置に接続されており、該送
    信された認識結果を受け取り、該少なくとも1つの制御
    装置に与える受信手段と、をさらに備えており、 該少なくとも1つの制御装置および該受信手段は前記対
    象物に取り付けられており、それにより該対象物を遠隔
    より操作することを可能とする、請求項38に記載の音
    声反応装置。
JP7114957A 1994-05-13 1995-05-12 ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 Pending JPH08187368A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7114957A JPH08187368A (ja) 1994-05-13 1995-05-12 ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP9962994 1994-05-13
JP6-99629 1994-11-09
JP27491194 1994-11-09
JP6-274911 1994-11-09
JP7114957A JPH08187368A (ja) 1994-05-13 1995-05-12 ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2003158723A Division JP2004024863A (ja) 1994-05-13 2003-06-03 ***認識装置および発生区間認識装置

Publications (1)

Publication Number Publication Date
JPH08187368A true JPH08187368A (ja) 1996-07-23

Family

ID=27309000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7114957A Pending JPH08187368A (ja) 1994-05-13 1995-05-12 ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置

Country Status (1)

Country Link
JP (1) JPH08187368A (ja)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134194A (ja) * 1995-08-17 1997-05-20 Ricoh Co Ltd 読話のための画像認識システム
JPH1091789A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 単語認識装置
JPH10111697A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 音声反応装置と音声認識装置
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JPH11352987A (ja) * 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2000099099A (ja) * 1998-09-22 2000-04-07 Sharp Corp データ再生装置
US6272466B1 (en) 1997-03-04 2001-08-07 Fuji Xerox Co., Ltd Speech detection apparatus using specularly reflected light
JP2001265377A (ja) * 2000-03-15 2001-09-28 Junji Kuwabara 音声処理装置
US6343269B1 (en) 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
US6396954B1 (en) 1996-12-26 2002-05-28 Sony Corporation Apparatus and method for recognition and apparatus and method for learning
JP2002252682A (ja) * 2001-02-26 2002-09-06 Nippon Telegr & Teleph Corp <Ntt> 携帯電話機用入力方法、および携帯電話機
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
WO2004090867A1 (ja) * 2003-04-09 2004-10-21 Toyota Jidosha Kabushiki Kaisha 変化情報認識装置および変化情報認識方法
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
JP2005135432A (ja) * 2004-12-13 2005-05-26 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2006139133A (ja) * 2004-11-12 2006-06-01 Pioneer Electronic Corp 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム
US7369991B2 (en) 2002-03-04 2008-05-06 Ntt Docomo, Inc. Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy
JP2009140366A (ja) * 2007-12-07 2009-06-25 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2011078508A (ja) * 2009-10-05 2011-04-21 Namco Bandai Games Inc プログラムおよび情報記憶媒体
JP2012198289A (ja) * 2011-03-18 2012-10-18 Fujitsu Ltd 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
JP2016008132A (ja) * 2014-06-26 2016-01-18 東芝エレベータ株式会社 エレベータシステムおよびエレベータの情報出力方法
WO2016098228A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 音声認識装置および音声認識方法
JP2017127888A (ja) * 2016-01-19 2017-07-27 株式会社ダイヘン 溶接装置
WO2018175959A1 (en) * 2017-03-23 2018-09-27 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
WO2020079733A1 (ja) * 2018-10-15 2020-04-23 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
JPWO2021024869A1 (ja) * 2019-08-02 2021-02-11

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134194A (ja) * 1995-08-17 1997-05-20 Ricoh Co Ltd 読話のための画像認識システム
JPH1091789A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 単語認識装置
JPH10111697A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 音声反応装置と音声認識装置
US6396954B1 (en) 1996-12-26 2002-05-28 Sony Corporation Apparatus and method for recognition and apparatus and method for learning
US6272466B1 (en) 1997-03-04 2001-08-07 Fuji Xerox Co., Ltd Speech detection apparatus using specularly reflected light
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JPH11352987A (ja) * 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
US6343269B1 (en) 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2000099099A (ja) * 1998-09-22 2000-04-07 Sharp Corp データ再生装置
JP2001265377A (ja) * 2000-03-15 2001-09-28 Junji Kuwabara 音声処理装置
JP2002252682A (ja) * 2001-02-26 2002-09-06 Nippon Telegr & Teleph Corp <Ntt> 携帯電話機用入力方法、および携帯電話機
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US7680666B2 (en) 2002-03-04 2010-03-16 Ntt Docomo, Inc. Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product
US7369991B2 (en) 2002-03-04 2008-05-06 Ntt Docomo, Inc. Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy
US7302086B2 (en) 2003-04-09 2007-11-27 Toyota Jidosha Kabushiki Kaisha Change information recognition apparatus and change information recognition method
US7508959B2 (en) 2003-04-09 2009-03-24 Toyota Jidosha Kabushiki Kaisha Change information recognition apparatus and change information recognition method
WO2004090867A1 (ja) * 2003-04-09 2004-10-21 Toyota Jidosha Kabushiki Kaisha 変化情報認識装置および変化情報認識方法
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
JP4521673B2 (ja) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
JP2006139133A (ja) * 2004-11-12 2006-06-01 Pioneer Electronic Corp 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム
JP2005135432A (ja) * 2004-12-13 2005-05-26 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2009140366A (ja) * 2007-12-07 2009-06-25 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2011078508A (ja) * 2009-10-05 2011-04-21 Namco Bandai Games Inc プログラムおよび情報記憶媒体
JP2012198289A (ja) * 2011-03-18 2012-10-18 Fujitsu Ltd 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
JP2016008132A (ja) * 2014-06-26 2016-01-18 東芝エレベータ株式会社 エレベータシステムおよびエレベータの情報出力方法
WO2016098228A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 音声認識装置および音声認識方法
JP2017127888A (ja) * 2016-01-19 2017-07-27 株式会社ダイヘン 溶接装置
WO2018175959A1 (en) * 2017-03-23 2018-09-27 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
US10748542B2 (en) 2017-03-23 2020-08-18 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
US11031012B2 (en) 2017-03-23 2021-06-08 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
WO2020079733A1 (ja) * 2018-10-15 2020-04-23 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
JPWO2020079733A1 (ja) * 2018-10-15 2021-02-15 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
JPWO2021024869A1 (ja) * 2019-08-02 2021-02-11
WO2021024869A1 (ja) * 2019-08-02 2021-02-11 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体

Similar Documents

Publication Publication Date Title
JPH08187368A (ja) ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
KR100215946B1 (ko) 게임장치,음성선택장치,음성인식장치및음성응답장치
US9754580B2 (en) System and method for extracting and using prosody features
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
JP7337699B2 (ja) 口の画像を入力コマンドと相互に関連付けるシステム及び方法
JP3254994B2 (ja) 音声認識対話装置および音声認識対話処理方法
US10702991B2 (en) Apparatus, robot, method and recording medium having program recorded thereon
US7321853B2 (en) Speech recognition apparatus and speech recognition method
JP2003255991A (ja) 対話制御システム、対話制御方法及びロボット装置
CN105765650A (zh) 带有多向解码的语音辨识器
JP2000057325A (ja) 音声検出装置
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
CN113643693B (zh) 以声音特征为条件的声学模型
JP3337588B2 (ja) 音声応答装置
JP2004024863A (ja) ***認識装置および発生区間認識装置
WO2014167570A1 (en) System and method for extracting and using prosody features
CN116504206B (zh) 一种识别环境并生成音乐的摄像头
US11915683B2 (en) Voice adaptation using synthetic speech processing
CN117882131A (zh) 多个唤醒词检测
KR20080061901A (ko) 로봇의 입출력 장치에 의한 효율적인 음성인식 방법 및시스템
Holmes et al. Why have HMMs been so successful for automatic speech recognition and how might they be improved
JP2000206986A (ja) 言語情報検出装置
JP2000311077A (ja) 音声情報入力装置
KR20000058531A (ko) 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법
WO2019187543A1 (ja) 情報処理装置および情報処理方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030623