JP3968133B2 - 音声認識対話処理方法および音声認識対話装置 - Google Patents
音声認識対話処理方法および音声認識対話装置 Download PDFInfo
- Publication number
- JP3968133B2 JP3968133B2 JP15652995A JP15652995A JP3968133B2 JP 3968133 B2 JP3968133 B2 JP 3968133B2 JP 15652995 A JP15652995 A JP 15652995A JP 15652995 A JP15652995 A JP 15652995A JP 3968133 B2 JP3968133 B2 JP 3968133B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- word
- response
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000003672 processing method Methods 0.000 title claims description 14
- 230000004044 response Effects 0.000 claims abstract description 318
- 238000001514 detection method Methods 0.000 claims abstract description 156
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000013500 data storage Methods 0.000 claims description 68
- 238000004458 analytical method Methods 0.000 claims description 64
- 230000015572 biosynthetic process Effects 0.000 claims description 35
- 238000003786 synthesis reaction Methods 0.000 claims description 35
- 238000003860 storage Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 abstract description 11
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 206010042008 Stereotypy Diseases 0.000 abstract 1
- 230000004075 alteration Effects 0.000 abstract 1
- 235000019640 taste Nutrition 0.000 abstract 1
- 230000001755 vocal effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Toys (AREA)
Description
【産業上の利用分野】
本発明は、音声を認識し、その認識結果に対応した応答や特定動作を行う音声認識対話処理方法および音声認識対話装置に関する。
【0002】
【従来の技術】
この種の音声認識装置においては、特定話者のみの音声を認識可能な特定話者音声認識装置と不特定話者の音声を認識可能な不特定話者音声認識装置がある。
【0003】
特定話者音声認識装置は、或る特定の話者が認識可能な単語を一単語ずつ所定の手順に従って入力することによって、その特定話者の標準的な音声信号パターンを登録しておき、登録終了後、特定話者が登録した単語を話すと、その入力音声を分析した特徴パターンと登録された特徴パターンとを比較して音声認識を行うものである。この種の音声認識対話装置の一例として音声認識玩具がある。たとえば、音声指令となる複数の命令語として、「おはよう」、「おやすみ」、「こんにちわ」などの言葉を10単語程度、その玩具を使用する子どもが予め登録しておき、話者がたとえば「おはよう」というと、その音声信号と、登録されている「おはよう」の音声信号を比較して、両音声信号が一致したとき、音声指令に対する定められた電気信号を出力し、これに基づいて玩具に特定動作を行わせるものである。
【0004】
このような特定話者音声認識装置は、特定話者かあるいはそれに近い音声パターンを有する音声しか認識されず、また、初期設定として、認識させたい単語を一単語ずつすべて登録させる必要がありその手間は極めて面倒であった。
【0005】
これに対して、不特定話者音声認識装置は、多数(たとえば、200人程度)の話者が発話した音声を用いて、前記したような認識対象単語の標準音声特徴データを予め作成して記憶(登録)させておき、これら予め登録された認識可能な単語に対して、不特定な話者の発する音声を認識可能としたものである。
【0006】
【発明が解決しようとする課題】
しかしながら、従来の不特定話者音声認識装置は、話者の話した言葉と違う単語や言葉を認識してしまうことも多く、また、話者の話し方の個性などによって、認識される単語、認識されない単語があったり、また、話者によっては、全ての単語が全く認識されないという問題が多く発生していた。
【0007】
そこで、本発明は、不特定話者の音声認識が可能な音声認識装置において、話者の個性などによって認識されない単語がある場合には、特定話者の音声認識機能を用いて音声登録を可能とすることで、認識不可の単語を大幅に減らし、認識性能の向上を図ることを目的としている。
【0008】
【課題を解決するための手段】
本発明の音声認識対話処理方法は、音声を入力する音声入力工程と、前記音声入力工程により入力された前記音声を分析して前記分析により得られた音声特徴データを出力する音声分析工程と、前記音声分析工程により出力された前記音声特徴データと予め登録された標準音声特徴データとを基に、第一の単語検出データを出力する第一の単語データ出力工程と、話者から前記音声入力手段を介して入力された音声を基に当該話者の標準音声特徴データを作成する単語登録工程と、前記音声分析工程から出力された前記音声特徴データと前記話者の標準音声特徴データとを基に、第二の単語検出データを出力する第二の単語データ出力工程と、予め応答データを記憶させる第一の応答データ記憶工程と、前記音声入力工程により入力された音声に基づいて新たに応答データを作成して登録する第一の応答データ登録工程と、前記第一の応答データ登録工程により新たに作成された応答データを記憶させる第二の応答データ記憶工程と、前記第一及び第二の応答データ記憶工程により記憶された応答データのうち複数の応答データを組み合わせることにより、新たな応答データを作成して登録する第二の応答データ登録工程と、前記第二の応答データ登録工程により新たに作成された応答データを記憶させる第三の応答データ記憶工程と、前記第一および第二の単語検出データを入力し、前記第一および第二の単語検出データを基に前記音声入力工程により入力された音声を認識し、前記第一、第二又は第三の応答データ記憶工程により記憶された応答データを基に、当該認識した音声に対応した応答内容を決定する音声認識会話制御工程と、前記音声認識会話制御工程により決定された応答内容に基づいた音声合成出力を出力する音声合成工程と、前記音声合成工程からの音声合成出力を外部に出力する音声出力工程と、を有することを特徴とする。
また、本発明の音声認識対話装置は、音声を入力する音声入力手段と、前記音声入力手段により入力された前記音声を分析して前記分析により得られた音声特徴データを出力する音声分析手段と、前記音声分析手段により出力された前記音声特徴データが入力され、前記音声特徴データと予め登録された標準音声特徴データとを基に、第一の単語検出データを出力する第一の単語データ出力手段と、話者から前記音声入力手段を介して入力された音声を基に当該話者の標準音声特徴データを作成して登録する単語登録手段と、前記音声分析手段から出力された前記音声特徴データが入力され、前記音声特徴データと前記話者の標準音声特徴データとを基に、第二の単語検出データを出力する第二の単語データ出力手段と、予め登録された応答データを記憶する第一の応答データ記憶手段と、前記音声入力手段を介して入力された音声に基づいて新たに応答データを作成して登録する第一の応答データ登録手段と、前記第一の応答データ登録手段により新たに作成された応答データを記憶する第二の応答データ記憶手段と、前記第一及び第二の応答データ記憶手段により記憶された応答データのうち複数の応答データを組み合わせることにより、新たな応答データを作成して登録する第二の応答データ登録手段と、前記第二の応答データ登録手段により新たに作成された応答データを記憶する第三の応答データ記憶手段と、前記第一および第二の単語検出データが入力され、前記第一および第二の単語検出データを基に前記音声入力手段により入力された音声を認識し、前記第一、第二又は第三の応答データ記憶手段に記憶された応答データを基に、当該認識した音声に対応した応答内容を決定する音声認識会話制御手段と、前記音声認識会話制御手段により決定された応答内容に基づいた音声合成出力を出力する音声合成手段と、前記音声合成手段からの音声合成出力を外部に出力する音声出力手段と、を有することを特徴とする。
【0009】
また、本発明の音声認識対話処理方法において、前記第二の応答データ記憶工程は、前記第一の応答データ記憶工程により予め応答データを記憶した記憶手段に前記新たに作成された応答データを記憶させることを特徴とする。
また、本発明の音声認識対話装置において、前記第一の応答データ記憶手段と前記第二の応答データ記憶手段とが、メモリを共用していることを特徴とする。
【0010】
また、本発明の音声認識対話処理方法において、データ入力設定を行うデータ入力設定工程を有し、前記応答データ登録工程は、前記データ入力設定工程により応答データの作成に関するデータ入力設定が行われた場合に、前記音声入力工程により入力された音声に基づいて新たに応答データを作成することを特徴とする。
また、本発明の音声認識対話装置において、データ入力設定を行うデータ入力設定手段を有し、前記応答データ登録手段は、前記データ入力設定手段から応答データの作成に関するデータ入力設定が行われた場合に、前記音声入力手段を介して入力された音声に基づいて新たに応答データを作成することを特徴とする。
【0011】
また、本発明の音声認識対話処理方法は、音声を入力する音声入力工程と、前記音声入力工程により入力された前記音声を分析して前記分析により得られた音声特徴データを出力する音声分析工程と、前記音声分析工程により出力された前記音声特徴データを入力し、前記音声特徴データと、予め登録された標準音声特徴データとを基に、第一の単語検出データを出力する第一の単語データ出力工程と、話者から前記音声入力工程により入力された音声を基に当該話者の標準音声特徴データを作成して登録する単語登録工程と、前記音声分析工程から出力された前記音声特徴データを入力し、前記音声特徴データと前記話者の標準音声特徴データを基に、第二の単語検出データを出力する第二の単語データ出力工程と、予め応答データを記憶する第一の応答データ記憶工程と、変動データを検出する変動データ検出工程と、前記変動データ検出工程が検出した前記変動データを記憶する変動データ記憶工程と、前記第一の応答データ記憶工程により記憶された応答データのうち複数の応答データを組み合わせることにより、新たな応答データを作成して登録する第一の応答データ登録工程と、前記第一の応答データ登録工程により新たに作成された応答データを記憶させる第二の応答データ記憶工程と、前記第一および第二の単語検出データを入力し、前記第一および第二の単語検出データを基に前記音声入力工程により入力された音声を認識し、前記第一又は第二の応答データ記憶工程で記憶した応答データ及び前記変動データ記憶工程で記憶した変動データとを基に、当該認識した音声に対応した応答内容を決定する音声認識会話制御工程と、前記音声認識会話制御工程により決定した応答内容に基づいた音声合成出力を出力する音声合成工程と、前記音声合成手段からの音声合成出力を外部に出力する音声出力工程と、を有することを特徴とする。
また、本発明の音声認識対話装置は、音声を入力する音声入力手段と、前記音声入力手段により入力された前記音声を分析して前記分析により得られた音声特徴データを出力する音声分析手段と、前記音声分析手段により出力された前記音声特徴データを入力し、前記音声特徴データと、予め登録された標準音声特徴データとを基に、第一の単語検出データを出力する第一の単語データ出力手段と、話者から前記音声入力手段を介して入力された音声を基に当該話者の標準音声特徴データを作成して登録する単語登録手段と、前記音声分析手段から出力された前記音声特徴データが入力され、前記音声特徴データと前記話者の標準音声特徴データを基に、第二の単語検出データを出力する第二の単語データ出力手段と、予め登録された応答データを記憶する第一の応答データ記憶手段と、変動データを検出する変動データ検出手段と、前記変動データ検出部が検出した前記変動データを記憶する変動データ記憶手段と、前記応答データ記憶手段により記憶された応答データのうち複数の応答データを組み合わせることにより、新たな応答データを作成して登録する第一の応答データ登録手段と、前記第一の応答データ登録手段により新たに作成された応答データを記憶する第二の応答データ記憶手段と、前記第一および第二の単語検出データが入力され、前記第一および第二の単語検出データを基に前記音声入力手段により入力された音声を認識し、前記第一又は第二の応答データ記憶手段に記憶された応答データ及び前記変動データ記憶手段に記憶された変動データとを基に、当該認識した音声に対応した応答内容を決定する音声認識会話制御手段と、前記音声認識会話制御部により決定された応答内容に基づいた音声合成出力を出力する音声合成手段と、前記音声合成手段からの音声合成出力を外部に出力する音声出力手段と、を有することを特徴とする。
【0012】
また、本発明の音声認識対話処理方法において、前記単語検出工程は、話者の入力音声を基にDPマッチングにより前記第二の単語検出データを出力するものであって、前記単語登録工程は、前記音声分析工程からの話者の所定の音声入力に対する音声特徴データを入力して標準パターンを作成し、前記単語検出工程は、前記音声分析工程からの前記話者の所定の音声入力に対する音声特徴データを入力し、前記音声特徴データと前記標準パターンとの比較により前記第二の単語検出データを出力することを特徴とする。
また、本発明の音声認識対話装置において、前記単語検出手段は、話者の入力音声を基にDPマッチングにより前記第二の単語検出データを出力するものであって、前記単語登録手段は、前記音声分析手段からの特定話者の所定の音声入力に対する音声特徴データを入力して標準パターンを作成するものであり、前記単語検出手段は、前記音声分析手段からの特定話者の所定の音声入力に対する音声特徴データを入力し、前記音声特徴データと前記標準パターンとの比較により前記第二の単語検出データを出力するものであることを特徴とする。
【0013】
また、本発明の音声認識対話処理方法において、前記単語登録工程は、話者の入力音声から前記標準音声特徴データを基に話者適応した標準音声パターンを作成するものであり、前記単語検出工程は、前記音声分析工程からの前記話者の所定の音声入力に対する音声特徴データを入力し、前記音声特徴データと前記話者適応した標準パターンとの比較により前記第二の単語検出データを出力することを特徴とする。
また、本発明の音声認識対話装置において、前記単語登録手段は、話者の入力音声から前記標準音声特徴データを基に話者適応した標準音声パターンを作成するものであり、
前記単語検出手段は、前記音声分析手段からの特定話者の所定の音声入力に対する音声特徴データを入力し、前記音声特徴データと前記話者適応した標準パターンとの比較により前記第二の単語検出データを出力するものであることを特徴とする。
【0014】
本発明は、予め登録された標準音声特徴データを基に音声を認識する音声認識機能と、話者の音声を登録する機能および話者の標準音声特徴データを基に音声を認識する音声認識機能を兼ね備えている。話者の話し方の個性などによって、認識される単語、認識されない単語があったり、また、話者によっては、すべての登録単語が全く認識されない場合もあるが、このような場合には、話者の音声を登録する機能を用いて認識されない単語を登録することができる。これにより、認識できない単語を殆どなくすことができ、装置の認識性能を大幅に向上させることができる。また、話者に対しては、登録単語以外の単語の登録も可能となる。
【0015】
また、応答データを作成する機能を有し、前記データ入力設定手段から応答データ作成に関する設定入力があった場合、前記音声認識会話制御手段からの指示を受けて、入力された音声信号に基づいた応答データを作成し、それを登録することを可能としている。これにより、必要に応じて、身近な色々な人の声による応答メッセージの作成が可能となり、より多彩な会話が可能となる。
【0016】
【実施例】
以下、本発明の実施例を図面を参照して説明する。なお、この実施例では、本発明を玩具に適用した場合を例にとり、特にここでは、幼児用の玩具として、たとえば、犬などのぬいぐるみに適用した場合について説明する。
【0017】
(第1の実施例)
図1は本発明の第1の実施例を説明する構成図である。図1において、話者の音声を入力する音声入力部1、入力音声を分析して音声特徴データを出力する音声分析部2、この音声分析部2からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力手段3、音声認識会話制御部4(詳細な説明は後述する)、予め設定された応答データを記憶する応答データ記憶部5、音声合成部6、音声出力部7などは、不特定話者の話す単語を認識して、その認識結果に応じた応答メッセージを発生する部分であり、この第1の実施例では、これに特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録手段8を設け、さらに、外部から様々なデータ入力設定(これについては後述する)を行うためのデータ入力設定手段としての設定スイッチ9が設けられた構成となっている。
【0018】
なお、これらの構成要素のうち、音声分析部2、不特定話者単語データ出力手段3、音声認識会話制御部4、応答データ記憶部5、音声合成部6、特定話者単語登録手段8などは、犬のぬいぐるみの内部に収納され、音声入力部(マイクロホン)1はぬいぐるみのたとえば耳の部分、音声出力部(スピーカ)7はたとえば口の部分に設けられ、設定スイッチ9はたとえばぬいぐるみの腹の部分に外部から操作可能に設けられる。
【0019】
前記不特定話者単語データ出力手段3は、複数の認識対象登録単語の標準音声特徴データとして、それぞれの単語に対応した標準パターンを記憶する標準パターン記憶部31、音声分析部2からの音声特徴データを入力して前記標準パターン記憶部31の標準パターンと比較して、単語検出データを出力する単語検出部32などから構成されている。
【0020】
前記標準パターン記憶部31は、1つ1つの単語に対し多数(たとえば、200人程度)の話者が発話した音声を用いて予め作成した認識対象単語の標準パターンを記憶(登録)している。ここでは、ぬいぐるみを例にしているので、認識対象単語は10単語程度とし、その単語としては、たとえば、「おはよう」、「おやすみ」、「こんにちは」、「明日」、「天気」など挨拶に用いる言葉が多いが、これに限定されるものではなく、色々な単語を登録することができ、登録単語数も10単語に限られるものではない。単語検出部32は図示されていないが主に演算器(CPU)と処理プログラムを記憶しているROMから構成され、標準パターン記憶部31に登録されている単語が、入力音声中のどの部分にどれくらいの確かさで存在するかを検出するものであり、これについては後述する。
【0021】
一方、特定話者単語登録手段8は、単語登録部81、入力音声の標準音声特徴データとして入力音声標準パターンを記憶する標準パターン記憶部82、単語検出部83などから構成され、特定話者の音声信号を入力して特定話者の話す単語を登録するとともに、入力音声に対する特定話者登録された単語の検出データを出力する機能を有している。なお、ここでは、DPマッチングにより、入力音声と登録音声標準パターンとを比較して、その比較結果をもとに、単語検出部83から単語検出データを出力するものであるとする。この特定話者単語音録手段8による単語登録は、設定スイッチ9によって単語登録モードを設定することにより、単語登録が可能となるが、これらについては後に詳細に説明する。
【0022】
これら各部におけるそれぞれの機能などについて、以下に順次説明する。
【0023】
前記音声入力部1は図示されていないがマイクロホン、増幅器、ローパスフィルタ、A/D変換器などから構成され、マイクロホンから入力された音声を、増幅器、ローパスフィルタを通して適当な音声波形としたのち、A/D変換器によりディジタル信号(たとえば、12KHz.16bits)に変換して出力し、その出力を音声分析部2に送る。音声分析部2では、音声入力部1から送られてきた音声波形信号を、演算器(CPU)を用いて短時間毎に周波数分析を行い、周波数の特徴を表す数次元の特徴ベクトルを抽出(LPCーCEPSTRUM係数が一般的)し、この特徴ベクトルの時系列(以下、音声特徴ベクトル列という)を出力する。 また、前記不特定話者単語データ出力手段3としては、隠れマルコフモデル(HMM)方式やDPマッチング方式などを用いることも可能であるが、ここでは、DRNN(ダイナミック リカレント ニューラル ネットワーク)方式によるキーワードスポッティング処理技術(この技術に関しては、本出願人が特開平6ー4097、特開平6ー119476により、すでに特許出願済みである。)を用いて、不特定話者による連続音声認識に近い音声認識を可能とするための単語検出データを出力するものであるとする。
【0024】
この不特定話者単語データ出力手段3の具体的な処理について、図2を参照しながら簡単に説明する。単語検出部32は、標準パターン記憶部31に登録されている単語が、入力音声中のどの部分にどれくらいの確かさで存在するかを検出するものである。今、話者から「明日の天気は、・・・」というような音声が入力され、図2(a)に示すような音声信号が出力されたとする。この「明日の天気は、・・・」の文節のうち、「明日」と「天気」がこの場合のキーワードとなり、これらは、予め登録されている10単語程度の登録単語の1つとして、標準パターン記憶部31にそのパターンが記憶されている。そして、これら登録単語をたとえば10単語としたとき、これら10単語(これを、単語1、単語2、単語3、・・・とする)に対応して各単語を検出するための信号が出力されていて、その検出信号の値などの情報から、入力音声中にどの程度の確かさで対応する単語が存在するかを検出する。つまり、「天気」という単語(単語1)が入力音声中に存在したときに、その「天気」という信号を待っている検出信号が、同図(b)の如く、入力音声の「天気」の部分で立ち上がる。同様に、「明日」という単語(単語2)が入力音声中に存在したときに、その「明日」という信号を待っている検出信号が、同図(c)の如く、入力音声の「明日」の部分で立ち上がる。同図(b),(c)において、0.9あるいは0.8といった数値は、確からしさ(近似度)を示す数値であり、0.9や0.8といった高い数値であれば、その高い確からしさを持った登録単語は、入力された音声に対する認識候補であるということができる。つまり、「明日」という登録単語は、同図(c)に示すように、入力音声信号の時間軸上のw1の部分に0.8という確からしさで存在し、「天気」という登録単語は、同図(b)に示すように、入力音声信号の時間軸上のw2の部分に0.9という確からしさで存在することがわかる。
【0025】
また、この図2の例では、「天気」という入力に対して、同図(d)に示すように、単語3(この単語3は「何時」という登録単語であるとする)を待つ信号も、時間軸上のw2の部分に、ある程度の確からしさ(その数値は0.6程度)を有して立ち上がっている。このように、入力音声信号に対して同一時刻上に、2つ以上の登録単語が認識候補として存在する場合には、最も近似度(確からしさを示す数値)の高い単語を認識単語として選定する方法、各単語間の相関規則を表した相関表を予め作成しておき、この相関表により、いずれか1つの単語を認識単語として選定する方法などを用いて、或る1つの認識候補単語を決定する。たとえば、前者の方法で認識候補を決定するとすれば、この場合は、時間軸上のw2の部分に対応する近似度は、「天気」を検出する検出信号の近似度が最も高いことから、その部分の入力音声に対する認識候補は「天気」であるとの判定を行う。なお、これらの近似度を基に入力音声の認識は音声認識会話制御部4にて行う。
【0026】
音声認識会話制御部4は、主に演算器(CPU)と処理プログラムを記憶しているROMから構成され、以下に述べるような様々な処理を行う。なお、以上の各部に設けられたCPUは、各部ごとに設けるようにしてもよいが、1台のCPUで各部の処理を行うようにしてもよい。
【0027】
音声認識会話制御部4は、単語検出部32または単語検出部83からの単語検出データのいずれかを選択して、その単語検出データを基に、音声を認識し(入力音声全体の意味を理解し)、応答データ記憶部5を参照して、入力音声の意味に応じた応答内容を決定し、音声合成部8および音声出力部9へ出力信号を送る。たとえば、単語検出部32からの図2(b)〜(e)に示すような検出データ(これをワードラティスという。このワードラティスは、登録単語名、近似度、単語の始点sと終点eを示す信号などが含まれる)が入力されると、まず、そのワードラティスを基に、入力音声の中のキーワードとしての単語を1つまたは複数個決定する。この例では、入力音声は「明日の天気は・・・」であるので、「明日」と「天気」が検出されることになり、この「明日」と「天気」のキーワードから「明日の天気は・・・」という連続的な入力音声の内容を理解する。
【0028】
なお、以上説明したキーワードスポッティング処理による連続音声認識に近い音声認識処置は、日本語だけでなく他の言語においても適用可能である。たとえば、使用する言語が英語であるとすれば、登録されている認識可能な単語は、たとえば、“good-morning”、“time”、“tommorow”、“good-night”などが一例として挙げられるが、これらの認識可能な登録単語の特徴データが、標準パターン記憶部31に記憶されている。そして今、話者が「what time is it now」と問いかけた場合、この「what time is it now」の文節の内、「time」という単語がこの場合のキーワードとなり、単語「time」が入力音声の中に存在したときに、単語「time」の音声信号を待っている検出信号が、入力音声の「time」の部分で立ち上がる。そして、単語検出部32からの検出データ(ワードラティス)が入力されると、まず、そのワードラティスを基に、入力音声のキーワードとしての単語を1つまたは複数個決定する。この例では、入力音声は、「what time is it now」であるので、「time」がキーワードとして検出されることになり、このキーワードを基に、「what time is it now」という連続的な入力音声の内容を理解する。
【0029】
ところで、今まで説明した内容は、不特定話者単語データ出力手段3から単語データが出力される場合、つまり、話者の話す言葉が認識される場合であるが、話者によっては、登録単語のうち、たとえば「おはよう」と問いかけても、全く認識されない場合がある。このような場合、話し方を変えると認識される場合もあるが、話者の声の個性などによって、全く認識されない場合もある。この場合には、認識されない単語を特定話者単語登録を行う。以下、これについて説明する。
【0030】
特定話者単語登録を行う場合には、設定スイッチ9を用いる。この設定スイッチ9は、たとえば図3に示すように、「0」〜「9」の数値からなる番号キー部91、登録開始ボタン92、登録終了ボタン93、応答メッセージ選択ボタン94、応答メッセージ登録終了ボタン95、応答内容番号入力ボタン96などから構成されている。なお、応答メッセージ選択ボタン94、応答メッセージ登録終了ボタン95、応答内容番号入力ボタン96などについては後に説明する。
【0031】
ここでは、たとえば、「おはよう」という単語が認識されないため、この「おはよう」を特定話者単語登録する場合について説明する。まず、設定スイッチ9の登録開始ボタン92を操作する。これにより、音声認識会話制御部4では、特定話者単語登録モードとし、この単語登録モードにあっては、通常の認識動作を行わないようにする。
【0032】
この状態で、話者が「おはよう」という単語の番号(あらかじめ認識可能な登録単語には、それぞれの単語に対応して番号が割り当てられている)を番号キー91より入力、たとえば、「おはよう」が1番であるとすると、「1」の数値キーを押すと、音声認識会話制御部4では、「おはよう」という単語の登録であることを検出し、「おはようと言ってください」などというような応答出力を発するように制御を行う。これによって、話者が「おはよう」というと、その音声は、音声入力部1から音声分析部2に送られ、音声分析された特徴ベクトルが単語登録部81に送られる。単語登録部81では、標準音声特徴データとして入力音声に対する標準パターンを作成する。この標準パターンは標準パターン記憶部82に記憶される。
【0033】
なお、前記登録される特徴パターンは、話者が「おはよう」と言ったそのままの特徴ベクトル列を用いて標準パターンを作成してもよいが、話者に対して数回、「おはよう」と発話させて、それぞれの特徴ベクトル列の平均的な標準特徴ベクトル列を求めて、その標準特徴ベクトル列により標準パターンを作成するようにしてもよい。
【0034】
このようにして、或る特定の話者の発する認識されない単語の登録がなされる。これは、「おはよう」のみならず、認識されない登録単語すべてについて行うことが可能であることは勿論である。このようにして、認識されない単語に対して特定話者単語登録がなされる。
【0035】
次に、話者と装置(ぬいぐるみ)との間の具体的な会話例を用いて第1の実施例を説明する。また、話者の問いかけ内容のなかで中括弧内の単語は文字認識を行う上でのキーワードであることを示している。
【0036】
まず、話者が「{おはよう}ございます」と問いかけたとする。この「おはよう」という音声は音声入力部1から音声分析部2に送られ、音声分析された特徴ベクトルが出力される。このとき、不特定話者単語データ出力手段3の単語検出部32と、特定話者単語登録部8の単語検出部83はともに音声分析部2からの信号を待っている状態にあり、これらそれぞれの単語検出部32、83からは音声分析部2からの出力に応じた単語検出データ(ワードラティス)がそれぞれ出力される。なお、単語検出部83からのワードラティスに含まれる確からしさを示す数値は近似度ではなく距離値である。
【0037】
ところで、単語検出部32、83から出力されるワードラティスに含まれる確からしさを示す数値は、単語検出部32の場合は、図2により説明したように、0.9や0.7といった近似度であり、数値が高いほど確からしさが高いものとなり、これに対して、単語検出部83の場合は、入力音声の特徴パターンと標準パターンとの距離を示す数値で表されるため、数値が小さいほど確からしさが高いものとなる。したがって、音声認識会話制御部4では、これら単語検出部32、83から出力されるワードラティスを受け取ると、それぞれの近似度および距離値を、それぞれに対応して設定されたしきい値th1,th2(ここでは、th1=0.7、th2=0.3とする)と比較して、認識候補単語を決定する。
【0038】
たとえば、「天気」という単語が入力された場合、単語検出部32から、図2(b)に示すように、「天気」を検出する信号が、0.9の高い近似度を有して出力されたとすれば、この0.9としきい値th1(th1=0.7)を比較してth1より大きければ入力音声は「天気」であるとの認識を行う。
【0039】
また、話者が特定話者単語登録されている「おはよう」という単語を話した場合は、単語検出部32からは、たとえば、図4(a)〜(d)に示すようなワードラティスが出力される。この場合は、話者の「おはよう」に対する「おはよう」を検出するための検出信号の近似度は0.2と低く、他の単語を検出するための検出信号に高い近似度が現れる場合もある。ここでは、「おやすみ」を待っている信号に比較的高い近似度(近似度0.6)が現れているものとする。
【0040】
一方、単語検出部83からは、話者の「おはよう」に対する音声信号と標準パターン記憶部82に記憶されている標準パターンとを比較して得られた距離値が出力される。この距離値は極めて小さい値となり、たとえば、0.1であるとする。
【0041】
音声認識会話制御部4では、前記したそれぞれの単語検出部32、83からのワードラティスを受けて、認識候補を決定する。この場合、音声認識会話制御部4は、登録単語のうちどの単語が特定話者単語登録された単語であるかを把握している(話者が単語登録を行うときに単語番号を入力することにより把握できる)ため、単語検出部32からのワードラティスのうち、「おはよう」を検出するための検出信号(図4(a))のデータは認識対象としないで、図4(b)〜(d)の検出信号のデータを用いて、単語検出部83からのワードラティス(距離値)との比較を行う。なお、図4では、単語検出部32からの検出データは、4つの単語の検出データしか図示されていないが、実際には、これ以外の登録単語のワードラティスも音声理解会話制御部4に入力される。なお、話者の「おはよう」に対するすべての登録単語の検出データのなかで、「おやすみ」の検出データにおける近似度が最も高いものとする。
【0042】
これにより、音声認識会話制御部4では、単語検出部32、82からの近似度および距離値をそれぞれのしきい値(th1=0.7、th2=0.3)と比較して、認識候補を決定して入力音声の意味を理解する。この場合、単語検出部32からの最も高い近似度は0.6であり、しきい値th1よりも小さい。一方、単語検出部83からの「おはよう」の入力音声に対する距離値は、0.1であり、しきい値th2と比較するとth2よりも小さいので、この場合は、「おはよう」を認識候補と決定する。
【0043】
なお、単語検出部32からの最も高い近似度が、しきい値th1よりも大きいものがあって、かつ、単語検出部83からの距離値が、しきい値th2よりも小さいものがあった場合には、予め何らかの規則を決めておき、いずれかを認識候補として決定するようにする。たとえば、単語検出部83からのデータを優先してそれを認識候補とする方法、あるいは、装置側から再度入力を促すような応答をするなどの方法がある。
【0044】
以上のようにして、話者の音声入力に対して認識単語が決定される。しかも、認識されない単語(登録単語)がある場合には、その単語を特定話者登録することができるため、登録単語を認識できないという不都合を解消することができる。そして、認識単語が決定されると、音声認識会話制御部4では、入力音声の意味を理解して、それに対する応答内容を決定し、音声出力部7から出力する。なお、このとき、ここでは図示されていないが、時刻、日付、気圧、気温などの変動データを検出する変動データ検出部とこれらのデータを記憶する記憶部を設けることにより、これらのデータを基に、より多彩な応答データを作成することができる。たとえば、話者が「おはよう」と問いかけると、ぬいぐるみからは、「おはよう、今日はいいお天気だから(気圧情報より)、お花見に行こうよ(日付情報より)」などという応答も可能となる。このような会話において、話者の話す内容に対するぬいぐるみからの応答内容は、話者の話す内容に対応させて、予め設定しておく。
【0045】
ところで、以上の説明は、登録単語の中で、話者の個性などによって認識されない単語を、特定話者単語登録して、それを認識して応答メッセージを発する場合について説明したが、登録単語以外の単語をも特定話者単語登録することができる。たとえば、ぬいぐるみであれば、そのぬいぐるみに独自の名前を付けてそれを登録することも可能である。以下にぬいぐるみの名前を登録する場合について説明する。
【0046】
たとえば、設定スイッチ9の番号キー91のうち、「0」の数値キーを名前登録用のキーとしておき、最初に、登録開始ボタン92を押して、続いて「0」の数値キーを押す。これにより、装置側からは、「名前を言ってください」というようなメッセージが発せられ、話者が、たとえば、「ぽち」などと言うとそれが登録される。これは、前記した認識されない単語登録と同じ要領で行われる。たとえば、複数回「ぽち」と言わせて、その平均の特徴ベクトル列から標準パターンを求めてそれを標準パターン記憶部82に記憶させる。そして、この「ぽち」に対する応答内容としては、たとえば、「わん、わん」などを予め設定しておく。これによって、話者が「ぽち」と名前を呼ぶことによって、「わん、わん」などと答える。
【0047】
また、話者が独自に登録したい単語がある場合には、それを登録し、その登録単語に対する応答メッセージを作ることも可能である(ただし、応答内容はある程度限定される)。この場合には、たとえば操作手順などを示すマニュアルなどを作成しておき、そのマニュアルに従った操作を行うことにより、応答メッセージを作成するようにしてもよい。以下これについて説明する。
【0048】
これを実現するには、装置側では予め応答内容をたとえば100種類程度用意しておき、話者が独自に登録した単語に対応させて、応答内容を選択する。具体的には、図5に示すように、応答内容A0、応答内容A1、応答内容A2、・・・というような応答内容に、応答内容番号を0,1,2,・・・というように割り当てて、応答データ記憶部5に格納しておき、これら応答内容番号と応答内容を対応づけた一覧表を記載した操作マニュアルを用意し、ユーザは操作マニュアルにしたがって、一覧表を見ながら、登録した単語ごとに応答内容を設定する。この設定は設定スイッチ9を用いて以下のようにして行う。
【0049】
まず、予め登録されていない単語の登録を番号キー91により「11」以降の数値を入力して行う(ちなみに、「0」の数値は前記したように、この実施例では名前の登録用であり、「1」から「10」の数値は登録単語に対応した数値キーであり、登録単語が認識されないときに特定話者単語登録を行うような場合に用いられる)。
【0050】
まず、登録開始ボタン92を押したあと、番号キー91により、たとえば「11」を入力して、或る単語を音声入力すると、その単語の標準音声パターンが標準音声パターン記憶部82に記憶される。そして、応答メッセージ選択ボタン94を操作し、前記一覧表の中から登録した単語にふさわしい応答内容を選択する。たとえば、応答内容番号1の応答内容A1を登録したい場合には、応答内容番号入力ボタン96を押して、続いて番号キー91から応答内容番号1に対応する「1」の数値キーを押し、さらに、応答メッセージ登録終了ボタン95を押す。これにより、「11」の数値キーを押して登録された単語が、話者から音声入力として入力された場合には、装置からは応答内容A1による応答がなされることになる。
【0051】
このように、設定スイッチ9により、「11」以降の数値を用いて、ユーザが独自に登録したい単語の登録が行え、しかもそれぞれの単語に対応した応答内容を選択して登録することができる。さらに、応答内容は、応答内容番号を幾つか組み合わせることにより、たとえば、応答内容A0、応答内容A2、応答内容A4の組み合わせたより多彩な応答内容を作成して登録することも可能である。
【0052】
(第2の実施例)
次に本発明の第2の実施例について説明する。前記第1の実施例では、認識されない登録単語に対しては、DPマッチングによる単語検出を行うために、話者の音声入力を音声分析した特徴ベクトルを用いて標準パターンを作成し、入力音声との比較を行って単語検出データ(ワードラティス)を出力する例を示したが、この第2の実施例では、不特定話者標準パターンモデルを用いて話者適応を行い、話者適応した標準特徴パターンを作成して、この新たな話者適応した標準パターンを用いて認識を行おうとするものである。以下、図6を参照しながら第2の実施例について説明する。
【0053】
図6において、図1と同一部分には同一符号が付されている。この第2の実施例では、音声入力部1、音声分析部2、不特定話者単語データ出力手段3(標準パターン記憶部31、単語検出部32)、単語認識会話制御部4、応答データ記憶部5、音声合成部6、音声出力部7、設定スイッチ9の他に、特定話者単語登録手段10として、特定話者の入力音声(音声分析部2の出力)をもとに、DRNNの不特定話者標準パターンモデルを用いて、話者適応した標準パターンを作成する単語登録部101、この単語登録部101で作成された話者適応された新たな標準パターンを記憶する話者適応標準パターン記憶部102、音声分析部2からの出力を受けて前記話者適応標準パターン記憶部102を基に、単語検出データ(ワードラティス)を出力する単語検出部103が設けられた構成となっている。
【0054】
このような構成において以下にその動作を説明する。なお、話者の話す単語が認識される場合については、第1の実施例と同じであるので、ここでは、認識されない単語の認識処理について説明する。
【0055】
前記第1の実施例と同様に、話者の話す「おはよう」が認識されない場合、この「おはよう」という単語を特定話者単語登録を行う。以下、これについて説明する。
【0056】
特定話者単語登録を行う場合には、図3でその一例を示した設定スイッチ9を用いる。まず、設定スイッチ9の登録開始ボタン92を操作する。これにより、音声理解会話制御部4では、単語登録モードとし、この単語登録モードにあっては、通常の認識動作を行わないようにする。
【0057】
この状態で、話者が「おはよう」という単語に割り当てられた「1」の数値キーを押すと、音声認識会話制御部4では、「おはよう」という単語の登録であることを検出し、「おはようと言ってください」などというような応答出力を発するように制御を行う。これによって、話者が「おはよう」というと、その音声は、音声入力部1から音声分析部2に送られ、音声分析された特徴ベクトルが単語登録部101に送られる。単語登録部101では、音声分析部2からの出力を基に、DRNNの標準パターンから話者の音声の特性に見合った新たな標準パターン、つまり話者適応した標準パターンを作成し、それを話者適応標準パターン記憶部102に記憶させる。
【0058】
このような状態で、話者が特定話者単語登録されている「おはよう」という単語を話した場合は、単語検出部32からは、たとえば、第1の実施例で説明したように、図4(a)〜(d)に示すようなワードラティスが出力される。この場合は、話者の「おはよう」に対する「おはよう」を検出するための検出信号の近似度は低く、他の単語を検出するための検出信号に高い近似度が現れる場合もある。ここでは、「おやすみ」を待っている信号に比較的高い近似度(近似度0.6)が現れているものとする。一方、単語検出部103からの「おはよう」を検出する信号は図7(a)に示すように、高い近似度を持った信号が出力される。これは、話者適応された「おはよう」の標準パターンと、当該話者の「おはよう」の入力音声との比較により出力されるためである。
【0059】
音声認識会話制御部4では、単語検出部32、103からのワードラティスを受けて、認識候補を決定する。この場合、音声認識会話制御部4は、登録単語のうちどの単語が特定話者単語登録された単語であるかを把握している(話者が単語登録を行うときに単語番号を入力することにより把握できる)ため、単語検出部32からのワードラティスのうち、「おはよう」を検出するための検出信号(図4(a))のデータは認識対象としないで、図7に示すように、同図(a)に示す単語検出部103からの検出データ(近似度)と、図4(b)〜(d)で示した単語検出部32からの検出データを用いて近似度の比較を行う。なお、図7では、単語検出部32からの単語データは3つの単語の検出データしか図示されていないが、実際には、それ以外の登録単語のワードラティスも音声理解会話制御部4に入力される。
【0060】
これにより、音声認識会話制御部4では、単語検出部32、103からの近似度を比較して、認識候補を決定するとともに入力音声の意味を理解する。この場合、単語検出部32からの最も高い近似度は「おやすみ」の0.6であり、一方、単語検出手段103からの「おはよう」の近似度は、0.9であり、この場合は、「おはよう」を認識候補と決定する。
【0061】
なお、単語検出部32、103からのワードラティスの近似度が高い数値の単語が幾つかあるような場合の認識候補の決定の仕方としては、最も高い近似度の単語を認識候補として決定する方法や、各単語間の近似度の相関関係を表す相関表を各単語毎に作成しておき、この相関表を基に認識単語を決定する方法など幾つかの方法がある。
【0062】
また、図6においては、単語検出部として単語検出部32と単語検出部103とをそれぞれ設けた構成としたが、この第2に実施例の場合には、特定話者単語登録に、DRNNによる標準パターンを用いた話者適応を用いているので、ワードラティスに含まれる数値の基準は同じであるため、単語検出部32を共用することも可能である。
【0063】
以上のようにして、話者の音声入力に対して認識単語が決定される。しかも、認識されない単語(登録単語)がある場合には、その単語を特定話者登録することができるため、登録単語を認識できないという不都合を解消することができる。なお、特定話者登録用として話者適応した標準パターンを予め登録されている認識率の悪い標準パターンと入れ替えるということも可能となる。
【0064】
そして、認識単語が決定されると、音声認識会話制御部4では、入力音声の意味を理解して、それに対する応答内容を決定し、音声出力部7から出力する。なお、このとき、ここでは図示されていないが、時刻、日付、気圧、気温などの変動データを検出する変動データ検出部とこれらのデータを記憶する記憶部をもうけることにより、これらのデータを基に、より多彩な応答データを作成することができる。たとえば、話者が「おはよう」と問いかけると、ぬいぐるみからは、「おはよう、今日はいいお天気だから(気圧情報より)、お花見に行こうよ(日付情報より)」などという応答も可能となる。このような会話において、話者の話す内容に対するぬいぐるみからの応答内容は、話者の話す内容に対応させて、予め設定しておく。
【0065】
(第3の実施例)
以上説明した第1、第2の実施例においては、応答メッセージは予め決められた声優などの声を用いて応答内容が作成され、それが登録されているが、この第3の実施例では、応答メッセージとして自分の声、母親の声、おるいは友人の声などで応答内容を作成して登録することができるようにしたものである。これを図8を参照して説明する。なお、この第3の実施例は、第1、第2の各実施例に適応可能であるが、ここでは第1の実施例で説明した構成に適応した例を説明する。
【0066】
図8において、図1と同一部分には同一符号を付し、これら同一部分の説明はここでは省略する。この第3の実施例を実現するための新たな構成要件としては、自分の声、家族の声、あるいは友人の声などの応答データを登録するための応答データ登録部40、この応答データ登録部40で登録された応答内容を記憶する応答データ記憶部41が設けられている。
【0067】
前記応答データ登録部40は、音声入力部1からの入力音声に対するA/D変換後の出力を、データ圧縮した応答データを作成するものであり、ここで作成された応答データは応答データ記憶部41に記憶される。なお、この応答データ登録を行う際は、図9で示した設定スイッチ9の応答メッセージ作成ボタン97を押すことにより行う。この図9で示した設定スイッチ9は、この第3の実施例を実現するための設定スイッチであり、図3で示したものと基本的には同じものであるが、図3で示したものに対して、応答メッセージ作成ボタン97と応答選択ボタン98が新たに設けられた構成となっている。この応答メッセージ作成ボタン97が押されると、音声認識会話制御部4が装置のモードを応答データ登録モードとし、応答データの登録が可能となる。この応答データ登録モードのときは、前記第1、第2の実施例で説明したような単語検出などの処理は行われない。また、応答選択ボタン98は、応答内容を予め登録されている内容とするか、あるいは新たに登録された内容とするかを選択するスイッチであり、予め登録された応答内容側とした場合には、音声認識会話制御部4は応答データ記憶部5を参照し、新たに登録された応答内容側とすることにより、音声認識会話制御部4は応答データ記憶部41を参照する。なお、この設定スイッチ9の構成は図9のものに限定されるものではなく、各種設定ボタンなどは必要に応じて設けられる。
【0068】
このような構成において、たとえば、このぬいぐるみで遊ぶ子どもの母親の声で応答メッセージを作成して登録する場合は、まず、設定スイッチ9の応答メッセージ作成ボタン97を押し、続いて、応答内容番号入力ボタン96を押して、たとえば、番号キー91から「100」を入力したのち、母親が何らかの応答メッセージを入力する。これにより、応答データ登録部40により、入力した応答メッセージの内容に対応した応答データが作成され、その応答データが応答データ記憶部41に記憶される。このようにして、母親のみに限らず、所定の人が新たに登録したい応答内容を入力することにより、それぞれの応答データ(応答内容a0、応答内容a1,応答内容a2、・・・とする)が作成され、それぞれの応答データは応答データ記憶部41に、図10に示すように、応答内容番号100、101,102,・・・に対応して、応答内容a0、応答内容a1,応答内容a2、・・・というように登録される。なお、この応答データ記憶部41は、前記第1、第2の実施例で示した応答データ記憶部5のメモリを共用して、応答内容番号0〜99番までを、装置に予め登録されている応答内容として、たとえば0から99番のアドレスに登録し、応答内容番号100番以降を新たに登録された応答内容として、100番以降のアドレスに登録するようにしてもよい。
【0069】
以上のようにして、新たな音声による応答内容が登録される。そして、これら新たに登録された応答内容を、話者の問いかける単語に対する応答内容として予め設定しておく。たとえば、登録単語番号1の単語(「おはよう」であるものとする)に対して応答内容番号100の応答内容a0(母親の声による「おはよう、・・・ちゃん」であるとする)を登録したい場合には、まず、番号キー91から「1」の数値キーを押して、応答内容番号入力ボタン96を押して、続いて番号キー91から「100」の数値キーを押し、さらに、応答メッセージ登録終了ボタン95を押す。このようにして話者の話す登録単語に応答内容を対応づけることができる。
【0070】
これにより、応答選択ボタン98を登録応答内容側に切り替えた状態で、登録単語番号1に対応する単語が、話者から音声入力として入力された場合には、装置からは応答内容a0による応答がなされることになる。つまり、たとえば、ぬいぐるみと遊ぶ子どもが、「おはよう」と問いかけると、ぬいぐるみからは、母親の声で、「おはよう、・・・ちゃん」というような応答がなされる。
【0071】
なお、この例では、応答選択ボタン98を設けて、これにより、応答内容をすでに登録されている内容のものか、あるいは新たに登録した内容のものかを選択するようにしたが、応答内容の選択はこのような方式に限られるものではなく、条件などを予め設定しておき、たとえば、話者の発話内容などがその条件に合致したときに、応答内容がいずれかに選択されるようにしてもよい。また、話者の話す登録単語と応答内容の対応付けの方法も前記したような方法に限られることなく、種々の方法が考えられる。
【0072】
さらにまた、前記第1の実施例で説明したように、設定スイッチ9により、「11」以降の数値を用いて、ユーザが独自に認識可能な単語の登録を新たに行い、その新たに登録した単語に対応して、前記した新たな応答内容a0,a1,a2,・・・を選択して登録することができる。さらに、応答内容は、応答内容番号を幾つか組み合わせることにより、たとえば、応答内容a0、応答内容a2、応答内容a4などの3つを組み合わせることにより多彩な応答内容を作成し、登録することも可能である。
【0073】
このように第3の実施例では、装置に予め設定された声優などによる応答だけではなく、身近な人の声での応答が可能となるため、ぬいぐるみなどの玩具に適用した場合には、子どもは、より一層会話を楽しむことができ、玩具にありがちなすぐ飽きるというようなことが無くなる。
【0074】
また、以上の各実施例では、本発明を玩具としてぬいぐるみに適用した例を説明したが、ぬいぐるみに限られるものではなく。他の玩具にも適用できることは勿論であり、さらに、玩具だけではなく、ゲーム機や、日常使われる様々な電子機器などにも適用でき、その適用範囲は極めて広いものと考えられる。
【0075】
以上説明したように、話者の話し方の個性などによって、認識される単語、認識されない単語があったり、また、話者によっては、すべての登録単語が全く認識されない場合もあるが、このような場合には、特定話者音声登録機能を用いて認識されない単語を登録することができる。これにより、認識できない単語を殆どなくすことができ、認識性能を大幅に向上させることができ、また、特定話者に対しては、登録単語以外の単語の登録も可能となるなど、より一層、高性能なものとすることができる。
【0076】
また、特定話者の入力音声を基にDPマッチング方式による単語登録および単語検出データ出力を行うようにしたので、単語検出を簡単に行うことができ、また、登録単語以外の単語の登録とその認識が容易に行うことができる。これによって、色々な応答メッセージを予め用意しておけば、新たに登録した単語に対して応答メッセージを設定することも可能となり、より多彩な会話も可能とすることができる。
【0077】
また、特定話者の入力音声から前記不特定話者の標準音声特徴データを基に話者適応した標準音声パターンを作成することで特定話者の音声を登録するようにしたので、単語データ検出工程として新たなものを設ける必要が無く、処理の簡素化が図れる。また、単語データ検出方式が同じであることから検出データの数値の基準などが同じであるため、データ処理部を共用することも可能であり、さらに、特定話者登録された標準パターンを予め登録されている認識率の悪い標準パターンと入れ替えることも可能となるなどの効果を得ることができる。
【0078】
また、予め装置側に登録されている応答メッセージの他に、自分の声や身近な人の声などで応答内容を作成して登録することができるようにしたので、より一層、多彩な会話を可能とすることができ、適用範囲もより広いものとすることができる。
【0079】
また、話者の話し方の個性などによって、認識される単語、認識されない単語があったり、また、話者によっては、すべての登録単語が全く認識されない場合もあるが、このような場合には、特定話者音声登録機能を用いて認識されない単語を登録することができる。これにより、認識できない単語を殆どなくすことができ、装置の認識性能を大幅に向上させることができ、また、特定話者に対しては、登録単語以外の単語の登録も可能となるなど、この種の音声認識対話装置としては、より一層、高性能なものとすることができる。
【0080】
また、特定話者の入力音声を基にDPマッチング方式による単語登録および単語検出データ出力を行うようにしたので、単語検出を簡単に行うことができ、また、登録単語以外の単語の登録とその認識が容易に行うことができる。これによって、色々な応答メッセージを予め用意しておけば、新たに登録した単語に対して応答メッセージを設定することも可能となり、より多彩な会話も可能とすることができる。
【0081】
また、特定話者の入力音声から前記不特定話者の標準音声特徴データを基に話者適応した標準音声パターンを作成することで特定話者の音声を登録するようにしたので、単語データ検出部として新たなものを設ける必要が無く、構成の簡素化が図れる。また、単語データ検出方式が同じであることから検出データの数値の基準などが同じであるため、データ処理部を共用することも可能であり、さらに、特定話者登録された標準パターンを予め登録されている認識率の悪い標準パターンと入れ替えることも可能となるなどの効果を得ることができる。
【0082】
また、予め装置側に登録されている応答メッセージの他に、自分の声や身近な人の声などで応答内容を作成して登録することができるようにしたので、より一層、多彩な会話を可能とすることができ、適用範囲もより広い音声認識対話装置とすることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の構成を説明するブロック図。
【図2】不特定話者単語データ出力手段から出力されるワードラティスの一例を示す図。
【図3】設定スイッチの構成例を示す図。
【図4】同実施例における或る登録単語が入力された場合の不特定話者単語データ出力例を示す図。
【図5】応答データ記憶部5に記憶される応答内容とそれに対応した応答内容番号の一例を示す図。
【図6】本発明の第2の実施例の構成を説明するブロック図。
【図7】同実施例における或る登録単語が入力された場合の特定話者単語登録手段からの単語データ出力例および不特定話者単語データ出力例を示す図。
【図8】本発明の第3の実施例の構成を説明するブロック図。
【図9】同実施例において使用される設定スイッチの構成例を示す図。
【図10】同実施例における応答データ記憶部41に記憶される応答内容とそれに対応した応答内容番号の一例を示す図。
【符号の説明】
1・・・音声入力部
2・・・音声分析部
3・・・不特定話者単語データ出力手段
4・・・音声認識会話制御部
5・・・応答データ記憶部
6・・・音声合成部
7・・・音声出力部
8・・・特定話者単語登録手段
9・・・設定スイッチ
31・・・標準パターン記憶部
32・・・単語検出部
40・・・応答データ登録部
41・・・応答データ記憶部
81・・・単語登録部
82・・・標準パターン記憶部
83・・・単語検出部
91・・・番号キー部
92・・・登録開始ボタン
93・・・登録終了ボタン
94・・・応答メッセージ選択ボタン
95・・・応答メッセージ登録終了ボタン
96・・・応答内容番号入力ボタン
97・・・応答メッセージ作成ボタン
98・・・応答選択ボタン
Claims (12)
- 音声を入力する音声入力工程と、
前記音声入力工程により入力された前記音声を分析して前記分析により得られた音声特徴データを出力する音声分析工程と、
前記音声分析工程により出力された前記音声特徴データと予め登録された標準音声特徴データとを基に、第一の単語検出データを出力する第一の単語データ出力工程と、
話者から前記音声入力手段を介して入力された音声を基に当該話者の標準音声特徴データを作成する単語登録工程と、
前記音声分析工程から出力された前記音声特徴データと前記話者の標準音声特徴データとを基に、第二の単語検出データを出力する第二の単語データ出力工程と、
予め応答データを記憶させる第一の応答データ記憶工程と、
前記音声入力工程により入力された音声に基づいて新たに応答データを作成して登録する第一の応答データ登録工程と、
前記第一の応答データ登録工程により新たに作成された応答データを記憶させる第二の応答データ記憶工程と、
前記第一及び第二の応答データ記憶工程により記憶された応答データのうち複数の応答データを組み合わせることにより、新たな応答データを作成して登録する第二の応答データ登録工程と、
前記第二の応答データ登録工程により新たに作成された応答データを記憶させる第三の応答データ記憶工程と、
前記第一および第二の単語検出データを入力し、前記第一および第二の単語検出データを基に前記音声入力工程により入力された音声を認識し、前記第一、第二又は第三の応答データ記憶工程により記憶された応答データを基に、当該認識した音声に対応した応答内容を決定する音声認識会話制御工程と、
前記音声認識会話制御工程により決定された応答内容に基づいた音声合成出力を出力する音声合成工程と、
前記音声合成工程からの音声合成出力を外部に出力する音声出力工程と、
を有することを特徴とする音声認識対話処理方法。 - 前記第二の応答データ記憶工程は、前記第一の応答データ記憶工程により予め応答データを記憶した記憶手段に前記新たに作成された応答データを記憶させることを特徴とする請求項1に記載の音声認識対話処理方法。
- データ入力設定を行うデータ入力設定工程を有し、
前記応答データ登録工程は、前記データ入力設定工程により応答データの作成に関するデータ入力設定が行われた場合に、前記音声入力工程により入力された音声に基づいて新たに応答データを作成することを特徴とする請求項1または2のいずれかに記載の音声認識対話処理方法。 - 音声を入力する音声入力工程と、
前記音声入力工程により入力された前記音声を分析して前記分析により得られた音声特徴データを出力する音声分析工程と、
前記音声分析工程により出力された前記音声特徴データを入力し、前記音声特徴データと、予め登録された標準音声特徴データとを基に、第一の単語検出データを出力する第一の単語データ出力工程と、
話者から前記音声入力工程により入力された音声を基に当該話者の標準音声特徴データを作成して登録する単語登録工程と、
前記音声分析工程から出力された前記音声特徴データを入力し、前記音声特徴データと前記話者の標準音声特徴データを基に、第二の単語検出データを出力する第二の単語データ出力工程と、
予め応答データを記憶する第一の応答データ記憶工程と、
変動データを検出する変動データ検出工程と、
前記変動データ検出工程が検出した前記変動データを記憶する変動データ記憶工程と、
前記第一の応答データ記憶工程により記憶された応答データのうち複数の応答データを組み合わせることにより、新たな応答データを作成して登録する第一の応答データ登録工程と、
前記第一の応答データ登録工程により新たに作成された応答データを記憶させる第二の応答データ記憶工程と、
前記第一および第二の単語検出データを入力し、前記第一および第二の単語検出データを基に前記音声入力工程により入力された音声を認識し、前記第一又は第二の応答データ記憶工程で記憶した応答データ及び前記変動データ記憶工程で記憶した変動データとを基に、当該認識した音声に対応した応答内容を決定する音声認識会話制御工程と、
前記音声認識会話制御工程により決定した応答内容に基づいた音声合成出力を出力する音声合成工程と、
前記音声合成手段からの音声合成出力を外部に出力する音声出力工程と、
を有することを特徴とする音声認識対話処理方法。 - 前記単語検出工程は、話者の入力音声を基にDPマッチングにより前記第二の単語検出データを出力するものであって、
前記単語登録工程は、前記音声分析工程からの話者の所定の音声入力に対する音声特徴データを入力して標準パターンを作成し、
前記単語検出工程は、前記音声分析工程からの前記話者の所定の音声入力に対する音声特徴データを入力し、前記音声特徴データと前記標準パターンとの比較により前記第二の単語検出データを出力することを特徴とする請求項1から4のいずれかに記載の音声認識対話処理方法。 - 前記単語登録工程は、話者の入力音声から前記標準音声特徴データを基に話者適応した標準音声パターンを作成するものであり、
前記単語検出工程は、前記音声分析工程からの前記話者の所定の音声入力に対する音声特徴データを入力し、前記音声特徴データと前記話者適応した標準パターンとの比較により前記第二の単語検出データを出力することを特徴とする請求項1から4のいずれかに記載の音声認識対話処理方法。 - 音声を入力する音声入力手段と、
前記音声入力手段により入力された前記音声を分析して前記分析により得られた音声特徴データを出力する音声分析手段と、
前記音声分析手段により出力された前記音声特徴データが入力され、前記音声特徴データと予め登録された標準音声特徴データとを基に、第一の単語検出データを出力する第一の単語データ出力手段と、
話者から前記音声入力手段を介して入力された音声を基に当該話者の標準音声特徴データを作成して登録する単語登録手段と、
前記音声分析手段から出力された前記音声特徴データが入力され、前記音声特徴データと前記話者の標準音声特徴データとを基に、第二の単語検出データを出力する第二の単語データ出力手段と、
予め登録された応答データを記憶する第一の応答データ記憶手段と、
前記音声入力手段を介して入力された音声に基づいて新たに応答データを作成して登録する第一の応答データ登録手段と、
前記第一の応答データ登録手段により新たに作成された応答データを記憶する第二の応答データ記憶手段と、
前記第一及び第二の応答データ記憶手段により記憶された応答データのうち複数の応答データを組み合わせることにより、新たな応答データを作成して登録する第二の応答データ登録手段と、
前記第二の応答データ登録手段により新たに作成された応答データを記憶する第三の応答データ記憶手段と、
前記第一および第二の単語検出データが入力され、前記第一および第二の単語検出データを基に前記音声入力手段により入力された音声を認識し、前記第一、第二又は第三の応答データ記憶手段に記憶された応答データを基に、当該認識した音声に対応した応答内容を決定する音声認識会話制御手段と、
前記音声認識会話制御手段により決定された応答内容に基づいた音声合成出力を出力する音声合成手段と、
前記音声合成手段からの音声合成出力を外部に出力する音声出力手段と、
を有することを特徴とする音声認識対話装置。 - 前記第一の応答データ記憶手段と前記第二の応答データ記憶手段とが、メモリを共用していることを特徴とする請求項7に記載の音声認識対話装置。
- データ入力設定を行うデータ入力設定手段を有し、
前記応答データ登録手段は、前記データ入力設定手段から応答データの作成に関するデータ入力設定が行われた場合に、前記音声入力手段を介して入力された音声に基づいて新たに応答データを作成することを特徴とする請求項7または8のいずれかに記載の音声認識対話装置。 - 音声を入力する音声入力手段と、
前記音声入力手段により入力された前記音声を分析して前記分析により得られた音声特徴データを出力する音声分析手段と、
前記音声分析手段により出力された前記音声特徴データを入力し、前記音声特徴データと、予め登録された標準音声特徴データとを基に、第一の単語検出データを出力する第一の単語データ出力手段と、
話者から前記音声入力手段を介して入力された音声を基に当該話者の標準音声特徴データを作成して登録する単語登録手段と、
前記音声分析手段から出力された前記音声特徴データが入力され、前記音声特徴データと前記話者の標準音声特徴データを基に、第二の単語検出データを出力する第二の単語データ出力手段と、
予め登録された応答データを記憶する第一の応答データ記憶手段と、
変動データを検出する変動データ検出手段と、
前記変動データ検出部が検出した前記変動データを記憶する変動データ記憶手段と、
前記応答データ記憶手段により記憶された応答データのうち複数の応答データを組み合わせることにより、新たな応答データを作成して登録する第一の応答データ登録手段と、
前記第一の応答データ登録手段により新たに作成された応答データを記憶する第二の応答データ記憶手段と、
前記第一および第二の単語検出データが入力され、前記第一および第二の単語検出データを基に前記音声入力手段により入力された音声を認識し、前記第一又は第二の応答データ記憶手段に記憶された応答データ及び前記変動データ記憶手段に記憶された変動データとを基に、当該認識した音声に対応した応答内容を決定する音声認識会話制御手段と、
前記音声認識会話制御部により決定された応答内容に基づいた音声合成出力を出力する音声合成手段と、
前記音声合成手段からの音声合成出力を外部に出力する音声出力手段と、
を有することを特徴とする音声認識対話装置。 - 前記単語検出手段は、話者の入力音声を基にDPマッチングにより前記第二の単語検出データを出力するものであって、
前記単語登録手段は、前記音声分析手段からの特定話者の所定の音声入力に対する音声特徴データを入力して標準パターンを作成するものであり、
前記単語検出手段は、前記音声分析手段からの特定話者の所定の音声入力に対する音声特徴データを入力し、前記音声特徴データと前記標準パターンとの比較により前記第二の単語検出データを出力するものであることを特徴とする請求項7から10のいずれかに記載の音声認識対話装置。 - 前記単語登録手段は、話者の入力音声から前記標準音声特徴データを基に話者適応した標準音声パターンを作成するものであり、
前記単語検出手段は、前記音声分析手段からの特定話者の所定の音声入力に対する音声特徴データを入力し、前記音声特徴データと前記話者適応した標準パターンとの比較により前記第二の単語検出データを出力するものであることを特徴とする請求項7から10のいずれかに記載の音声認識対話装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15652995A JP3968133B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
US08/536,563 US5794204A (en) | 1995-06-22 | 1995-09-29 | Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15652995A JP3968133B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005002229A Division JP2005148764A (ja) | 2005-01-07 | 2005-01-07 | 音声認識対話処理方法および音声認識対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH096390A JPH096390A (ja) | 1997-01-10 |
JP3968133B2 true JP3968133B2 (ja) | 2007-08-29 |
Family
ID=15629791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15652995A Expired - Lifetime JP3968133B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5794204A (ja) |
JP (1) | JP3968133B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5691897A (en) * | 1995-05-30 | 1997-11-25 | Roy-G-Biv Corporation | Motion control systems |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US6665639B2 (en) * | 1996-12-06 | 2003-12-16 | Sensory, Inc. | Speech recognition in consumer electronic products |
US6038531A (en) * | 1997-01-30 | 2000-03-14 | Seiko Epson Corporation | Similar word discrimination method and its apparatus |
US20010032278A1 (en) * | 1997-10-07 | 2001-10-18 | Brown Stephen J. | Remote generation and distribution of command programs for programmable devices |
JPH11120240A (ja) * | 1997-10-14 | 1999-04-30 | Fujitsu Ltd | 携帯型端末装置及びそれを用いた情報管理システム並びに情報管理方法 |
DE19837102A1 (de) * | 1998-08-17 | 2000-02-24 | Philips Corp Intellectual Pty | Verfahren und Anordnung zum Durchführen einer Datenbankanfrage |
DE69939124D1 (de) * | 1998-09-09 | 2008-08-28 | Asahi Chemical Ind | Spracherkenner und spracherkennungsverfahren |
US6192342B1 (en) * | 1998-11-17 | 2001-02-20 | Vtel Corporation | Automated camera aiming for identified talkers |
US6314402B1 (en) * | 1999-04-23 | 2001-11-06 | Nuance Communications | Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system |
US6584439B1 (en) | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
US7283964B1 (en) | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US6823313B1 (en) * | 1999-10-12 | 2004-11-23 | Unisys Corporation | Methodology for developing interactive systems |
US6356868B1 (en) * | 1999-10-25 | 2002-03-12 | Comverse Network Systems, Inc. | Voiceprint identification system |
KR100369732B1 (ko) * | 1999-12-21 | 2003-01-30 | 주식회사 글로벌데이타시스템. | 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법 |
US7130802B1 (en) * | 2000-10-02 | 2006-10-31 | Ninesigma, Inc. | Systems and methods for facilitating research and development |
US6876987B2 (en) * | 2001-01-30 | 2005-04-05 | Itt Defense, Inc. | Automatic confirmation of personal notifications |
US7904194B2 (en) * | 2001-02-09 | 2011-03-08 | Roy-G-Biv Corporation | Event management systems and methods for motion control systems |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7698228B2 (en) * | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7970648B2 (en) * | 2001-04-27 | 2011-06-28 | Accenture Global Services Limited | Advertising campaign and business listing management for a location-based services system |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
KR100423495B1 (ko) * | 2001-06-21 | 2004-03-18 | 삼성전자주식회사 | 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법 |
KR100485864B1 (ko) * | 2001-12-28 | 2005-04-28 | 최중인 | 벨소리 겸용 음향바코드를 이용한 인증시스템 |
JP2003255991A (ja) * | 2002-03-06 | 2003-09-10 | Sony Corp | 対話制御システム、対話制御方法及びロボット装置 |
US7606560B2 (en) * | 2002-08-08 | 2009-10-20 | Fujitsu Limited | Authentication services using mobile device |
US7822688B2 (en) * | 2002-08-08 | 2010-10-26 | Fujitsu Limited | Wireless wallet |
US7784684B2 (en) | 2002-08-08 | 2010-08-31 | Fujitsu Limited | Wireless computer wallet for physical point of sale (POS) transactions |
US7801826B2 (en) * | 2002-08-08 | 2010-09-21 | Fujitsu Limited | Framework and system for purchasing of goods and services |
US20040107170A1 (en) * | 2002-08-08 | 2004-06-03 | Fujitsu Limited | Apparatuses for purchasing of goods and services |
US7593842B2 (en) * | 2002-12-10 | 2009-09-22 | Leslie Rousseau | Device and method for translating language |
US20090209341A1 (en) * | 2008-02-14 | 2009-08-20 | Aruze Gaming America, Inc. | Gaming Apparatus Capable of Conversation with Player and Control Method Thereof |
US8655660B2 (en) * | 2008-12-11 | 2014-02-18 | International Business Machines Corporation | Method for dynamic learning of individual voice patterns |
US20100153116A1 (en) * | 2008-12-12 | 2010-06-17 | Zsolt Szalai | Method for storing and retrieving voice fonts |
JP2009151314A (ja) * | 2008-12-25 | 2009-07-09 | Sony Corp | 情報処理装置及び情報処理方法 |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
CN102959618B (zh) * | 2010-06-28 | 2015-08-05 | 三菱电机株式会社 | 声音识别装置 |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
JP5957269B2 (ja) * | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
US9697824B1 (en) * | 2015-12-30 | 2017-07-04 | Thunder Power New Energy Vehicle Development Company Limited | Voice control system with dialect recognition |
US10268679B2 (en) | 2016-12-02 | 2019-04-23 | Microsoft Technology Licensing, Llc | Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network |
US11120817B2 (en) * | 2017-08-25 | 2021-09-14 | David Tuk Wai LEONG | Sound recognition apparatus |
KR101812022B1 (ko) * | 2017-10-20 | 2017-12-26 | 주식회사 공훈 | 음성 인증 시스템 |
US10636419B2 (en) * | 2017-12-06 | 2020-04-28 | Sony Interactive Entertainment Inc. | Automatic dialogue design |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2338551A (en) * | 1942-07-09 | 1944-01-04 | Rca Corp | Automatic volume control |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
JPS57158251U (ja) * | 1981-03-31 | 1982-10-05 | ||
US4712242A (en) * | 1983-04-13 | 1987-12-08 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US4763278A (en) * | 1983-04-13 | 1988-08-09 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
JPH07113833B2 (ja) * | 1985-01-21 | 1995-12-06 | カシオ計算機株式会社 | 返答語選択制御装置 |
JPS62253093A (ja) * | 1986-04-25 | 1987-11-04 | 株式会社 バンダイ | 乗用玩具 |
US4827520A (en) * | 1987-01-16 | 1989-05-02 | Prince Corporation | Voice actuated control system for use in a vehicle |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
US4984177A (en) * | 1988-02-05 | 1991-01-08 | Advanced Products And Technologies, Inc. | Voice language translator |
US5117460A (en) * | 1988-06-30 | 1992-05-26 | Motorola, Inc. | Voice controlled pager and programming techniques therefor |
US5040212A (en) * | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
JPH05313692A (ja) * | 1992-05-07 | 1993-11-26 | Sanyo Electric Co Ltd | 音声認識装置 |
JPH064097A (ja) * | 1992-06-18 | 1994-01-14 | Seiko Epson Corp | 話者認識方法 |
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
JP3168779B2 (ja) * | 1992-08-06 | 2001-05-21 | セイコーエプソン株式会社 | 音声認識装置及び方法 |
JPH06119476A (ja) * | 1992-10-09 | 1994-04-28 | Seiko Epson Corp | 時系列データ処理装置 |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
JPH06230794A (ja) * | 1993-02-02 | 1994-08-19 | Nippondenso Co Ltd | 音声認識装置 |
JPH06327842A (ja) * | 1993-05-24 | 1994-11-29 | Takara Co Ltd | 動物玩具 |
US5577164A (en) * | 1994-01-28 | 1996-11-19 | Canon Kabushiki Kaisha | Incorrect voice command recognition prevention and recovery processing method and apparatus |
US5444673A (en) * | 1994-07-12 | 1995-08-22 | Mathurin; Trevor S. | Audio controlled and activated wristwatch memory aid device |
-
1995
- 1995-06-22 JP JP15652995A patent/JP3968133B2/ja not_active Expired - Lifetime
- 1995-09-29 US US08/536,563 patent/US5794204A/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
Also Published As
Publication number | Publication date |
---|---|
US5794204A (en) | 1998-08-11 |
JPH096390A (ja) | 1997-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US5946658A (en) | Cartridge-based, interactive speech recognition method with a response creation capability | |
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
EP0974141B1 (en) | Extensible speech recognition system that provides a user with audio feedback | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
US20240144933A1 (en) | Voice-controlled communication requests and responses | |
JP2005283647A (ja) | 感情認識装置 | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
JP2002123289A (ja) | 音声対話装置 | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
JP2000020089A (ja) | 音声認識方法及びその装置、並びに音声制御システム | |
JP4498906B2 (ja) | 音声認識装置 | |
JP2007286376A (ja) | 音声案内システム | |
JP3179370B2 (ja) | おしゃべりオウム発声装置 | |
JP2005148764A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP2000122678A (ja) | 音声認識機器制御装置 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JPH04324499A (ja) | 音声認識装置 | |
JP2000242295A (ja) | 音声認識装置および音声対話装置 | |
JP3468389B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP2001134291A (ja) | 音声認識のための方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040726 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050107 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050125 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050225 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070604 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |