JP3674990B2 - 音声認識対話装置および音声認識対話処理方法 - Google Patents
音声認識対話装置および音声認識対話処理方法 Download PDFInfo
- Publication number
- JP3674990B2 JP3674990B2 JP21224895A JP21224895A JP3674990B2 JP 3674990 B2 JP3674990 B2 JP 3674990B2 JP 21224895 A JP21224895 A JP 21224895A JP 21224895 A JP21224895 A JP 21224895A JP 3674990 B2 JP3674990 B2 JP 3674990B2
- Authority
- JP
- Japan
- Prior art keywords
- sound signal
- input
- word
- voice
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000005236 sound signal Effects 0.000 claims description 259
- 238000001514 detection method Methods 0.000 claims description 107
- 230000004044 response Effects 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000013500 data storage Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Toys (AREA)
Description
【産業上の利用分野】
本発明は、音声を認識し、その認識結果に対応した応答や特定動作を行う音声認識対話装置および音声認識対話処理方法に関する。
【0002】
【従来の技術】
この種の音声認識装置においては、特定話者のみの音声を認識可能な特定話者音声認識装置と不特定話者の音声を認識可能な不特定話者音声認識装置がある。
【0003】
特定話者音声認識装置は、或る特定の話者が認識可能な単語を一単語ずつ所定の手順に従って入力することによって、その特定話者の標準的な音声信号パターンを登録しておき、登録終了後、特定話者が登録した単語を話すと、その入力音声を分析した特徴パターンと登録された特徴パターンとを比較して音声認識を行うものである。この種の音声認識対話装置の一例として音声認識玩具がある。たとえば、音声指令となる複数の命令語として、「おはよう」、「おやすみ」、「こんにちわ」などの言葉を10単語程度、その玩具を使用する子どもが予め登録しておき、話者がたとえば「おはよう」というと、その音声信号と、登録されている「おはよう」の音声信号を比較して、両音声信号が一致したとき、音声指令に対する定められた電気信号を出力し、これに基づいて玩具に特定動作を行わせるものである。
【0004】
このような特定話者音声認識装置は、特定話者かあるいはそれに近い音声パターンを有する音声しか認識されず、また、初期設定として、認識させたい単語を一単語ずつすべて登録させる必要がありその手間は極めて面倒であった。
【0005】
これに対して、不特定話者音声認識装置は、多数(たとえば、200人程度)の話者が発話した音声を用いて、前記したような認識対象単語の標準音声特徴データを予め作成して記憶(登録)させておき、これら予め登録された認識可能な単語に対して、不特定な話者の発する音声を認識可能としたものである。
【0006】
【発明が解決しようとする課題】
このような音声認識装置において、音声認識手段として特定話者音声認識あるいは不特定音声認識のいずれを用いたものをにあっても、スイッチを入れて始めて認識動作とそれに対する応答動作が可能となるのが一般的である。
【0007】
しかしながら、音声認識装置の種類によっては、装置が常に音声の入力を待っている状態にあって、ユーザがその都度スイッチをオンすることなく音声入力を検出して認識動作を可能とすれば、より利便性の高いものとなる。たとえば、音声認識を利用したぬいぐるみなどの玩具にあっては、通常時から音声入力待機状態、いわゆるスリープモードとしておき、子どもがのぬいぐるみの名前を呼ぶことにより、即座に応答するようにしておけば、玩具としてはきわめて完成度の高いものとなる。これは、玩具のみならず音声認識を利用する電子機器すべてについても同様である。
【0008】
このように、通常時はスリープモードとしておき、入力音声を検出して認識動作を行わせる場合における課題として、消費電力を如何に抑えるか、あるいは、入力された音信号が認識すべき音声か雑音かを識別して、認識すべき音声に対してのみ動作するようにするというようなことが挙げられる。特に、玩具などの場合は、乾電池で作動するものが殆どであるため、電池の消耗を如何に少なくするかというのは大きな課題であり、また、製品の価格もできるだけ安価なものとする必要があることから、実用化するための技術的な制約もきわめて多いというのが現状であった。
【0009】
本発明はこれらの課題を解決するためになされたもので、通常時はスリープモードとして認識可能な音声の入力があった場合にのみ、それを検出して認識動作を可能とするとともに、スリープモード時の消費電力を極力抑え、また、使用環境に雑音が存在しても認識すべき音声を高精度に認識できるようにし、しかも、安価に実用化を可能とすることを目的としている。
【0010】
【課題を解決するための手段】
本発明の音声認識対話装置は、音信号を入力する音信号入力手段と、前記音信号入力手段により入力された前記音信号を分析して特徴データを発生する音信号分析手段と、登録された認識可能な単語の標準音声特徴データを記憶する標準音声特徴データ記憶手段と、前記音信号分析手段からの前記特徴データが入力され、前記標準音声特徴データ記憶手段の記憶内容と入力された前記特徴データとを比較し、前記入力音信号が前記登録された認識可能な単語の音声であった場合、当該認識可能な単語に対応する単語検出データを出力する単語検出手段と、当該単語検出手段から出力された前記単語検出データを受けて、入力された前記音声の意味を理解し、前記音声に対応した応答内容を決定するとともに各種制御を行う音声理解会話制御手段と、当該音声理解会話制御手段によって決定された前記応答内容に基づいた音声合成出力を発生する音声合成手段と、当該音声合成手段からの音声合成出力を外部に出力する音声出力手段と、前記音信号入力手段からの音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出手段と、を有し、スリープモードに設定するためのスリープモード要求が出力されると、前記スリープモードとする設定を行い、前記スリープモードに設定されている場合に、前記入力音信号パワー検出手段によって検出された前記入力音信号のパワーが設定されたしきい値以上で、かつ、当該入力音信号が前記認識可能な単語の音声であるか否かを判断する処理を行い、前記入力音信号のパワーが前記しきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であると判断された場合に、前記スリープモードから動作モードとし、前記スリープモードから動作モードとする際の入力音信号のパワー検出は、前記スリープモード時におけるパワー検出を前記設定されたしきい値を基準として所定時間行い、当該しきい値よりも大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は第一の音と判断するとともに、前記しきい値を当該第一の音のレベルよりも大きい値に更新することを特徴としている。
【0011】
また、前記入力音信号パワー検出手段からのパワー信号を基に、前記第一の音のレベルを判断し、当該第一の音のレベルの大きさに対応した音声レベルによる応答内容出力を行う。
【0012】
また、前記入力音信号パワー検出手段からのパワー信号を基に、入力音信号のパワーに対応した音声レベルによる応答内容出力を行う。
【0016】
また、本発明の音声認識対話処理方法は、音信号入力手段により入力された音信号を分析して特徴データを発生し、前記特徴データと登録された認識可能な単語に対応する単語検出データを出力し、当該単語検出データを受けて、入力音声の意味を理解し、当該入力音声に対応した応答内容を決定して、この決定された前記応答内容に基づいた音声合成出力を発生する音声認識応答出力発生工程と、前記音信号入力手段からの音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出工程と、を有し、スリープモードに設定するためのスリープモード要求が出力されると、前記スリープモードとする設定を行い、前記スリープモードに設定されている場合に、前記入力音信号パワー検出工程によって検出された入力音信号のパワーが設定されたしきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であるか否かを判断する処理を行い、入力音信号のパワーが前記しきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であると判断された場合に、前記スリープモードから動作モードとし、前記スリープモードから動作モードとする際の入力音信号のパワー検出は、前記スリープモード時におけるパワー検出を前記設定されたしきい値を基準として所定時間行い、当該しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は第一の音と判断するとともに、前記しきい値を当該第一の音のレベルよりも大きい値に更新することを特徴としている。
【0017】
また、前記入力音信号パワー検出手段からのパワー信号を基に、前記第一の音のレベルを判断し、当該第一の音のレベルの大きさに対応した音声レベルによる応答内容出力を行う。
【0018】
また、前記入力音信号パワー検出手段からのパワー信号を基に、入力音信号のパワーに対応した音声レベルによる応答内容出力を行う。
【0022】
以上のように、本発明の音声認識対話装置は、スリープモード要求によりスリープモードとなっている場合において、前記入力音信号のパワーが定められたしきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であるか否かを判断する処理を行い、前記入力音信号のパワーが前記しきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であると判断された場合に、装置をスリープモードから動作モードとするようにしている。したがって、入力音信号が或る一定以上のレベルを有し、かつ、認識単語である場合にスリープモードから動作モードとすることができ、レベルの小さい雑音あるいはレベルが大きくても認識単語でない場合は、動作モードとはしないため、雑音などの影響を受けることなく認識すべき単語を認識応答処理対象とすることができる。また、スリープモード時は音信号入力手段や入力音信号パワー検出手段などの消費電力の小さい部分のみが作動状態にあるので、スリープモード時における消費電力をきわめて小さいものとすることができる。
【0023】
また、しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は第一の音と判断する。これにより、環境中に或るレベルを有して長い時間連続して存在するような音声は雑音であると判断することができ、環境中に定常的に存在する雑音の影響を受けないようにすることができる。
【0024】
また、しきい値を前記第一の音のレベルよりも大きい値に更新するようにしたので、雑音レベルに応じたしきい値の設定ができ、これにより、環境中の雑音が最初に設定されたしきい値よりも大きい場合にも、雑音であることを的確に判断することができる。
【0025】
また、入力音信号パワー検出手段からのパワー信号を基に、第一の音のレベルを判断し、当該第一の音のレベルの大きさに対応した音声レベルによる応答内容出力を行うようにしている。したがって、環境中の雑音レベルが大きいときは、大きな音声レベルによる応答内容出力を発生することができ、環境中に多少の雑音が存在しても応答内容を聞き取りやすくすることができる。
【0027】
また、入力音信号のパワーに対応した音声レベルによる応答内容出力を行うようにしたことにより、話者が大きな声で問いかけたときには大きな声で応答し、話者が小さな声で問いかけたときは小さな声で応答するという動作を行うことにより、状況に応じた音声レベルでの対話が可能となる。
【0028】
【実施例】
以下、本発明の実施例を図面を参照して説明する。なお、この実施例では、本発明を玩具に適用した場合を例にとり、特にここでは、幼児用の玩具として、たとえば、犬などのぬいぐるみに適用した場合について説明する。また、不特定話者の音声を認識可能な不特定話者音声認識装置に本発明を適用した例について説明する。
【0029】
(第1の実施例)
図1は本発明の第1の実施例を説明する構成図である。図1は本発明の実施例を説明する構成図であり、概略的には、音信号入力部1、音信号分析部2、単語検出部3、標準音声特徴データ記憶部4、音声理解会話制御部5、応答データ記憶部6、音声合成部7、音声出力部8、入力音信号パワー検出部9などから構成されている。なお、これらの構成要素のうち、音信号分析部2、単語検出部3、標準音声特徴データ記憶部4、音声理解会話制御部5、応答データ記憶部6、音声合成部7などは、犬のぬいぐるみの腹部内に収納され、音信号入力部(マイクロホン)1はぬいぐるみのたとえば耳の部分、音声出力部(スピーカ)7はたとえば口の部分に設けられる。これら各部におけるそれぞれの機能などについては、以下に順次説明する。
【0030】
前記音信号入力部1は、話者の話す音声など音信号(雑音なども含まれる)を入力するもので、図示されていないがマイクロホン、増幅器、ローパスフィルタ、A/D変換器などから構成され、マイクロホンから入力された音信号を、増幅器、ローパスフィルタを通して適当な音声波形としたのち、A/D変換器によりディジタル信号(たとえば、12KHz.16bit)に変換して出力し、その出力を音信号分析部12に送る。音信号分析部12では、音信号入力部1から送られてきた波形信号を、演算器(CPU)を用いて短時間毎に周波数分析を行い、周波数の特徴を表す数次元の特徴ベクトルを抽出(LPCーCEPSTRUM係数が一般的)し、この特徴ベクトルの時系列(以下、特徴ベクトル列という)を出力する。
【0031】
また、前記標準音声特徴データ記憶部4は、1つ1つの単語に対し多数(たとえば、200人程度)の話者が発話した音声を用いて予め作成した認識対象単語の標準パターンを記憶(登録)しているROMである。ここでは、ぬいぐるみを例にしているので、認識対象単語は10単語程度とし、その単語としては、たとえば、「おはよう」、「おやすみ」、「こんにちは」、「明日」、「天気」など挨拶に用いる言葉が多いが、これに限定されるものではなく、色々な単語を登録することができ、登録単語数も10単語に限られるものではない。
【0032】
単語検出部3は図示されていないが主に演算器(CPU)と処理プログラムを記憶しているROMから構成され、標準音声特徴データ記憶部4に登録されている単語が、入力された音声中のどの部分にどれくらいの確かさで存在するかを検出するものである。この単語検出部3としては、隠れマルコフモデル(HMM)方式やDPマッチング方式などを用いることも可能であるが、ここでは、DRNN(ダイナミック リカレント ニューラル ネットワーク)方式によるキーワードスポッティング処理技術(この技術に関しては、本出願人が特開平6ー4097、特開平6ー119476により、すでに特許出願済みである。)を用いて、不特定話者による連続音声認識に近い音声認識を可能とするための単語検出データを出力するものであるとする。
【0033】
この単語検出部3の具体的な処理について、図2を参照しながら簡単に説明する。単語検出部3は、標準音声特徴データ記憶部4に登録されている単語が、入力音信号(この場合、入力音信号は音声であるとする)のどの部分にどれくらいの確かさで存在するかを検出するものである。今、話者から「明日の天気は、・・・」というような音声が入力され、図2(a)に示すような音声信号が出力されたとする。この「明日の天気は、・・・」の文節のうち、「明日」と「天気」がこの場合のキーワードとなり、これらは、予め登録されている10単語程度の登録単語の1つとして、標準音声特徴データ記憶部4にそのパターンが記憶されている。そして、これら登録単語をたとえば10単語としたとき、これら10単語(これを、単語1、単語2、単語3、・・・とする)に対応して各単語を検出するための信号が出力されていて、その検出信号の値などの情報から、入力された音声中にどの程度の確かさで対応する単語が存在するかを検出する。つまり、「天気」という単語(単語1)が入力された音声中に存在したときに、その「天気」という信号を待っている検出信号が、同図(b)の如く、入力音声の「天気」の部分で立ち上がる。同様に、「明日」という単語(単語2)が入力音声中に存在したときに、その「明日」という信号を待っている検出信号が、同図(c)の如く、入力された音声の「明日」の部分で立ち上がる。同図(b),(c)において、0.9あるいは0.8といった数値は、確からしさ(近似度)を示す数値であり、0.9や0.8といった高い数値であれば、その高い確からしさを持った登録単語は、入力された音声に対する認識候補であるということができる。つまり、「明日」という登録単語は、同図(c)に示すように、入力された音声信号の時間軸上のw1の部分に0.8という確からしさで存在し、「天気」という登録単語は、同図(b)に示すように、入力された音声信号の時間軸上のw2の部分に0.9という確からしさで存在することがわかる。
【0034】
また、この図2の例では、「天気」という入力に対して、同図(d)に示すように、単語3(この単語3は「何時」という登録単語であるとする)を待つ信号も、時間軸上のw2の部分に、ある程度の確からしさ(その数値は0.6程度)を有して立ち上がっている。このように、入力された音声信号に対して同一時刻上に、2つ以上の登録単語が認識候補として存在する場合には、最も近似度(確からしさを示す数値)の高い単語を認識単語として選定する方法、各単語間の相関規則を表した相関表を予め作成しておき、この相関表により、いずれか1つの単語を認識単語として選定する方法などを用いて、或る1つの認識候補単語を決定する。たとえば、前者の方法で認識候補を決定するとすれば、この場合は、時間軸上のw2の部分に対応する近似度は、「天気」を検出する検出信号の近似度が最も高いことから、その部分の入力音声に対する認識候補は「天気」であるとの判定を行う。なお、これらの近似度を基に入力された音声の認識は音声理解会話制御部5にて行う。
【0035】
音声理解識会話制御部5は、主に演算器(CPU)と処理プログラムを記憶しているROMから構成され、単語検出部3からの単語検出データを入力して、その単語検出データを基に、音声を認識し(入力された音声全体の意味を理解し)、ROMで構成される応答データ記憶部6を参照して、入力された音声の意味に応じた応答内容を決定し、音声合成部(主にCPUとROMで構成される)7および音声出力部8へ出力信号を送る。たとえば、単語検出部3からの図2(b)〜(e)に示すような検出データ(これをワードラティスという。このワードラティスは、登録単語名、近似度、単語の始点sと終点eを示す信号などが含まれる)が入力されると、まず、そのワードラティスを基に、入力された音声の中のキーワードとしての単語を1つまたは複数個決定する。この例では、入力された音声は「明日の天気は・・・」であるので、「明日」と「天気」が検出されることになり、この「明日」と「天気」のキーワードから「明日の天気は・・・」という連続的な音声の内容を理解し、それに対応した応答内容を選んで出力する。なお、この場合、応答内容としては、「明日の天気は晴れだよ」というような応答内容となるが、これは、ここでは図示されていない状態検出手段(温度検出部、気圧検出部、カレンダ部、計時部など)が設けられていて、たとえば、天気に関する情報であれば、気圧検出部からの気圧の変化の状況を基に天気の変化を判断し、気圧が上昇傾向であればそれに対応した応答内容を応答データ記憶部6から読み出すようにする。同様に、気温、時間、日付などに関する応答も可能となる。
【0036】
また、以上説明したキーワードスポッティング処理による連続音声認識に近い音声認識処理は、日本語だけでなく他の言語においても適用可能である。たとえば、使用する言語が英語であるとすれば、登録されている認識可能な単語は、たとえば、“good morning”、“time”、“tommorow”、“good night”などが一例として挙げられ、これら認識可能な登録単語の特徴データが、標準音声特徴データ記憶部4に記憶されている。そして今、話者が「what time is it now」と問いかけた場合、この「what time is it now」の文節のうち、単語「time」がこの場合のキーワードとなり、「time」という単語が入力された音声の中に存在したときに、その「time」の音声信号を待っている検出信号が、入力された音声の「time」の部分で立ち上がる。そして、単語検出部3からの検出データ(ワードラティス)が入力されると、まず、そのワードラティスを基に、入力された音声の中のキーワードとしての単語を1つまたは複数個決定する。この例では、入力された音声は、「what time is it now」であるので、「time」がキーワードとして検出されることになり、このキーワードを基に、「what time is it now」という連続的な音声の内容を理解する。
【0037】
なお、前記した音声分析、単語検出、音声理解会話制御、音声合成などの制御を行うCPUはそれぞれに設けてもよいが、ここでは、図1に示すように、これら全ての処理を行う1台のメインのCPU10を設け、この1台のCPU10で本発明の全体の処理を行うものとして説明する。
【0038】
以上は入力された音声(話者の話す音声)に対する認識および応答動作の一例であるが、このような音声認識対話装置において、本発明における第1の実施例では、通常時はスリープモードとしておき、認識すべき音声が入力されたときにその入力音声を検出してそれを認識するという処理を行う。以下、第1の実施例について説明する。
【0039】
図1で示した入力音信号パワー検出部9は、音信号入力部1から出力される入力音信号(雑音なども含まれる)のパワーを検出するものであり、たとえば、図3(a)で示すような入力音信号波形からそのパワー信号を同図(b)の如く検出する。この入力音信号パワー検出部9は、装置がスリープモード時あるいは動作モード時に係わらず常に音信号入力部1で取り込まれた入力音信号のパワーを検出可能な状態にある。
【0040】
ところで、装置をスリープモードとするための初期設定手段としては、たとえば、ぬいぐるみの電池をセットすると自動的にスリープモードとする手段や、スリープモード設定スイッチあるいはスリープモード切替スイッチを設け、この設定スイッチをオンするかあるいは切替スイッチを設定モード側に切り替えるかしてスリープモードとするなど種々の手段が考えられる。このいずれかの手段によりスリープモードの設定が行われると、前記CPUに対してスリープモード要求が出され、フラグがスリープモード側に設定されスリープモードに入る。また、スリープモードの初期設定を行ったあと、ぬいぐるみとの対話終了後にスリープモードとするには、一定時間、話者の問いかけがない場合、あるいは、話者がぬいぐるみに対して、たとえば「静かに」や「おやすみ」というと装置側ではそれをスリープモード要求と判断して前記したように、フラグをスリープモード側に設定しスリープモードとする。
【0041】
このような構成において、その処理を図4のフローチャートを参照しながら説明する。
【0042】
まず、スリープモードの初期設定は既になされているものとする。このスリープモード時においても、入力音信号パワー検出部9は常に音信号入力部1で取り込まれた音信号のパワーを検出可能となっているが、この時点では装置のCPU10は非動作状態にある。
【0043】
そして今、音信号入力部1が何らかの音信号を入力し、音信号入力部1から、たとえば図3(a)のような音信号波形が出力されたとする。これにより、入力音信号パワー検出部9では、入力音信号パワーの検出処理を次のように行う。
【0044】
すなわち、入力音信号パワー検出手段9では、入力音信号のパワーが予め設定されたしきい値th1より大きいか否かを判断し(ステップs1)、入力音信号のパワーがしきい値th1より大きくなった時点で、音信号の入力があったことを示す信号をCPU10に出力する(図3(b)の時刻t1)。これにより、CPU10は立ち上がり(ステップs2)、時刻t1から所定時間(10msec程度)後に、音声分析部2では音信号入力部1からの信号を基に音声分析処理を行う(ステップs3)。なお、図3(b)からもわかるように、音信号が入力された時点t0から音信号分析処理がスタートするまでの間に約20数msec程度の時間を要するため、実際の音信号分析処理は音信号が入力されて20数msec後から開始されるが、単語認識処理には特に影響を与えるものではない。
【0045】
そして、前記音信号分析結果を用いて標準音声特徴データとの比較により単語検出処理(ステップs4)を行った後、現在、装置の状態がスリープモードか動作モードかを判断する(ステップs5)。このスリープモードか動作モードかの判断は、フラグを見ることにより判断するもので、この場合、フラグはスリープモードの設定となっているため、前記単語検出データを用いて入力音信号が予め登録された認識可能なキーワードであるか否かの判断を行う(ステップs6)。この判断において、入力音信号がキーワードでないと判断されると、入力音信号は雑音、あるいは、ぬいぐるみに対する問いかけとは異なる何らかの音声であるとみなして、CPU10を立ち下げる処理を行い(ステップs7)、ステップs1に戻り、再び、音信号入力を待つ状態となる。
【0046】
一方、前記ステップs6の判断処理において、入力音信号がキーワードの音声であると判断された場合は、装置をスリープモードから動作モードとするためのフラグの設定を行う(ステップs8)。たとえば、入力音信号が「おはよう」というキーワードの音声であるとすると、ここで初めて装置のモードは動作モードに切り替わって、その入力された音声に対する音声理解会話制御処理を行う(ステップs9)。そして、入力された音声が一発話分終了したか否かを判断して(ステップs10)、終了していなければ、音信号分析処理(ステップs3)に処理が戻る。一方、入力音声が一発話分終了したと判断されると、スリープモード要求が有りか否かの判断処理(ステップs11)に処理が移る。前記入力音声が一発話分終了したか否かというのは、具体的には、ある一つの会話が終了したか否かということである。たとえば、話者が「おはよう」と問いかけると、ぬいぐるみから「おはよう、今日は早起きだね」といった応答がなされ、さらに、会話が続く場合もある。このように、会話が続く間は、音声入力は終了していないと判断し、話者の問いかけた内容の音信号分析を行い(ステップs3)、単語検出処理を行う(ステップs4)。なお、この場合は、すでにスリープモードではなく動作モードとなっているため、単語検出処理(ステップs4)の後、直接、音声理解会話制御処理(ステップs9)に入る。これは、通常の音声認識処理動作であり、前記したように、キーワードスポッティング処理により、話者の発する音声からキーワードとなる単語を認識して、それに対応する応答内容を出力するという動作を行う。
【0047】
そして、一連の会話(一発話)が終了すると、スリープモード要求があったか否かを判断(ステップs11)する。このスリープモード要求があったか否かの判断は、たとえば、話者がぬいぐるみに対して、「静かに」や「おやすみ」と言った場合、あるいは一定時間音声入力がない場合はスリープモード要求と判断する。これらのスリープモード要求のうちのいずれかのスリープモード要求がない場合は、会話がさらに続くとものとして、話者の問いかけに対する応答出力を発生し(ステップs12)、ステップs3からの処理を繰り返す。一方、前記いずれかのスリープモード要求があった場合は、必要に応じて応答出力を発し(ステップs13)たのち、フラグをスリープモードに設定する(ステップs14)。これにより、装置はスリープモードとなって(ステップs15)、再び、ステップs1の状態に戻る。なお、前記ステップ13の処理は、たとえば、前記したスリープ要求が「おやすみ」であった場合は、ぬいぐるみからも「おやすみ」と応答した後に、フラグをスリープモードに設定する。
【0048】
以上のように、装置(この場合、ぬいぐるみ)をスリープモードとしておくことにより、話者がそのぬいぐるみと会話をしようとする場合、スイッチをわざわざオンしたりすることなく、認識可能な単語によって問いかければ、ぬいぐるみはそれに対して応答を行う。たとえば、子どもがスイッチをオンすることなく、ぬいぐるみの名前(登録されているものとする)を呼ぶだけで、ぬいぐるみは名前を呼ばれたことに対する何らかの応答を行うということも可能である。
【0049】
また、玩具だけでなく、音声を認識して作動する電子機器などに適用すれば、スイッチをオンする手間を省いて単に予め定めた何らかの音声を発することにより、それに対応した動作を行わせることも可能となり、その適用範囲はきわめて広いものとなる。
【0050】
また、本発明では、スリープモード時においては、CPU10は非動作状態にあり、音信号入力部1と入力音信号パワー検出部9のみが動作可能状態となっている。この種の装置において、CPU10の消費電力は大きいが、これに比べて、音信号入力部1と入力音信号パワー検出部9などの消費電力はきわめて小さいのが普通である。本発明の場合、ある一定レベル以上の音信号が入力されると、一時的にCPU10は立ち上がるが、その入力音信号が仮に音声であっったとしても、その音声が認識単語でないと判断されると、CPU10は直ちに立ち下がるようになっている。そして、一定レベル以上のパワーを有し、かつ、認識可能な単語(キーワード)の音声が入力されて初めて動作モードとなるようにしている。従って、スリープモード時における消費電力をきわめて低く抑えることができる。
【0051】
ところで、前記入力音信号パワー検出部9において、入力音信号のパワーを或るしきい値と比較して、しきい値以上となったとき入力音信号検出とするのは、環境中に存在する雑音などの影響を受けないようにするためである。以下これについて説明する。
【0052】
たとえば、高速道路の付近における自動車の連続的な走行音、あるいは、工事中における連続的な騒音などが環境中に存在している場合、これらの騒音を入力音信号有りとみなしてCPU10を立ち上げるのは好ましくない。これに対処するために、しきい値を設定し、しきい値以上の音信号が入力されたときにだけCPU10を立ち上げる(モードとしては、この時点ではまだスリープモードである)ようにする。なお、このとき騒音レベルの変動に対応できるように、しきい値も更新可能としておく。
【0053】
すなわち、スリープモードの初期設定として、前記したように、電池を入れたとき、あるいは、何らかのスイッチによりスリープモードの設定を行ったときにスリープモードの初期設定がなされるが、この状態で認識すべき音声がしばらくの間入力されないで、前記したような定常的な雑音が連続的に入力されている場合がある。たとえば、図5(a)に示すように、時刻t0からしばらくの間、定常的な雑音による入力音信号波形A1が出力され、その後、たとえば「おはよう」という認識可能単語の音声波形A2が出力されたとする。同図(b)はその入力音信号(音声も含む)に対するパワー信号である。このとき、最初に設定されたしきい値がth1であるとすると、雑音レベルがこのしきい値th1よりも大きいと、図4のフローチャートにおけるステップs2からステップs6の処理、つまり、CPU10が立ち上がり、その雑音に対しても音信号分析を行ったのち、単語検出、キーワードか否かの判定を行うという処理が行われる。しかし、入力音信号はこの場合、雑音であって、キーワードの音声ではないため、しばらくの間は、ステップs1からステップs6の処理が繰り返して行われることになる。このような処理が一定時間継続した場合は、入力音信号は雑音であると判断して、しきい値をth1より高い値th2に設定し直す(図5(b)参照)。
【0054】
そして、新たに設定されたしきい値th2よりも大きいレベルの音信号が入力され、かつ、その入力音信号が認識単語(キーワード)の音声であると判定されると、フラグがスリープモードから動作モードに切り替わり、その時点で初めて装置は動作モードとなる。
【0055】
このように、しきい値を雑音レベルに応じて変えて行くことにより、長時間継続的に続く定常的な雑音の影響を受けないで、認識すべき音声のみを確実に検出することができる。
【0056】
(第2の実施例)
以上説明した第1の実施例では、入力音信号のパワーを検出して音信号の入力を判断し、音信号が入力されたときのみ、CPU10を一旦、立ち上げて、その入力音信号がキーワードであるか否かの判定を行い、キーワードであると判定された場合に、動作モードとし、認識処理及び応答制御処理などの一連の処理を行う場合について説明したが、この第2の実施例では、環境中に雑音が存在する場合、雑音レベルの大きさに応じて応答レベルを設定する処理、および、入力された音声のパワーを検出して、そのパワーの大きさに基づいた応答レベルを設定する処理について説明する。
【0057】
まず、環境中に雑音が存在する場合、雑音レベルの大きさに応じて応答レベルを設定をする例について説明する。これを実現するために、雑音の大きさを判断する指標として、前記したしきい値を用いる。つまり、前記第1の実施例では、雑音の影響を受けないように設定されたしきい値は最初はth1、その後の雑音レベルの大きさに対応して新たに設定されたしきい値はth2(th1<th2)である。
【0058】
このしきい値は雑音レベルの大きさに対応して設定されるものであるから、その時点におけるしきい値は雑音レベルの大きさを表す指標として用いることができる。すなわち、現在どのしきい値が用いられているかをCPU10側で判断し、そのしきい値に対応した応答出力レベルを予め設定しておくことにより、その時点における雑音レベルに応じた応答出力レベルにより応答内容を出力することができる。
【0059】
たとえば、今、しきい値がth1であったとすると、雑音レベルはそれほど大きくないと判断し、それに応じて予め設定された応答出力レベルで応答内容の出力を行う。また、しきい値がth2であったとすると、雑音レベルは少し大きくなったと判断し、それに応じて予め設定された応答出力レベルで応答内容の出力を行う。このように、環境に存在する雑音レベルの大きさに応じた応答出力レベルを設定することにより、雑音レベルがある程度大きいときは大きな音で応答するので、環境中に多少の雑音レベルがあっても応答内容が聞き取りやすくなる。
【0060】
次に、入力音信号のパワーの大きさに基づいた応答レベルを設定する例について説明する。これは、話者が大きな声で問いかけたときには大きな声で応答し、話者が小さな声で問いかけたときは小さな声で応答するという動作を行うものである。たとえば、深夜など周囲が静かなときには、他の人に迷惑がかからないように、話者と装置は互いに小さな声で対話をするのが望ましい。逆に、騒音環境においてはある程度の音量で対話を行うのが自然である。また、耳の遠い人は大きな声で話すのが一般的であり、その場合には大きな声で応答するのが望ましい。このような点を踏まえて、入力音信号のレベルを検出してそのレベルに応じた応答出力レベルを設定するようにする。
【0061】
話者が深夜に、たとえば、「いま何時」と小さな声で問いかけたとする。ここで、装置がスリープモードとなっていても、「何時」という単語が認識可能な登録単語であり、かつ、その時点のしきい値より信号レベルが大きければ、CPU10は動作モードとなり、認識応答動作が可能な状態となる。そして、CPU10の動作時は、常に、入力音信号のパワー信号が入力され、CPU10ではそのパワー信号を監視して現時点の入力音信号のパワーを知ることができる。これにより、その「いま何時」という音声のパワー信号を、たとえば予め設定した何段階かのしきい値と比較して、その比較結果を基に、CPU10では入力された音声のパワーに応じた応答出力を発生するというような処理を行う。すなわち、入力された音声レベルが大きければそれに応じて大きな音声レベルによる応答出力、入力された音声レベルが小さければそれに応じて小さな音声レベルによる応答出力によって応答内容を発生する。この場合、話者が小さな声で「いま何時」と問いかけているので、たとえば、「いま、11時だよ」といった応答内容を小さな音声レベルで出力する。
【0062】
このように、話者が大きな声で問いかけたときには大きな声で応答し、話者が小さな声で問いかけたときは小さな声で応答する処理を行うことにより、前記したように、たとえば、深夜など周囲が静かなときには、他の人に迷惑がかからないように、そのときの状況に応じた音量での対話が可能となる。
【0063】
なお、以上説明した環境中に雑音が存在する場合、雑音レベルの大きさに応じて応答レベルを設定する処理、および、入力音信号のパワーをを検出して、そのパワーの大きさに基づいた応答レベルを設定する処理は、両者とも第1の実施例で説明したスリープモードの設定が可能な装置に適用可能であることは勿論であるが、スリープモードの設定を可能としない装置においても適用できる。
【0064】
また、本発明は不特定話者音声認識装置に適用した例で説明したが、特定話者音声認識装置にも適用できる。
【0065】
また、以上の各実施例では、本発明を玩具としてぬいぐるみに適用した例を説明したが、ぬいぐるみに限られるものではなく。他の玩具にも適用できることは勿論であり、さらに、玩具だけではなく、ゲーム機や、日常使われる様々な電子機器などにも適用でき、その適用範囲は極めて広いものと考えられる。
【0066】
以上説明したように、音声認識対話装置は、入力された音信号を分析して特徴データを発生し、この特徴データと予め登録された認識可能な単語の標準音声特徴データとを比較し、入力された音信号が認識可能な単語である場合、その単語に対する単語検出データを出力し、この単語検出データを受けて、入力された音声の意味を理解し、それに対応した応答内容を決定して出力する手段、入力音信号の音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出手段を設け、装置をスリープモードとするためのスリープモード要求により装置がスリープモードとなっている場合において、前記入力音信号のパワーが予め定められたしきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であるか否かを判断する処理を行い、入力音信号のパワーが前記しきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であると判断された場合に、装置をスリープモードから動作モードとするようにしたので、入力音信号が或る一定以上のレベルを有した認識単語の音声である場合のみにスリープモードから動作モードとすることができ、信号レベルの小さい雑音あるいは信号レベルが大きくても認識単語でない場合は、動作モードとはしないため、雑音などの影響を受けることなく認識すべき単語の音声のみを認識応答処理対象とすることができ、また、スリープモード時は消費電力の小さい部分のみが作動状態にあるので、スリープモード時における消費電力をきわめて小さいものとすることができる。すなわち、本発明では、スリープモード時は音信号入力部と、入力音信号パワー検出部などの消費電力の小さい部分のみが動作可能状態にあり、ある一定レベル以上の音信号が入力されると、一時的にCPUは立ち上がるが、その入力音信号が認識単語の音声でないと判断されると、CPUは直ちに立ち下がるようになっている。そして、一定レベル以上のパワーを有し、かつ、認識可能な単語(キーワード)の音声が入力されて初めて動作モードとなるようにしているため、スリープモード時における消費電力をきわめて低く抑えることができる。
【0067】
また、前記スリープモードから動作モードとする際の入力音信号のパワー検出は、スリープモード時におけるパワー検出を前記予め設定されたしきい値を基準として所定時間行い、当該しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は環境中に存在する定常的な雑音と判断するようにしたので、環境中に或るレベルを有して長い時間連続して存在するような音信号は雑音であると判断することができ、このような雑音の影響を受けないようにすることができる。
【0068】
また、前記スリープモードから動作モードとする際の入力音信号のパワー検出は、スリープモード時におけるパワー検出を前記予め設定されたしきい値を基準として所定時間おこない、当該しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語も音声でないと判断された場合は、当該入力音信号は環境中に存在する定常的な雑音と判断するとともに、前記しきい値を当該定常的な雑音レベルよりも大きい値に更新するようにしたので、環境中に或るレベルを有して長い時間連続して存在するような音声に対しては、その音信号のレベルを検出してそのレベルに応じたしきい値の設定ができ、これにより、環境中の雑音が最初に設定されたしきい値よりも大きい場合にも、雑音であることを的確に判断することができ、環境中に定常的に存在するような雑音の影響を受けないようにすることができる。
【0069】
また、入力された音信号を分析して特徴データを発生し、この特徴データと予め登録された認識可能な単語の標準音声特徴データとを比較し、入力された音信号が認識可能な単語である場合、その単語に対する単語検出データを出力し、この単語検出データを受けて、入力された音声の意味を理解し、それに対応した応答内容を決定して出力する手段、入力音信号の音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出手段を設け、前記入力音信号パワー検出手段からのパワー信号を基に、環境中の雑音レベルを判断し、その雑音レベルの大きさに対応した音声レベルによる応答内容出力を行うようにしたので、環境中の雑音レベルが大きいときは、大きな音声レベルによる応答内容出力を発生することができ、環境中に多少の雑音が存在しても応答内容を聞き取りやすくすることができる。
【0070】
また、前記入力音信号のパワー信号を基に環境中の雑音レベルを判断する手段として、雑音除去用のしきい値を設定し、このしきい値を基準にして所定時間パワーの検出を行い、当該しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は環境中に存在する定常的な雑音と判断するとともに、前記しきい値を当該定常的な雑音レベルよりも大きい値に更新し、或る時点におけるしきい値の大きさを基に、その時点における雑音レベルを判断するようにしたので、雑音レベルの大きさの指標をしきい値により得ることができ、簡単に現時点の雑音レベルの大きさを判断することができる。また、雑音レベルが変動してもそれに対応した音声レベルによる応答出力を発生することができ、環境中の雑音に、より一層適応した音声レベルでの応答出力とすることができる。
【0071】
また、入力された音声を分析して音声特徴データを発生し、この音声特徴データと予め登録された認識可能な単語の標準音声特徴データとを比較し、入力された音信号が認識可能な単語である場合、その単語に対する単語検出データを出力し、この単語検出データを受けて、入力された音声の意味を理解し、それに対応した応答内容を決定して出力する手段、入力音信号の音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出手段を設け、この入力音信号パワー検出手段からのパワー信号を基に、入力音信号のパワーに対応した音声レベルによる応答内容出力を行うようにしたので、話者が大きな声で問いかけたときには大きな声で応答し、話者が小さな声で問いかけたときは小さな声で応答するという動作を行うことにより、たとえば、深夜など周囲が静かなときには、他の人に迷惑がかからないように、話者と装置は互いに小さな声で対話が可能となり、逆に、騒音環境においてはそれに適応した音量での対話が可能となる。
【0072】
また、音声認識対話処理方法は、入力された音信号を分析して特徴データを発生し、この特徴データと予め登録された認識可能な単語の標準音声特徴データとを比較し、入力された音信号が認識可能な単語である場合、その単語に対する単語検出データを出力し、この単語検出データを受けて、入力された音声の意味を理解し、それに対応した応答内容を決定して出力する工程、入力音信号の音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出工程を設け、装置をスリープモードとするためのスリープモード要求により装置がスリープモードとなっている場合において、前記入力音信号のパワーが予め定められたしきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であるか否かを判断する処理を行い、入力音信号のパワーが前記しきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であると判断された場合に、装置をスリープモードから動作モードとするようにしたので、入力音信号が或る一定以上のレベルを有した認識単語の音声である場合のみにスリープモードから動作モードとすることができ、信号レベルの小さい雑音あるいは信号レベルが大きくても認識単語でない場合は、動作モードとはしないため、雑音などの影響を受けることなく認識すべき単語のみを認識応答処理対象とすることができ、また、スリープモード時は消費電力の小さい部分のみが作動状態にあるので、スリープモード時における消費電力をきわめて小さいものとすることができる。すなわち、本発明では、スリープモード時は音信号入力部と、入力音信号パワー検出部などの消費電力の小さい部分のみが動作可能状態にあり、ある一定レベル以上の音声が入力されると、一時的にCPUは立ち上がるが、その入力音信号が認識単語でないと判断されると、CPUは直ちに立ち下がるようになっている。そして、一定レベル以上のパワーを有し、かつ、認識可能な単語(キーワード)の音声が入力されて初めて動作モードとなるようにしているため、スリープモード時における消費電力をきわめて低く抑えることができる。
【0073】
また、前記スリープモードから動作モードとする際の入力音信号のパワー検出は、スリープモード時におけるパワー検出を前記予め設定されたしきい値を基準として所定時間行い、当該しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は環境中に存在する定常的な雑音と判断するようにしたので、環境中に或るレベルを有して長い時間連続して存在するような音信号は雑音であると判断することができ、このような雑音の影響を受けないようにすることができる。
【0074】
また、前記スリープモードから動作モードとする際の入力音信号のパワー検出は、スリープモード時におけるパワー検出を前記予め設定されたしきい値を基準として所定時間おこない、当該しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語でないと判断された場合は、当該入力音信号は環境中に存在する定常的な雑音と判断するとともに、前記しきい値を当該定常的な雑音レベルよりも大きい値に更新するようにしたので、環境中に或るレベルを有して長い時間連続して存在するような音信号に対しては、その音信号のレベルを検出してそのレベルに応じたしきい値の設定ができ、これにより、環境中の雑音が最初に設定されたしきい値よりも大きい場合にも、雑音であることを的確に判断することができ、環境中に定常的に存在するような雑音の影響を受けないようにすることができる。
【0075】
また、入力された音信号を分析して特徴データを発生し、この特徴データと予め登録された認識可能な単語の標準音声特徴データとを比較し、入力された音信号が認識可能な単語である場合、その単語に対する単語検出データを出力し、この単語検出データを受けて、入力された音声の意味を理解し、それに対応した応答内容を決定して出力する工程、入力音信号の音声波形を基に入力音信号のパワーを検出する入力音信号パワー検出工程を設け、この入力音信号パワー検出工程からのパワー信号を基に、環境中の雑音レベルを判断し、この雑音レベルの大きさに対応した音声レベルによる応答内容出力を行うようにしたので、環境中の雑音レベルが大きいときは、大きな音声レベルによる応答内容出力を発生することができ、環境中に多少の雑音が存在しても応答内容を聞き取りやすくすることができる。
【0076】
また、前記入力音信号のパワー信号を基に環境中の雑音レベルを判断する手段として、雑音除去用のしきい値を設定し、このしきい値を基準にして所定時間パワーの検出を行い、当該しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は環境中に存在する定常的な雑音と判断するとともに、前記しきい値を当該定常的な雑音レベルよりも大きい値に更新し、或る時点におけるしきい値の大きさを基に、その時点における雑音レベルを判断するようにしたので、雑音レベルの大きさの指標をしきい値により得ることができ、簡単に現時点の雑音レベルの大きさを判断することができる。また、雑音レベルが変動してもそれに対応した音声レベルによる応答出力を発生することができ、環境中の雑音に対して、より一層適応した音声レベルでの応答出力とすることができる。
【0077】
また、入力された音信号を分析して特徴データを発生し、この特徴データと予め登録された認識可能な単語の標準音声特徴データとを比較し、入力された音信号が認識可能な単語である場合、その単語に対する単語検出データを出力し、この単語検出データを受けて、入力された音声の意味を理解し、それに対応した応答内容を決定して出力する工程、入力音信号の音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出工程を設け、この入力音信号パワー検出工程からのパワー信号を基に、入力音信号のパワーに対応した音声レベルによる応答内容出力を行うようにしたので、話者が大きな声で問いかけたときには大きな声で応答し、話者が小さな声で問いかけたときは小さな声で応答するという動作を行うことにより、たとえば、深夜など周囲が静かなときには、他の人に迷惑がかからないように、話者と装置は互いに小さな声で対話が可能となり、逆に、騒音環境においてはそれに適応した音量での対話が可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の構成を説明するブロック図。
【図2】単語検出部による単語検出処理および音声理解会話制御部による音声認識処理を説明する図。
【図3】入力音信号波形とそのパワー信号の一例を示す図。
【図4】同実施例における処理を説明するフローチャート。
【図5】第1、第2の実施例における雑音レベルに応じたしきい値設定および応答出力レベル設定する例を説明する図。
【符号の説明】
1・・・音信号入力部
2・・・音信号分析部
3・・・単語検出部
4・・・標準音声特徴データ記憶部
5・・・音声理解会話制御部
6・・・応答データ記憶部
7・・・音声合成部
8・・・音声出力部
9・・・入力音信号パワー検出部
10・・・CPU
th1,th2・・・しきい値
Claims (6)
- 音信号を入力する音信号入力手段と、
前記音信号入力手段により入力された前記音信号を分析して特徴データを発生する音信号分析手段と、
登録された認識可能な単語の標準音声特徴データを記憶する標準音声特徴データ記憶手段と、
前記音信号分析手段からの前記特徴データが入力され、前記標準音声特徴データ記憶手段の記憶内容と入力された前記特徴データとを比較し、前記入力音信号が前記登録された認識可能な単語の音声であった場合、当該認識可能な単語に対応する単語検出データを出力する単語検出手段と、
当該単語検出手段から出力された前記単語検出データを受けて、入力された前記音声の意味を理解し、前記音声に対応した応答内容を決定するとともに各種制御を行う音声理解会話制御手段と、
当該音声理解会話制御手段によって決定された前記応答内容に基づいた音声合成出力を発生する音声合成手段と、
当該音声合成手段からの音声合成出力を外部に出力する音声出力手段と、
前記音信号入力手段からの音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出手段と、
を有し、
スリープモードに設定するためのスリープモード要求が出力されると、前記スリープモードとする設定を行い、前記スリープモードに設定されている場合に、前記入力音信号パワー検出手段によって検出された前記入力音信号のパワーが設定されたしきい値以上で、かつ、当該入力音信号が前記認識可能な単語の音声であるか否かを判断する処理を行い、前記入力音信号のパワーが前記しきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であると判断された場合に、前記スリープモードから動作モードとし、
前記スリープモードから動作モードとする際の入力音信号のパワー検出は、前記スリープモード時におけるパワー検出を前記設定されたしきい値を基準として所定時間行い、当該しきい値よりも大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は第一の音と判断するとともに、前記しきい値を当該第一の音のレベルよりも大きい値に更新することを特徴とする音声認識対話装置。 - 前記入力音信号パワー検出手段からのパワー信号を基に、前記第一の音のレベルを判断し、当該第一の音のレベルの大きさに対応した音声レベルによる応答内容出力を行うことを特徴とする請求項1記載の音声認識対話装置。
- 前記入力音信号パワー検出手段からのパワー信号を基に、当該入力音信号のパワーに対応した音声レベルによる応答内容出力を行うことを特徴とする請求項1記載の音声認識対話装置。
- 音信号入力手段により入力された音信号を分析して特徴データを発生し、前記特徴データと登録された認識可能な単語に対応する単語検出データを出力し、当該単語検出データを受けて、入力音声の意味を理解し、当該入力音声に対応した応答内容を決定して、この決定された前記応答内容に基づいた音声合成出力を発生する音声認識応答出力発生工程と、
前記音信号入力手段からの音信号波形を基に入力音信号のパワーを検出する入力音信号パワー検出工程と、
を有し、
スリープモードに設定するためのスリープモード要求が出力されると、前記スリープモードとする設定を行い、前記スリープモードに設定されている場合に、前記入力音信号パワー検出工程によって検出された入力音信号のパワーが設定されたしきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であるか否かを判断する処理を行い、入力音信号のパワーが前記しきい値以上で、かつ、その入力音信号が前記認識可能な単語の音声であると判断された場合に、前記スリープモードから動作モードとし、
前記スリープモードから動作モードとする際の入力音信号のパワー検出は、前記スリープモード時におけるパワー検出を前記設定されたしきい値を基準として所定時間行い、当該しきい値より大きいレベルの入力音信号が所定時間連続的に存在し、かつ、その入力音信号が認識可能な単語の音声でないと判断された場合は、当該入力音信号は第一の音と判断するとともに、前記しきい値を当該第一の音のレベルよりも大きい値に更新することを特徴とする音声認識対話処理方法。 - 前記入力音信号パワー検出手段からのパワー信号を基に、前記第一の音のレベルを判断し、当該第一の音のレベルの大きさに対応した音声レベルによる応答内容出力を行うことを特徴とする請求項4記載の音声認識対話処理方法。
- 前記入力音信号パワー検出手段からのパワー信号を基に、入力音信号のパワーに対応した音声レベルによる応答内容出力を行うことを特徴とする請求項4記載の音声認識対話装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21224895A JP3674990B2 (ja) | 1995-08-21 | 1995-08-21 | 音声認識対話装置および音声認識対話処理方法 |
US08/700,181 US5983186A (en) | 1995-08-21 | 1996-08-20 | Voice-activated interactive speech recognition device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21224895A JP3674990B2 (ja) | 1995-08-21 | 1995-08-21 | 音声認識対話装置および音声認識対話処理方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004308219A Division JP3846500B2 (ja) | 2004-10-22 | 2004-10-22 | 音声認識対話装置および音声認識対話処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0962293A JPH0962293A (ja) | 1997-03-07 |
JP3674990B2 true JP3674990B2 (ja) | 2005-07-27 |
Family
ID=16619434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21224895A Expired - Lifetime JP3674990B2 (ja) | 1995-08-21 | 1995-08-21 | 音声認識対話装置および音声認識対話処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5983186A (ja) |
JP (1) | JP3674990B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101559155B1 (ko) * | 2013-12-19 | 2015-10-13 | (주)파트론 | 마이크로폰 장치 |
Families Citing this family (197)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US7590224B1 (en) * | 1995-09-15 | 2009-09-15 | At&T Intellectual Property, Ii, L.P. | Automated task classification system |
GB9620082D0 (en) | 1996-09-26 | 1996-11-13 | Eyretel Ltd | Signal monitoring apparatus |
US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
JP3702978B2 (ja) * | 1996-12-26 | 2005-10-05 | ソニー株式会社 | 認識装置および認識方法、並びに学習装置および学習方法 |
US20010032278A1 (en) * | 1997-10-07 | 2001-10-18 | Brown Stephen J. | Remote generation and distribution of command programs for programmable devices |
JPH11352987A (ja) * | 1998-06-04 | 1999-12-24 | Toyota Motor Corp | 音声認識装置 |
US6594632B1 (en) * | 1998-11-02 | 2003-07-15 | Ncr Corporation | Methods and apparatus for hands-free operation of a voice recognition system |
JP3619380B2 (ja) * | 1998-12-25 | 2005-02-09 | 富士通株式会社 | 車載入出力装置 |
EP1058876B1 (en) * | 1999-01-06 | 2009-11-25 | Koninklijke Philips Electronics N.V. | Speech input device with attention span |
US20020042713A1 (en) * | 1999-05-10 | 2002-04-11 | Korea Axis Co., Ltd. | Toy having speech recognition function and two-way conversation for dialogue partner |
US6663393B1 (en) * | 1999-07-10 | 2003-12-16 | Nabil N. Ghaly | Interactive play device and method |
US6397186B1 (en) | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US8374875B2 (en) * | 2000-01-31 | 2013-02-12 | Intel Corporation | Providing programming information in response to spoken requests |
DE10058786A1 (de) * | 2000-11-27 | 2002-06-13 | Philips Corp Intellectual Pty | Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts |
US20020069057A1 (en) * | 2000-12-05 | 2002-06-06 | Kapust Gregory J. | Methods for peer to peer sharing of voice enabled document templates |
US20020086719A1 (en) * | 2000-12-29 | 2002-07-04 | Pankaj Kedia | Low power subsystem for portable computers |
US7725748B1 (en) * | 2000-12-29 | 2010-05-25 | Intel Corporation | Low power subsystem for portable computers |
US7904194B2 (en) * | 2001-02-09 | 2011-03-08 | Roy-G-Biv Corporation | Event management systems and methods for motion control systems |
US6408396B1 (en) * | 2001-05-04 | 2002-06-18 | Intel Corporation | Method and apparatus for supporting wake-on voice and wake-on MIC technology |
GB0113587D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech synthesis apparatus |
US7194412B2 (en) * | 2001-07-19 | 2007-03-20 | Overhead Door Corporation | Speech activated door operator system |
US6845357B2 (en) * | 2001-07-24 | 2005-01-18 | Honeywell International Inc. | Pattern recognition using an observable operator model |
US6889191B2 (en) * | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
US7136909B2 (en) * | 2001-12-28 | 2006-11-14 | Motorola, Inc. | Multimodal communication method and apparatus with multimodal profile |
US20030216909A1 (en) * | 2002-05-14 | 2003-11-20 | Davis Wallace K. | Voice activity detection |
US7058829B2 (en) * | 2002-08-14 | 2006-06-06 | Intel Corporation | Method and apparatus for a computing system having an active sleep mode CPU that uses the cache of a normal active mode CPU |
US7117379B2 (en) * | 2002-08-14 | 2006-10-03 | Intel Corporation | Method and apparatus for a computing system having an active sleep mode |
JP2004212641A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 音声入力システム及び音声入力システムを備えた端末装置 |
US8352248B2 (en) * | 2003-01-03 | 2013-01-08 | Marvell International Ltd. | Speech compression method and apparatus |
US7248170B2 (en) * | 2003-01-22 | 2007-07-24 | Deome Dennis E | Interactive personal security system |
US9369775B2 (en) * | 2003-01-31 | 2016-06-14 | At&T Intellectual Property I, L.P. | Methods and systems for delivering signals from cable networks to telecommunications networks |
US7114090B2 (en) * | 2003-02-14 | 2006-09-26 | Intel Corporation | Computing system with operational low power states |
US7254730B2 (en) * | 2003-02-14 | 2007-08-07 | Intel Corporation | Method and apparatus for a user to interface with a mobile computing device |
US7080271B2 (en) * | 2003-02-14 | 2006-07-18 | Intel Corporation | Non main CPU/OS based operational environment |
US7966188B2 (en) * | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages |
EP1494208A1 (en) * | 2003-06-30 | 2005-01-05 | Harman Becker Automotive Systems GmbH | Method for controlling a speech dialog system and speech dialog system |
EP1493993A1 (en) * | 2003-06-30 | 2005-01-05 | Harman Becker Automotive Systems GmbH | Method and device for controlling a speech dialog system |
US7383181B2 (en) | 2003-07-29 | 2008-06-03 | Microsoft Corporation | Multi-sensory speech detection system |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
DE10338512A1 (de) * | 2003-08-22 | 2005-03-17 | Daimlerchrysler Ag | Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen |
GB2405949A (en) * | 2003-09-12 | 2005-03-16 | Canon Kk | Voice activated device with periodicity determination |
US7418392B1 (en) | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
JP4333369B2 (ja) * | 2004-01-07 | 2009-09-16 | 株式会社デンソー | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 |
US7499686B2 (en) * | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US7925510B2 (en) * | 2004-04-28 | 2011-04-12 | Nuance Communications, Inc. | Componentized voice server with selectable internal and external speech detectors |
JP2005345616A (ja) * | 2004-06-01 | 2005-12-15 | Canon Inc | 情報処理装置及び情報処理方法 |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US8005668B2 (en) * | 2004-09-22 | 2011-08-23 | General Motors Llc | Adaptive confidence thresholds in telematics system speech recognition |
US20060085183A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech |
US20060085199A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for controlling the behavior of a device capable of speech recognition |
JP4679254B2 (ja) * | 2004-10-28 | 2011-04-27 | 富士通株式会社 | 対話システム、対話方法、及びコンピュータプログラム |
TWI272860B (en) * | 2005-01-03 | 2007-02-01 | Lite On Technology Corp | Audio receiver and volume reminder method |
US7346504B2 (en) * | 2005-06-20 | 2008-03-18 | Microsoft Corporation | Multi-sensory speech enhancement using a clean speech prior |
US8452604B2 (en) | 2005-08-15 | 2013-05-28 | At&T Intellectual Property I, L.P. | Systems, methods and computer program products providing signed visual and/or audio records for digital distribution using patterned recognizable artifacts |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
JP4131978B2 (ja) * | 2006-02-24 | 2008-08-13 | 本田技研工業株式会社 | 音声認識機器制御装置 |
US20080029608A1 (en) * | 2006-03-13 | 2008-02-07 | Patent Navigation Inc. | Biometric session activation and control for a transaction card |
JP4557919B2 (ja) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
JP4809454B2 (ja) * | 2009-05-17 | 2011-11-09 | 株式会社半導体理工学研究センター | 発話推定による回路起動方法及び回路起動装置 |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
JP4811507B2 (ja) * | 2009-08-25 | 2011-11-09 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理システム、画像処理装置及び情報処理装置 |
US20110051557A1 (en) * | 2009-08-26 | 2011-03-03 | Nathalia Peixoto | Apparatus and Method for Control Using a Humming Frequency |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20110276326A1 (en) * | 2010-05-06 | 2011-11-10 | Motorola, Inc. | Method and system for operational improvements in dispatch console systems in a multi-source environment |
US8359020B2 (en) | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
DE112011103546T5 (de) * | 2010-10-20 | 2013-11-07 | Yota Devices Ipr Ltd. | Drahtlosnetzwerkteilungseinrichtung |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8996381B2 (en) | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
US9031847B2 (en) * | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
US8706918B2 (en) * | 2011-11-15 | 2014-04-22 | International Business Machines Corporation | External environment sensitive predictive application and memory initiation |
US8666751B2 (en) * | 2011-11-17 | 2014-03-04 | Microsoft Corporation | Audio pattern matching for device activation |
KR20160036104A (ko) | 2011-12-07 | 2016-04-01 | 퀄컴 인코포레이티드 | 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로 |
KR101590332B1 (ko) * | 2012-01-09 | 2016-02-18 | 삼성전자주식회사 | 영상장치 및 그 제어방법 |
KR20130105219A (ko) * | 2012-03-15 | 2013-09-25 | 삼성전자주식회사 | 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법 |
EP2639793B1 (en) * | 2012-03-15 | 2016-04-20 | Samsung Electronics Co., Ltd | Electronic device and method for controlling power using voice recognition |
US9552037B2 (en) * | 2012-04-23 | 2017-01-24 | Google Inc. | Switching a computing device from a low-power state to a high-power state |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9998836B2 (en) * | 2012-05-01 | 2018-06-12 | Kyocera Corporation | Electronic device, control method, and control program |
US20130294617A1 (en) * | 2012-05-03 | 2013-11-07 | Motorola Mobility Llc | Coupling an Electronic Skin Tattoo to a Mobile Communication Device |
US20130297301A1 (en) * | 2012-05-03 | 2013-11-07 | Motorola Mobility, Inc. | Coupling an electronic skin tattoo to a mobile communication device |
KR20130125067A (ko) * | 2012-05-08 | 2013-11-18 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
JP6267636B2 (ja) * | 2012-06-18 | 2018-01-24 | エイディシーテクノロジー株式会社 | 音声応答装置 |
TWI474317B (zh) * | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
CN103543814B (zh) * | 2012-07-16 | 2016-12-07 | 瑞昱半导体股份有限公司 | 信号处理装置以及信号处理方法 |
US9786294B1 (en) | 2012-07-30 | 2017-10-10 | Amazon Technologies, Inc. | Visual indication of an operational state |
US9779757B1 (en) | 2012-07-30 | 2017-10-03 | Amazon Technologies, Inc. | Visual indication of an operational state |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
US9959865B2 (en) * | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
CN106981290B (zh) * | 2012-11-27 | 2020-06-30 | 威盛电子股份有限公司 | 语音控制装置和语音控制方法 |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
KR101732137B1 (ko) * | 2013-01-07 | 2017-05-02 | 삼성전자주식회사 | 원격 제어 장치 및 전력 제어 방법 |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US9807495B2 (en) * | 2013-02-25 | 2017-10-31 | Microsoft Technology Licensing, Llc | Wearable audio accessories for computing devices |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9112984B2 (en) * | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
EP2946383B1 (en) * | 2013-03-12 | 2020-02-26 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9721586B1 (en) | 2013-03-14 | 2017-08-01 | Amazon Technologies, Inc. | Voice controlled assistant with light indicator |
EP2784774A1 (en) * | 2013-03-29 | 2014-10-01 | Orange | Telephone voice personnal assistant |
US20140337030A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Adaptive audio frame processing for keyword detection |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
EP2801974A3 (en) * | 2013-05-09 | 2015-02-18 | DSP Group Ltd. | Low power activation of a voice activated device |
EP3575924B1 (en) | 2013-05-23 | 2022-10-19 | Knowles Electronics, LLC | Vad detection microphone |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US9747900B2 (en) | 2013-05-24 | 2017-08-29 | Google Technology Holdings LLC | Method and apparatus for using image data to aid voice recognition |
US20140365225A1 (en) * | 2013-06-05 | 2014-12-11 | DSP Group | Ultra-low-power adaptive, user independent, voice triggering schemes |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2015048254A1 (en) * | 2013-09-25 | 2015-04-02 | Robert Bosch Gmbh | Speech detection circuit and method |
US10134395B2 (en) * | 2013-09-25 | 2018-11-20 | Amazon Technologies, Inc. | In-call virtual assistants |
US9502028B2 (en) * | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
JP6436088B2 (ja) * | 2013-10-22 | 2018-12-12 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
US9147397B2 (en) * | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US10079019B2 (en) * | 2013-11-12 | 2018-09-18 | Apple Inc. | Always-on audio control for mobile device |
KR101483669B1 (ko) | 2013-11-20 | 2015-01-16 | 주식회사 사운들리 | 저전력 음파 수신 방법 및 이를 이용한 모바일 기기 |
US20150143252A1 (en) * | 2013-11-21 | 2015-05-21 | Studio 9 Labs, Inc. | Apparatuses, Methods, And Computer Program Products For An Interactive Experience |
US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
KR102188090B1 (ko) * | 2013-12-11 | 2020-12-04 | 엘지전자 주식회사 | 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템 |
CN103677932A (zh) * | 2013-12-19 | 2014-03-26 | 小米科技有限责任公司 | 一种开机方法、装置及终端设备 |
CN105723451B (zh) * | 2013-12-20 | 2020-02-28 | 英特尔公司 | 从低功率始终侦听模式到高功率语音识别模式的转换 |
US9460735B2 (en) | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
KR102210433B1 (ko) | 2014-01-21 | 2021-02-01 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
US9516165B1 (en) * | 2014-03-26 | 2016-12-06 | West Corporation | IVR engagements and upfront background noise |
CN106164808A (zh) * | 2014-04-01 | 2016-11-23 | 苹果公司 | 用于戒指计算设备的设备和方法 |
KR102216048B1 (ko) | 2014-05-20 | 2021-02-15 | 삼성전자주식회사 | 음성 명령 인식 장치 및 방법 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9830080B2 (en) | 2015-01-21 | 2017-11-28 | Knowles Electronics, Llc | Low power voice trigger for acoustic apparatus and method |
US9633661B1 (en) * | 2015-02-02 | 2017-04-25 | Amazon Technologies, Inc. | Speech-responsive portable speaker |
US9653079B2 (en) * | 2015-02-12 | 2017-05-16 | Apple Inc. | Clock switching in always-on component |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
CN104795068B (zh) * | 2015-04-28 | 2018-08-17 | 深圳市锐曼智能装备有限公司 | 机器人的唤醒控制方法及其控制*** |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US9781679B2 (en) * | 2015-11-27 | 2017-10-03 | Samsung Electronics Co., Ltd. | Electronic systems and method of operating electronic systems |
US10255487B2 (en) * | 2015-12-24 | 2019-04-09 | Casio Computer Co., Ltd. | Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium |
US11437020B2 (en) | 2016-02-10 | 2022-09-06 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
WO2017180087A1 (en) * | 2016-04-11 | 2017-10-19 | Hewlett-Packard Development Company, L.P. | Waking computing devices based on ambient noise |
US10854199B2 (en) * | 2016-04-22 | 2020-12-01 | Hewlett-Packard Development Company, L.P. | Communications with trigger phrases |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
EP3472831B8 (en) | 2016-06-15 | 2020-07-01 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
WO2018010092A1 (zh) * | 2016-07-12 | 2018-01-18 | 深圳市汇顶科技股份有限公司 | 一种可进行供电管理的可穿戴设备及方法 |
US10115399B2 (en) * | 2016-07-20 | 2018-10-30 | Nxp B.V. | Audio classifier that includes analog signal voice activity detection and digital signal voice activity detection |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10831440B2 (en) * | 2016-09-26 | 2020-11-10 | Lenovo (Singapore) Pte. Ltd. | Coordinating input on multiple local devices |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制***及其唤醒方法、唤醒装置和家电、协处理器 |
EP3430617B1 (en) | 2016-11-07 | 2019-10-23 | Google LLC | Recorded media hotword trigger suppression |
US11545146B2 (en) | 2016-11-10 | 2023-01-03 | Cerence Operating Company | Techniques for language independent wake-up word detection |
CN108154880A (zh) * | 2016-12-05 | 2018-06-12 | 广东大仓机器人科技有限公司 | 能实时分辨环境噪音进行语音识别的机器人 |
US10403279B2 (en) * | 2016-12-21 | 2019-09-03 | Avnera Corporation | Low-power, always-listening, voice command detection and capture |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR102643501B1 (ko) * | 2016-12-26 | 2024-03-06 | 현대자동차주식회사 | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 |
US10564925B2 (en) | 2017-02-07 | 2020-02-18 | Avnera Corporation | User voice activity detection methods, devices, assemblies, and components |
JP6642808B2 (ja) * | 2017-03-29 | 2020-02-12 | 京セラドキュメントソリューションズ株式会社 | 音声入力システム、音声入力装置および音声入力プログラム |
US10121494B1 (en) * | 2017-03-30 | 2018-11-06 | Amazon Technologies, Inc. | User presence detection |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
CN107564532A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 电子设备的唤醒方法、装置、设备及计算机可读存储介质 |
US11282528B2 (en) * | 2017-08-14 | 2022-03-22 | Lenovo (Singapore) Pte. Ltd. | Digital assistant activation based on wake word association |
WO2019079974A1 (en) | 2017-10-24 | 2019-05-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION |
CN109767774A (zh) | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
JP6560321B2 (ja) * | 2017-11-15 | 2019-08-14 | ヤフー株式会社 | 判定プログラム、判定装置及び判定方法 |
KR20200104898A (ko) * | 2018-01-03 | 2020-09-04 | 유니버샬 일렉트로닉스 인코포레이티드 | 제어 장치에서 음성 입력을 지시하는 장치, 시스템 및 방법 |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
GB2573173B (en) | 2018-04-27 | 2021-04-28 | Cirrus Logic Int Semiconductor Ltd | Processing audio signals |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
JP2019211737A (ja) * | 2018-06-08 | 2019-12-12 | パナソニックIpマネジメント株式会社 | 音声処理装置および翻訳装置 |
CN111081235A (zh) * | 2018-10-19 | 2020-04-28 | 峰范(北京)科技有限公司 | 作为语音交互终端的耳机 |
JP7202853B2 (ja) * | 2018-11-08 | 2023-01-12 | シャープ株式会社 | 冷蔵庫 |
CN109412544B (zh) * | 2018-12-20 | 2022-07-08 | 歌尔科技有限公司 | 一种智能穿戴设备的语音采集方法、装置及相关组件 |
KR20200084727A (ko) * | 2019-01-03 | 2020-07-13 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
JP7209945B2 (ja) * | 2019-01-24 | 2023-01-23 | Toto株式会社 | 浴室システム |
CN113424256B (zh) | 2019-04-01 | 2024-06-18 | 谷歌有限责任公司 | 在可再充电设备上的播送请求和/或用户输入的自适应管理 |
WO2021002493A1 (ko) * | 2019-07-01 | 2021-01-07 | 엘지전자 주식회사 | 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템 |
CN111179924B (zh) * | 2019-11-27 | 2022-06-24 | 云知声智能科技股份有限公司 | 一种基于模式切换的唤醒性能优化的方法及*** |
CN111369999B (zh) * | 2020-03-12 | 2024-05-14 | 北京百度网讯科技有限公司 | 一种信号处理方法、装置以及电子设备 |
US20220108695A1 (en) * | 2020-10-01 | 2022-04-07 | Arris Enterprises Llc | System and method for controlling a media device to provide an improved sonic environment for the reception of a voice command |
KR102494051B1 (ko) * | 2021-01-26 | 2023-01-31 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
CN115691497B (zh) * | 2023-01-04 | 2023-03-31 | 深圳市大晶光电科技有限公司 | 一种语音控制方法、装置、设备及介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2338551A (en) * | 1942-07-09 | 1944-01-04 | Rca Corp | Automatic volume control |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
JPS62253093A (ja) * | 1986-04-25 | 1987-11-04 | 株式会社 バンダイ | 乗用玩具 |
JPH064097A (ja) * | 1992-06-18 | 1994-01-14 | Seiko Epson Corp | 話者認識方法 |
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
JPH06119476A (ja) * | 1992-10-09 | 1994-04-28 | Seiko Epson Corp | 時系列データ処理装置 |
US5668929A (en) * | 1993-01-21 | 1997-09-16 | Hirsch Electronics Corporation | Speech activated security systems and methods |
US5562453A (en) * | 1993-02-02 | 1996-10-08 | Wen; Sheree H.-R. | Adaptive biofeedback speech tutor toy |
US5577164A (en) * | 1994-01-28 | 1996-11-19 | Canon Kabushiki Kaisha | Incorrect voice command recognition prevention and recovery processing method and apparatus |
US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
US5704009A (en) * | 1995-06-30 | 1997-12-30 | International Business Machines Corporation | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
-
1995
- 1995-08-21 JP JP21224895A patent/JP3674990B2/ja not_active Expired - Lifetime
-
1996
- 1996-08-20 US US08/700,181 patent/US5983186A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101559155B1 (ko) * | 2013-12-19 | 2015-10-13 | (주)파트론 | 마이크로폰 장치 |
Also Published As
Publication number | Publication date |
---|---|
JPH0962293A (ja) | 1997-03-07 |
US5983186A (en) | 1999-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
US11756563B1 (en) | Multi-path calculations for device energy levels | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP4667085B2 (ja) | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
KR20200025226A (ko) | 전자 장치 및 그 제어 방법 | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
JP2016061888A (ja) | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
JP2001067091A (ja) | 音声認識装置 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP2003330491A (ja) | 音声認識装置および音声認識方法ならびにプログラム | |
KR20210000802A (ko) | 인공지능 음성 인식 처리 방법 및 시스템 | |
JP3285704B2 (ja) | 音声対話のための音声認識方法及び装置 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP2008216618A (ja) | 音声判別装置 | |
JP2017201348A (ja) | 音声対話装置、音声対話装置の制御方法、および制御プログラム | |
JP6759370B2 (ja) | 呼出音認識装置および呼出音認識方法 | |
JPH02103599A (ja) | 音声認識装置 | |
JP7429107B2 (ja) | 音声翻訳装置、音声翻訳方法及びそのプログラム | |
KR20220129366A (ko) | 음성 인식 시스템 및 그 제어 방법 | |
JP2005107384A (ja) | 音声認識装置および方法、プログラム並びに記録媒体 | |
JP3468389B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP2005148764A (ja) | 音声認識対話処理方法および音声認識対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050425 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090513 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100513 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110513 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120513 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130513 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 9 |
|
EXPY | Cancellation because of completion of term |