JP4086280B2 - 音声入力システム、音声入力方法及び音声入力プログラム - Google Patents
音声入力システム、音声入力方法及び音声入力プログラム Download PDFInfo
- Publication number
- JP4086280B2 JP4086280B2 JP2002019457A JP2002019457A JP4086280B2 JP 4086280 B2 JP4086280 B2 JP 4086280B2 JP 2002019457 A JP2002019457 A JP 2002019457A JP 2002019457 A JP2002019457 A JP 2002019457A JP 4086280 B2 JP4086280 B2 JP 4086280B2
- Authority
- JP
- Japan
- Prior art keywords
- voice input
- voice
- input device
- information
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声を扱う装置に関するものであり、特にユーザの発声が複数の音声入力に入りうる場合の音声入力システム、音声入力方法及び音声入力プログラムに関する。
【0002】
【従来の技術】
これまでは音声によって機器を制御する場合や、音声をある機器に入力する場合にはユーザと音声入力機器は1対1で対応していることを主に想定していた。しかしながら、例えば一つの部屋に複数の音声入力装置がある場合などユーザの発声が複数の音声入力装置に入ってしまうことは十分あり得る。その場合に従来は、ユーザが特に対象機器を指定したり、音声入力しようと思っている機器以外に対しては音声入力を抑制するような操作を行ったりする必要があった。
【0003】
【発明が解決しようとする課題】
本発明は、ユーザに負担をかけずにユーザの発声を入力したい音声入力装置に入力する音声入力システム、音声入力方法及び音声入力プログラムを提供することを目的とする。
【0004】
【課題を解決するための手段】
本発明の音声入力システムは複数の音声入力装置がネットワークに接続され、前記音声入力装置は入力される音声を検知し、前記音声入力装置は入力される音声を検知したときに、検知した前記音声に関する判断情報を前記ネットワークを介して他の音声入力装置と授受し、前記音声入力装置は検知した前記音声に関する判断情報と、他の音声入力装置からの判断情報とをもとに検知した前記音声に対する処理の決定及び実行の判断を行うことを特徴とするものである。
【0005】
また、本発明の音声入力方法はネットワークに接続された複数の音声入力装置において入力される音声をそれぞれ検知するステップと、前記音声入力装置で入力される音声を検知したときに、検知した前記音声に関する判断情報を前記ネットワークを介して他の音声入力装置と授受するステップと、前記音声入力装置は検知した前記音声に関する判断情報と、他の音声入力装置からの判断情報とをもとに検知した前記音声に対する処理の決定及び実行の判断を行うステップとを含むことを特徴とするものである。
【0006】
また、本発明の音声入力プログラムはネットワークに接続された複数の音声入力装置において入力される音声をそれぞれ検知し、前記音声入力装置で入力される音声を検知したときに、検知した前記音声に関する判断情報を前記ネットワークを介して他の音声入力装置と授受し、前記音声入力装置は検知した前記音声に関する判断情報と、他の音声入力装置からの判断情報とをもとに検知した前記音声に対する処理の決定及び実行の判断を行う機能を実現することを特徴とするものである。
【0007】
【発明の実施の形態】
以下、図面を参照しながら本発明による音声入力システムについて説明する。はじめに、本発明の全体の概要を図1を用いて説明する。
【0008】
本発明の音声入力システムでは、ネットワーク104に複数の単体の音声入力装置101や音声入力装置102を有した機器103、例えばビデオテープレコーダが接続され、これらの単体の音声入力装置101や機器103に搭載された音声入力装置102によりユーザの発声する音声命令や伝言のメッセージあるいは会話等を計測し、入力された音声信号を信号処理手段によって適当な信号に変換する。そしてこの変換された信号から音声入力システムは入力された音声に対する処理を単体の音声入力装置101や機器103に搭載された音声入力装置102で行うことができる。
【0009】
また単体の音声入力装置101や機器103に搭載された音声入力装置102はネットワーク104を介して情報の授受が可能となっており、入力された音声に対する処理として、ネットワーク上の他の単体の音声入力装置や機器に搭載された音声入力装置と情報の送受信ができる。
【0010】
このとき、ネットワークへの情報の送信については情報が一つ一つの各音声入力装置に移っていくようなリレー方式でも、一つの音声入力装置から同時に複数の音声入力装置に送るようなブロードキャスト方式でも構わないが、音声という実時間処理が重要な用途であるので以降はブロードキャスト方式を念頭に置いて説明する。
【0011】
ユーザの発声がネットワーク接続された複数の音声入力装置に入力された場合に、各音声入力装置での処理をどうするかという点が本発明によって解決する所である。また、ユーザの発声が単一の音声入力装置にしか入力されなかった場合でも本発明の処理で包含することができる。
【0012】
また本発明の実施例としては、ユーザの発声という人間の発声を主に例に挙げて説明しているが、本発明は人間の音声に限定されたものではない。目的に応じて機械の動作音や動物の声でも、音声であれば構わないものとする。
【0013】
次に本発明の実施の形態の音声入力システムを構成する音声入力装置について図2を用いて説明する。音声入力装置(20-1〜20-3)はそれぞれネットワーク21に接続されており、音声入力装置20-1はビデオデープレコーダ(以下ビデオとする)26に搭載され、音声入力装置20-3はエアーコンディショナー(以下エアコンとする)27に搭載され、また、音声入力装置20-2は単体で接続されている。音声入力装置20-1に入力された音声によりビデオ26の操作を行い、音声入力装置20-3に入力された音声によりエアコン27の操作を行う。なお、後述するように自分の音声入力装置への音声でなくとも、各機器は音声入力への処理を行うことができる。
【0014】
各音声入力装置(20-1〜20-3)はそれぞれマイクロホン201、信号処理部202、中央処理部203、記憶部204、ネットワーク接続部205、情報表出部206から構成される。
【0015】
ユーザが発声する音声入力はマイクロホン201に入力され、このマイクロホン201でユーザの発声を計測する。これは一般にあるマイクロホンで実用可能である。このマイクロホンは、単一のマイクロホンや複数のマイクロホン(マイクロホンアレイ)、指向性・無指向性マイクロホンなど、マイクロホンとして使えるものから構成できるものとする。
【0016】
マイクロホンから取り込まれた音声信号は信号処理部202で後段の処理に必要な形式に処理される。この処理は例えば音声信号のMPEGによる圧縮や、音声認識で用いられるケプストラム特徴に変換する処理などが考えられる。なお、この信号処理部202はその他にも音声入力装置の用途に応じて適当な処理を実行できるように構成できるものとする。
【0017】
また、この信号処理部202では次に説明する中央処理部203からの命令を受けて情報表出部206に伝える形式に変換する機能も含まれている。さらに、この情報表出部206では中央処理部203からのユーザに伝えるメッセージ内容から音声合成を行って合成音の信号に変換している。
【0018】
なお、その他にも、ディスプレイ表示のための表示内容に変換したりする処理や情報表出部206におけるデバイスや、音声入力装置の用途に応じて処理を実行できるように構成することも可能である。
【0019】
ただし、このマイクロホンからの音声信号の処理と情報表出部206へ送る情報についての処理は同一処理機構で行うか否かは問わないものとする。すなわち上記の処理を行う機構を総称して信号処理部202とする。
【0020】
また、信号処理部202の入力としてマイクロホン以外のセンサ・デバイスも考えられる。例えばカメラからの動画像や触覚センサ、スイッチ等が挙げられる。その他のセンサ・デバイスからの入力も、音声入力装置の用途に応じて処理できるような信号処理部を構成できるものとする。これについては後述する。
【0021】
中央処理部203では音声入力装置全体の処理を制御する。この中央処理部203が音声入力装置の状態を管理し、必要に応じて各処理機構に命令を送る。信号処理部202からの情報やネットワーク接続部205からの情報、そして記憶部204の情報を元に制御内容を決めることができる。また、他の音声入力装置に対して制御情報を送出する。本発明の音声入力システムとして音声をどう処理するかについては後述する。
【0022】
記憶部204では中央処理部203で行う処理のプログラムやその作業領域、信号処理部202からの情報やネットワーク接続部205からの情報を保持しておく機構である。なお、この記憶部204は信号処理部202における情報記憶用やネットワーク接続部からの情報記憶用といったように回路的には別のものであっても構わないとする。
【0023】
すなわち、音声入力装置における情報保持機構を総称して記憶部204と呼ぶことにする。この記憶部204は半導体メモリや磁気ディスクなどの機構で実現可能であり、データを保持できる任意の機構で構成可能なものであるが、この実施の形態では半導体メモリが使用されている。
【0024】
記憶部204の使われ方や記憶される情報については中央処理部203の処理の説明と共に後述する。
【0025】
ネットワーク接続部205はネットワーク21を通して音声入力装置間の情報の授受を行うための機構であり、LANでのネットワーク接続やブルートゥースといった無線技術といった機器間通信技術によって実現できるものとし、ここではLANでのネットワーク接続を用いている。
【0026】
また、以上のような音声入力装置の機構のそれぞれ、もしくは全てが、他の機能を持つシステムのものと機構を共有しても構わないとする。例えばビデオ・システムのようなオーディオ・ヴィジュアル機器に音声入力装置が含まれている場合に、共通の信号処理回路を使ってお互いの機能を実現したり、同じ中央処理回路を用いて音声入力装置やビデオ・システムの機能の制御を行ったりすることが考えられる。
【0027】
他にも共通の機構で音声入力装置と他のシステムの機能を実現する例が考えられるが詳細は省略する。
【0028】
さらに、回路的な機構として音声入力装置やその他のシステムが別々にあるのでなく、共通の回路でありながら、プログラム的なプロセスとして別のシステムとして制御できる場合も上記に含まれているものとする。
【0029】
次に中央処理部203が信号処理部202からの音声信号やネットワーク接続部205からの情報、記憶部204で保持されている情報をもとにして音声をどのように処理するかについて図3を用いて説明する。図3では図2のビデオ26に搭載された音声入力装置20-1(以下音声入力装置Aとする)とエアコン27に搭載された音声入力装置20-3(以下音声入力装置Bとする)に対して音声が入力される例を示している。さらに、現在ユーザが音声入力装置Bに対して対話処理を行い、音声入力装置Aは待機中の状態を示している。
【0030】
まず、ユーザが音声入力装置A及び音声入力装置Bに対して発声すると(step301)、各音声入力装置の信号処理部202ではマイクロホン201で取り込まれたユーザからの発声を検知し、信号処理される(step302)。
【0031】
ここで、音声入力装置Bは既にユーザと対話処理を行っているので、音声入力装置B自身が対話処理中であって他のシステムの状態が対話状態でないとなれば、音声入力装置Bがユーザの発声した内容に対する処理を行う選択をする。(step303)
次に、音声入力装置Bの中央処理部202は音声入力装置の機能にあわせて取り込まれた音声の処理を行い、音声の内容にしたがって機器を操作し、対話終了後再び待機状態になる(step304)。
【0032】
逆に音声入力装置Aでは、音声入力装置Bがユーザとの対話状態であるので、信号処理された後(step302)、それ以上の処理を行わない(step305)とし、待機状態になる。
【0033】
こうすることで、ユーザの発声が複数の音声入力装置で検知されてしまうような場合でも、ユーザが現在発声対象としている音声入力装置に対してのみ、楽にアクセスできるようにすることを可能とする。また上記ではユーザが複数の音声入力装置に対して発声するとした例を挙げたが、ユーザは意図的に複数の音声入力装置に検知されるように音声を発声する必要はなく、このことは以降の実施例でも同様である。
【0034】
また、他の音声入力装置が対話状態でなければ処理を行うといった条件付けは、上記以外の条件についてユーザが任意に、もしくは音声入力装置が設定として定めることができるものとする。
【0035】
また、ここでの対話は人間とシステムの一対一による音声のやり取りに限定したものではなく、人間からシステムへの一方的な音声発声やシステム側から視覚的な応答を返す場合、あるいはシステムから任意の人間に応答する場合を含んでも構わないものとし、以降の説明で用いられる対話についても同様である。
【0036】
また、音声入力装置にはあるルールに基づいた順序関係があり、その順序関係に基づいて取り込まれた音声情報に対する処理を決めることもできる。ルールの具体例としては、音声入力装置の処理能力・ユーザによる設定・使用頻度・音声入力装置の機能に基づく設定値・マイクロホン以外からのセンサの情報や、これらの組み合わせ等が挙げられる。
【0037】
次に上記の音声入力装置の機能による順位付けの例を図4を用いて説明する。
【0038】
音声入力装置が搭載している機器としてウェアラブル・コンピューター(以下音声入力装置Cとする)と音声入力装置が搭載している機器としてビデオ・システム(以下音声入力装置Dとする)があり、前者の方が特定ユーザ向けなので順位が高く、ビデオ・システムは不特定のユーザが使い得るので順位が低いものとする。
【0039】
このときユーザは音声入力装置C及び音声入力装置Dに対して発声し(step401)、それぞれの音声入力装置は信号処理部202においてマイクロホン201で取り込まれたユーザからの発声を検知した場合に、自音声入力装置の順位を送信しあう(step402)。
【0040】
次に、他の音声入力装置の順位と比較し、順位の高い音声入力装置Cがそのユーザの発声を処理する(step403)。
【0041】
順位の低い音声入力装置Dは処理は行わず(step404)、待機中のままになる。
【0042】
上記の例では順位情報を送信しているが、送信情報に順位以外の情報があっても構わないし、発声を検知してからでなく前もって情報のやり取りをしておく、あるいはプリセットの順位情報をもとに自音声入力装置で処理するかの判断を行っても構わないとする。
【0043】
上記のような実施例によって、例えば音声入力装置を搭載する機器として火災報知器や緊急警報器のような非常用機器は他のどんな機器よりも順位が高く、例えば「助けて」という発声に対していかに通常機器で音声命令として登録していてもまずは非常用機器に対する音声入力が優先されるということも可能となる。
【0044】
また、音声入力装置内に時間を処理する機構を設けて、それによって処理の判断の参考にすることもできる。図5で例を挙げて説明する。
【0045】
図5ではビデオに搭載された音声入力装置(以下音声入力装置Eとする)とエアコンに搭載された音声入力装置(以下音声入力装置Fとする)に対して音声が入力される例を示しており、音声入力装置Eは音声入力装置Fよりユーザに近い位置に設置している。
【0046】
このときユーザは音声入力装置E及び音声入力装置Fに対して発声し(step501)、それぞれの音声入力装置は信号処理部202においてマイクロホン201で取り込まれたユーザからの発声を検知した場合に、自音声入力装置の発声検知時間を送信しあう(step502)。
【0047】
次に、音声を検知した他の音声入力装置からの検知時間と自音声入力装置の検知時間を比較し、自音声入力装置が最も早かった場合は音声を処理し(step503)、そうでなければ当該音声を処理しないという判断をする(step504)ことで、ユーザが指定しなくともユーザに最も近い音声入力装置が音声の処理を行えるようになる。
【0048】
また、音声検知時間がもっとも長かった音声入力装置がユーザの発声を最初から最後まで検知できたとみなして、その音声入力装置が当該音声の処理を行うといったように音声検出の早さ以外の時間情報を判断基準とすることもできる。
【0049】
また、ユーザの発声の音量をマイクロホンから取り込まれた音声から計測し、処理の判断の参考にすることもできる。音量情報を利用した本発明の例として図6を用いて説明する。
【0050】
ここでは上述した音声入力装置Eと音声入力装置Fがある場合に、ユーザは音声入力装置E及び音声入力装置Fに対して発声し(step601)、それぞれの音声入力装置は信号処理部202においてマイクロホン201で取り込まれたユーザからの発声を検知した場合に、音量情報を送信しあう(step602)。すなわち、ユーザの発声の音量をマイクロホンから取り込まれた音声から計測し、ネットワーク上の他の音声入力装置に伝える。
【0051】
次に、音声を検知した他の音声入力装置からの音量情報と自音声入力装置の音量情報を比較し、自音声入力装置が最も大きかった場合は音声を処理し(step603)、そうでなければ当該音声を処理しないという判断をする(step604)ことで、ユーザが指定しなくともユーザに最も近い音声入力装置が音声の処理を行う、もしくは元の発声を最もよく収録した音声で処理を行えるようになる。この音量情報としては音圧レベルや音響パワーレベル、あるいはphonやsoneなどの単位が挙げられる。
【0052】
また、周囲の雑音に対するユーザの発声の信号対雑音比をマイクロホンから取り込まれた音声から計算して、処理の判断の参考にすることもできる。信号対雑音比を利用した本発明の例として図7を用いて説明する。
【0053】
図7ではビデオに搭載された音声入力装置(以下音声入力装置Gとする)とエアコンに搭載された音声入力装置(以下音声入力装置Hとする)に対して音声が入力される例を示しており、騒音源があり、音声入力装置Gは音声入力装置Hより騒音源が遠い位置にあるものとする。
【0054】
始めに、各音声入力装置は常時音声を取り込んで周囲の雑音の情報を計測しておく(step701)。
【0055】
次に、ユーザは音声入力装置G及び音声入力装置Hに対して発声し(step702)、それぞれの音声入力装置は信号処理部202においてマイクロホン201で取り込まれたユーザからの発声を検知し、ユーザの発声をマイクロホンから取り込んだときに雑音情報をもとに信号対雑音比を計算し、ネットワーク上の他の音声入力装置に伝える(step703)。
【0056】
次に、音声を検知した他の音声入力装置からの信号対雑音比情報と自音声入力装置の信号対雑音比情報を比較し、自音声入力装置が最も大きかった場合は音声を処理し(step704)、そうでなければ当該音声を処理しないという判断をする(step705)。
【0057】
これにより、ユーザが指定しなくともユーザに最も近い音声入力装置が音声の処理を行う、もしくは元の発声を最もよく収録した音声で処理を行えるようになる。ここでの例では、無発声中でも常時周囲音を取り込んで雑音を計算する例を挙げたが、他にも例えば発声を検知してから発声中の無音区間をもとに雑音を推定してもよい。
【0058】
また、記憶部に使用状況に関する過去の履歴を保持しておき、それを処理の判断に利用することもできる。過去の履歴を利用した本発明の例について図8を用いて説明する。
【0059】
図8ではビデオに搭載された音声入力装置(以下音声入力装置Iとする)とエアコンに搭載された音声入力装置(以下音声入力装置Jとする)に対して音声が入力される例を示しており、音声入力装置Iは音声入力装置Jより使用頻度が高いもとする。
【0060】
始めに、ユーザが両方の音声入力装置に対して発声(step801)し、この発声に対して最近の使用時間・使用回数等をネットワーク経由で他の音声入力装置に伝える(step802)。
【0061】
一方、音声入力装置Iでは音声入力装置Jの使用履歴と比較して、音声入力装置Iが最もよく使われているなら音声の処理を行うよう判断する(step803)ことでユーザがわざわざ指定しなくてもよく使われている音声入力装置Iを利用できるようになる。
【0062】
また、他方、音声入力装置Jでは音声入力装置Iの使用履歴と比較して、音声入力装置Jがあまり使われていないなら音声の処理は行わず(step804)、待機中のままになる。
【0063】
また、音声認識をする手段を備えその認識結果を利用して取り込まれた音声の処理を判断することもできる。信号処理部からの情報は音声認識を行う機構で処理されその結果が中央処理部に渡される。このとき行われる音声認識は、演算処理を中央処理部で扱っても構わない。
【0064】
また音声認識に使われる手法は混合正規分布をモデルに使ったHMMやDPマッチングのような一般に現実化されている手法で構わないとし、このとき使われるHMMや言語モデルは記憶部にあっても構わないとする。音声認識の語彙は音声入力装置毎に異なっていても共通化されていても構わないとする。さらにその語彙に制御命令を対応させることで音声コマンドを可能にすることもできる。この音声認識を利用した本発明の例について図9で説明する。
【0065】
図9ではビデオに搭載された音声入力装置(以下音声入力装置Kとする)とエアコンに搭載された音声入力装置(以下音声入力装置Lとする)に対して音声が入力される例を示している。
【0066】
始めに、各音声入力装置に対してユーザからの音声入力装置Kに関連する「再生」という発声があった(step901)場合に、各音声入力装置はその音声の検知と音声認識を行う(step902)。
【0067】
その音声認識した結果を中央処理部は受け取り、認識結果から自音声入力装置に対する発声か否かを判断し(step903)、その判断結果と認識結果をネットワーク経由で他の音声入力装置に伝える(step904)。
【0068】
一方、他の音声入力装置の判断結果と認識結果をみて、音声入力装置Kでは自音声入力装置への発声と判断(step905)できたら当該音声に対する処理を行うことで、ユーザが特に指定しなくても発声対象の音声入力装置を使うことができるようになる。
【0069】
他方、音声入力装置Lでは自音声入力装置への発声と判断しない(step906)ので、待機中のままである。
【0070】
また、音源の識別を行う手段を備え、その識別結果を利用して音声の処理を判断することもできる。音源の種類としては人間、機械、動物など使用目的に応じて考えられるが、以降では例として人間の発声を音声とした場合について説明する。信号処理部からのユーザの音声情報に対して話者識別を行い、その結果を中央処理部に伝える。この話者識別を行う方法は話者毎に学習または適応されたHMMに対する尤度から判断するものや、性別や年齢層毎のモデルで最も近いカテゴリーを選ぶものなど、個人あるいは話者の特性(例えば性別や年齢層など)を識別できる手法ならば構わないものとする。
【0071】
この話者識別を使った本発明の例を次の図10を用いて説明する。
【0072】
図10ではビデオに搭載された音声入力装置(以下音声入力装置Mとする)とエアコンに搭載された音声入力装置(以下音声入力装置Nとする)に対して音声が入力され、あるユーザは片方の音声入力装置Mでのみ音声の処理が可能である場合の例を示している。
【0073】
始めに、各音声入力装置に対してユーザからの発声があった(step1001)場合に、ユーザの発声を検知した音声入力装置は話者識別を行い(step1002)、自音声入力装置で処理すべき発声か否か判断(step1003)をして、その判断結果と話者識別結果をネットワーク経由で他の音声入力装置に伝える(step1004)。
【0074】
そして自音声入力装置と他の音声入力装置における判断結果と話者認識結果をみて、自音声入力装置への発声と判断(step1005)できたら当該音声に対する処理を行い、逆に他方の音声入力装置Nは自音声入力装置への発声ではないと判断(step1006)できたら処理を行わないとすることで、ある音声入力装置が特定のユーザに利用可能である場合に、ユーザが特に指定しなくても発声対象の音声入力装置を使うことができるようになる。
【0075】
また、話者識別の信頼性が低い場合や複数話者が候補となった場合に、システム側からさらに暗証番号や定型句あるいは自由発声を促してさらにデータを得ることによって識別精度を上げてから話者識別以降の処理をおこなってもよい。
【0076】
また、ここでは人物の話者認識について述べているが、前記のように故障者や動物の音に応じて識別とその後の処理を行うことも可能である。
【0077】
また、音声入力装置やネットワーク上の他の機器と共通の命令を持ち、お互いに許された範囲で制御することもできる。こうすることで、他の音声入力装置の働きを抑制したり、音声入力装置同士の互換性をよくしたりすることができる。
【0078】
この例を図11で説明する。
【0079】
例えばネットワーク1102に接続されている全ての音声入力装置1101が「電源ON」「電源OFF」「省電力」といった共通の電源管理命令を持っているときに、ネットワーク1102に繋がっているパーナルコンピュータ1103から一度に複数システムも含めた任意の音声入力装置1101の電源を操作する命令をネットワーク経由で送信し、各音声入力装置がその命令を実行することが出来る。
【0080】
また、音声入力装置やネットワーク上の他の機器と共通の音声による制御命令と、入力された音声とその命令をマッチングする手段を備えることで、より平易で確実な音声による制御命令の実行を可能とする。この例について図12のフロー図を用いて説明する。
【0081】
図12の例では音声入力装置を有しているビデオ(音声入力装置O)と音声入力装置を有しているエアコン(音声入力装置P)があったときに、ユーザが「ビデオ」「エアコン」と命令対象の名称を発声した後で、「電源ON」「電源OFF」といったように共通の動作について共通化された命令を発声する。
【0082】
ここで、ユーザから「ビデオ」「電源ON」という発声があった場合(step1201)、音声入力装置O及び音声入力装置Pは前述の音声認識で使われるマッチング手段で機器名称と機器命令を認識(step1202)し、自身のシステムへの命令か、処理可能かについて判断する(step1203)。
【0083】
その結果をネットワーク上の他の音声入力装置や制御可能機器にその結果を伝達(step1204)し、その結果と他の音声入力装置からの結果から自音声入力装置が処理すべき発声か判断(step1205)してその制御命令に対応した処理を行うことができる。
【0084】
共通化された命令に対して複数の音声入力装置から得られた結果を使うことが、これまでの音声によるリモコンや音声によって命令する機器とは異なる点である。
【0085】
また、ネットワーク上に音声による制御可能機器が複数ある場合に、記憶部でその制御命令の全てまたは一部に関する情報を記憶できるような仕組みと、入力された音声とそれらの命令をマッチングさせる手段を備えることで、より平易で確実な音声による制御命令の実行が可能となる。
【0086】
この例を次の図13、図14を用いて説明する。ネットワーク上に音声入力装置で制御可能なビデオ(音声入力装置Q)とエアコン(音声入力装置R)があるとして、音声命令について音声入力装置Qが「再生」「停止」、音声入力装置Rが「温度あげて」「温度さげて」等であった場合に、ネットワーク上のそれぞれの音声入力装置では認識単語と対象機器を関連付けて記憶できるようになっているとする。
【0087】
図13はこの認識単語と対象機器、そして処理内容を結びつける概念を表している。この図13のような認識単語と処理内容との結びつけは、単純な表引きやオブジェクト指向や高次の知識処理によって実現できるものとし、ここではその詳細は省略する。
【0088】
図14のフロー図に示すようにユーザが「ビデオ」「再生」と発声した場合(step1401)、音声入力装置Qと音声入力装置Rは発声の検知と認識を行う(step1402)。
【0089】
さらに、図13に示した概念を用いて発声内容を判断し(step1403)、その結果をネットワーク上の他の音声入力装置に伝達し(step1404)、その結果と他の音声入力装置から送られてきた結果をもとに自音声入力装置が処理すべき発声だったかを判断して(step1405)、その制御命令に対応した処理を行う。
【0090】
上述の「ビデオ」「再生」の場合、図13のような認識単語と対象機器、処理内容の結びつきによってどちらの音声入力装置も発声がビデオに対して再生の命令であったと判断できる。さらにネットワーク経由で送信しあった情報により、発声が一意に解釈でき、音声入力装置は認識結果に対応する処理内容を行うことが出来る。
【0091】
またこれまでの音声認識を用いた例では基本的に単語認識による例を挙げてきたが、ワードスポッティングや連続音声認識の技術を使っても、各音声入力装置での音声認識のスペックに差があっても、図13のような認識結果と処理内容の対応づけの概念がされれば構わないとする。
【0092】
また、上述の図14で示した例については、音声入力装置以外のネットワークに接続された制御対象機器についても処理できるものとする。その例について図15を用いて説明する。
【0093】
図15に示すように音声入力装置のついたエアコン1501と単体の音声入力装置1502及びビデオ1503がネットワーク1504に接続されており、ここでユーザがビデオ1503を操作する発声をする。
【0094】
この音声入力装置は図14のフロー図に示す流れで音声の検知及び認識を行い、図13のような概念で認識結果と処理内容を結びつける。そして認識結果と処理内容の判断をしてからネットワーク1504上の他のシステムに送信する。
【0095】
その結果、ビデオ1503は認識結果に応じた処理内容を受け、発声を実行することができる。よってビデオ1503自体に音声入力装置がなくても自分が制御可能な情報についてネットワークに情報を流し、各音声入力装置に図13のような認識結果と処理内容の概念をつくることで音声による制御が可能となる。
【0096】
図12から図15までで説明した音声認識を用いた本発明の例については、これまでブロードキャスト方式で音声認識と判断の結果をネットワークの全てのシステムに送信する例を挙げてきたが、認識結果によって直接その対象機器にのみ認識結果と判断の結果を伝えてもよいものとする。
【0097】
また、音声入力装置において、マイクロホンによる音声入力以外のセンサがある場合に、そのセンサ情報を利用して検知した音声の処理内容を判断することもできる。この例について、図16を用いて説明する。
【0098】
図16に示すように音声入力装置を有したエアコン1601と単体の音声入力装置1602がネットワーク1603に接続されている。また、この単体の音声入力装置にはカメラを有しておりカメラから周辺の画像情報を取り入れることができる。なお、このカメラの入力は図2の信号処理部202に入力され画像処理される。
【0099】
この音声入力システムにおいて、ユーザがエアコン1601の音声入力装置に対して発声する。ここで、単体の音声入力装置1602に付いているカメラにより話者がどの方向を向いているかを推定する。なお、この話者がどの音声入力装置を向いているかについては、画像から人間を抽出する技術、顔部分を推定してその向きを推定する技術、口の動きから検知した発声がどの人間からのものか推定する技術等の組み合わせで実現できるものとするが、ここでは詳細は省略する。
【0100】
推定された話者の顔向きから話者がエアコン1601の方を向いていると判断すると、発声の対象機器をエアコンと判断して、各音声入力装置は結果をネットワーク1603で他の音声入力装置に通知し、これまで述べてきた例のように処理を判断する。
【0101】
ここではカメラを使った画像情報を利用した例を挙げたが、スイッチ等の直接的なセンサ・デバイスや音源定位のためのマイクロホンアレイなどが考えられるが、どのような計測技術を使うかは限定しない。
【0102】
また、図2の音声入力装置の構成で述べたようにマイクロホン201、情報表出部206、信号処理部202、中央処理部203、記憶部204、ネットワーク接続部205は音声入力装置においてそれぞれその働きをするものの総称であるので、ネットワークを通した形や直接接続された形でそれぞれが物理的に複数に分かれていても構わないとする。この例を図17で説明する。
【0103】
図17に示すように音声入力装置は物理的には2つの音声入力装置(1701、1702)に分かれていてもネットワーク1703で接続されており適切な情報のやり取りが出来るものとする。このときユーザの発声に対して、2つの音声入力装置(1701、1702)で一つの音声入力装置として働くことが出来る。
【0104】
また、これまで述べたような音声入力装置に対する判断の基準は、他の音声入力装置の情報やユーザの設定によって変えられるものとする。例えば、音声入力装置は音声を検知したときの検知や認識結果等の情報以外に、一定時間ごとに他の音声処理システムの処理状態、処理性能、認識可能語彙やそれに対する処理内容をやり取りして、自音声入力装置の記憶部に蓄えておけるとする。
【0105】
そのような情報を利用して、現在はある音声入力装置は処理出来ないから自音声入力装置で処理可能な場合は代わって処理するとか、自音声入力装置より性能のいい音声入力装置の認識結果を自分の結果より重視することで認識誤りを補正するとか、ユーザが自分の好みに合わせて上述のような判断の制御を可能とすることが出来る。
【0106】
また、これまで述べたような音声入力装置に対する入力の判断の手段は、上述のものを組み合わせても構わないとする。例えば、検知時間が早い音声入力装置が発声を扱うとするが、ある許容時間内では時間差がないものとし、同じ時間の場合は音量で判断するとか、音声認識の尤度と音声入力装置の順位を重み付けして最もスコアの高い音声入力装置で音声を扱うなどが考えられる。
【0107】
また、上述のような判断の手段の組み合わせにより得られた情報を利用して高次のエージェントシステムや知識処理システムで判断する場合も考えられる。
【0108】
また、これまで述べたような音声入力装置における処理の判断の手段は、ネットワーク上の音声入力装置間で同一であることを必須とはしないものとする。例えば音声入力装置が2つあり、一つは音声の検知時間のみで、他方は音量情報のみで判断する場合には、音声を検知したあとに相互に授受する情報は必ずしも対応は取れないが、各々の音声入力装置でその場合における処理を装置の目的に応じて設定しておけば、音声入力システムとして処理が破綻せずに各々の音声入力装置で処理の判断が可能である。
また、上述のような音声入力装置の判断の手段が各々の音声入力装置において異なっている場合に、ネットワークを通して授受した情報をもとに音声入力装置より高次のエージェントシステムや知識処理システムで処理を判断する場合も考えられる。
【0109】
また、これまで述べたような音声入力装置に対する入力の判断において、音声検知時間や音量といった発声に関する情報や、音声認識結果や識別結果といった情報から、ユーザがどの機器に対してどのような音声入力を行ったのかが一意には判断できなかった場合は、音声入力装置の一つがユーザと対話処理を行って決定したり、マイクロホン以外のセンサ情報といった他の条件を使って決定したりすることもできる。
【0110】
次に、これまで述べたような音声入力装置において先に説明した図2の情報表出部206とこれまでの説明の補足となる例を次の図18を用いて説明する。
【0111】
図18に示すように音声入力装置を有したエアコン1801、単体の音声入力装置1802及び音声入力装置を有したビデオ1803がネットワーク1804に接続されている。また、これらの音声入力装置は図2の情報表出部206を有している。
【0112】
この音声入力システムでは前述したように、待機中に各音声入力装置は自音声入力装置の情報、すなわち認識語彙、処理内容やここでは特に情報表出部の有無と表現可能なメディアの情報をやり取りして記憶部に保存してあるものとする。
【0113】
この例での各音声入力装置の情報表出部は全てスピーカを備え、中央処理部と信号処理部によって合成された任意文の音声をユーザに返すことができるとする。そしてその情報表出部への制御命令の一部は音声入力装置で共通化されているとする。つまりある音声入力装置が自分の情報表出部からユーザに応答を返す代わりに、ネットワーク上の別な音声入力装置の情報表出部からユーザへの応答を可能とする。
【0114】
ここでユーザから「ビデオ」「再生」という発声があったときに、エアコンに接続された音声入力装置と単体の音声入力装置がその音声を検知したとする。なお、ユーザの位置は単体の音声入力装置に一番近いところにあるとする。
【0115】
これまで述べてきたような手順により両音声入力装置は音声の検知、認識、自音声入力装置への命令か判断して、結局「ビデオ」への「再生命令」と判断し、それぞれネットワーク上の他の音声入力装置へ伝える。ビデオに接続された音声入力装置は直接音声を検知しないが、ネットワーク上の別な音声入力装置からの情報を受け、自音声入力装置への命令と解釈して、再生命令がされた場合の処理を実行する。
【0116】
またこのとき、単体の音声入力装置の方がユーザに近いため、ネットワーク上に送られた音量や信号対雑音比の情報で判断したときに、ビデオに接続された音声入力装置よりも単体の音声入力装置の方が音声処理に適していることを各音声入力装置は判断できる。
【0117】
よって、単体の音声入力装置とビデオの音声入力装置はそれぞれ単体の音声入力装置がユーザとの音声の授受を行う音声入力装置と判断できる。
【0118】
再生命令を受けたビデオの音声入力装置は、ビデオに対して再生の制御命令を送る一方、再生を始めたことをユーザに伝えるために、「再生を開始しました」という合成音声を単体の音声入力装置からユーザに返すよう命令を生成して、ネットワークを介して単体の音声入力装置へ伝える。このときビデオの音声入力装置から送信される制御命令はこれまでのネットワークへの情報送信と同様に単体の音声入力装置一つへ直接送信してもよいし、単体の音声入力装置への命令という情報を含んだ形で、ブロードキャスト形式で全ての音声入力装置へ伝えられてもよい。
【0119】
このようにしてビデオの音声入力装置から送られたユーザへの応答命令を解釈して、単体の音声入力装置は合成音声で「再生を開始しました」というメッセージをユーザに伝えることができる。
【0120】
また、この処理を通して単体の音声入力装置とビデオの音声入力装置は、ユーザと対話処理中であるというフラグを一定時間立てることで、ユーザの次の発声を優先的に処理し、エアコンの音声入力装置で処理しなくてもよいように出来るという例については既に述べてある。
【0121】
次に、これまで述べてきたような音声入力装置において音声入力装置が何らかの基準でグループ化されている場合の例について図19を用いて説明する。
【0122】
この例では音声入力装置の場所を基準としグループ「キッチン」1901、グループ「ウェアラブル」1902、グループ「リビング」1903のグループは全てネットワーク1904で接続されている。また、それぞれのグループ内に音声入力装置があり、これらの各グループ内におけるそれぞれの音声入力装置は他グループを同定できる情報を持っているものとする。
【0123】
ただし、自グループの他の音声入力装置に関して記憶部が持つ情報と、他グループに関してもつ情報の種類は必ずしも同一でなくてよい。具体的にはここでは他グループにおける各々の音声入力装置の認識語彙やそれに対応する対象機器や処理内容の情報までは持たないとする。
【0124】
ここでユーザが「リビング」「ビデオ」「再生」と発声し、それがグループ「キッチン」とグループ「ウェアラブル」の音声入力装置で検知されたとする。これまで述べてきた例と同様に、検知した音声入力装置で認識と自音声入力装置で処理すべきか判断した結果、自グループへの発声でなくグループ「リビング」への発声と判断し、その音声情報や判断結果をグループ「リビング」の音声入力装置へ伝える。
【0125】
このとき基本的に同定できたグループにのみ情報を送ることで、多くの音声入力装置がネットワークに接続されたときに必要な音声入力装置のみが情報のやり取りをできるようになることがグループ化することの利点である。
【0126】
したがって、グループ「リビング」の音声入力装置は自グループ宛の音声に関する情報を受け取ることで自グループ内の「ビデオ」に対する「再生」の命令と判断してそれに対応する処理をすることができる。
なお、本発明は音声入力プログラムに適用することも言うまでもない。
【0127】
【発明の効果】
以上説明したように、本発明はユーザの発声に対して他の音声入力装置からの情報を利用することで、ユーザに負担をかけずに音声に対する処理を決定することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声入力システムの構成を示す図。
【図2】本発明の一実施形態に係る音声入力システムを構成する音声入力装置を示す図。
【図3】本発明の一実施形態に係る音声入力システムの動作を示すフロー図。
【図4】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図5】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図6】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図7】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図8】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図9】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図10】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図11】本発明の一実施形態に係る他の音声入力システムの構成を示す図。
【図12】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図13】本発明の一実施形態に係る音声入力システムに係り、認識単語、対象機器、処理内容を結びつける概念を示す図。
【図14】本発明の一実施形態に係る音声入力システムの他の動作を示すフロー図。
【図15】本発明の一実施形態に係る他の音声入力システムの構成を示す図。
【図16】本発明の一実施形態に係る他の音声入力システムの構成を示す図。
【図17】本発明の一実施形態に係る他の音声入力システムの構成を示す図。
【図18】本発明の一実施形態に係る他の音声入力システムの構成を示す図。
【図19】本発明の一実施形態に係る他の音声入力システムの構成を示す図。
【符号の説明】
101・・・音声入力装置
102・・・音声入力装置
103・・・機器
104・・・ネットワーク
201・・・マイクロホン
202・・・信号処理部
203・・・中央処理部
204・・・記憶部
205・・・ネットワーク接続部
206・・・情報表出部
Claims (18)
- 複数の音声入力装置がネットワークに接続され、
前記音声入力装置は入力される音声を検知し、
前記音声入力装置は入力される音声を検知したときに、検知した前記音声に関する判断情報を前記ネットワークを介して他の音声入力装置と授受し、
前記音声入力装置は検知した前記音声に関する判断情報と、他の音声入力装置からの前記音声に関する判断情報とをもとに検知した前記音声に対する処理の決定及び実行の判断を行うことを特徴とする音声入力システム。 - 前記ネットワークに接続された複数の音声入力装置は所定のルールに基づいて順位関係を構成し、
前記順位関係から順位づけられた前記音声入力の順位情報が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記ネットワーク上に接続された複数の音声入力装置は所定のルールに基づいて複数にグループ化され、
前記グループに関する情報を記憶する領域を備え、
前記グループに関する記憶領域は、ネットワークに接続された音声入力装置に関する記憶領域と関連付けて作業を行う仕組みを備え、
前記グループに関する記憶領域の情報が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記ネットワークに接続された複数の音声入力装置は共通の時間情報を持ち、
前記音声入力装置が音声を検知した検知時間が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記ネットワークに接続された複数の音声入力装置は検知される音声の音量について共通の尺度を備え、
前記音声入力装置が検知した音声の音量が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記音声入力装置は周囲の雑音情報を計測する計測手段と、
前記計測手段から計測された雑音情報をもとに検知された前記音声の信号対雑音比情報を計算する計算手段を備え、
前記信号対雑音比情報が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記音声入力装置は過去の使用状況に関する履歴情報を記憶する記憶領域を備え、
前記履歴情報が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記音声入力装置は検知された前記音声を音声認識する音声認識手段を備え、
前記音声認識手段で認識された音声認識情報が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記音声入力装置は検知された前記音声の音源に関して識別を行う識別手段を備え、
前記音声入力装置は前記識別手段で識別された音源情報が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記ネットワークに接続された複数の音声入力装置は各々の前記音声入力装置を制御できる共通の制御命令体系を備え、
検知された前記音声に対してネットワーク上の他の音声入力装置へ前記制御命令を送信し、他の音声入力装置からの前記制御命令の受信し、前記制御命令の命令内容を実行することを特徴する請求項1記載の音声入力システム。 - 前記音声入力装置は前記ネットワークで接続された制御可能機器の情報を記憶する領域を備え、
検知された音声に対して、記憶された前記制御可能機器情報を利用することで、入力音声情報の処理及び制御可能機器との情報の授受を行うことを特徴する請求項1記載の音声入力システム。 - 前記音声入力装置は音声を検知する手段とは異なり、前記音声に関する情報を計測するセンサ・デバイスを備え、
前記センサ・デバイスで計測された前記音声に関する情報が前記判断情報であることを特徴とする請求項1記載の音声入力システム。 - 前記音声入力装置は検知した前記音声に対する処理の決定及び実行の判断する基準を他の音声入力装置から受信した前記判断情報を利用して変更する、あるいはユーザの設定によって変更することを特徴とする請求項1記載の音声入力システム。
- 前記音声入力装置はシステムの状態を表示する表出部を備え、
検知された前記音声やシステムがユーザに伝えたい情報についてどのように表出するかを制御する機能を備え、
処理の決定及び実行と情報の表出を行うことを特徴する請求項1記載の音声入力システム - 前記音声入力装置はその一部乃至全ての手段が前記音声入力装置以外の機能における手段と共有化されていることを特徴とする請求項1記載の音声入力システム。
- 前記音声入力装置の機能の一部が物理的には分かれていても、前記ネットワークを介して機能することを特徴とする請求項1記載の音声入力システム。
- ネットワークに接続された複数の音声入力装置において入力される音声をそれぞれ検知するステップと、
前記音声入力装置で入力される音声を検知したときに、検知した前記音声に関する判断情報を前記ネットワークを介して他の音声入力装置と授受するステップと、
前記音声入力装置は検知した前記音声に関する判断情報と、他の音声入力装置からの前記音声に関する判断情報とをもとに検知した前記音声に対する処理の決定及び実行の判断を行うステップとを含むことを特徴とする音声入力方法。 - ネットワークに接続された複数の音声入力装置において入力される音声をそれぞれ検知し、前記音声入力装置で入力される音声を検知したときに、検知した前記音声に関する判断情報を前記ネットワークを介して他の音声入力装置と授受し、前記音声入力装置は検知した前記音声に関する判断情報と、他の音声入力装置からの前記音声に関する判断情報とをもとに検知した前記音声に対する処理の決定及び実行の判断を行う機能を実現することを特徴とする音声入力プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002019457A JP4086280B2 (ja) | 2002-01-29 | 2002-01-29 | 音声入力システム、音声入力方法及び音声入力プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002019457A JP4086280B2 (ja) | 2002-01-29 | 2002-01-29 | 音声入力システム、音声入力方法及び音声入力プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003223188A JP2003223188A (ja) | 2003-08-08 |
JP4086280B2 true JP4086280B2 (ja) | 2008-05-14 |
Family
ID=27743292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002019457A Expired - Fee Related JP4086280B2 (ja) | 2002-01-29 | 2002-01-29 | 音声入力システム、音声入力方法及び音声入力プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4086280B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924681A (zh) * | 2015-09-11 | 2018-04-17 | 亚马逊技术股份有限公司 | 具有语音功能的装置之间的仲裁 |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4581441B2 (ja) * | 2004-03-18 | 2010-11-17 | パナソニック株式会社 | 家電機器システム、家電機器および音声認識方法 |
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
US9263058B2 (en) | 2010-06-24 | 2016-02-16 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
JP5556529B2 (ja) * | 2010-09-16 | 2014-07-23 | 株式会社デンソー | 車載音声認識装置 |
KR20130088637A (ko) * | 2012-01-31 | 2013-08-08 | 삼성전자주식회사 | 디스플레이장치 및 그 음성인식방법 |
JP6267636B2 (ja) * | 2012-06-18 | 2018-01-24 | エイディシーテクノロジー株式会社 | 音声応答装置 |
KR102091236B1 (ko) | 2012-09-28 | 2020-03-18 | 삼성전자 주식회사 | 전자기기 및 그 제어방법 |
US20140282273A1 (en) * | 2013-03-15 | 2014-09-18 | Glen J. Anderson | System and method for assigning voice and gesture command areas |
JP2015141226A (ja) * | 2014-01-27 | 2015-08-03 | パイオニア株式会社 | 情報処理装置 |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
CN106469040B (zh) | 2015-08-19 | 2019-06-21 | 华为终端有限公司 | 通信方法、服务器及设备 |
US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US11587559B2 (en) * | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
JP2017107333A (ja) * | 2015-12-08 | 2017-06-15 | キヤノン株式会社 | 通信機器及び通信機器の制御方法 |
JP6905115B2 (ja) * | 2015-12-08 | 2021-07-21 | キヤノン株式会社 | 通信装置、制御方法、およびプログラム |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
EP3507798A1 (en) * | 2016-10-03 | 2019-07-10 | Google LLC | Processing voice commands based on device topology |
US10181323B2 (en) * | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10332523B2 (en) | 2016-11-18 | 2019-06-25 | Google Llc | Virtual assistant identification of nearby computing devices |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
JP6997554B2 (ja) * | 2017-08-03 | 2022-01-17 | シャープ株式会社 | 家電装置システム |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10482904B1 (en) | 2017-08-15 | 2019-11-19 | Amazon Technologies, Inc. | Context driven device arbitration |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
WO2019112625A1 (en) * | 2017-12-08 | 2019-06-13 | Google Llc | Signal processing coordination among digital voice assistant computing devices |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
JP7018850B2 (ja) * | 2018-08-20 | 2022-02-14 | ヤフー株式会社 | 端末装置、決定方法、決定プログラム及び決定装置 |
KR20230145521A (ko) | 2018-08-23 | 2023-10-17 | 구글 엘엘씨 | 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기 |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
JP2020086977A (ja) * | 2018-11-27 | 2020-06-04 | プラス株式会社 | 翻訳装置 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
JP2020181016A (ja) * | 2019-04-23 | 2020-11-05 | コニカミノルタ株式会社 | 情報処理システム、情報処理装置、端末装置、およびプログラム |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
CN111276139B (zh) * | 2020-01-07 | 2023-09-19 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
JP2020129130A (ja) * | 2020-04-27 | 2020-08-27 | パイオニア株式会社 | 情報処理装置 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
JP7077375B2 (ja) * | 2020-09-17 | 2022-05-30 | シャープ株式会社 | 応答システム |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
-
2002
- 2002-01-29 JP JP2002019457A patent/JP4086280B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924681A (zh) * | 2015-09-11 | 2018-04-17 | 亚马逊技术股份有限公司 | 具有语音功能的装置之间的仲裁 |
CN107924681B (zh) * | 2015-09-11 | 2022-05-17 | 亚马逊技术股份有限公司 | 用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的*** |
Also Published As
Publication number | Publication date |
---|---|
JP2003223188A (ja) | 2003-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4086280B2 (ja) | 音声入力システム、音声入力方法及び音声入力プログラム | |
US11922095B2 (en) | Device selection for providing a response | |
KR102543693B1 (ko) | 전자 장치 및 그의 동작 방법 | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP4109414B2 (ja) | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2018049143A (ja) | 音声取得システムおよび音声取得方法 | |
JP3838029B2 (ja) | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム | |
JP2006227634A (ja) | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 | |
JP2003202888A (ja) | 無線通信機能付きヘッドセットおよびこれを用いた音声処理システム | |
JP2012047924A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2016080750A (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
KR101644015B1 (ko) | 시스템과 다수 사용자 간의 대화 인터페이스 장치 | |
KR20190096308A (ko) | 전자기기 | |
JP2007322523A (ja) | 音声翻訳装置及びその方法 | |
JP2006243555A (ja) | 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法 | |
JP2006023773A (ja) | 音声処理システム | |
WO2019187521A1 (ja) | 音声情報送信装置、音声情報送信方法、音声情報送信プログラム、音声情報解析システム及び音声情報解析サーバ | |
JP2016206646A (ja) | 音声再生方法、音声対話装置及び音声対話プログラム | |
JP2004318026A (ja) | セキュリティペットロボット及びその装置に関する信号処理方法 | |
JP5610283B2 (ja) | 外部機器制御装置、その外部機器制御方法及びプログラム | |
WO2020240789A1 (ja) | 音声対話制御装置及び音声対話制御方法 | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP7055327B2 (ja) | 会話収集装置、会話収集システム及び会話収集方法 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040225 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050414 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060710 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070523 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080218 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120229 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120229 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130228 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140228 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |