WO2019026314A1

WO2019026314A1 - 情報処理装置、音声認識システム、及び、情報処理方法

Info

Publication number: WO2019026314A1
Application number: PCT/JP2018/003522
Authority: WO
Inventors: 小塚　雅之; 智輝小川; 美裕森
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2017-08-02
Filing date: 2018-02-02
Publication date: 2019-02-07
Also published as: JPWO2019026313A1; EP3663905B1; US20190187953A1; JP7033713B2; SG11201901419QA; US10803872B2; JP6928882B2; MX2019001803A; CN109601016B; SG11201901441QA; EP3663906A1; CN109601016A; US20190214015A1; WO2019026313A1; BR112019002607A2; CN109601017B; EP3663906A4; BR112019002636A2; CN109601017A; JPWO2019026314A1

Abstract

情報処理装置（１０ｂ）は、ユーザの音声を取得する音声取得部（１１）と、音声取得部（１１）によって取得された音声が第一起動ワードであると認識した場合に、第一起動ワードに対応する音声信号を出力する第一制御部（１２ｂ）と、第二制御部（１３ｂ）とを備える。第一制御部（１２ｂ）は、音声取得部（１１）によって取得された音声の音声信号をＶＰＡクラウドサーバ（１２０ｂ）へ送信する第一音声送信処理中に音声取得部（１１）によって取得された音声が、第二制御部（１３ｂ）に第二音声送信処理を開始させるための第二起動ワードを示すと認識した場合に、所定の優先度に基づいて第二起動ワードに対応する音声信号を第二制御部（１３ｂ）に出力するか否かの判定を行う。

Description

情報処理装置、音声認識システム、及び、情報処理方法

　本開示は、音声認識システムに用いられる情報処理装置に関する。

　ＶＰＡ（Ｖｉｒｔｕａｌ　Ｐｅｒｓｏｎａｌ　Ａｓｓｉｓｔａｎｃｅ）と呼ばれる、音声で機器を操作するサービスが普及し始めている。特許文献１には、起動ワードを検出した場合にユーザの発話を予測する情報処理装置が開示されている。

特開２０１７－１３８４７６号公報

　主な音声認識がクラウドサーバで行われる場合、情報処理装置は、例えば、起動ワードを認識することにより音声認識サーバへの音声信号の送信を開始する。

　本開示は、複数の音声認識サーバへ選択的に音声信号を送信することができる情報処理装置を提供する。

　本開示の一態様に係る情報処理装置は、ユーザの音声を取得する音声取得部と、前記音声取得部によって取得された音声が第一起動ワードであると認識した場合に、前記第一起動ワードに対応する音声信号を出力する第一制御部と、前記第一制御部によって出力された音声信号が前記第一起動ワードを示すと認識した場合に、前記音声取得部によって取得された音声の音声信号を第一音声認識サーバへ送信する第一音声送信処理を開始する第二制御部とを備え、前記第一制御部は、前記第一音声送信処理中に前記音声取得部によって取得された音声が、前記第二制御部に第二音声送信処理を開始させるための第二起動ワードであると認識した場合に、所定の優先度に基づいて前記第二起動ワードに対応する音声信号を前記第二制御部に出力するか否かの判定を行い、前記第二音声送信処理は、前記音声取得部によって取得された音声の音声信号を前記第一音声認識サーバと異なる第二音声認識サーバへ送信する処理である。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示の情報処理装置は、複数の音声認識サーバへ選択的に音声信号を送信することができる。

図１は、スマートスピーカの機能を説明するための図である。図２は、スマートスピーカを用いた家電の制御を説明するための図である。図３は、サービスと起動ワードとの関係を示す図である。図４は、ユーザがスマートフォンを使ってサービスを呼び出す場合を説明するための図である。図５は、実施の形態１に係る音声認識システムの構成を示すブロック図である。図６は、実施の形態１に係る音声認識システムの動作のフローチャートである。図７は、実施の形態１における、サービスと起動ワードとの関係を示す図である。図８は、実施の形態２に係る音声認識システムの動作のフローチャートである。図９は、実施の形態２における、サービスと起動ワードとの関係を示す図である。図１０は、実施の形態３に係る音声認識システムの構成を示すブロック図である。図１１は、実施の形態３に係る音声認識システムの動作のフローチャートである。図１２は、実施の形態４に係る音声認識システムの構成を示すブロック図である。図１３は、実施の形態４に係る音声認識システムの動作のフローチャートである。図１４は、実施の形態５に係る音声認識システムの構成を示す簡易ブロック図である。図１５は、実施の形態６に係る音声認識システムの構成を示す簡易ブロック図である。

　（本開示の基礎となった知見）
　米国アマゾン（登録商標）社が提供するアレクサ（登録商標）、米国Ｇｏｏｇｌｅ（登録商標）社が提供するＧｏｏｇｌｅ　Ａｓｓｉｓｔａｎｔ（登録商標）、米国マイクロソフト（登録商標）社が提供するＣｏｒｔａｎａ（登録商標）等のいわゆるＶＰＡ（Ｖｉｒｔｕａｌ　Ｐｅｒｓｏｎａｌ　Ａｓｓｉｓｔａｎｃｅ）と呼ばれる、音声で機器を操作するサービスが普及し始めている。

　このようなサービスは、当初はスマートフォンまたはパーソナルコンピュータのアプリケーションとして提供されていたが、最近、スマートスピーカと呼ばれる単体の製品へのアプリケーションとしても提供されている。スマートスピーカは、ユーザが音声によって操作可能なスピーカであり、主として音楽ストリーミングサービスの提供を受けるためのスピーカである。つまり、スマートスピーカの主たる機能は、ユーザの音声に応じて、オーディオストリーミングサービスから提供される音楽を再生させることである。図１は、スマートスピーカの機能を説明するための図である。

　スマートスピーカ１１０の主たる機能は以下のように実現される。スマートスピーカ１１０が取得したユーザの音声の音声信号は、ＶＰＡクラウドサーバ１２０に送信される。ＶＰＡクラウドサーバ１２０は、受信した音声信号を音声認識処理してオーディオストリーミングサービスを提供するクラウドサーバ１３１に指令を送信し、クラウドサーバ１３１は、受信した指令に基づいてスマートスピーカ１１０に音楽を転送する。

　このような仕組みは、オーディオストリーミングサービスを提供するクラウドサーバ１３１のみならず、サードパーティクラウドサーバ群１３０に含まれる他のクラウドサーバにも適用できる。サードパーティクラウドサーバ群１３０のサービスプロバイダによってＶＰＡサービスのプロバイダにサードパーティクラウドＩ／Ｆが提供されれば、ユーザは、スマートフォンと同様に、スマートスピーカ１１０からサードパーティクラウドサーバ群１３０が提供するサービスを利用することが可能になる。

　例えば、ユーザは、スマートスピーカ１１０に「今日の天気は」と発話することにより、天気予報サービスを提供するクラウドサーバ１３２から天気予報情報の提供を受けることができる。具体的には、スマートスピーカ１１０から「晴れです」といった音声が出力される。また、ユーザは、ｅコマースサイトを提供するクラウドサーバ１３３において、ユーザの商品の購入履歴が記憶されていれば、ユーザは、スマートスピーカ１１０に「同じ商品を買って」と発話することで同じ商品の購入を図ることができる。

　このようなスマートスピーカ１１０を通じた多様な対話機能は、住宅などに置かれたスマートスピーカ１１０が備えるマイクロフォンが、ユーザの音声、テレビの音声、及び、ラジオの音声などを録音して、ＶＰＡクラウドサーバ１２０に転送することによって実現される。ＶＰＡクラウドサーバ１２０は、音声認識機能（ＡＳＲ：　ａｕｔｏｍａｔｉｃ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ）によって音声信号をテキストに変換し、自然言語処理機能（ＮＬＰ：　ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ）によってテキストを機械語化する。ＶＰＡクラウドサーバ１２０は、さらに、コンテキスト理解機能によって機械語を特定のコンテキストにあった意味に変換し、最後にパーソナライズド機能によって各ユーザの情報に応じた指示内容に変換する。ＶＰＡクラウドサーバ１２０は、このような指示内容を指令として送信することにより、サードパーティクラウドサーバ群１３０を呼び出すことができる。

　また、スマートスピーカ１１０を用いれば、ＶＰＡクラウドサーバ１２０のＶＰＡによって住宅内の家電を制御することもできる。図２は、スマートスピーカ１１０を用いた家電の制御を説明するための図である。

　図２に示されるように、ＶＰＡクラウドサーバ１２０が家電制御サーバ１４０に接続されれば、ユーザの住宅内のエアコン、照明、セキュリティシステム、または、テレビ等を音声によって制御することができる。

　図２では、制御対象の機器としてエアコンａ～エアコンｄを含むエアコン群１５０が例示されている。ユーザがスマートスピーカ１１０に対して「外出するので設定お願い」と発話すると、この音声の音声信号は、ＶＰＡクラウドサーバ１２０に送信される。ＶＰＡクラウドサーバ１２０は、音声認識機能によって音声信号をテキスト化し、自然言語処理機能によって外出モードの設定を指示する機械語に変換する。また、ＶＰＡクラウドサーバ１２０は、コンテキスト理解機能によって、外出モードの設定を指示する機械語をユーザの住宅内の電気機器をオフするコマンドに変換し、パーソライズド機能によって、ユーザ情報に基づき４台のエアコンをオフするコマンドに変換する。このように、ＶＰＡを利用した家電制御によれば、ユーザが「外出するので設定お願い」と発話することにより４台のエアコンａ～ｄがオフされる。つまり、ＶＰＡを利用した家電制御によれば、個々のエアコンａ～ｄをリモートコントローラの使用によってオフする以上の機能が実現される。

　ところで、ユーザは、スマートフォンによってこのようなＶＰＡを利用する場合は、スマートフォンが備えるボタンを操作するか、あるいは、スマートフォンに表示されたアイコンをタッチする等の操作を行うことでＶＰＡを起動することができる。

　一方、スマートスピーカ１１０によってＶＰＡを利用する場合に、スマートスピーカ１１０が備えるボタンの操作によってＶＰＡを起動すると、音声によってハンズフリーで操作が可能なスマートスピーカ１１０の利点が得られない。このため、スマートスピーカ１１０によってＶＰＡを利用する場合、ＶＰＡの起動は、音声によって行われることが望ましい。例えば、あらかじめ起動ワードが定められ、ＶＰＡクラウドサーバ１２０によって起動ワードが認識されることでＶＰＡが起動される構成が考えられる。起動ワードは、ウェイクワード等と呼ばれる場合もある。

　しかしながら、このような構成では、スマートスピーカ１１０が備えるマイクロフォンを通じて音声信号が常にＶＰＡクラウドサーバ１２０に転送される必要がある。そうすると、ユーザは自分のプライバシーが守られないことを懸念する。したがって、ユーザのプライバシーを考慮するとこのような構成を採用することは難しい。

　そこで、起動ワードに関してはスマートスピーカ１１０において音声認識する構成が採用される。ＶＰＡが起動された後にスマートスピーカ１１０が備えるマイクロフォンによって取得される音声の音声信号は、ＶＰＡクラウドサーバ１２０に転送される。図３は、サービスと起動ワードとの関係を示す図である。

　図３に示されるように、現状、ユーザは、スマートスピーカ１１０を経由して、オーディオストリーミングサービス、天気予報サービス、及び、ｅコマースサイトなどのＶＰＡ提供サービス（家電制御サービス以外のサービス）を呼び出すときも、家電制御サービスを呼び出すときも、ＶＰＡサービスプロバイダが指定する起動ワードを使うことになる。ＶＰＡサービスプロバイダをＢ社とすると、起動ワードは、例えば、「Ｂ社」、「Ｈｅｙ　Ｂ社」などである。

　ＶＰＡが起動された後には、ユーザは、機能起動ワード、及び、コマンド内容をスマートスピーカ１１０に対して発話することでＶＰＡ提供サービス及び家電制御サービスを呼び出すことができる。

　例えば、上述のエアコン群１５０の製造・販売を行うＡ社が家電制御サービスを提供している場合には、ユーザは、機能起動ワードとして「Ａ社」と発話し、制御対象及び制御内容を指定するためのコマンド内容として「エアコン　ＯＮ」と発話する。これにより、住宅内のエアコン群１５０の制御が可能となる。

　ところで、図４に示されるように、ユーザがスマートフォンを使う場合、ＶＰＡ提供サービスを呼び出すために用いられるアプリケーションと、家電制御サービスを呼び出すために用いられるアプリケーションとは、通常異なる。図４は、ユーザがスマートフォンを使ってサービスを呼び出す場合を説明するための図である。このため、ユーザは、ＶＰＡ提供サービスの世界と、家電制御サービスの世界とは別の世界であると認識し、２つの異なるサービス体系があると考える。

　このように２つのサービス体系があることを認識したユーザが、Ａ社が製造・販売するスマートスピーカ１１０のようなＶＰＡ機器を購入し使用する場合がある。ＶＰＡ提供サービスを呼び出す場合に、ＶＰＡサービスプロバイダが指定する起動ワードを使うことは、ユーザにとってスマートフォンを使ってアプリを実行することと同じような感覚である。このため、ユーザに違和感はなく自然である。

　しかしながら、家電制御サービスを呼び出す場合に、ＶＰＡサービスプロバイダが指定する起動ワードを使うと、ユーザに違和感を与えてしまう可能性がある。

　例えば、制御対象の家電機器、及び、ＶＰＡ機器に製造・販売元のＡ社のロゴが付与されている場合、Ａ社の家電機器を制御するために、ＶＰＡサービスプロバイダが指定する「Ｂ社」「Ｈｅｙ　Ｂ社」などの起動ワードを発話することは不自然である。

　また、ユーザは、家電制御サービスの提供元がＡ社ではなく、ＶＰＡサービスプロバイダ（つまり、Ｂ社）であると勘違いしてしまう可能性もある。家電制御サーバ１４０において発生した障害により家電制御サービスが提供されなかった場合に、ユーザは、ＶＰＡサービスプロバイダの問題であると考え、ＶＰＡサービスプロバイダの電話相談窓口に電話する恐れがある。このように、ＶＰＡサービスプロバイダが指定する起動ワードが使用される場合には、ユーザにとってサービスの提供者（つまり、責任者）がわかりづらくなることも課題となる。

　そこで、発明者らは、ＶＰＡサービスプロバイダが指定する起動ワード以外で音声認識システムを起動することができるスマートスピーカ１１０の構成を見出した。また、発明者らは、複数のＶＰＡクラウドサーバに接続することができるスマートスピーカ１１０の構成を見出した。

　以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略または簡略化される場合がある。

　（実施の形態１）
　［構成］
　以下、実施の形態１に係る音声認識システムの構成について説明する。図５は、実施の形態１に係る音声認識システムの構成を示すブロック図である。

　図５に示されるように、実施の形態１に係る音声認識システム１００は、スマートスピーカ１１０と、ＶＰＡクラウドサーバ１２０と、サードパーティクラウドサーバ群１３０と、家電制御サーバ１４０と、エアコン群１５０とを備える。スマートスピーカ１１０及びエアコン群１５０は、ユーザの住宅などに設置されている。

　音声認識システム１００においては、スマートスピーカ１１０の音声取得部１１によって取得された音声の音声信号はＶＰＡクラウドサーバ１２０に送信され、音声認識処理される。ただし、上述した起動ワードについては、スマートスピーカ１１０内で音声認識処理される。以下、音声認識システム１００を構成するスマートスピーカ１１０、ＶＰＡクラウドサーバ１２０、及び、家電制御サーバ１４０について詳細に説明する。

　［スマートスピーカ］
　スマートスピーカ１１０は、音声ユーザインターフェースとして、ＶＰＡクラウドサーバ１２０へ音声信号を送信する情報処理装置１０を備える。情報処理装置１０は、音声取得部１１と、第一制御部１２と、第二制御部１３と、通信部１４と、出音部１５と、記憶部１６とを備える。

　音声取得部１１は、ユーザの音声を取得する。音声取得部１１は、具体的には、マイクロフォンである。

　第一制御部１２は、音声取得部１１と第二制御部１３との間に位置し、音声取得部１１からユーザの音声の音声信号を取得し、取得したユーザの音声を常時モニタする。言い換えれば、第一制御部１２は、音声取得部１１から第二制御部１３への音声の経路上に位置する。第一制御部１２は、音声取得部１１によって取得された音声が第一起動ワードであると認識した場合に、ＶＰＡサービスプロバイダ（つまり、Ｂ社）が指定する第二起動ワードに対応する音声信号を出力する。ここで、第一起動ワードは、例えば、ハードウェアプロバイダ（つまり、スマートスピーカ１１０の製造・販売元のＡ社）が指定するハード指定起動ワードであり、第二起動ワードとは異なる。

　このように、第一制御部１２は、第一起動ワードを第二起動ワードに変換して第二制御部１３に出力する。これにより、ユーザが第一起動ワードを発話し、第一起動ワードが音声取得部１１によって取得されても、第二制御部１３は第二起動ワードが取得されたと認識する。第二起動ワードが取得されたと認識した第二制御部１３は、従来通りＶＰＡサービスプロバイダが提供するＶＰＡ　ＳＤＫ（Ｓｏｆｔｗａｒｅ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｋｉｔ）に従ってＶＰＡ機能をＯＮするための起動処理を行う。つまり、第一制御部１２によれば、第二制御部１３に第一起動ワードによって起動処理を行わせることができる。第一起動ワードとしてハード指定起動ワードが用いられる場合、このような第一制御部１２の機能は、ハード指定起動ワード検索機能とも記載される。

　なお、実施の形態１では、第一制御部１２は、音声取得部１１によって取得された音声の音声信号が第二起動ワードであると認識した場合に、第二起動ワードに対応する音声信号を出力する。これにより、第二制御部１３は、音声取得部１１によって取得された音声が第一起動ワード及び第二起動ワードのどちらであっても起動処理を行うことができる。

　以上説明した第一制御部１２は、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。

　第二制御部１３は、第一制御部１２によって出力された音声信号が第二起動ワードを示すと認識した場合に、音声取得部１１によって取得された音声（より詳細には、音声取得部１１によって取得された音声の音声信号）のＶＰＡクラウドサーバ１２０への送信を開始するための起動処理を行う。第二制御部１３は、具体的には、記憶部１６に記憶されたＶＰＡ　ＳＤＫを実行する。第二制御部１３は、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。

　通信部１４は、ＶＰＡ機能がオンされた後、第二制御部１３の制御に基づいて音声信号をＶＰＡクラウドサーバ１２０の通信部１２１に送信する。通信部１４は、具体的には、通信モジュールである。通信モジュールは、言い換えれば、通信回路である。通信部１４は、有線通信を行ってもよいし、無線通信を行ってもよい。なお、図示されないが、通信部１４と通信部１２１との間には、ブロードバンドルータなどの中継装置、及び、インターネットなどの通信ネットワークが介在する。

　出音部１５は、第二制御部１３の制御に基づいて出音する。出音部１５は、例えば、オーディオストリーミングサービスを提供するクラウドサーバ１３１から通信部１４に転送される音楽を出音する。出音部１５は、具体的には、スピーカである。

　記憶部１６は、第一制御部１２が第一起動ワード及び第二起動ワードを認識するために実行する音声認識用プログラム、第二制御部１３が実行するＶＰＡ　ＳＤＫなどが記憶される記憶装置である。また、記憶部１６には、第一制御部１２が第一起動ワードまたは第二起動ワードに対応する音声信号を出力するために読み出す音声データが記憶されてもよい。記憶部１６は、音声取得部１１によって取得された音声が音声データとして一時的に記憶されるバッファメモリとして利用されてもよい。記憶部１６は、具体的には、半導体メモリなどによって実現される。

　［ＶＰＡクラウドサーバ］
　ＶＰＡクラウドサーバ１２０は、スマートスピーカ１１０の起動後（ＶＰＡ機能がオンした後）に音声取得部１１によって取得された音声の音声信号を受信し、受信した音声信号を音声認識処理することにより、ＶＰＡ提供サービスまたは家電制御サービスを実現する。ＶＰＡクラウドサーバ１２０は、音声認識サーバの一例である。ＶＰＡクラウドサーバ１２０は、通信部１２１と、ＶＰＡ制御部１２２と、記憶部１２３とを備える。

　通信部１２１は、スマートスピーカ１１０の通信部１４によって送信される音声信号を受信する。また、通信部１２１は、ＶＰＡ制御部１２２の制御部に基づいて、サードパーティクラウドサーバ群１３０または家電制御サーバ１４０に指令を送信する。通信部１２１は、具体的には、通信モジュールである。通信モジュールは、言い換えれば、通信回路である。

　ＶＰＡ制御部１２２は、通信部１２１によって受信された音声信号を音声認識処理し、音声認識処理の結果得られる指令を通信部１２１に送信させる。上述のように、音声認識処理においては、音声認識機能、自然言語処理機能、コンテキスト理解機能、及び、パーソナライズド機能などが用いられる。ＶＰＡ制御部１２２は、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。

　記憶部１２３は、ＶＰＡ制御部１２２が音声認識処理を行うために実行する音声認識用プログラムなどが記憶される記憶装置である。また、記憶部１２３には、サードパーティクラウドサーバ群１３０が提供する各種サービスに対応したプログラムであるサードパーティクラウドＩ／Ｆも記憶される。記憶部１２３は、具体的には、半導体メモリなどによって実現される。

　［家電制御サーバ］
　家電制御サーバ１４０は、ＶＰＡクラウドサーバ１２０から指令を受信し、受信した指令に基づいてエアコン群１５０を制御することにより家電制御サービスをユーザに提供する。なお、エアコン群１５０は、制御対象の家電機器の一例であり、制御対象の家電機器は、エアコン以外の家電機器であってもよい。家電制御サーバ１４０は、通信部１４１と、家電制御部１４２と、記憶部１４３とを備える。

　通信部１４１は、ＶＰＡクラウドサーバ１２０の通信部１２１によって送信される指令を受信する。また、通信部１４１は、家電制御部１４２の制御部に基づいて、エアコン群１５０に制御信号を送信する。通信部１４１は、具体的には、通信モジュールである。通信モジュールは、言い換えれば、通信回路である。

　家電制御部１４２は、通信部１４１によって受信された指令に応じた制御信号を通信部１４１に送信させる。家電制御部１４２は、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。

　記憶部１４３は、家電制御部１４２がエアコン群１５０を制御するための制御プログラムなどが記憶される記憶装置である。記憶部１４３は、具体的には、半導体メモリなどによって実現される。

　［動作］
　次に、音声認識システム１００の動作について説明する。図６は、音声認識システム１００の動作のフローチャートである。

　まず、スマートスピーカ１１０の第二制御部１３は、初期化処理を行う（Ｓ１１）。初期化処理は、例えば、スマートスピーカ１１０への給電が開始された際に行われる。スマートスピーカ１１０は、初期化処理によって第一起動ワード及び第二起動ワードの認識が可能な待機状態となる。なお、待機状態においては、ＶＰＡクラウドサーバ１２０への音声信号の送信は停止されている。

　次に、音声取得部１１は、ユーザの音声を取得する（Ｓ１２）。第一制御部１２は、取得された音声の音声信号音声認識処理を行い、音声取得部１１によって取得された音声が第一起動ワードであるか否かを判定する（Ｓ１３）。上述のように、第一起動ワードは、例えば、ハードウェアプロバイダ（つまり、スマートスピーカ１１０の製造・販売元のＡ社）が指定するハード指定起動ワードである。第一起動ワードは、例えば、「Ａ社」である。

　第一制御部１２は、音声取得部１１によって取得された音声が第一起動ワードであると判定した場合（Ｓ１３でＹｅｓ）、記憶部１６にあらかじめ記憶された第二起動ワードに対応する音声データを読み出し（Ｓ１４）、第二起動ワードに対応する音声信号を第二制御部１３に出力する（Ｓ１６）。第二起動ワードは、ＶＰＡサービスプロバイダ（つまり、Ｂ社）が指定する起動ワードである。第二起動ワードは、例えば、「Ｂ社」、「Ｈｅｙ　Ｂ社」などである。

　一方、第一制御部１２は、音声取得部１１によって取得された音声が第一起動ワードでないと判定した場合（Ｓ１３でＮｏ）、音声取得部１１によって取得された音声が第二起動ワードであるか否かを判定する（Ｓ１５）。

　第一制御部１２は、音声取得部１１によって取得された音声が第二起動ワードであると判定した場合（Ｓ１５でＹｅｓ）、第二起動ワードに対応する音声信号を第二制御部１３に出力する（Ｓ１６）。なお、この場合、第一制御部１２は、例えば、ステップＳ１２において取得された音声の音声信号を一時的に記憶部１６に記憶しておき、記憶された音声信号を第二制御部１３に出力するが、ステップＳ１４と同様に記憶部１６にあらかじめ記憶された第二起動ワードに対応する音声データを読み出してもよい。第一制御部１２は、音声取得部１１によって取得された音声が第二起動ワードでないと判定した場合（Ｓ１５でＮｏ）、待機状態が継続され、音声取得部１１による音声の取得が行われる（Ｓ１１）。

　なお、待機状態において、音声取得部１１によって取得された第一起動ワード及び第二起動ワード以外の音声の音声信号は第一制御部１２を通じて第二制御部１３に出力されてもよいし、第一制御部１２によって第二制御部１３への出力が停止されてもよい。

　第二制御部１３は、第一制御部１２によって第二起動ワードに対応する音声信号が出力されると（Ｓ１６）、これを第二起動ワードであると認識し、起動処理を行う（Ｓ１７）。起動処理は、音声取得部１１によって取得された音声の音声信号のＶＰＡクラウドサーバ１２０への送信を開始するための処理であり、この結果、ＶＰＡ機能がオンされる。

　音声取得部１１は、起動処理後も継続して音声を取得し（Ｓ１８）、第二制御部１３は、起動処理後に音声取得部１１によって取得された音声の音声信号を、通信部１４を用いてＶＰＡクラウドサーバ１２０にリアルタイム送信する（Ｓ１９）。

　ＶＰＡクラウドサーバ１２０の通信部１２１は、通信部１４から音声信号を受信し、取得した音声信号に対して音声認識処理を行う（Ｓ２０）。この結果、ステップＳ１８において取得された音声応じて、ユーザに様々なサービスが提供される。

　以上説明したように、音声認識システム１００においては、第一制御部１２は、第一起動ワードを第二起動ワードに変換して第二制御部１３に出力する。これにより、ユーザが第一起動ワードを発話し、第一起動ワードが音声取得部１１によって取得されても、第二制御部１３は第二起動ワードが取得されたと認識する。第二起動ワードが取得されたと認識した第二制御部１３は、これまで通りＶＰＡサービスプロバイダが提供するＶＰＡ　ＳＤＫに従ってＶＰＡ機能をＯＮするための起動処理を行い、ＶＰＡ機能をオンすることができる。言い換えれば、第一制御部１２によれば、ＶＰＡ　ＳＤＫを改変することなく、第一起動ワードによってＶＰＡ機能をオンすることができる。

　また、第一制御部１２は、音声取得部１１によって取得された音声が第二起動ワードであると認識した場合に、第二起動ワードに対応する音声信号を出力する。これにより、第二制御部１３は、音声取得部１１によって取得された音声が第一起動ワード及び第二起動ワードのどちらであっても起動処理を行い、ＶＰＡ機能をオンすることができる。図７は、実施の形態１における、サービスと起動ワードとの関係を示す図である。図７に示されるように、実施の形態１では、ＶＰＡサービスプロバイダが指定する単語（つまり、第二起動ワード）に加えて、Ａ社が指定する単語（つまり、第一起動ワード）が起動ワードとして追加される。

　このような構成においては、ユーザは、ＶＰＡ提供サービスを受けたい場合には、第二起動ワードを発話し、家電制御サービスを受けたい場合には第一起動ワードを発話する、などの使い分けを行うこともできる。このような使い分けは、図４で説明したスマートフォン１６０におけるアプリケーションの使い分けに類似しているため、ユーザに違和感を与えにくいと考えられる。

　なお、起動ワードは、ユーザによって指定されてもよく、例えば、図７に示されるように、ユーザのペットの名前等が用いられてもよい。この場合、記憶部１６には、ユーザの音声に基づいて起動ワードをユーザ指定の単語にするための音声認識プログラムが記憶される。

　（実施の形態２）
　ところで、図７に示されるように、ユーザは、例えば、エアコンに外出モードの動作を行わせるために、第一起動ワードである「Ａ社」と発話してスマートスピーカ１１０を起動した後、機能起動ワードとして「Ａ社」と発話し、さらに、コマンド内容として「外出モード」と発話する。つまり、「Ａ社」を２度発話する必要がある。

　ここで、第一起動ワードが「Ａ社」のような家電機器の製造・販売元の社名である場合、第一起動ワードの次に家電制御サービスを受けるための機能起動ワードが発話される可能性は高くなる。このような場合、第一制御部１２は、音声取得部１１によって取得された音声が第一起動ワードであると認識した場合に、第二起動ワードに対応する音声信号を出力するだけでなく、さらに、機能起動ワードに対応する音声信号を出力してもよい。図８は、このような音声認識システム１００の動作のフローチャートである。以下の実施の形態２では、主として図６のフローチャートとの差分について説明が行われ、既出事項については説明が省略される場合がある。

　また、実施の形態２では、機能起動ワードは、指定ワードとも記載される。上述のようにＶＰＡクラウドサーバ１２０は、起動処理の後にスマートスピーカ１１０（つまり、情報処理装置１０）から受信した音声信号の音声認識結果に応じて他のサーバに指令を送信する。指定ワードは、この指令の送信先のサーバを指定するための単語である。

　実施の形態１と同様に、ステップＳ１３において第一制御部１２は、音声取得部１１によって取得された音声が第一起動ワードであるか否かを判定する（Ｓ１３）。第一制御部１２は、音声取得部１１によって取得された音声が第一起動ワードであると判定した場合（Ｓ１３でＹｅｓ）、記憶部１６にあらかじめ記憶された第二起動ワードに対応する音声データを読み出す（Ｓ１４）。そして、第一制御部１２は、指定ワード送信モードをオンにする（Ｓ２１）。第一制御部１２は、具体的には、例えば、記憶部１６内で指定ワード送信モードに対応するフラグを立てる。

　その後、第一制御部１２は、第二起動ワードに対応する音声信号を第二制御部１３に出力し（Ｓ１６）、第二制御部１３は、これを第二起動ワードであると認識し、起動処理を行う（Ｓ１７）。

　音声取得部１１は、起動処理後も継続して音声を取得する（Ｓ１８）。ここで、第一制御部１２は、指定ワード送信モードがオンであるか否かを判定する（Ｓ２２）。第一制御部１２は、具体的には、記憶部１６を参照することにより、指定ワード送信モードに対応するフラグが立っているか否かを判定する。

　第一制御部１２は、指定ワード送信モードがオンであると判定すると（Ｓ２２でＹｅｓ）、記憶部１６にあらかじめ記憶された指定ワードに対応する音声データを読み出し、指定ワードに対応する音声信号を第二制御部１３に出力する。そうすると、第二制御部１３は、指定ワードに対応する音声信号を通信部１４にＶＰＡクラウドサーバ１２０へ送信させる（Ｓ２３）。

　その後、第二制御部１３は、起動処理後に音声取得部１１によって取得された音声の音声信号を、通信部１４に送信させる（Ｓ１９）。第一制御部１２によって指定ワード送信モードがオンでないと判定された場合には（Ｓ２２でＮｏ）、ステップＳ２３は、省略される。

　以上説明したように、図８のフローチャートにおいては、第一制御部１２は、音声取得部１１によって取得された音声が第一起動ワードであると認識した場合に（Ｓ１３でＹｅｓ）、第二起動ワードに対応する音声信号を出力し（Ｓ１６）、さらに、指定ワードに対応する音声信号を出力する（Ｓ２３）。指定ワードに対応する音声信号は、ユーザが指定ワードを発話しておらず、音声取得部１１が指定ワードに対応する音声を取得していないにもかかわらず出力される。

　これにより、ユーザは、指定ワードの発話を省略することができる。図９に示されるように、指定ワードとして「Ａ社」に対応する音声信号が送信されれば、ユーザは、「Ａ社」の発話を省略することができる。図９は、実施の形態２における、サービスと起動ワードとの関係を示す図である。

　このような指定ワードの自動送信は、ユーザが、ＶＰＡ提供サービスを受けたい場合には第二起動ワードを発話し、家電制御サービスを受けたい場合には第一起動ワードを発話する、などの使い分けを行う場合に有用である。

　なお、指定ワードは、例えば、第一起動ワードと同一の「Ａ社」である。つまり、第一制御部１２は、指定ワードに対応する音声信号として、第一起動ワードに対応する音声信号を出力する。しかしながら、指定ワードと第一起動ワードは異なってもよい。例えば、図９に基づき、第一起動ワードが「Ａ社」で、指定ワードが「テレビ」であってもよい。

　（実施の形態３）
　情報処理装置１０は、スマートスピーカ１１０以外の家電機器に実装されてもよい。例えば、情報処理装置１０は、洗濯機に実装されてもよい。図１０は、このような実施の形態３に係る音声認識システムの構成を示すブロック図である。

　図１０に示されるように、実施の形態３に係る音声認識システム１００ａは、洗濯機１７０と、ＶＰＡクラウドサーバ１２０と、家電制御サーバ１４０と、洗濯機群１８０とを備える。洗濯機１７０は、ユーザの住宅などに設置されており、洗濯機群１８０にも含まれる。

　洗濯機１７０は、洗濯機能を実現するための洗濯制御部２０に加えて、情報処理装置１０を備える。つまり、洗濯機１７０は、ＶＰＡに対応した家電機器である。洗濯機１７０は、例えば、Ａ社によって製造・販売される家電機器である。

　ユーザは、例えば、洗濯機１７０の洗濯開始ボタンを押した後に、「洗濯が終ったら教えて」と発話する。そうすると、洗濯の完了後、家電制御サーバ１４０からユーザのスマートフォン１６０に完了メッセージが送信される。

　音声認識システム１００ａでは、主として洗濯機１７０に関連する家電制御サービスの提供を受けることが想定されている。このため、音声認識システム１００ａには、サードパーティクラウドサーバ群１３０は含まれていない。したがって、Ａ社で製造・販売された洗濯機１７０の起動ワードとして、ＶＰＡサービスプロバイダが指定する第二起動ワード（例えば、「Ｂ社」「Ｈｅｙ　Ｂ社」）が用いられることは、非常に不自然である。

　そこで、音声認識システム１００ａにおいては、情報処理装置１０の第一制御部１２は、音声取得部１１によって取得された音声が第二起動ワードであると認識した場合に、第二起動ワードに対応する音声信号を出力しない。つまり、第二起動ワードは、第一制御部１２によってマスクされる。図１１は、このような音声認識システム１００ａの動作のフローチャートである。

　図１１のフローチャートにおいては、図６のフローチャートに示されるステップＳ１５が省略されている。ステップＳ１３において音声取得部１１によって取得された音声が第一起動ワードでないと判定された場合（Ｓ１３でＮｏ）、待機状態が継続され、音声取得部１１による音声の取得が行われる（Ｓ１１）。

　つまり、音声認識システム１００ａにおいては、第一起動ワードによってＶＰＡ機能をオンすることができるが、第二起動ワードによってＶＰＡ機能をオンすることはできない。言い換えれば、音声認識システム１００ａにおいては、ＶＰＡサービスプロバイダが指定する第二起動ワードからハードウェアプロバイダの指定する第一起動ワードへの起動ワードの変更が実現されている。

　これにより、Ａ社で製造・販売された洗濯機１７０の起動ワードとして、ＶＰＡサービスプロバイダが指定する第二起動ワードが用いられないため、ユーザに違和感を与えてしまうことが抑制される。

　（実施の形態４）
　上記実施の形態１～３では、情報処理装置１０は、１つのＶＰＡクラウドサーバ１２０にのみ接続可能であったが、情報処理装置１０は、複数のＶＰＡクラウドサーバに接続可能であってもよい。図１２は、このような実施の形態４に係る音声認識システム１００ｂの構成を示すブロック図である。

　図１２に示されるように、実施の形態３に係る音声認識システム１００ｂは、スマートスピーカ１１０ｂと、ＶＰＡクラウドサーバ１２０ｂと、ＶＰＡクラウドサーバ１２０ｃと、サードパーティクラウドサーバ群１３０と、家電制御サーバ１４０と、エアコン群１５０とを備える。

　スマートスピーカ１１０ｂは、音声ユーザインターフェースとして、ＶＰＡクラウドサーバ１２０ｂ及びＶＰＡクラウドサーバ１２０ｃへ音声信号を送信する情報処理装置１０ｂを備える。情報処理装置１０ｂは、音声取得部１１と、第一制御部１２ｂと、第二制御部１３ｂと、通信部１４ｂと、出音部１５と、記憶部１６ｂとを備える。以下、情報処理装置１０ｂの情報処理装置１０との相違点について説明する。

　なお、実施の形態４では、第一起動ワード及び第二起動ワードの定義が実施の形態１～３と異なる。実施の形態４では、第一起動ワードは、スマートスピーカ１１０ｂがＶＰＡクラウドサーバ１２０ｂに接続するための起動ワードであり、第二起動ワードは、スマートスピーカ１１０ｂがＶＰＡクラウドサーバ１２０ｃに接続するための起動ワードである。

　第一制御部１２ｂは、音声取得部１１と第二制御部１３ｂとの間に位置し、音声取得部１１によって取得されたユーザの音声を常時モニタする。第一制御部１２ｂは、例えば、音声取得部１１によって取得された音声が第一起動ワードであると認識した場合に、第一起動ワードに対応する音声信号を第二制御部１３ｂに出力する。また、第一制御部１２ｂは、音声取得部１１によって取得された音声が第二起動ワードであると認識した場合に、第二起動ワードに対応する音声信号を第二制御部１３ｂに出力する。第一制御部１２ｂは、例えば、取得された音声の音声信号を一時的に記憶部１６ｂに記憶しておき、記憶された音声信号を第二制御部１３ｂに出力する。第一制御部１２ｂは、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。

　第二制御部１３ｂは、第一制御部１２ｂによって出力された音声信号が第一起動ワードであると認識した場合に、音声取得部１１によって取得された音声の音声信号をＶＰＡクラウドサーバ１２０ｂへ送信する第一音声送信処理を開始する。第二制御部１３ｂは、具体的には、記憶部１６ｂに記憶されたＶＰＡ　ＳＤＫ－Ｂを実行する。ＶＰＡ　ＳＤＫ－Ｂは、ＶＰＡクラウドサーバ１２０ｂを用いて音声認識サービスを提供するＢ社によって提供される。

　また、第二制御部１３ｂは、第一制御部１２ｂによって出力された音声信号が第二起動ワードであると認識した場合に、音声取得部１１によって取得された音声信号をＶＰＡクラウドサーバ１２０ｃへ送信する第二音声送信処理を開始する。第二制御部１３ｂは、具体的には、記憶部１６ｂに記憶されたＶＰＡ　ＳＤＫ－Ｃを実行する。ＶＰＡ　ＳＤＫ－Ｃは、ＶＰＡクラウドサーバ１２０ｃを用いて音声認識サービスを提供するＣ社によって提供される。

　第二制御部１３ｂは、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。

　通信部１４ｂは、第一音声送信処理中には、第二制御部１３ｂの制御に基づいて音声信号をＶＰＡクラウドサーバ１２０ｂに送信し、第二音声送信処理中には、第二制御部１３ｂの制御に基づいて音声信号をＶＰＡクラウドサーバ１２０ｃに送信する。通信部１４ｂは、具体的には、通信モジュールである。通信モジュールは、言い換えれば、通信回路である。

　記憶部１６ｂは、第一制御部１２ｂが第一起動ワード及び第二起動ワードを認識するために実行する音声認識用プログラム、第二制御部１３ｂが実行するＶＰＡ　ＳＤＫ－Ｂ及びＶＰＡ　ＳＤＫ－Ｃなどが記憶される記憶装置である。また、記憶部１６ｂには、後述する優先度情報が記憶される。記憶部１６ｂは、音声取得部１１によって取得された音声の音声信号が一時的に記憶されるバッファメモリとして利用されてもよい。記憶部１６ｂは、具体的には、半導体メモリなどによって実現される。

　ＶＰＡクラウドサーバ１２０ｂは、第一音声送信処理中に音声取得部１１によって取得された音声の音声信号を受信し、受信した音声信号を音声認識処理することにより、ＶＰＡ提供サービスを実現する。ＶＰＡクラウドサーバ１２０ｂは、第一音声認識サーバの一例である。ＶＰＡクラウドサーバ１２０ｂの具体的構成は、ＶＰＡクラウドサーバ１２０と同様である。

　ＶＰＡクラウドサーバ１２０ｃは、第二音声送信処理中に音声取得部１１によって取得された音声の音声信号を受信し、受信した音声信号を音声認識処理することにより、家電制御サービスを実現する。ＶＰＡクラウドサーバ１２０ｃは、第二音声認識サーバの一例である。ＶＰＡクラウドサーバ１２０ｃの具体的構成は、ＶＰＡクラウドサーバ１２０と同様である。

　このように、音声認識システム１００ｂにおいては、スマートスピーカ１１０ｂ（言い換えれば、情報処理装置１０ｂ）は、２つのＶＰＡクラウドサーバに接続可能である。このような情報処理装置１０ｂの機能は、起動ワード検索機能とも記載される。

　音声認識システム１００ｂにおいて、２つのＶＰＡクラウドサーバが互いに異なるサービスの提供に用いられれば、２つのＶＰＡクラウドサーバの役割分担が明確化される。ユーザは、ＶＰＡ提供サービスを受けたい場合には第一起動ワードを発話し、家電制御サービスを受けたい場合には第二起動ワードを発話すればよい。このため、ユーザが起動ワードによって混乱してしまうことが抑制される。

　ところで、音声認識システム１００ｂにおいては、ユーザが第一音声送信処理及び第二音声送信処理の一方が行われているときに他方に切り替えたい場合があると考えられる。このような場合、例えば、音声送信処理の切り替え用のワード、または、音声送信処理の切り替えボタン等が準備される。ここで、音声認識システム１００ｂにおいては、第一制御部１２ｂが所定の優先度によって第一音声送信処理及び第二音声送信処理の一方から他方への切り替えを制御してもよい。図１３は、このような音声認識システム１００ｂの動作のフローチャートである。なお、図１３のフローチャートでは、第一音声送信処理中に第二音声送信処理に切り替えるか否かが判定されるが、第二音声送信処理中に第一音声送信処理に切り替えるか否かについても同様の動作となる。

　第二制御部１３ｂは、第一音声送信処理を行う（Ｓ３１）。第一音声送信処理は、音声取得部１１によって取得された音声の音声信号がＶＰＡクラウドサーバ１２０ｂにリアルタイム送信される処理である。上述のように、第二制御部１３ｂは、第一制御部１２ｂによって出力された音声信号が第一起動ワードを示すと認識した場合に、第一音声送信処理を開始する。

　第一制御部１２ｂは、第一音声送信処理中に音声取得部１１によって取得された音声の音声信号が、第二制御部１３ｂに第二音声送信処理を開始させるための第二起動ワードを示すか否かを判定する（Ｓ３２）。ステップＳ３２において音声信号が第二起動ワードを示すと判定された場合（Ｓ３３でＮｏ）、第一音声送信処理が継続される（Ｓ３１）。

　一方、ステップＳ３２において音声信号が第二起動ワードを示すと判定された場合（Ｓ３３でＹｅｓ）、つまり、第一制御部１２ｂによって音声が第二起動ワードであると認識された場合、第一制御部１２ｂは優先度に基づく判定を行う（Ｓ３４）。

　優先度は、優先度情報としてあらかじめ記憶部１６ｂに記憶され、ステップＳ３４において、第一制御部１２ｂは記憶部１６ｂに記憶された優先度情報を参照する。優先度は、例えば、スマートスピーカ１１０ｂの接続先のＶＰＡクラウドサーバごと（言い換えれば、起動ワードごと）に定められる。この場合、第一制御部１２ｂは、ＶＰＡクラウドサーバ１２０ｂの第一優先度がＶＰＡクラウドサーバ１２０ｃの第二優先度よりも低いか否かを判定する。

　第一制御部１２ｂは、ＶＰＡクラウドサーバ１２０ｂの優先度がＶＰＡクラウドサーバ１２０ｃの優先度よりも低いと判定した場合（Ｓ３４でＹｅｓ）、第二起動ワードに対応する音声信号を第二制御部１３ｂに出力する（Ｓ３５）。第二制御部１３ｂは、これを第二起動ワードであると認識し、第一音声送信処理を停止して第二音声送信処理を開始する（Ｓ３６）。第二音声送信処理は、音声取得部１１によって取得された音声の音声信号がＶＰＡクラウドサーバ１２０ｃにリアルタイム送信される処理である。

　一方、第一制御部１２ｂは、ＶＰＡクラウドサーバ１２０ｂの優先度がＶＰＡクラウドサーバ１２０ｃの優先度よりも高いと判定した場合（Ｓ３４でＮｏ）、第二起動ワードに対応する音声信号を第二制御部１３ｂに出力しない。この結果、第一音声送信処理が継続される（Ｓ３１）。

　このように、第一制御部１２ｂは、第一音声送信処理中に音声取得部１１によって取得された音声が第二起動ワードであると認識した場合に、所定の優先度に基づいて第二起動ワードに対応する音声信号を第二制御部１３ｂに出力するか否かの判定を行う。

　これにより、音声認識システム１００ｂは、所定の優先度を考慮して第一音声送信処理を第二音声送信処理に切り替えることができる。なお、音声認識システム１００ｂにおいて図１３のような優先度に基づく動作が不要である場合には、第一制御部１２ｂは省略されてもよい。この場合、第二制御部１３ｂは、音声取得部１１から直接音声信号を取得する。

　なお、優先度は、ユーザに提供されるサービスごとに定められてもよい。優先度は、例えば、オーディオストリーミングサービス、天気予報サービス、ｅコマースサービス、及び、家電制御サービスに対して定められてもよい。

　この場合、第一制御部１２ｂは、第一音声送信処理の結果として提供されるサービスの第一優先度が第二音声送信処理の結果として提供されるサービスの第二優先度よりも低い場合に（Ｓ３４でＹｅｓ）、第二起動ワードに対応する音声信号を第二制御部１３ｂに出力する（Ｓ３５）。また、第一制御部１２ｂは、第一サービスの優先度が第二サービスの優先度よりも高い場合に、第二起動ワードに対応する音声信号を第二制御部１３ｂに出力しない。この結果、第一音声送信処理が継続される（Ｓ３１）。

　例えば、第一音声送信処理の結果としてオーディオストリーミングサービスが提供されているときに、ユーザが第二音声送信処理によって家電制御サービスを呼び出して住宅内の家電を外出モード（電源オフ）にしたい場合が考えられる。このような場合、オーディオストリーミングサービスの優先度が家電制御サービスの優先度よりも低ければ、ユーザは第二起動ワードを発話することにより、オーディオストリーミングサービスをキャンセルして家電制御サービスの提供を受けることができる。つまり、ユーザは、音楽の再生をキャンセルして家電の電源をオフし、外出することができる。

　なお、現在提供されているサービスがどのようなサービスであるかは、例えば、サービスの提供元であるサードパーティクラウドサーバ群１３０等から送信されるサービス内容を示す情報が通信部１４ｂによって受信されることで認識可能である。サービス内容とＶＰＡクラウドサーバとが１対１の関係となる場合には、このような情報は不要となる。

　（実施の形態５）
　上記実施の形態１～３で説明された起動ワードの変換機能を有する情報処理装置１０によれば、図１４に示されるような複数のＶＰＡ機器が混在している音声認識システム１００ｃにおいて、起動ワードを統一することができる。図１４は、実施の形態５に係る音声認識システム１００ｃの構成を示す簡易ブロック図である。

　音声認識システム１００ｃは、スマートスピーカ１１０と、テレビ１９０と、洗濯機１７０と、ＶＰＡクラウドサーバ１２０ｂと、ＶＰＡクラウドサーバ１２０ｃと、サードパーティクラウドサーバ群１３０と、家電制御サーバ１４０と、エアコン群１５０と、家電制御サーバ２００と、テレビ群２１０と、洗濯機群１８０とを備える。スマートスピーカ１１０、テレビ１９０、及び、洗濯機１７０は、Ａ社によって製造・販売される家電機器であり、ユーザの住宅などに設置されている。

　スマートスピーカ１１０は、起動ワード変換機能を有する情報処理装置１０を備える。この情報処理装置１０が備える記憶部１６には、ＶＰＡクラウドサーバ１２０ｂを用いて音声認識サービスを提供するＶＰＡサービスプロバイダであるＢ社から供給されるＶＰＡ　ＳＤＫ－Ｂが記憶されている。つまり、スマートスピーカ１１０は、ＶＰＡクラウドサーバ１２０ｂに接続可能である。

　テレビ１９０は、テレビ機能と、起動ワード変換機能を有する情報処理装置１０とを備える。この情報処理装置１０が備える記憶部１６には、ＶＰＡクラウドサーバ１２０ｃを用いて音声認識サービスを提供するＶＰＡサービスプロバイダであるＣ社から供給されるＶＰＡ　ＳＤＫ－Ｃが記憶されている。つまり、テレビ１９０は、ＶＰＡクラウドサーバ１２０ｃに接続可能である。

　洗濯機１７０は、洗濯機能と、起動ワード変換機能を有する情報処理装置１０とを備える。この情報処理装置１０が備える記憶部１６には、ＶＰＡクラウドサーバ１２０ｃを用いて音声認識サービスを提供するＶＰＡサービスプロバイダであるＣ社から供給されるＶＰＡ　ＳＤＫ－Ｃが記憶されている。つまり、洗濯機１７０は、ＶＰＡクラウドサーバ１２０ｃに接続可能である。

　ＶＰＡクラウドサーバ１２０ｂは、Ｂ社によって管理され、サードパーティクラウドサーバ群１３０、及び、家電制御サーバ１４０に接続可能である。家電制御サーバ１４０は、エアコン群１５０を制御する機能を有し、Ａ社によって管理される。

　ＶＰＡクラウドサーバ１２０ｃは、Ｃ社によって管理され、家電制御サーバ１４０、及び、家電制御サーバ２００に接続可能である。家電制御サーバ２００は、テレビ群２１０を制御する機能、及び、洗濯機群１８０を制御する機能を有し、Ａ社によって管理される。

　このような音声認識システム１００ｃにおいて、仮に、スマートスピーカ１１０、テレビ１９０、及び、洗濯機１７０に起動ワード変換機能が実装されていないとすると、ユーザは、スマートスピーカ１１０のＶＰＡ機能をオンする場合には、Ｂ社によって指定される起動ワードを発話し、テレビ１９０及び洗濯機１７０のＶＰＡ機能をオンする場合には、Ｃ社によって指定される起動ワードを発話する必要がある。

　これに対し、スマートスピーカ１１０、テレビ１９０、及び、洗濯機１７０に起動ワード変換機能が実装されれば、ユーザは、スマートスピーカ１１０、テレビ１９０、及び、洗濯機１７０に対する起動ワードを統一することができる。起動ワードは、Ｂ社によって指定される起動ワードに統一されてもよいし、Ｃ社によって指定される起動ワードに統一されてもよいし、その他の起動ワードに統一されてもよい。

　（実施の形態６）
　上記実施の形態４で説明された複数のＶＰＡクラウドサーバへの接続機能を有する情報処理装置１０ｂによれば、図１５に示されるような複数のＶＰＡ機器が混在している音声認識システム１００ｄにおいて、起動ワードを整理することができる。図１５は、実施の形態６に係る音声認識システム１００ｄの構成を示す簡易ブロック図である。

　音声認識システム１００ｄは、音声認識システム１００ｃにおいて、スマートスピーカ１１０がスマートスピーカ１１０ｂに置き換えられた構成を有する。

　スマートスピーカ１１０ｂは、複数のＶＰＡクラウドサーバへの接続機能を有する情報処理装置１０ｂを備える。この情報処理装置１０ｂが備える記憶部１６ｂには、ＶＰＡ　ＳＤＫ－Ｂ、及び、ＶＰＡ　ＳＤＫ－Ｃが記憶されている。つまり、スマートスピーカ１１０ｂは、ＶＰＡクラウドサーバ１２０ｂ及びＶＰＡクラウドサーバ１２０ｃに接続可能である。

　このような音声認識システム１００ｄにおいても、ユーザは、スマートスピーカ１１０、テレビ１９０、及び、洗濯機１７０に対する起動ワードを、Ｂ社によって指定される起動ワード、または、Ｃ社によって指定される起動ワードに統一することが可能である。

　（実施の形態１～６のまとめ）
　以上説明したように、情報処理装置１０は、ユーザの音声を取得する音声取得部１１と、音声取得部１１によって取得された音声が第一起動ワードであると認識した場合に、第一起動ワードと異なる第二起動ワードに対応する音声信号を出力する第一制御部１２と、第一制御部１２によって出力された音声信号が第二起動ワードを示すと認識した場合に、音声取得部１１によって取得された音声の音声信号のＶＰＡクラウドサーバ１２０への送信を開始するための起動処理を行う第二制御部１３とを備える。ＶＰＡクラウドサーバ１２０は、音声認識サーバの一例である。

　このような情報処理装置１０は、ＶＰＡサービスプロバイダが指定する第二起動ワード以外の第一起動ワードによってＶＰＡクラウドサーバ１２０への音声の送信を開始することができる。また、実施の形態５または実施の形態６のように複数のＶＰＡ機器が混在する音声認識システム１００ｃまたは音声認識システム１００ｄにおいて、起動ワードの統一を図ることができる。

　また、上記実施の形態１においては、第一制御部１２は、音声取得部１１によって取得された音声が第二起動ワードであると認識した場合に、第二起動ワードに対応する音声信号を第二制御部１３に出力する。

　このような情報処理装置１０は、ＶＰＡサービスプロバイダが指定する第二起動ワード以外の第一起動ワードによってＶＰＡクラウドサーバ１２０への音声の送信を開始することができる。

　また、上記実施の形態３においては、第一制御部１２は、音声取得部１１によって取得された音声が第二起動ワードであると認識した場合に、第二起動ワードに対応する音声信号を第二制御部１３に出力しない。

　このような情報処理装置１０は、第一起動ワード及び第二起動ワードのうち第一起動ワードのみによって音声認識システム１００ａを起動することができる。

　また、上記実施の形態２においては、ＶＰＡクラウドサーバ１２０は、起動処理の後に情報処理装置１０から受信した音声信号の音声認識結果に応じて他のサーバに指令を送信する。第一制御部１２は、音声取得部１１によって取得された音声が第一起動ワードであると認識した場合に、第二起動ワードに対応する音声信号を出力し、さらに、指令の送信先を指定するための指定ワードに対応する音声信号を第二制御部１３に出力する。

　これにより、ユーザは、指定ワードの発話を省略することができる。

　また、例えば、第一制御部１２は、指定ワードに対応する音声信号として、第一起動ワードに対応する音声信号を第二制御部１３に出力する。

　これにより、ユーザは、通常は２度発話すべき第一起動ワードを１度発話することで、指令の送信先を指定することができる。

　また、音声認識システム１００または音声認識システム１００ａは、情報処理装置１０と、ＶＰＡクラウドサーバ１２０とを備える。

　このような音声認識システム１００または音声認識システム１００ａは、ＶＰＡサービスプロバイダが指定する第二起動ワード以外の第一起動ワードによってＶＰＡクラウドサーバ１２０への音声信号の送信を開始することができる。

　また、コンピュータによって実行される情報処理方法は、ユーザの音声を取得し、取得された音声が第一起動ワードであると認識した場合に、第一起動ワードと異なる第二起動ワードに対応する音声信号を出力し、出力された音声信号が第二起動ワードを示す認識した場合に、取得された音声の音声信号のＶＰＡクラウドサーバへの送信を開始するための起動処理を行う。

　このような情報処理方法は、ＶＰＡサービスプロバイダが指定する第二起動ワード以外の第一起動ワードによってＶＰＡクラウドサーバ１２０への音声の送信を開始することができる。

　また、上記実施の形態４においては、情報処理装置１０ｂは、ユーザの音声を取得する音声取得部１１と、音声取得部１１によって取得された音声が第一起動ワードであると認識した場合に、第一起動ワードに対応する音声信号を出力する第一制御部１２ｂと、第一制御部１２ｂによって出力された音声信号が第一起動ワードを示すと認識した場合に、音声取得部１１によって取得された音声の音声信号をＶＰＡクラウドサーバ１２０ｂへ送信する第一音声送信処理を開始する第二制御部１３ｂとを備える。第一制御部１２ｂは、第一音声送信処理中に音声取得部１１によって取得された音声が、第二制御部１３ｂに第二音声送信処理を開始させるための第二起動ワードであると認識した場合に、所定の優先度に基づいて第二起動ワードに対応する音声信号を第二制御部１３ｂに出力するか否かの判定を行い、第二音声送信処理は、音声取得部１１によって取得された音声の音声信号をＶＰＡクラウドサーバ１２０ｂと異なるＶＰＡクラウドサーバ１２０ｃへ送信する処理である。ＶＰＡクラウドサーバ１２０ｂは、第一音声認識サーバの一例であり、ＶＰＡクラウドサーバ１２０ｃは、第二音声認識サーバの一例である。

　このような情報処理装置１０ｂは、第一起動ワード及び第二起動ワードの両方を認識し、ＶＰＡクラウドサーバ１２０ｂ、及び、ＶＰＡクラウドサーバ１２０ｃに選択的に音声を送信することができる。具体的には、情報処理装置１０ｂは、所定の優先度を考慮して第一音声送信処理を第二音声送信処理に切り替えることができる。

　また、例えば、第一制御部１２ｂは、ＶＰＡクラウドサーバ１２０ｂの優先度がＶＰＡクラウドサーバ１２０ｃの優先度よりも低い場合に、上記判定に基づいて第二起動ワードに対応する音声信号を第二制御部１３ｂに出力する。

　このような情報処理装置１０ｂは、ＶＰＡクラウドサーバの優先度に基づいて、第一音声送信処理を第二音声送信処理に切り替えることができる。

　また、例えば、第一制御部１２ｂは、ＶＰＡクラウドサーバ１２０ｂの優先度がＶＰＡクラウドサーバ１２０ｃの優先度よりも高い場合に、上記判定に基づいて第二起動ワードに対応する音声信号を第二制御部１３ｂに出力しない。

　このような情報処理装置１０ｂは、ＶＰＡクラウドサーバの優先度に基づいて、第一音声送信処理を継続することができる。

　また、例えば、第一制御部１２ｂは、第一音声送信処理の結果として提供されるサービスの優先度が第二音声送信処理の結果として提供されるサービスの優先度よりも低い場合に、上記判定に基づいて第二起動ワードに対応する音声信号を第二制御部１３ｂに出力する。

　このような情報処理装置１０ｂは、サービスの優先度に基づいて、第一音声送信処理を第二音声送信処理に切り替えることができる。

　また、例えば、第一制御部１２ｂは、第一サービスの優先度が第二サービスの優先度よりも高い場合に、上記判定に基づいて第二起動ワードに対応する音声信号を第二制御部１３ｂに出力しない。

　このような情報処理装置１０ｂは、サービスの優先度に基づいて、第一音声送信処理を継続することができる。

　また、音声認識システム１００ｂは、情報処理装置１０ｂと、ＶＰＡクラウドサーバ１２０ｂと、ＶＰＡクラウドサーバ１２０ｃとを備える。

　このような音声認識システム１００ｂは、第一起動ワード及び第二起動ワードの両方を認識し、ＶＰＡクラウドサーバ１２０ｂ、及び、ＶＰＡクラウドサーバ１２０ｃに選択的に音声を送信することができる。具体的には、音声認識システム１００ｂは、所定の優先度を考慮して第一音声送信処理を第二音声送信処理に切り替えることができる。

　また、コンピュータによって実行される情報処理方法は、ユーザの音声を取得し、取得された音声が第一起動ワードであると認識した場合に、第一起動ワードに対応する音声信号を出力し、出力された音声信号が第一起動ワードを示すと認識した場合に、取得された音声の音声信号をＶＰＡクラウドサーバ１２０ｂへ送信する第一音声送信処理を開始し、第一音声送信処理中に取得された音声が、第二音声送信処理を開始するための第二起動ワードであると認識した場合に、所定の優先度に基づいて第二起動ワードに対応する音声信号を出力するか否かを決定し、第二音声送信処理は、取得された音声の音声信号をＶＰＡクラウドサーバ１２０ｂと異なるＶＰＡクラウドサーバ１２０ｃへ送信する処理である。

　このような情報処理方法は、第一起動ワード及び第二起動ワードの両方を認識し、ＶＰＡクラウドサーバ１２０ｂ、及び、ＶＰＡクラウドサーバ１２０ｃに選択的に音声信号を送信することができる。具体的には、情報処理方法は、所定の優先度を考慮して第一音声送信処理を第二音声送信処理に切り替えることができる。

　（その他の実施の形態）
　以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。

　例えば、本開示の包括的または具体的な態様は、装置、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。本開示は、上記実施の形態の情報処理方法をコンピュータに実行させるためのプログラムとして実現されてもよいし、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　また、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、上記実施の形態において説明された音声認識システムの動作における複数の処理の順序は一例である。複数の処理の順序は、変更されてもよいし、複数の処理は、並行して実行されてもよい。

　また、上記実施の形態において、第一制御部及び第二制御部などの構成要素は、当該構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。第一制御部及び第二制御部は、単一のＣＰＵまたはプロセッサとして実現されてもよい。

　また、第一制御部及び第二制御部などの構成要素は、ハードウェアによって実現されてもよい。第一制御部及び第二制御部などの構成要素は、具体的には、回路または集積回路によって実現されてもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、または、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　本開示の情報処理装置は、複数のＶＰＡクラウドサーバへ選択的に音声信号を送信することができる。本開示の情報処理装置は、接続先となるＶＰＡクラウドサーバの切り替えが容易であるため、ＶＰＡ機器の普及、及び、ＶＰＡクラウドサーバを用いたサービスの普及に寄与することができる。

　１０、１０ｂ　情報処理装置
　１１　音声取得部
　１２、１２ｂ　第一制御部
　１３、１３ｂ　第二制御部
　１４、１４ｂ、１２１、１４１　通信部
　１５　出音部
　１６、１６ｂ、１２３、１４３　記憶部
　２０　洗濯制御部
　１００、１００ａ、１００ｂ、１００ｃ、１００ｄ　音声認識システム
　１１０、１１０ｂ　スマートスピーカ
　１２０、１２０ｂ、１２０ｃ　ＶＰＡクラウドサーバ
　１２２　ＶＰＡ制御部
　１３０　サードパーティクラウドサーバ群
　１３１、１３２、１３３　クラウドサーバ
　１４０、２００　家電制御サーバ
　１４２　家電制御部
　１５０　エアコン群
　１６０　スマートフォン
　１７０　洗濯機
　１８０　洗濯機群
　１９０　テレビ
　２１０　テレビ群

Claims

　ユーザの音声を取得する音声取得部と、
　前記音声取得部によって取得された音声が第一起動ワードであると認識した場合に、前記第一起動ワードに対応する音声信号を出力する第一制御部と、
　前記第一制御部によって出力された音声信号が前記第一起動ワードを示すと認識した場合に、前記音声取得部によって取得された音声の音声信号を第一音声認識サーバへ送信する第一音声送信処理を開始する第二制御部とを備え、
　前記第一制御部は、前記第一音声送信処理中に前記音声取得部によって取得された音声が、前記第二制御部に第二音声送信処理を開始させるための第二起動ワードであると認識した場合に、所定の優先度に基づいて前記第二起動ワードに対応する音声信号を前記第二制御部に出力するか否かの判定を行い、
　前記第二音声送信処理は、前記音声取得部によって取得された音声の音声信号を前記第一音声認識サーバと異なる第二音声認識サーバへ送信する処理である
　情報処理装置。
　前記第一制御部は、前記第一音声認識サーバの優先度が前記第二音声認識サーバの優先度よりも低い場合に、前記判定に基づいて前記第二起動ワードに対応する音声信号を前記第二制御部に出力する
　請求項１に記載の情報処理装置。
　前記第一制御部は、前記第一音声認識サーバの優先度が前記第二音声認識サーバの優先度よりも高い場合に、前記判定に基づいて前記第二起動ワードに対応する音声信号を前記第二制御部に出力しない
　請求項２に記載の情報処理装置。
　前記第一制御部は、前記第一音声送信処理の結果として提供されるサービスの優先度が前記第二音声送信処理の結果として提供されるサービスの優先度よりも低い場合に、前記判定に基づいて前記第二起動ワードに対応する音声信号を前記第二制御部に出力する
　請求項１に記載の情報処理装置。
　前記第一制御部は、前記第一サービスの優先度が前記第二サービスの優先度よりも高い場合に、前記判定に基づいて前記第二起動ワードに対応する音声信号を前記第二制御部に出力しない
　請求項４に記載の情報処理装置。
　請求項１～５のいずれか１項に記載の情報処理装置と、
　前記第一音声認識サーバと、
　前記第二音声認識サーバとを備える
　音声認識システム。
　コンピュータによって実行される情報処理方法であって、
　ユーザの音声を取得し、
　取得された音声が第一起動ワードであると認識した場合に、前記第一起動ワードに対応する音声信号を出力し、
　出力された音声信号が前記第一起動ワードであると認識した場合に、取得された音声の音声信号を第一音声認識サーバへ送信する第一音声送信処理を開始し、
　前記第一音声送信処理中に取得された音声が、第二音声送信処理を開始するための第二起動ワードを示すと認識した場合に、所定の優先度に基づいて前記第二起動ワードに対応する音声信号を出力するか否かを決定し、
　前記第二音声送信処理は、取得された音声の音声信号を前記第一音声認識サーバと異なる第二音声認識サーバへ送信する処理である
　情報処理方法。