JP7133969B2

JP7133969B2 - 音声入力装置、及び遠隔対話システム

Info

Publication number: JP7133969B2
Application number: JP2018087018A
Authority: JP
Inventors: 幸司粂谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2022-09-09
Anticipated expiration: 2038-04-27
Also published as: JP2019192121A; US20190333503A1; CN110413249B; CN110413249A; US10971150B2

Description

本発明は、音声入力装置、及び遠隔対話システムに関する。

スマートスピーカのような音声入力装置が知られている。音声入力装置には特定の起動コマンドが設定されており、ユーザは、起動コマンドを発声してから一定期間が経過するまでの間に、音声入力装置を利用することができる（例えば、特許文献１参照。）。詳しくは、ユーザが、起動コマンドを発声した後に、特定の処理の実行を指令する処理コマンドを発声すると、サーバから音声入力装置へ、特定の処理の実行結果を示す音声データが送信される。

特開２０１６－０２４２１２号公報

しかしながら、例えばＡ地点とＢ地点とでウエブ会議又はテレビ会議のような遠隔対話を実行中に、Ａ地点に設置された音声入力装置Ａに対してユーザが起動コマンド及び処理コマンドを発声した場合、Ｂ地点のユーザが意図しない処理コマンドが、Ｂ地点に設置された音声入力装置Ｂからサーバへ送信されるおそれがある。具体的には、音声入力装置Ａに対してユーザが起動コマンド及び処理コマンドを発声した場合、ウエブ会議システム又はテレビ会議システムのような遠隔対話システムによって、起動コマンドを示す音声及び処理コマンドを示す音声がＢ地点において出力される。この結果、音声入力装置Ｂが、遠隔対話システムによって出力された処理コマンドをサーバに送信するおそれがある。

本発明は、上記課題に鑑み、ユーザが意図しない処理コマンドがサーバに送信されることを抑制できる音声入力装置、及び遠隔対話システムを提供することを目的とする。

本発明の音声入力装置は、音声入力部と、第１通信部と、第２通信部と、音声出力部と、制御部とを備える。前記音声入力部は、第１音声を入力する。前記第１通信部は、前記第１音声に対応する第１音声データを外部装置へ送信する。前記第２通信部は、音声送受信装置から第２音声データを受信する。前記音声出力部は、前記第２音声データに対応する第２音声を出力する。前記制御部は、前記第１音声から前記第１音声データを生成し、前記第２音声データから前記第２音声を生成する。前記制御部は、前記第２音声データが起動コマンドを示すか否かを判定する。前記制御部は、前記第２音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第１音声データの送信を禁止する。

本発明の遠隔対話システムは、音声入力装置と、音声送受信装置とを備える。前記音声入力装置は、音声入力部と、第１通信部と、第２通信部と、音声出力部と、制御部とを備える。前記音声入力部は、第１音声を入力する。前記第１通信部は、前記第１音声に対応する第１音声データを外部装置へ送信する。前記第２通信部は、前記音声送受信装置から第２音声データを受信する。前記音声出力部は、前記第２音声データに対応する第２音声を出力する。前記制御部は、前記第１音声から前記第１音声データを生成し、前記第２音声データから前記第２音声を生成する。前記制御部は、前記第２音声データが起動コマンドを示すか否かを判定する。前記制御部は、前記第２音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第１音声データの送信を禁止する。前記音声送受信装置は、受信部と、送信部とを備える。前記受信部は、他の音声送受信装置から前記第２音声データを受信する。前記送信部は、前記他の音声送受信装置から受信した前記第２音声データを前記第２通信部へ送信する。

本発明によれば、ユーザが意図しない処理コマンドがサーバに送信されることを抑制することができる。

本発明の実施形態に係る遠隔対話システムの構成を示す図である。本発明の実施形態に係る第１スマートスピーカの構成を示す図である。本発明の実施形態に係る第１端末の構成を示す図である。本発明の実施形態に係る第１スマートスピーカの第１動作を示すフローチャートである。本発明の実施形態に係る第１スマートスピーカの第２動作を示すフローチャートである。第１スマートスピーカから第１サーバへの音声データの送信を禁止する処理を示す図である。第１スマートスピーカから第１サーバへ音声データを送信する処理を示す図である。

以下、図面を参照して本発明の実施形態を説明する。ただし、本発明は以下の実施形態に限定されない。なお、説明が重複する箇所については、適宜説明を省略する場合がある。また、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。

まず図１を参照して、遠隔対話システム１の構成を説明する。図１は、本実施形態に係る遠隔対話システム１の構成を示す図である。図１に示すように、遠隔対話システム１は、第１処理ユニット２ａ～第３処理ユニット２ｃと、第１サーバ３と、第２サーバ４とを備える。第１サーバ３は、外部装置の一例である。本実施形態において、遠隔対話システム１は、ウエブ会議システムである。

第１処理ユニット２ａは、第１スマートスピーカ２１ａと、第１端末２２ａと、第１表示装置２３ａとを含む。第２処理ユニット２ｂは、第２スマートスピーカ２１ｂと、第２端末２２ｂと、第２表示装置２３ｂとを含む。第３処理ユニット２ｃは、第３スマートスピーカ２１ｃと、第３端末２２ｃと、第３表示装置２３ｃとを含む。第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃはそれぞれ音声入力装置の一例である。また、第１端末２２ａ～第３端末２２ｃはそれぞれ音声送受信装置の一例である。

本実施形態において、第１端末２２ａ～第３端末２２ｃは、例えばノート型ＰＣ（パーソナルコンピュータ）又はデスクトップ型ＰＣのような情報処理装置である。あるいは、第１端末２２ａ～第３端末２２ｃは、例えばタブレットＰＣ又はスマートフォンのような携帯型の情報処理装置である。第１スマートスピーカ２１ａ及び第１表示装置２３ａは、第１端末２２ａの周辺装置であり、第２スマートスピーカ２１ｂ及び第２表示装置２３ｂは、第２端末２２ｂの周辺装置であり、第３スマートスピーカ２１ｃ及び第３表示装置２３ｃは、第３端末２２ｃの周辺装置である。

第１サーバ３は、例えばインターネット回線を介して、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃの各々との間で通信を行う。具体的には、第１サーバ３は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃから音声データを受信する。また、第１サーバ３は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃへ音声データを送信する。

詳しくは、第１サーバ３は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃのいずれか１つから音声データを受信すると、受信した音声データから処理コマンドを認識できるか否かを判定する。具体的には、第１サーバ３は、受信した音声データを音声認識処理によってテキスト情報に変換し、テキスト情報から処理コマンドを認識できるか否かを判定する。処理コマンドは、特定の処理の実行を指令するコマンドである。

第１サーバ３は、音声データから処理コマンドを認識できた場合、処理コマンドに対応する処理の実行結果を示す処理結果データを取得する。処理結果データは音声データである。第１サーバ３は、音声データを送信したスマートスピーカに、処理結果データを送信する。例えば、処理コマンドは、検索キーワードと、検索処理の実行を促すキーワードとを示す。この場合、第１サーバ３は、検索キーワードに基づいて検索処理を実行し、検索結果を示すデータを取得する。なお、第１サーバ３は、他のサーバに、処理コマンドに対応する処理の実行を要求してもよい。この場合、第１サーバ３は、他のサーバから処理結果データを取得（受信）する。

第２サーバ４は、例えばインターネット回線を介して、第１端末２２ａ～第３端末２２ｃの各々との間で通信を行うことにより、第１端末２２ａ～第３端末２２ｃの間でウエブ会議を実行させる。具体的には、第２サーバ４は、第１端末２２ａから受信した音声データ及び撮像データを、第２端末２２ｂ及び第３端末２２ｃへ送信する。同様に、第２サーバ４は、第２端末２２ｂから受信した音声データ及び撮像データを、第１端末２２ａ及び第３端末２２ｃへ送信する。また、第２サーバ４は、第３端末２２ｃから受信した音声データ及び撮像データを、第１端末２２ａ及び第２端末２２ｂへ送信する。

続いて図１を参照して、第１処理ユニット２ａの動作について説明する。具体的には、第１処理ユニット２ａに含まれる第１スマートスピーカ２１ａ、第１端末２２ａ、及び第１表示装置２３ａの動作について説明する。

第１スマートスピーカ２１ａは、音声を入力する。第１スマートスピーカ２１ａは、入力した音声を音声データ（デジタルデータ）に変換して、第１端末２２ａへ送信する。また、第１スマートスピーカ２１ａは、第１端末２２ａから音声データを受信する。第１スマートスピーカ２１ａは、第１端末２２ａから受信した音声データに対応する音声を出力する。更に、第１スマートスピーカ２１ａは撮像部を備え、撮像データを第１端末２２ａへ送信する。

また、第１スマートスピーカ２１ａは、起動コマンドを示すデータを記憶している。第１スマートスピーカ２１ａは、起動コマンドを示す音声を入力した場合、第１所定期間が経過するまでレディ状態となる。第１スマートスピーカ２１ａは、レディ状態となってから第１所定期間が経過する前に音声を入力すると、その入力した音声を音声データに変換して第１サーバ３及び第１端末２２ａへ送信する。

本実施形態において、第１スマートスピーカ２１ａは、第１端末２２ａから受信した音声データが起動コマンドを示す場合、第２所定期間が経過するまで禁止処理を実行する。禁止処理は、第１スマートスピーカ２１ａから第１サーバ３への音声データの送信を禁止する処理である。

第１端末２２ａは、第１スマートスピーカ２１ａから受信した音声データ及び撮像データを第２サーバ４へ送信する。また、第１端末２２ａは、第２サーバ４から音声データ及び撮像データを受信する。第１端末２２ａは、第２サーバ４から受信した音声データを第１スマートスピーカ２１ａへ送信する。第１端末２２ａは、第２サーバ４から受信した撮像データを第１表示装置２３ａに出力する。第１表示装置２３ａは、第１端末２２ａから出力された撮像データに対応する映像を表示する。

以上、図１を参照して、第１処理ユニット２ａの動作について説明した。なお、第２処理ユニット２ｂ及び第３処理ユニット２ｃは、第１処理ユニット２ａと同様に動作するため、その説明は省略する。

続いて図１及び図２を参照して、第１スマートスピーカ２１ａの構成を説明する。図２は、本実施形態に係る第１スマートスピーカ２１ａの構成を示す図である。

図２に示すように、第１スマートスピーカ２１ａは、音声入力部２１１と、音声出力部２１２と、撮像部２１３と、第１通信部２１４と、第２通信部２１５と、記憶部２１６と、制御部２１７とを備える。

音声入力部２１１は、音声を入力する。具体的には、音声入力部２１１は、音声を集音して、アナログ電気信号に変換する。アナログ電気信号は、制御部２１７に入力される。音声入力部２１１は、例えば、マイクロフォンである。なお、以下の説明において、音声入力部２１１が入力する音声を「入力音声」と記載する場合がある。

音声出力部２１２は、第１端末２２ａから受信した音声データに対応する音声を出力する。また、音声出力部２１２は、第１サーバ３から受信した音声データに対応する音声を出力する。音声出力部２１２は、例えば、スピーカである。なお、以下の説明において、音声出力部２１２が出力する音声を「出力音声」と記載する場合がある。

撮像部２１３は、第１スマートスピーカ２１ａの周辺環境を撮像して画像信号（アナログ電気信号）を出力する。例えば、撮像部２１３は、ＣＣＤ（Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅ）のような撮像素子を備える。

第１通信部２１４は、第１サーバ３との間の通信を制御する。第１通信部２１４は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）ボード又は無線ＬＡＮボードを備える。具体的には、第１通信部２１４は、入力音声に対応する音声データを第１サーバ３に送信する。また、第１通信部２１４は、第１サーバ３から音声データを受信する。なお、以下の説明において、入力音声に対応する音声データを「入力音声データ」と記載する場合がある。

第２通信部２１５は、第１端末２２ａとの間の通信を制御する。第２通信部２１５は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第２通信部２１５は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）端子を備えるＵＳＢインターフェースであり得る。

第２通信部２１５は、入力音声データを第１端末２２ａへ送信する。また、第２通信部２１５は、撮像部２１３から出力された画像信号に対応する撮像データを第１端末２２ａへ送信する。更に、第２通信部２１５は、第１端末２２ａから音声データを受信する。なお、以下の説明において、第２通信部２１５が受信する音声データを「受信音声データ」と記載する場合がある。

記憶部２１６は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）のような半導体メモリーを備える。記憶部２１６は更に、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のようなストレージデバイスを備えてもよい。記憶部２１６は、制御部２１７が実行する制御プログラムを記憶する。記憶部２１６は更に、図１を参照して説明した起動コマンドを示すデータを記憶する。

制御部２１７は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、又はＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）のようなプロセッサを備える。制御部２１７は、記憶部２１６に記憶された制御プログラムに基づいて、第１スマートスピーカ２１ａの動作を制御する。

具体的には、制御部２１７は、音声入力部２１１から入力されたアナログ電気信号（入力音声）をデジタル信号（入力音声データ）に変換して、第２通信部２１５にデジタル信号（入力音声データ）を送信させる。換言すると、制御部２１７は、音声入力部２１１が入力した音声（入力音声）から音声データ（入力音声データ）を生成する。

また、制御部２１７は、撮像部２１３から入力された画像信号（アナログ電気信号）をデジタル信号（撮像データ）に変換して、第２通信部２１５にデジタル信号（撮像データ）を送信させる。

また、制御部２１７は、第２通信部２１５が受信したデジタル信号（受信音声データ）をアナログ電気信号に変換して、音声出力部２１２に音声を出力させる。換言すると、制御部２１７は、第２通信部２１５が受信した音声データ（受信音声データ）から出力音声を生成する。

また、制御部２１７は、レディ状態になると、第２通信部２１５に加えて、第１通信部２１４にも入力音声データを送信させる。更に、制御部２１７は、第１通信部２１４が受信したデジタル信号（音声データ）をアナログ電気信号に変換して、音声出力部２１２に音声を出力させる。換言すると、制御部２１７は、第１通信部２１４が受信した音声データから出力音声を生成する。

詳しくは、制御部２１７は、入力音声データを生成すると、記憶部２１６に記憶された起動コマンドを示すデータを参照して、入力音声データが起動コマンドを示すか否かを判定する。具体的には、制御部２１７は、起動コマンドを示すデータを参照して、起動コマンドを示す音声データが入力音声データに含まれるか否かを判定する。入力音声データが起動コマンドを示す場合、制御部２１７は、第１所定期間が経過するまでレディ状態となる。制御部２１７は、レディ状態となってから第１所定期間が経過する前に入力音声データを生成すると、第１通信部２１４を介して第１サーバ３へ入力音声データを送信するとともに、第２通信部２１５を介して第１端末２２ａへ入力音声データを送信する。なお、記憶部２１６は、第１所定期間を示すデータを記憶している。第１所定期間は、例えば８秒間である。

図１を参照して説明したように、第１サーバ３は、第１スマートスピーカ２１ａから処理コマンドを示す入力音声データを受信すると、処理結果データ（音声データ）を第１スマートスピーカ２１ａへ送信する。この結果、第１通信部２１４が第１サーバ３からデジタル信号（音声データ）を受信する。制御部２１７は、第１通信部２１４が受信したデジタル信号（音声データ）をアナログ電気信号に変換して、音声出力部２１２に音声を出力させる。

本実施形態において、制御部２１７は、第２通信部２１５が音声データを受信すると、第２通信部２１５が受信した音声データ（受信音声データ）を解析する。そして、制御部２１７は、解析した結果から、受信音声データが起動コマンドを示すか否かを判定する。詳しくは、制御部２１７は、記憶部２１６に記憶された起動コマンドを示すデータを参照して、受信音声データが起動コマンドを示すか否かを判定する。具体的には、制御部２１７は、起動コマンドを示すデータを参照して、受信音声データが起動コマンドを示す音声データを含むか否かを判定する。

制御部２１７は、受信音声データが起動コマンドを示すと判定すると、図１を参照して説明した禁止処理を実行する。具体的には、制御部２１７は、受信音声データが起動コマンドを示すと判定してから第２所定時間が経過するまで、第１通信部２１４による第１サーバ３への音声データの送信を禁止する。

第２所定期間の長さは、第１所定期間以上でもよいし、第１所定期間以下でもよい。但し、第２所定期間が第１所定期間と比べて長すぎる場合、第１処理ユニット２ａのユーザが意図的に発声した処理コマンドを、第１スマートスピーカ２１ａが第１サーバ３へ送信しない可能性がある。一方、第２所定期間が第１所定期間と比べて短すぎる場合、第１処理ユニット２ａのユーザが意図しない処理コマンドを、第１スマートスピーカ２１ａが第１サーバ３へ送信する可能性がある。したがって、第２所定期間の長さは、第１所定期間と略等しいことが好ましい。第２所定期間は、例えば８秒間である。第２所定期間を示すデータは、記憶部２１６に記憶されている。

以上、図１及び図２を参照して、第１スマートスピーカ２１ａの構成を説明した。なお、第２スマートスピーカ２１ｂ及び第３スマートスピーカ２１ｃの構成は、第１スマートスピーカ２１ａの構成と同様であるため、その説明は割愛する。

続いて図１及び図３を参照して、第１端末２２ａの構成を説明する。図３は、本実施形態に係る第１端末２２ａの構成を示す図である。図３に示すように、第１端末２２ａは、第１通信部２２１、第２通信部２２２、出力部２２３、記憶部２２４、及び制御部２２５を備える。

第１通信部２２１は、第２サーバ４との間の通信を制御する。第１通信部２２１は、例えば、ＬＡＮボード又は無線ＬＡＮボードを備える。第１通信部２２１は、音声データ及び撮像データを第２サーバ４に送信する。換言すると、第１通信部２２１は、第２端末２２ｂ及び第３端末２２ｃへ音声データ及び撮像データを送信する。また、第１通信部２２１は、音声データ及び撮像データを第２サーバ４から受信する。換言すると、第１通信部２２１は、第２端末２２ｂ及び第３端末２２ｃから、音声データ及び撮像データを受信する。第１通信部２２１は、受信部の一例である。

第２通信部２２２は、第１スマートスピーカ２１ａとの間の通信を制御する。第２通信部２２２は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第２通信部２２２は、ＵＳＢ端子を備えるＵＳＢインターフェースであり得る。

第２通信部２２２は、第１スマートスピーカ２１ａから音声データ及び撮像データを受信する。また、第２通信部２２２は、第１スマートスピーカ２１ａへ音声データを送信する。第２通信部２２２は、送信部の一例である。

出力部２２３は、撮像データを第１表示装置２３ａに出力する。出力部２２３は、例えば、ＨＤＭＩ（登録商標）端子又はＤｉｓｐｌａｙｐｏｒｔのようなデジタル映像インターフェースである。なお、出力部２２３は、Ｄ－ＳＵＢ端子のようなアナログ映像インターフェースであってもよい。

記憶部２２４は、例えばＲＡＭ及びＲＯＭのような半導体メモリーを備える。更に、記憶部２２４は、ＨＤＤのようなストレージデバイスを備える。記憶部２２４は、制御部２２５が実行する制御プログラムを記憶する。また、記憶部２２４は、ウエブ会議用アプリケーションソフトウエアを記憶する。

制御部２２５は、例えばＣＰＵ又はＭＰＵのようなプロセッサを備える。また、制御部２２５は、記憶部２２４に記憶された制御プログラムに基づいて、第１端末２２ａの動作を制御する。

以下、制御部２２５がウエブ会議用アプリケーションソフトウエアに基づいて実行する処理について説明する。制御部２２５が、ウエブ会議用アプリケーションソフトウエアを実行することにより、第１処理ユニット２ａの第１端末２２ａが、第２処理ユニット２ｂの第２端末２２ｂと第３処理ユニット２ｃの第３端末２２ｃとの間でウエブ会議を実行する。

具体的には、制御部２２５は、第２通信部２２２を介して第１スマートスピーカ２１ａから受信した音声データ及び撮像データを、第１通信部２２１を介して第２サーバ４へ送信する。この結果、第１スマートスピーカ２１ａに入力された音声が、第２処理ユニット２ｂの第２スマートスピーカ２１ｂ、及び第３処理ユニット２ｃの第３スマートスピーカ２１ｃから出力される。また、第２処理ユニット２ｂの第２表示装置２３ｂ、及び第３処理ユニット２ｃの第３表示装置２３ｃに、第１スマートスピーカ２１ａによって撮像された映像が表示すされる。

また、制御部２２５は、第１通信部２２１を介して第２サーバ４から受信した音声データを、第２通信部２２２を介して第１スマートスピーカ２１ａに送信する。この結果、第１スマートスピーカ２１ａが、第２処理ユニット２ｂの第２スマートスピーカ２１ｂに入力された音声と、第３処理ユニット２ｃの第３スマートスピーカ２１ｃに入力された音声とを出力する。

また、制御部２２５は、第１通信部２２１を介して第２サーバ４から受信した撮像データを、出力部２２３を介して第１表示装置２３ａに出力する。この結果、第１表示装置２３ａが、第２処理ユニット２ｂの第２スマートスピーカ２１ｂによって撮像された映像と、第３処理ユニット２ｃの第３スマートスピーカ２１ｃによって撮像された映像とを表示する。

以上、図１及び図３を参照して、第１端末２２ａの構成を説明した。なお、第２端末２２ｂ及び第３端末２２ｃの構成は第１端末２２ａの構成と同様であるため、その説明は省略する。

続いて図１、図２及び図４を参照して、第１スマートスピーカ２１ａの第１動作を説明する。図４は、本実施形態に係る第１スマートスピーカ２１ａの第１動作を示すフローチャートである。図４に示す動作は、第１スマートスピーカ２１ａの第２通信部２１５が第１端末２２ａから音声データを受信するとスタートする。

図４に示すように、第２通信部２１５が第１端末２２ａから音声データを受信すると、制御部２１７は、受信音声データが起動コマンドを示すか否かを判定する（ステップＳ１）。具体的には、制御部２１７は、記憶部２１６に記憶されている起動コマンドを示すデータを参照して、受信音声データが起動コマンドを示すか否かを判定する。

制御部２１７は、受信音声データが起動コマンドを示すと判定した場合（ステップＳ１のＹｅｓ）、第２所定期間が経過するまで禁止フラグをＯＮ状態にする（ステップＳ２）。禁止フラグは、記憶部２１６に記憶されている。禁止フラグがＯＮ状態になると、第１サーバ３への音声データの送信が禁止される。なお、禁止フラグがＯＦＦ状態である場合、第１サーバ３への音声データの送信が許可される。

制御部２１７は、禁止フラグをＯＮ状態にした後、受信音声データから出力音声を生成する（ステップＳ３）。あるいは、制御部２１７は、受信音声データが起動コマンドを示さないと判定した場合（ステップＳ１のＮｏ）、受信音声データから出力音声を生成する（ステップＳ３）。具体的には、制御部２１７は、受信音声データをアナログ電気信号に変換して、音声出力部２１２に、受信音声データに対応する音声を出力させる。制御部２１７が出力音声を生成すると、第１スマートスピーカ２１ａは、図４に示す動作を終了する。

続いて図１、図２及び図５を参照して、第１スマートスピーカ２１ａの第２動作を説明する。図５は、本実施形態に係る第１スマートスピーカ２１ａの第２動作を示すフローチャートである。図５に示す動作は、第１スマートスピーカ２１ａの音声入力部２１１が音声を入力するとスタートする。

図５に示すように、音声入力部２１１が音声を入力すると、制御部２１７は、入力音声データを生成する（ステップＳ１１）。制御部２１７は、入力音声データを生成すると、記憶部２１６に記憶されている禁止フラグがＯＮ状態であるか否かを判定する（ステップＳ１２）。

制御部２１７は、禁止フラグがＯＮ状態であると判定した場合（ステップＳ１２のＹｅｓ）、入力音声データから出力音声を生成する。具体的には、入力音声データをアナログ電気信号に変換して、音声出力部２１２に、入力音声データに対応する音声を出力させる。制御部２１７が出力音声を生成すると、第１スマートスピーカ２１ａは、図５に示す動作を終了する。

制御部２１７は、禁止フラグがＯＮ状態でないと判定した場合（ステップＳ１２のＮｏ）、換言すると、禁止フラグがＯＦＦ状態である場合、記憶部２１６に記憶されている起動コマンドを示すデータを参照して、入力音声データが起動コマンドを示すか否かを判定する（ステップＳ１３）。

制御部２１７は、入力音声データが起動コマンドを示さないと判定した場合（ステップＳ１３のＮｏ）、入力音声データから出力音声を生成する。制御部２１７が出力音声を生成すると、第１スマートスピーカ２１ａは、図５に示す動作を終了する。

制御部２１７は、入力音声データが起動コマンドを示すと判定した場合（ステップＳ１３のＹｅｓ）、入力音声データから出力音声を生成する。更に、制御部２１７は、第１所定期間が経過するまでレディ状態となる。換言すると、制御部２１７は、第１所定期間が経過するまで、第１サーバ３への音声データの送信を許可する。

制御部２１７は、レディ状態になると、音声入力部２１１が音声を入力したか否かを判定する（ステップＳ１４）。制御部２１７は、音声入力部２１１が音声を入力したと判定した場合（ステップＳ１４のＹｅｓ）、入力音声データを生成し（ステップＳ１５）、第１通信部２１４を介して第１サーバ３に入力音声データを送信するとともに、第２通信部２１５を介して第１端末２２ａに入力音声データを送信する（ステップＳ１６）。制御部２１７は、入力音声データを送信すると、再度、音声入力部２１１が音声を入力したか否かを判定する（ステップＳ１４）。

制御部２１７は、音声入力部２１１が音声を入力していないと判定した場合（ステップＳ１４のＮｏ）、制御部２１７がレディ状態となってから第１所定期間が経過したか否かを判定する（ステップＳ１７）。

制御部２１７は、第１所定期間が経過していないと判定した場合（ステップＳ１７のＮｏ）、再度、音声入力部２１１が音声を入力したか否かを判定する（ステップＳ１４）。

第１所定期間が経過したと制御部２１７が判定すると（ステップＳ１７のＹｅｓ）、第１スマートスピーカ２１ａは、図５に示す動作を終了する。

以上、図１、図２、図４及び図５を参照して、第１スマートスピーカ２１ａの動作を説明した。なお、第２スマートスピーカ２１ｂ及び第３スマートスピーカ２１ｃは、第１スマートスピーカ２１ａと同様に、図４及び図５に示す動作を実行する。

続いて図１～図３、図６及び図７を参照して、本実施形態に係る禁止処理について説明する。図６は、第１スマートスピーカ２１ａから第１サーバ３への音声データの送信を禁止する処理を示す図である。図７は、第１スマートスピーカ２１ａから第１サーバ３へ音声データを送信する処理を示す図である。

詳しくは、図６は、第１スマートスピーカ２１ａが第１端末２２ａから受信する音声データ（受信音声データ）、第１スマートスピーカ２１ａが記憶する禁止フラグ、第１スマートスピーカ２１ａが出力する音声（出力音声）、第１スマートスピーカ２１ａが入力する音声（入力音声）、第１スマートスピーカ２１ａが入力音声に対応して生成する音声データ（入力音声データ）、及び、第１スマートスピーカ２１ａが第１サーバ３へ送信する音声データを示す。図７は、第１スマートスピーカ２１ａが記憶する禁止フラグ、第１スマートスピーカ２１ａが入力する音声（入力音声）、第１スマートスピーカ２１ａが入力音声に対応して生成する音声データ（入力音声データ）、及び、第１スマートスピーカ２１ａが第１サーバ３へ送信する音声データを示す。なお、図６及び図７において、横軸は時間軸である。

図６に示すように、第１スマートスピーカ２１ａが、第１端末２２ａから、起動コマンドを示す第１音声データ６１を受信すると、第２所定期間が経過するまで禁止フラグがＯＮ状態となる。また、第１スマートスピーカ２１ａが、第１端末２２ａから第１音声データ６１を受信すると、第１音声データ６１に対応する第１出力音声６１ａが生成される。第１出力音声６１ａは第１スマートスピーカ２１ａに入力される。その結果、第１出力音声６１ａに対応する第１入力音声データ６１ｂが生成される。換言すると、起動コマンドを示す入力音声データが生成される。

第１音声データ６１の受信後、第２所定期間が経過する前に、第１スマートスピーカ２１ａが、第１端末２２ａから第２音声データ６２を受信すると、第２音声データ６２に対応する第２出力音声６２ａが生成される。第２出力音声６２ａは第１スマートスピーカ２１ａに入力され、その結果、第２出力音声６２ａに対応する第２入力音声データ６２ｂが生成される。

本実施形態では、禁止フラグがＯＮ状態である場合、起動コマンドを示す入力音声データ（第１入力音声データ６１ｂ）が生成されても、第１サーバ３へ音声データ（第２入力音声データ６２ｂ）は送信されない。

一方、図７に示すように、禁止フラグがＯＦＦ状態である場合、第１スマートスピーカ２１ａが、起動コマンドを示す第１音声７１を入力して、第１音声７１に対応する入力音声データ７１ａを生成すると、第１スマートスピーカ２１ａはレディ状態となる。したがって、第１音声７１の入力後、第１所定期間が経過する前に、第１スマートスピーカ２１ａが第２音声７２を入力すると、第２音声７２に対応する入力音声データ７２ａが第１サーバ３へ送信される。

以上、図１～図７を参照して本発明の実施形態について説明した。本実施形態によれば、第１処理ユニット２ａ～第３処理ユニット２ｃのユーザが意図しない処理コマンドが、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃから第１サーバ３に送信されることを抑制できる。

例えば、第１スマートスピーカ２１ａに対してユーザが起動コマンドを発声した後に処理コマンドを発声して、遠隔対話システム１により、第２スマートスピーカ２１ｂ及び第３スマートスピーカ２１ｃから、起動コマンドを示す音声と処理コマンドを示す音声とが出力されても、第２スマートスピーカ２１ｂ及び第３スマートスピーカ２１ｃは、処理コマンドを示す音声データを第１サーバ３へ送信しない。したがって、第２処理ユニット２ｂのユーザ及び第３処理ユニット２ｃのユーザが意図しない処理コマンドが、第２スマートスピーカ２１ｂ及び第３スマートスピーカ２１ｃから第１サーバ３に送信されることを抑制することができる。

更に、本実施形態によれば、第１処理ユニット２ａ～第３処理ユニット２ｃ間における音声の送受信が中断されない。したがって、ウエブ会議において音声出力が中断されないため、効率よく会議を進めることができる。

なお、本発明は、上記の実施形態に限られず、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。

例えば、本発明による実施形態において、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃが撮像部２１３を備える構成を説明したが、第１端末２２ａ～第３端末２２ｃが撮像部を備えてもよい。あるいは、第１端末２２ａ～第３端末２２ｃに周辺装置としてカメラ装置が接続されてもよい。

また、本発明による実施形態において、遠隔対話システム１はウエブ会議システムであったが、遠隔対話システム１はテレビ会議システム又は電話会議システムであってもよい。この場合、第１端末２２ａ～第３端末２２ｃは、ＬＡＮを介して接続される。

遠隔対話システム１がテレビ会議システム又は電話会議システムである場合、第２サーバ４は省略され得る。また、遠隔対話システム１が電話会議システムである場合、第１端末２２ａ～第３端末２２ｃは、電話会議専用のマイク／スピーカ装置であり得る。また、遠隔対話システム１が電話会議システムである場合、第１表示装置２３ａ～第３表示装置２３ｃは省略され得る。

また、本発明による実施形態において、第１処理ユニット２ａ～第３処理ユニット２ｃが第１端末２２ａ～第３端末２２ｃを含む構成について説明したが、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃが第１端末２２ａ～第３端末２２ｃの機能を有してもよい。この場合、第１端末２２ａ～第３端末２２ｃは省略され得る。第１端末２２ａ～第３端末２２ｃが省略される場合、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃは、第２サーバ４から音声データを受信する。

また、本発明による実施形態において、遠隔対話システム１は３つの処理ユニットを備えたが、遠隔対話システム１は、２つの処理ユニット又は４つ以上の処理ユニットを備えてもよい。

本発明は、スマートスピーカのような音声入力装置を使用するシステムに有用である。

１遠隔対話システム
２ａ第１処理ユニット
２ｂ第２処理ユニット
２ｃ第３処理ユニット
３第１サーバ
４第２サーバ
２１ａ第１スマートスピーカ
２１ｂ第２スマートスピーカ
２１ｃ第３スマートスピーカ
２２ａ第１端末
２２ｂ第２端末
２２ｃ第３端末
２１１音声入力部
２１２音声出力部
２１４第１通信部
２１５第２通信部
２１６記憶部
２１７制御部
２２１第１通信部
２２２第２通信部

Claims

第１音声を入力する音声入力部と、
前記第１音声に対応する第１音声データを外部装置へ送信する第１通信部と、
音声送受信装置から第２音声データを受信するとともに、前記音声送受信装置へ前記第１音声データを送信する第２通信部と、
前記第２音声データに対応する第２音声を出力する音声出力部と、
前記第１音声から前記第１音声データを生成し、前記第２音声データから前記第２音声を生成する制御部と
を備え、
前記制御部は、前記第２音声データが起動コマンドを示すか否かを判定し、
前記制御部は、前記第２音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第１音声データの送信を禁止する、音声入力装置。
前記制御部は、前記第２音声データが前記起動コマンドを示さないと判定した場合、前記第１音声データが前記起動コマンドを示す否かを判定し、
前記制御部は、前記第１音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第１音声データの送信を許可する、請求項１に記載の音声入力装置。
前記外部装置へ送信された前記第１音声データが、特定の処理の実行を指令する処理コマンドを示す場合、前記第１通信部は、前記特定の処理を実行した結果を示す音声データを受信する、請求項２に記載の音声入力装置。
音声入力装置と、音声送受信装置とを備える遠隔対話システムであって、
前記音声入力装置は、
第１音声を入力する音声入力部と、
前記第１音声に対応する第１音声データを外部装置へ送信する第１通信部と、
前記音声送受信装置から第２音声データを受信するとともに、前記音声送受信装置へ前記第１音声データを送信する第２通信部と、
前記第２音声データに対応する第２音声を出力する音声出力部と、
前記第１音声から前記第１音声データを生成し、前記第２音声データから前記第２音声を生成する制御部と
を備え、
前記制御部は、前記第２音声データが起動コマンドを示すか否かを判定し、
前記制御部は、前記第２音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第１音声データの送信を禁止し、
前記音声送受信装置は、
他の音声送受信装置から前記第２音声データを受信する受信部と、
前記他の音声送受信装置から受信した前記第２音声データを前記第２通信部へ送信する送信部と
を備える、遠隔対話システム。